出品 | 51CTO技术栈(微信号:blog51cto)
深夜,OpenAI最强对手Anthropic一口气发布了三个SOTA新品,其中包括:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。业界惊呼:Claude 3带来了一系列的新的行业基准。
其中,Opus寓意史诗级乐章,Sonnet是十四行诗,Haiku是俳句,三行短诗。
据悉(图9),Haiku是AI市场上速度最快且最具成本效益的型号。它可以在不到三秒的时间内阅读 arXiv上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。
图8,对于绝大多数工作负载,Sonnet的速度比Claude 2和 Claude 2.1快2倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和2.1相似,但智能水平更高。
Opus 是目前Anthropic最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性,引领通用智能的前沿。
以上三个Claude 3模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的更强的能力。
此外,Claude 3 系列拥有近乎完美的记忆能力和超长文本窗口,将提供 200K 上下文窗口。而且能够接受超过 100 万个tokens的输入,后续会按客户需求逐步放开。
整体上看,Claude3,有三个震撼之处:
1.领域专家的基准。分别选择了金融/医学/哲学三个专家领域来作为测试基准,英伟达Research Manager Jim Fan称“建议所有的LLM都遵循这一点,以便不同的下游应用程序知道会发生什么”。
2.拒绝率分析。LLM对许多“无辜问题”做出了过于谨慎的回答成为了一种流行病,Claude一直致力于安全的AI研究,并做出了该方面的努力。
3.与其他领先模型相媲美的复杂视觉功能。可以处理各种视觉格式,包括照片、图表、图形和技术图表,PDF、流程图或演示幻灯片皆可。
实际测评如何?
一位网友分别让GPT4、Claude3编写一个登陆界面的代码,实际运行测试效果(图13)显示,后者在App界面设计方面更加出色。
图1
图2
图3
图4
图5
图6
图7
图8
图9
图10
图11
图12
图13
图14
图15