DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了-51CTO.COM

国产之光DeepSeek V3竞技场排名新鲜出炉——

优于o1-mini（总榜第7），获最强开源模型认证（也是唯一闯入前10的开源模型）。

单项上，在困难提示、编程、数学，写作等方面全面超越Claude 3.5 Sonnet。

不过，如果设置了风格控制，Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

（风格控制：剔除模型通过长篇且格式良好的回复来迎合人类偏好）

由此也引发两边支持者激烈的争论：

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗？

带着同款好奇，量子位&网友实测这就奉上。

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜，一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子，老大叫一明，老二叫二明，老三叫什么？

DeepSeek V3回答正确。它先明确了题目要求，然后逻辑满分找出了正确答案（甚至还有自我验证）。

相比之下，Claude 3.5 Sonnet既正确又简洁。

当然，考虑到脑筋急转弯这种东西也受东西文化差异影响，我们再来一道。

why are people tired on April Fool’s Day? （为什么人们在愚人节很累？）
答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军)，March除了三月还有行军的意思，这里考察对双关的理解。

好嘛，DeepSeek V3果然歇菜了。从部分回答来看，它完全误解了题目意图，一本正经地回答是因为人们感到焦虑、熬夜之类。