数值怪物VS编码之王:Gemini 2.5与DeepSeek双雄争霸!

发布于 2025-3-28 00:05
浏览
0收藏

嘿,大家好!这里是一个专注于前沿AI和智能体的频道~

DeepSeek-V3-0324前天悄然发布,没有任何预告和宣传,却因其极强的编码能力,迅速火遍全网。

或许,它已成为目前最优秀的"非推理"模型。

编码性能直追目前基本唯一可用的Claude Sonnet 3.7。

到昨天晚上,官方终于发布公告,在LiveCodeBench编码测试中,性能指标已超越Claude Sonnet 3.7。官网已更新至最新版模型,不开启深度推理时,即使用的是这一最新版本。

数值怪物VS编码之王:Gemini 2.5与DeepSeek双雄争霸!-AI.x社区

昨晚上,Google发布了Gemini的重大版本更新,俨然一个"数值怪物",在推理能力、编码能力和复杂任务处理能力上均实现大幅提升。延续Google一贯特色,该版本可在Google AI Studio上免费使用。

数值怪物VS编码之王:Gemini 2.5与DeepSeek双雄争霸!-AI.x社区

在由人类投票的LMSYS大模型竞技场上,Gemini 2.5 Pro已彻底领先一个身位(当然,刷这个榜单一直是Google的强项)。

数值怪物VS编码之王:Gemini 2.5与DeepSeek双雄争霸!-AI.x社区

  • deepseek免费试玩地址:https://aistudio.google.com/prompts/new_chat
  • Gemini 2.5 pro免费试玩地址:https://aistudio.google.com/prompts/new_chat

需要注意的是,Gemini 2.5 Pro是一个名字不带thinking的推理模型

数值怪物VS编码之王:Gemini 2.5与DeepSeek双雄争霸!-AI.x社区

本来想对比一些用户场景的效果,如海报、封面设计、Agent规划等,但目前DeepSeek官网只能使用思考模型,而Chat模型总是提示​​服务器繁忙,请稍后再试​​,尴尬~

审美能力

封面

下图输入是本段前的文章内容。从左到右分别对应DeepSeek-R1、Gemini 2.5 Pro thinking、Claude Sonnet 3.7 thinking。不得不说,在审美方面,DeepSeek和Gemini 2.5仍落后Claude一大截。

数值怪物VS编码之王:Gemini 2.5与DeepSeek双雄争霸!-AI.x社区

天气卡片

Gemini生成的效果只能说一般般:

数值怪物VS编码之王:Gemini 2.5与DeepSeek双雄争霸!-AI.x社区

任务规划

任务规划能力测试可以大致评估其是否适用于通用Agent的规划模型。

我测试了一个简单的prompt,下图黑色部分是Gemini 2.5 Pro的结果,右侧白色部分是Claude 3.7 Sonnet的结果。总体而言,Gemini对需求理解更为透彻,内容规划更加完善全面,而Claude则提供了更详细的网页制作细节。

考虑到Google自家已有众多领域Agent,而前置的TODOLIST基本是最前端的环节,因此即便简单的prompt也能获得非常好的效果。相比之下,目前DeepSeek-R1的反馈较为随意,故未展示。

数值怪物VS编码之王:Gemini 2.5与DeepSeek双雄争霸!-AI.x社区

文笔

这里引用昨天DeepSeek官方账号的例子,尽管Gemini使用繁体字,但在文笔上,我更倾向于DeepSeek。

数值怪物VS编码之王:Gemini 2.5与DeepSeek双雄争霸!-AI.x社区

最后总结一下,因为一些问题,没法测试DeepSeek新版模型。

  • Gemini 2.5新版本展现出优秀的前置规划能力,证明并非所有规划任务都必须依赖Claude
  • DeepSeek的代码能力据称极为强大,且作为非推理模型,为国产AI应用带来更多想象空间
  • DeepSeek新版模型主要优化了后训练环节,而R系列模型是基于base模型,两者的技术路线传导不一定顺畅,但R2版本值得期待
  • Gemini 2.5 Pro首token生成延迟明显增加,但开始生成后速度依旧很快(可能与排队机制有关),推理速度仍是Google的强项
  • 对于普通用户而言,Gemini Pro 2.5虽然性能强劲,但实际获得的收益可能有限,继续使用2.0 Flash版本仍是合理选择

本文转载自探索AGI,作者:猕猴桃

收藏
回复
举报


回复
相关推荐