鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

数值怪物VS编码之王：Gemini 2.5与DeepSeek双雄争霸！

发布于 2025-3-28 00:05

浏览

0收藏

嘿，大家好！这里是一个专注于前沿AI和智能体的频道~

DeepSeek-V3-0324前天悄然发布，没有任何预告和宣传，却因其极强的编码能力，迅速火遍全网。

或许，它已成为目前最优秀的"非推理"模型。

编码性能直追目前基本唯一可用的Claude Sonnet 3.7。

到昨天晚上，官方终于发布公告，在LiveCodeBench编码测试中，性能指标已超越Claude Sonnet 3.7。官网已更新至最新版模型，不开启深度推理时，即使用的是这一最新版本。

数值怪物VS编码之王：Gemini 2.5与DeepSeek双雄争霸！-AI.x社区

昨晚上，Google发布了Gemini的重大版本更新，俨然一个"数值怪物"，在推理能力、编码能力和复杂任务处理能力上均实现大幅提升。延续Google一贯特色，该版本可在Google AI Studio上免费使用。

数值怪物VS编码之王：Gemini 2.5与DeepSeek双雄争霸！-AI.x社区

在由人类投票的LMSYS大模型竞技场上，Gemini 2.5 Pro已彻底领先一个身位（当然，刷这个榜单一直是Google的强项）。

数值怪物VS编码之王：Gemini 2.5与DeepSeek双雄争霸！-AI.x社区

deepseek免费试玩地址：https://aistudio.google.com/prompts/new_chat
Gemini 2.5 pro免费试玩地址：https://aistudio.google.com/prompts/new_chat

需要注意的是，Gemini 2.5 Pro是一个名字不带thinking的推理模型

数值怪物VS编码之王：Gemini 2.5与DeepSeek双雄争霸！-AI.x社区

本来想对比一些用户场景的效果，如海报、封面设计、Agent规划等，但目前DeepSeek官网只能使用思考模型，而Chat模型总是提示服务器繁忙，请稍后再试，尴尬~

审美能力

封面

下图输入是本段前的文章内容。从左到右分别对应DeepSeek-R1、Gemini 2.5 Pro thinking、Claude Sonnet 3.7 thinking。不得不说，在审美方面，DeepSeek和Gemini 2.5仍落后Claude一大截。

数值怪物VS编码之王：Gemini 2.5与DeepSeek双雄争霸！-AI.x社区

天气卡片

Gemini生成的效果只能说一般般：

数值怪物VS编码之王：Gemini 2.5与DeepSeek双雄争霸！-AI.x社区

任务规划

任务规划能力测试可以大致评估其是否适用于通用Agent的规划模型。

我测试了一个简单的prompt，下图黑色部分是Gemini 2.5 Pro的结果，右侧白色部分是Claude 3.7 Sonnet的结果。总体而言，Gemini对需求理解更为透彻，内容规划更加完善全面，而Claude则提供了更详细的网页制作细节。

考虑到Google自家已有众多领域Agent，而前置的TODOLIST基本是最前端的环节，因此即便简单的prompt也能获得非常好的效果。相比之下，目前DeepSeek-R1的反馈较为随意，故未展示。

数值怪物VS编码之王：Gemini 2.5与DeepSeek双雄争霸！-AI.x社区

文笔

这里引用昨天DeepSeek官方账号的例子，尽管Gemini使用繁体字，但在文笔上，我更倾向于DeepSeek。

数值怪物VS编码之王：Gemini 2.5与DeepSeek双雄争霸！-AI.x社区

最后总结一下，因为一些问题，没法测试DeepSeek新版模型。

Gemini 2.5新版本展现出优秀的前置规划能力，证明并非所有规划任务都必须依赖Claude
DeepSeek的代码能力据称极为强大，且作为非推理模型，为国产AI应用带来更多想象空间
DeepSeek新版模型主要优化了后训练环节，而R系列模型是基于base模型，两者的技术路线传导不一定顺畅，但R2版本值得期待
Gemini 2.5 Pro首token生成延迟明显增加，但开始生成后速度依旧很快（可能与排队机制有关），推理速度仍是Google的强项
对于普通用户而言，Gemini Pro 2.5虽然性能强劲，但实际获得的收益可能有限，继续使用2.0 Flash版本仍是合理选择

本文转载自探索AGI，作者：猕猴桃

标签

赞

收藏

回复

举报

回复

相关推荐

谷歌Gemini vs ChatGPT：Gemini比ChatGPT更胜一筹吗？

51CTO内容精选 • 5685浏览 • 0回复
Meta 新作：FlashAttention 的数值偏差有多大？

amei2000go • 3264浏览 • 0回复
Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

老蛀虫 • 4012浏览 • 0回复
Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

老蛀虫 • 3205浏览 • 0回复
DeepSeek AI发布DeepSeek-V2.5-1210：DeepSeek-V2.5的更新版本，模型性能显着提升

Halo咯咯 • 1.3w浏览 • 0回复
Transformer编码器与解码器和神经网络之间的关系

AI探索时代 • 1333浏览 • 0回复
谷歌AI发布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 • 4884浏览 • 0回复
2025年大模型与Transformer架构：技术前沿与未来趋势报告

欧米伽未来研究所 • 4791浏览 • 0回复
Gemini 2.0：针对代理时代的新AI模型

Halo咯咯 • 1484浏览 • 0回复
DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！

51CTO技术栈 • 3569浏览 • 0回复
DeepSeek&ChatGPT&Claude&Grok&Gemini

angel • 1249浏览 • 0回复
DeepSeek如何选满血版vs蒸馏版哪个一体机性价比更高

数字化助推器 • 3428浏览 • 0回复
AI 的发展就是一部武林争霸史

芝士AI吃鱼 • 1863浏览 • 0回复
深入解析变分自编码器（VAE）：理论、数学原理、实现与应用

唐克 • 2143浏览 • 0回复
Google Gemini Code Assist：一个免费的AI编码助手

Halo咯咯 • 1011浏览 • 0回复
DeepSeek vs. OpenAI：2025年，哪家AI更适合小企业的编程需求？

Halo咯咯 • 913浏览 • 0回复
Qwen2.5-VL-32B 更小更聪明！与grok、gemini同台打造“治愈老奶奶”，谁更强？

Syrupup • 447浏览 • 0回复
Gemini2.5 Pro测试，代码能力飙升，但多模态表格解析依旧不理想

NLP工作站 • 313浏览 • 0回复
Qwen2.5-Omni能看能听能说能写，性能超越Gemini，视频实时互动

老蛀虫 • 353浏览 • 0回复

LV.5

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

77

帖子

807

声望

0

粉丝

关注

最近发布

OpenAI也妥协了，全面拥抱MCP! 4天前发布
从Manus到Gemini，首轮Agent竞赛中有哪些关键信号？ 2025-03-17 09:33:42发布

热门推荐

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

上一篇：从Manus到Gemini，首轮Agent竞赛中有哪些关键信号？

下一篇： OpenAI也妥协了，全面拥抱MCP!

社区精华内容

目录

审美能力
封面
天气卡片
任务规划
文笔

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载