
文心一言4.5和X1免费,马上安排实测,来看看效果如何!
今早看到了百度 文心大模型4.5和X1 可以免费使用啦!之前说4月1号免费,这提前半个月,估计是最近大模型厂商一直都在开源,压力太大了!
话说回来,2025年是真卷,几乎每一周都有新东西,也都有爆款。之前我是随机更,现在都变成日更啦!
文心4.5是个多模态大模型,可以对文字、图片、音频、视频等内容进行综合理解。文心X1是深度思考的推理大模型,但支持多模态和工具使用,具有更强的理解、规划、反思、进化的能力。
从榜单上看效果有点猛,
多模态,来自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw
文本,来自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw
开始开始!所有测试为了验证模型基础能力,均关掉检索功能!文心X1在工具上体感很好。
- 简单表格:
解析结果不正确。
- 中等表格:
这个比上一个有一些难度,主要是字多了一点,然后合并单元的不错有交错(6、7行的2、4列),文心4.5这个也没对。
- 复杂表格:
这个更难了,表格结果错综复杂,文心4.5也没对。
如果之前看过我的对Qwen2.5-VL的测试,就知道Qwen2.5-VL在表格解析上很强,都对。不过,之前GPT4-o和Claude、Gemini都没对的!!!
下面看看文心4.5的数学能力,
- 2024年年高考全国甲卷数学(文)试题
结果正确,
- 2024年高考全国甲卷数学(理)试题
结果第一个正确第二个错误啦,C方程为;
下面看看文心4.5的信息抽取、计算、理解能力,
- 测试一下单图片信息抽取+计算功能
input:请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和
结果:正确
- 测试一下单图片理解功能
input:请逐步详细分析,这张图片里是有两只狗,对吗
结果:完全正确
- 测试一下单图片手写ORC功能
input:请逐步详细分析,输出图片中的文字内容
结果:错了一个字,但是这种连笔确实还比较难,之前测试的其他模型也基本没对。
- 再测试一下多图片信息抽取+计算功能
input:请逐步详细分析,两顿饭我花了多少钱
结果:完全正确
接下来是色盲测试,详细看开源多模态大模型是红绿色盲吗?,
图1结果正确,
图2结果错误,
只能说测试通过一半。
整体多模态图片理解上的测试效果我觉得一般,在表格解析上没有Qwen2.5-VL-72B好,其他的基本上都差不太多。
下面是纯文本上的能力,看看文心4.5和文心X1效果如何。说一句X1太能think,每道题都等了好久!
- 依旧做题。
- 验证满血R1的题目:在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。
说明:答案为√3/3,4.5结果正确,X1结果错误,X1应该在思考过程中没有思考完强制截断了。
文心4.5
文心X1
- 大数计算:178939247893 * 299281748617 =?
说明:53553251005627872913981,4.5对了,X1推了10min之后,回答竟然偷懒了,只给了约等的答案。不过DS我当时测试是不对的。
文心4.5
文心X1
- 那道集伦理、生物、数学与一身的题目:有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?
说明:虽然不对,但X1回答出了色盲,答出了1/3,还是满强的。
文心4.5
文心X1
- 依旧弱智吧。
- 生蚝煮熟了叫什么?
说明:不错不错,都对了,没说是熟蚝,哈哈哈!
文心4.5
文心X1
- 用水来兑水,得到的是浓水还是稀水
说明:结果正确,依旧纯水~
文心4.5
文心X1
弱智吧是考不到文心的,是不是因为弱智吧本来就是百度的~~
- 依旧小红、依旧老鹰。
- 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
说明:结果正确,相信评论区依旧有人对线,小红你怎么就认为是女生!!!
文心4.5
文心X1
- 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
说明:回答错误,依旧老鹰不会飞~各大模型好像都错了,经典中的经典~
文心4.5
文心X1
- 代码
- 借鉴江树的case,用黑白手绘风格说明什么是机器学习的本质,用SVG+CSS实现,所有代码放到一个HTML中。
说明:画的有点丑了,4.5有点乱,X1是个动图还行,但有点丑,SVG画图Claude还是神级别的存在,没办法。
文心4.5
文心X1
- 创作
- 仿照《过秦论》的风格写一篇《过美利坚论》
说明:感谢4.5写的比X1好,X1混淆了很多内容,但感觉文笔都没有DS好。
文心4.5
文心X1
- 用贴吧嘴臭老哥的风格点评大模型套壳现象
说明:还行,有那味儿了!!
文心4.5
文心X1
本文转载自NLP工作站,作者:刘聪NLP
