鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了

发布于 2024-7-19 11:58

3023浏览

0收藏

这个话题主要是由《歌手2024》栏目引发的，孙楠与外国歌手的微小分数差异，引发了网友关于 13.8% 和 13.11% 谁大谁小的争论。

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

很多网友给出了自己认为 13.11 > 13.8 理由，看似合理，实则漏洞百出。

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

这个小学四年级的知识点，一下子就成为了全民热议的话题。很多网友还举例 AI 给出的结果也是 13.11 大，一下子激起我的兴趣，这么简单的问题，AI 竟然回答错误了。

国内模型测试

Kimichat：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

通义千问：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

腾讯元宝：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

文心一言：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

智谱清言：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

讯飞星火：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

商汤商量：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

国外模型测试

GPT-4O：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

Gemini：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

Claude-3.5：

13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了-AI.x社区

原因分析

看到测试结果，国内模型 7 个回答错误 4 个，国外模型全军覆没，这是代表国内模型更强嘛？其实并不然，很多网友早起测试通义千问也是回答 13.11 更大，后续应该是开发团队针对这个问题优化了。国内很多模型应该都是针对性优化过后，现在才能回答正确。

只是国内的热议并未传播到国外，所以国外 AI 模型并未针对这个问题优化过，导致现在强如 GPT-4O 和 Claude-3.5 这两个地表最强 AI 模型都回答错误。

那么 AI 模型为什么会普遍回答错误呢？其实从很多模型的回答中也能猜到原因，主要是因为它们对数字的解读方式与人类不同，以及训练数据中存在的偏差。

数字解读方式：大语言模型将数字分解为独立的 token 进行比较，忽略了小数点后数字的实际意义。
训练数据偏差：训练数据中包含了大量软件版本号的比较，如“9.11”和“9.9”，在这种场景下，“9.11”确实排在“9.9”之后。这一常见于编程领域的规则，被AI模型错误地应用到了数学比较中。

大语言模型在数值比较方面的局限性，提醒我们在依赖这些模型进行决策时，需要谨慎并考虑多种可能性。

本文转载自 AI探索者知白，作者：知白

标签

已于2024-7-19 15:50:58修改

赞

收藏

回复

举报

回复

相关推荐

DeepMind升级Transformer，前向通过FLOPs最多可降一半

轻薄滴假象 • 2090浏览 • 0回复
GPT-4o再秀神操作，“复现”OpenAI总裁讲课，网友当真了

Crystalcxt • 2010浏览 • 0回复
新一代智能助手GPT-4o与Project Astra孰弱孰强，OpenAI与谷歌拉开竞赛帷幕

xuxiangda • 3923浏览 • 0回复
牵手GPT-4o后能力简直王炸！奥特曼也来build现场了！

51CTO技术栈 • 2215浏览 • 0回复
GPT-4o 的数学又双叕进步了？来 MathBench 看看新版 GPT-4o 到底强在哪！

恋恋青鸟 • 2508浏览 • 0回复
GPT-4o热潮来袭：探索图生文本的奥秘（多模态大模型系列之一）

鱼虫子 • 5087浏览 • 0回复
GPT-4o做Code Review可行吗？

51CTO技术栈 • 2539浏览 • 0回复
现在，所有人都能免费用GPT-4o了！

duhorse • 3607浏览 • 0回复
GPT-4o与SQL：大模型改变自身架构的能力有多强？

51CTO技术栈 • 1682浏览 • 0回复
GPT-4o背后可能的语音技术

鱼虫子 • 2207浏览 • 0回复
GPT-4o不香了

Crystalcxt • 2376浏览 • 0回复
GPT-4o 到底有多强？模型图文多模态能力评测结果全公开

恋恋青鸟 • 6612浏览 • 0回复
开发者终于可以定制自己的GPT-4o了！

51CTO技术栈 • 1666浏览 • 0回复
人工智能新高度：GLM-4-Plus，智谱AI打造媲美GPT-4o的基座大模型

穿越时空111 • 3870浏览 • 0回复
Fireworks AI 发布 f1：在硬编码、聊天和数学基准方面超过 GPT-4o 和 Claude 3.5 Sonnet

Halo咯咯 • 1699浏览 • 0回复
小模型界o1来了：微软推出Phi-4，数学推理能力太逆天！14B模型击败GPT-4o！还印证了AI墙的一个重要推断

51CTO技术栈 • 1511浏览 • 0回复
微软发布Phi-4，最强小模型！参数极小、超GPT-4o

Aceryt • 1236浏览 • 0回复
GitHub Copilot免费了，可无条件使用GPT-4o 和Claude 3.5 Sonnet等高级模型

Syrupup • 4402浏览 • 0回复
DeepSeek-R1-Distill-Qwen-1.5B 在某些基准测试中超越了 GPT-4o

Halo咯咯 • 9248浏览 • 0回复

LV.3

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

26

帖子

291

声望

0

粉丝

关注

最近发布

如果你还没有 Manus 激活码，强烈推荐字节推出的 Agent TARS，免费使用！ 8天前发布
Manus：这个堪比 DeepSeek 的核弹，如何让普通人也能指挥“数字员工”？ 2025-03-13 07:26:43发布

热门推荐

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

上一篇：基于 Kimi 一键整理实体及其关系，并制作知识图谱

下一篇：国内大模型文心一言、通义千问、豆包、混元大模型、讯飞星火、Kimichat、智谱清言，到底该用哪个？

社区精华内容

目录

国内模型测试
国外模型测试
原因分析

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载