13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了

发布于 2024-7-19 11:58
浏览
0收藏

这个话题主要是由《歌手2024》栏目引发的,孙楠与外国歌手的微小分数差异,引发了网友关于 13.8% 和 13.11% 谁大谁小的争论。

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

很多网友给出了自己认为 13.11 > 13.8 理由,看似合理,实则漏洞百出。

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

这个小学四年级的知识点,一下子就成为了全民热议的话题。很多网友还举例 AI 给出的结果也是 13.11 大,一下子激起我的兴趣,这么简单的问题,AI 竟然回答错误了。

国内模型测试

Kimichat:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

通义千问:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

腾讯元宝:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

文心一言:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

智谱清言:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

讯飞星火:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

商汤商量:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

国外模型测试

GPT-4O:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

Gemini:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

Claude-3.5:

13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了-AI.x社区

原因分析

看到测试结果,国内模型 7 个回答错误 4 个,国外模型全军覆没,这是代表国内模型更强嘛?其实并不然,很多网友早起测试通义千问也是回答 13.11 更大,后续应该是开发团队针对这个问题优化了。国内很多模型应该都是针对性优化过后,现在才能回答正确。

只是国内的热议并未传播到国外,所以国外 AI 模型并未针对这个问题优化过,导致现在强如 GPT-4O 和 Claude-3.5 这两个地表最强 AI 模型都回答错误。

那么 AI 模型为什么会普遍回答错误呢?其实从很多模型的回答中也能猜到原因,主要是因为它们对数字的解读方式与人类不同,以及训练数据中存在的偏差。

  • 数字解读方式:大语言模型将数字分解为独立的 token 进行比较,忽略了小数点后数字的实际意义。
  • 训练数据偏差:训练数据中包含了大量软件版本号的比较,如“9.11”和“9.9”,在这种场景下,“9.11”确实排在“9.9”之后。这一常见于编程领域的规则,被AI模型错误地应用到了数学比较中。

大语言模型在数值比较方面的局限性,提醒我们在依赖这些模型进行决策时,需要谨慎并考虑多种可能性。

本文转载自 AI探索者知白​,作者: 知白

已于2024-7-19 15:50:58修改
收藏
回复
举报
回复
相关推荐