鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

大模型数学能力翻车实锤！Apple新研究暴露真相!

发布于 2024-10-25 14:01

1940浏览

0收藏

这篇文章的结论是：LLM 无法进行真正的推理。并做出了一系列的实验论证，大模型仅仅是记住了目标序列。

10月份有很多文章在论证这个事情。比如之前写过一篇推文介绍大模型在规划的能力上表现仍然非常糟糕（现实再次给大模型带来沉重打击）。后来在《 PROCBENCH: BENCHMARK FOR MULTI-STEP REASONING AND FOLLOWING PROCEDURE》中验证了一个结论：在没有相关领域经验或知识的情况下，LLM/LRM 似乎无法遵循基本指令，尤其是在指令长度增加时。再后来，《APeek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners》中发现LLM对序列中不起眼得变化非常敏感。例子中对“Linda”和“Bob”之间进行切换之后，LLM就失败了。

大模型数学能力翻车实锤！Apple新研究暴露真相!-AI.x社区

论文中，为了论证LLM是靠记忆还是能推理。他们创建了一个替代数据集-GSM-Symbolic，这个数据集使用了原始问题中的模板，允许他们修改序列中的特定的信息，从而在推理上生成具有微小变化的相同问题。看下图，就是对一些关键信息使用占位符。

大模型数学能力翻车实锤！Apple新研究暴露真相!-AI.x社区

结果出来之后，性能均有所降低，即使是前沿的大模型也不例外。但是模型越大，越不容易出现此类问题。

大模型数学能力翻车实锤！Apple新研究暴露真相!-AI.x社区

接下来，不满足于只替换一些关键信息，他们又尝试了增加问题难度。这种，所有模型都是持续下降的，跟预期一致，而且方差也变高了。也就是说，这些模型的智能不仅被夸大了，而且随着复杂性的增加，鲁棒性也在降低。

大模型数学能力翻车实锤！Apple新研究暴露真相!-AI.x社区

最后一个实验是，在原始问题中加入一些看似相关实际确无关信息。如下kiwi的例子，大小其实是不重要的。但是o1-mini 和 Llama3-8B 的输出还是莫名的减去了那些小的猕猴桃。

大模型数学能力翻车实锤！Apple新研究暴露真相!-AI.x社区

这个无关信息的添加，导致了模型性能整体的显著下降，最多的达到了70%，但是o1-preview性能下降最少。

大模型数学能力翻车实锤！Apple新研究暴露真相!-AI.x社区

一般较小的模型更容易对基准数据过拟合，也就是模型会记住问题的解决方案，因此如果我们增加模型的大小，那么它对数据集的过拟合就会更难。

但是随着模型规模的扩大，LLM 可能也能记忆住更多的东西，因为他们会训练更多的数据，记住了更多的信息，从而显得比实际聪明。

本文转载自 NLP前沿，作者：热爱AI的

标签

赞

收藏

回复

举报

回复

相关推荐

今日arXiv最热NLP大模型论文：天津大学发布大模型数学能力细粒度评价基准FineMath

pangguiyu • 3640浏览 • 0回复
Scaling Law被证伪，谷歌研究人员实锤研究力挺小模型更高效，不局限于特定采样技术！

51CTO技术栈 • 2914浏览 • 0回复
大模型做时序预测也很强！华人团队激活LLM新能力，超越一众传统模型实现SOTA

Crystalcxt • 2822浏览 • 0回复
从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

duhorse • 1967浏览 • 0回复
AlphaGo核心算法增强，7B模型数学能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt • 2583浏览 • 0回复
LoRA数学编程任务不敌全量微调 | 哥大&Databricks新研究

Crystalcxt • 2299浏览 • 0回复
电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力

sbf_2000 • 4194浏览 • 0回复
编程表现比肩ChatGPT，这个新模型能力很强大

Syrupup • 2464浏览 • 0回复
AI数学天才还是数字骗子？GSM-Symbolic揭秘大语言模型的数学推理能力

sbf_2000 • 1947浏览 • 0回复
阿里重磅开源QwQ-32B：自我思考、纠正，数学能力击败o1模型

Aceryt • 6977浏览 • 0回复
大模型是能力强还是记忆强？一项发人深省的研究

芝士AI吃鱼 • 2192浏览 • 0回复
剖析BadGPT-40背后的真相：一个从GPT模型中移除护栏的模型

51CTO技术栈 • 1573浏览 • 0回复
阿里巴巴Qwen研究员推出ProcessBench：衡量数学推理过程错误识别能力的新AI基准

Halo咯咯 • 1705浏览 • 0回复
带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈

玄姐聊AGI • 6121浏览 • 1回复
Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力

海因斯DK • 1710浏览 • 0回复
5分钟让你的AI模型拥有"超能力"！MCP协议深度解析和实操

AI博物院 • 1289浏览 • 0回复
实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent

玄姐聊AGI • 5840浏览 • 0回复
人工智能应用就是大模型能力+场景，基于大模型构建应用，首先要了解大模型的能力圈

AI探索时代 • 629浏览 • 0回复
大模型的能力和大模型应用

AI探索时代 • 673浏览 • 0回复

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

声望

粉丝

关注

最近发布

llama 4，开源！ 7天前发布
Deepseek-R1，论文番外篇! 2025-03-28 00:47:51发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： RAG遇上知识冲突，Google祭出终极大招！

下一篇：从传统 RAG 到图 RAG，赋予大型语言模型更强大的知识力量

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载