大模型开始进入收益递减的时代?
目前人们好像已在接受这样的观点:“大语言模型(LLMs)正在以指数速度进步。” 就在几天前,宾州大学沃登商学院 (The Wharton School) 的Ethan Mollick教授在一篇广受关注的博客文章中声称,“目前对 LLMs 的能力评估显示,LLM的能力每5到14个月翻一番”。
实际上Mollick教授引用的研究并未显示他所声称的内容。如果你仔细阅读,它没有提到能力的提高。它显示的是模型在达到给定性能水平所需的计算资源变得更有效率,“达到给定性能水平所需的计算量大约每8个月减半,95%的置信区间为5到14个月。”但是,(a)过去的表现并不总是能预测未来的表现,且(b)研究中的大部分数据都比较陈旧,没有今年的数据。
关键是——我们都知道GPT-3比GPT-2大幅提升。我们也都知道GPT-4(13个月前发布)比GPT-3大幅提升。但是从那以后发生了什么?
我可以被说服,在2020-2023年的某些月份里能力确实翻倍了,但我完全看不到过去13个月中有这样的情况。
相反,我看到的诸多迹象表明我们已经进入了收益递减的时期。
让我真正开始思考这一切的是OpenAI几天前发布的一张图表,宣传他们最新的模型GPT-4 Turbo。我一直怀疑这是他们尝试但失败的GPT-5。看起来不错——进步了!但是仔细看。
实际上,这张图表显示了最近几个月在一系列不同指标上的一些改进,大多数是适度的。但它也完全触发了我的警觉感。
我立即不喜欢这张图表的原因是它任意地显示了两个非常近期的模型,而没有显示之前的历史数据。所以是的,在某些指标上确实有进展,但我们真正需要看到的是长期的增长。这让我开始思考。并且绘图。对于许多指标,我根本找不到GPT-2或GPT-3的任何数据,有时甚至对于GPT-4也是如此。(在一些新指标上,GPT-2和GPT-3的数据效果上都为零。)但对于一个称为MMLU的常见基准,我能够找到GPT-2、GPT-3和GPT-4的历史数据(但没有GPT 3.5)。
这是我找到的情况(y轴是百分比准确度):
从GPT-2到GPT-3有巨大的跃升。从GPT-3到GPT-4也有巨大的跃升……但从GPT-4(13个月前)到GPT-4 Turbo(刚发布)则不太明显。很难不将这个图表视为收益递减假设的初步证据。无论曾经有过多少翻倍,现在也许已经到了尽头。
当然,这里有一个问题:当你接近图表的顶部时,你会遇到统计学上称之为“范围限制”的问题。你不能在MMLU上从85分跳到115分;100%是可能的最高分。而且许多基准测试都很复杂且不完美。得分为100可能实际上是可疑的,因为这可能表明所讨论的模型只是简单地记住了数据。也许真正的实际上限是95%。
我的直觉是我们还没有达到MMLU的真正上限,这是收益递减的真实迹象。但好吧,让我们再找另一个指标看看。
X网站上有人向我指出了《纽约时报》的Connections游戏。聪明的人可能能够在任何给定的数据上获得90%以上的得分,但目前的模型还没有接近。所以,在这里,就没有范围限制的问题了。多亏了Lech Mazur,我能够找到一系列历史模型的数据,尽管没有回溯到GPT-2或GPT-3。但足以让我们对可能正在发生的情况有些了解:
从GPT 3.5 Turbo到4有很大的飞跃,但(再次)从GPT-4到两个不同版本的GPT-4 Turbo只有适度的进步。范围限制并不是问题,但我们再次看到了收益递减的迹象。
如果我绘制的两张图表有一点正确,那么Mollick所声称的“大型语言模型改进速度显示能力每5到14个月翻一番”的说法已经不再成立。
我在2022年曾警告过的墙壁,现在可能终于快要来临了。
再从另一个角度看,我刚看到的这张图表:自GPT-4发布以来,多个模型在GPT-4水平性能上的巨大收敛,然而并没有明显领先的模型。
那么质性数据呢?在很多方面,质性数据看起来都是一样的。一个思考的方式是询问在2022年我警告过的任何问题(比如幻觉和愚蠢的错误)是否已经解决了。
我认为公平地说,它们没有。本周发布的GPT-Turbo仍然会产生一些让人咂舌的问题,就像Phil Libin刚刚发来的这个对话一样:
本周我读到的最引人注目的事情之一是在《信息》(The Information)上。消息已经传开,而问题显然并没有得到解决:
另一种思考这个问题的方式(见上面的第三张图)是,大约有5到7个最近的模型与GPT-4持平,但没有一个明显地领先。
当然,单纯在基准测试上取得进步并不足以说明问题;很少有基准测试能够捕捉到现实世界的复杂性。即使LLMs在所有现有的基准测试中都达到了最高水平,我们可能仍然有很长的路要走。
如果我们真的已经从快速进展转向了收益递减的制度,而幻觉和愚蠢的错误仍然存在,那么LLMs可能永远不会准备好投入实际应用。
相反,正如我在八月份所警告的那样,我们很可能会迎来一场纠正。在最极端的情况下,OpenAI的860亿美元估值在事后可能会被视为人工智能的WeWork时刻。
在最近几周,Inflection AI基本上关闭了业务,Stability AI陷入了困境,以LLM为基础的自动驾驶车辆公司Ghost关闭了业务,一个YouTube上的软件工程师提出了关于备受炒作的AI编码系统Devin的相当严重的问题。
如果对GenAI的热情消退,市场估值暴跌,人工智能不会消失,LLMs也不会消失;它们仍然会作为统计近似的工具存在。
但这个位置可能会更小;完全有可能LLMs本身永远无法达到去年的疯狂期望。
可靠、值得信赖的人工智能肯定是可以实现的,但我们可能需要重新审视问题来实现这一点。
本文转载自 MoPaaS魔泊云,作者: Gary Marcus