11月8日消息,三名谷歌研究人员在最新提交给预印本文献库(ArXiv)的一篇论文中指出,人工智能领域的底层技术深度神经网络transformer并不擅长归纳概括。
Transformer是ChatGPT等人工智能工具背后大语言模型的基础。在11月1日提交给ArXiv的一篇新论文中,三名作者Steve Yadlowsky、Lyric Doshi和Nilesh Tripuraneni写道:“当任务或功能需要超出预训练数据的范围时,transformer出现了各种故障模式,发现即使是简单的任务外延也会降低它们的归纳能力。”
根据这篇论文的说法,深度神经网络transformer所擅长的是执行与训练数据相关的任务,并不太擅长处理超出这个范围的任务。
对于那些希望实现通用人工智能(AGI)的人来说,这个问题不容忽视。通用人工智能是技术人员用来描述可以完成任何人类所做事情的假想人工智能。就目前而言,人工智能非常擅长执行特定任务,但不像人类那样能跨领域转移技能。
华盛顿大学计算机科学与工程荣誉教授佩德罗·多明戈斯(Pedro Domingos)表示,新研究意味着“在这一点上,我们不应该对即将到来的人工智能过于疯狂。”
人们将AGI吹捧为人工智能领域的终极目标,从理论上讲,其代表着人类创造出与自己一样聪明或比自己更聪明的东西。许多投资者和技术人员都在为此投入大量时间和精力。
本周一,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)就与微软首席执行官萨蒂亚·纳德拉(Satya Nadella)共同登台,重申了他关于“合作打造AGI”的愿景。
实现这一目标意味着让人工智能完成许多人类大脑可以完成的归纳性任务,包括适应不熟悉的场景、创建类比、处理新信息以及抽象思维等等。
但是,正如研究人员指出的那样,如果这项技术连“简单的任务外延”都难以实现,那么显然我们离目标还很远。
普林斯顿大学计算机科学教授阿尔温德·纳拉亚南(Arvind Narayanan)在社交媒体平台X上写道:“这篇论文甚至与大语言模型无关,但似乎是打破集体信念泡沫的最后一根稻草,让许多人接受了大语言模型的局限性。”“该是清醒的时候了”。
英伟达高级人工智能科学家Jin Fan质疑为什么这篇论文的发现会让人们感到惊讶,因为“transformer本来就不是灵丹妙药”。
多明戈斯表示,这项研究凸显出,对于一项被吹捧为通向AGI之路的技术潜力,“很多人都感到非常困惑”。
他补充说:“这是篇刚刚发表的论文,有趣的是谁会感到惊讶,谁不会感到惊讶。”
虽然多明戈斯承认transformer是一项先进的技术,但他相信很多人认为这种深度神经网络比实际要强大得多。
他说:“问题是神经网络非常不透明,而且这些大语言模型都是在难以想象的大量数据上训练的,这让很多人对它们能做什么和不能做什么感到非常困惑。”“他们开始总认为自己可以创造奇迹。”
更高级的人工智能可能会在归纳概括方面做得更好。谷歌研究人员在研究中使用的是GPT-2比例模型,而不是更主流的GPT-4比例模型。
人工智能初创企业Lamini AI首席执行官莎朗·周(Sharon Zhou)认为,她自己并不觉得transformer很难归纳概括是个问题。
“这就是为什么我创办了一家训练模型的公司,而不仅仅是向它们提问,这样它们就能学到新东西,”她说。“它们仍然非常有用,仍然可以引导和调整。”