GPT-4或LLM有推理能力吗?这是个存在已久的争议性问题。
有人认为LLM只是通过大量的文本训练得到了一种普适的近似检索,并不具备真正的推理能力。
但也有大量的论文研究宣称LLM在多项推理任务中表现优异。
现在,来自IMG Arena的高级软件工程师 Johan LAJILI在自己的博客中发表了文章,坚定地支持LLM具有「智能」、「推理」以及「逻辑」的能力。
并且,面对现有的诸多对LLM推理能力的质疑,Johan也给出了相当详细的解释。
博客地址:https://lajili.com/posts/post-3/
那么,就让我们来看看,Johan是如何证明LLM是具备推理能力的。
LLM只是一个「字词接龙」?
「LLM只是一个预测下一个单词的模型」,这是反对LLM具有推理能力的主要观点。
这个观点通常来自于那些精通技术或人工智能的人,实际上,这个说法也是正确的。
在进行工作时,GPT-4每次只能预测一个单词(或者更具体地说是一个token)。用户给它一个提示或一段需要填充的文本时,它就会使用其神经网络找到最可能跟在后面的单词。
但是,将LLM的算法与智能手机键盘上的单词建议算法相提并论是相当短视的。
事实上,为了能够准确预测具有意义的句子,GPT-4必须具备一种表示概念的内部方式,例如「对象」、「时间」、「家庭」以及其他一切的可以被表述的存在。
这不仅是找到一个与前一个词有关联的词语,LLM还需理解这些词语的含义,才能准确地回复用户提出的问题。
而LLM对概念的理解是通过大规模训练建立起来的。
通过这个过程,可以证实LLM具有对「概念」的概念,即它们可以对物理世界中的事物以及它们之间的相互作用进行表示。
这意味着GPT-4不仅可以预测下一个词语,还可以理解更高层次的语义概念,使其能够生成连贯且有意义的文本。
但只能够理解「概念」还不足以进行推理,因为推理还要求能够组合不同的概念去解决问题。
LLM无法解答X谜题与逻辑问题
随着人工智能技术的进步,传统的图灵测试,即让人类分辨与自己对话的是不是人工智能,在ChatGPT出世后失去了效用。
现在的图灵测试变得更加复杂。
同时,一些声称能够检测出内容是否由人工智能生成的公司也陆陆续续出现,但这些尝试基本上都失败了。
此外,对于人工智能生成的内容,连专业的语言学家都有一半的概率都无法区分辨认。
这些尝试检测人工智能生成内容的失败恰恰证明了我们不再区分人与人工智能二者生成的内容。
现在对人工智能生成内容进行区分时,通常是通过一些明显的迹象,比如句子中出现的「根据我在2021年9月之前的训练...」此类表述。
但这对人工智能是不公平的。
如果我们唯一能用来识别它的是其自身的一些写作习惯,那么我们显然已经到了一个承认它的写作技巧与人类相似的阶段。
回到LLM能否推理和逻辑谜题的问题上。
Jeremy Howard在他的演讲中很好地解释了LLM如何进行推理。
通常,一个优秀的、系统的Prompt会对GPT-4的结果产生巨大影响。
如果用户能够详细说明问题背景和逻辑步骤,GPT-4通常可以解决这些谜题。
如微软亚洲研究院、北大、北航等机构的研究人员,通过97个回合的「苏格拉底式」严格推理,成功让GPT-4得出了「P≠NP」的结论。
论文地址:https://arxiv.org/abs/2309.05689
与人类不同,GPT-4没有思维和口头语言之间的区分。
对于人类来说,在不思考或下意识的情况下解决问题时,意味着问题非常简单,这本质上是凭记忆回答的。
如在计算2x8时,我们会非常迅速地得出答案是16,此时我们的大脑没有经过任何思考。
但如果是解决一个复杂的数学问题,或猜一个谜语,一个编程问题,我们在回答问题前就得在脑海中思考一番了。
而这,就是推理。
更复杂的问题可能需要我们首先考虑如何解决它,然后再尝试解答。
在这方面,GPT-4与人类没有区别。
但GPT-4的思考过程作为回应的一部分是可以被看到的。
也许未来的GPT-5将有一个「思考」部分的响应,但不会默认显示出来。
在GPT-4能否具有推理能力这一点上,实际上只涉及成本以及效率的问题。
就像在估算餐厅的餐费或进行税务申报时不会有相同程度的双重检查一样,让GPT-4对用户提出的每个问题都进行一番详细的论证是非常低效的。
LLM的幻觉和意识
关于LLM的另一个经典问题是这些模型存在着偏见和幻觉等问题。
这的确是一个棘手的难题,但这不代表LLM不能进行推理。
举个例子,人无法避免偏见。有些人会意识到这一点,而另一些人可能从未思考过这个问题。
在近代以前,人们还坚信地球是宇宙的中心,认为空气就是「无」。
但我们可以因此下定论说近代以前的人都没有推理能力吗?
同样地,模型会出错也不意味着模型不会推理。
因为正确或者持续正确并不是推理的定义,而是全知的定义。
但关于GPT-4是否存在意识,我的回答是没有。
意识的存在是非常哲学性的问题,一定程度上也取决于个人的看法。
但我认为意识是在很长一段时间内产生的,并需要一个「自我」来照顾。
每当用户打开GPT-4,选择在一个聊天框开始对话时,这实际上是在创造一个全新的存在。
对话结束后,这个存在要么被删除。要么保持在静态状态。
缺乏长期记忆,缺乏情感,不能自发地对外部刺激做出反应,都是阻碍意识产生的限制因素。
但我们也可以乐观地相信这些问题会在未来被解决。
也许,现在就有一群聪明人正在研究这些问题。
而GPT-4是否存在意识,只是关于「意识」这个谜题的一小部分。