今天的主角,是一对AI界相爱相杀的老冤家:
Yann LeCun和Gary Marcus
在正式讲述这一次的「新仇」之前,我们先来回顾一下,两位大神的「旧恨」。
LeCun与Marcus之争
Facebook首席人工智能科学家和纽约大学教授,2018年图灵奖(Turing Award)得主杨立昆(Yann LeCun)在NOEMA杂志发表文章,回应此前Gary Marcus对AI与深度学习的评论。
此前,Marcus在杂志Nautilus中发文,称深度学习已经「无法前进」
Marcus此人,属于是看热闹的不嫌事大的主。
一有点风吹草动,就发言「AI已死」,掀起圈内轩然大波!
此前多次发文,称GPT-3为「Nonsense」「bullshit」。
铁证在此:
好家伙,竟说「深度学习撞墙了」,看到如此猖獗的评论,AI界的大牛LeCun可坐不住了,立马发文回应!
并表示,你想对线我奉陪!
LeCun在文中把Marcus的观点一一怼了个遍。
我们一起看一下大神是如何撰文回怼的吧~~
以下是LeCun的长文:
当代人工智能的主导技术是深度学习(DL)神经网络(NN),这是一种大规模的自学习算法,擅长识别和利用数据中的模式。从一开始,批判者们就过早地认为,神经网络已经撞上了「一堵不可逾越的墙」,然而每一次,它都被证明是一个暂时的障碍。
在20世纪60年代,NN还不能解出非线性函数。但这种情况并没有持续很长时间,在20世纪80年代随着反向传播(Backpropagation)的出现得以改变,但是新的「不可逾越的墙」又出现了,即训练系统十分困难。
在20世纪90年代,人类有研究出了简化程序和标准化架构,这使得训练更加可靠,但无论取得什么样的成绩,好像永远都会存在一堵「不可逾越的墙」,这一次是缺乏训练数据和计算的能力。
2012年,当最新的GPU可以在庞大的ImageNet数据集上进行训练时,深度学习开始成为主流,轻松地击败了所有竞争对手。但随后,就出现了质疑的声音:人们发现了「一堵新墙」——深度学习训练需要大量的手工标注的数据。
不过在过去的几年里,这种质疑变得不再有意义,因为自监督学习已经取得了相当不错的效果,比如不需要标记数据的GPT-3。
现如今似乎不可逾越的障碍是「符号推理」,即以代数或逻辑的方式操作符号的能力。正如我们小时候学到的,解决数学问题需要根据严格的规则一步一步地处理符号(例如,解方程)。
《The Algebraic Mind》的作者、《Rebooting AI》的合著者Gary Marcus最近认为,DL无法取得进一步进展,是因为神经网络难以处理这种符号操作。与之相对的是,许多DL研究人员相信DL已经在进行符号推理,并将继续改进。
这场争论的核心是符号在人工智能中的作用,存在着两种不同看法:一种认为符号推理必须从一开始就被硬编码,而另一种则认为机器可以通过经验学习到符号推理的能力。因此,问题的关键在于我们应该如何理解人类智能,从而,又应该如何追求能够具有人类水平的人工智能。
不同类型的人工智能
符号推理最重要的是精确:根据排列组合,符号可以有很多种不同的顺序,比如「(3-2)-1和3-(2-1)」之间的差异很重要,所以如何以正确的顺序执行正确的符号推理是至关重要的。
Marcus认为,这种推理是认知的核心,对于为语言提供潜在的语法逻辑和为数学提供基本操作至关重要。他认为这可以延伸到我们更基本的能力,在这些能力的背后,存在着一个潜在的符号逻辑。
而我们所熟知的人工智能,它就是从研究这种推理开始的,通常被称为「符号人工智能」。但是将人类的专业知识提炼成一组规则是非常具有挑战性的,会消耗巨大的时间成本和人力成本。这就是所谓的「知识获取瓶颈」。
虽然为数学或逻辑编写规则很简单,但世界本身是非黑即白的、是非常模糊的,事实证明,人类不可能编写出控制每个模式的规则或者为每一个模糊的概念定义符号。
但是,科技发展到现在,造就出了神经网络,而神经网络最擅长的地方就是发现模式并接受模糊性。
神经网络是一个相对简单的方程,它学习一个函数,为输入到系统的任何东西提供适当的输出。
例如,训练一个二分类网络,通过将大量的样本数据(此处拿椅子作为例子)放入神经网络,对其进行若干个epoch的训练,最后实现让该网络成功推断出新图片是否是椅子。
说白了,这不仅是单纯的关乎人工智能的问题,更本质的是,到底什么是智能以及人类的大脑又是如何工作的问题。”
这些神经网络可以精确训练,因为实现它的函数是可微的。换句话说,如果符号AI类似于符号逻辑中使用的离散token,那么神经网络就是微积分的连续函数。
这允许通过微调参数来学习更好的表示,这意味着它可以更恰到好处的去拟合数据,而不出现欠拟合或者过拟合的问题。然而,当涉及到严格的规则和离散token时,这种流动性带来了新的「一堵墙」:当我们求解一个方程时,我们通常想要确切的答案,而不是近似的答案。
这正是Symbolic AI的亮点所在,所以Marcus建议将二者简单地结合起来:在DL模块之上插入一个硬编码的符号操作模块。
这是很有吸引力的,因为这两种方法可以很好地互补,所以看起来,具有不同工作方式的模块“混合”,将最大化两种方法的优势。
但争论的焦点转向了是否需要将符号操作内置到系统中,在系统中,符号和操作能力是由人类设计的,而该模块不可微的——因此与DL不兼容。
传奇的「符号推理」
这个假设是非常有具争议性的。
传统的神经网络认为,我们不需要手工进行符号推理,而是可以学习符号推理,即用符号的例子训练机器进行正确类型的推理,可以让它学习抽象模式的完成。简而言之,机器可以学习操作世界上的符号,尽管没有内置的手工制作的符号和符号操作规则。
当代大型语言模型(如GPT-3和LaMDA)显示了这种方法的潜力。他们操纵符号的能力令人印叹为观止,这些模型表现出了惊人的常识推理、组合能力、多语言能力、逻辑和数学能力,甚至有模仿死者的可怕能力。
但其实这样做并不可靠。如果你让DALL-E制作一个罗马雕塑,一个留着胡子、戴着眼镜、穿着热带衬衫的哲学家,那它会很出色。但是如果你让它画一只戴着粉色玩具的小猎犬,去追逐一只松鼠,有时你会得到一只戴着粉色小猎犬或松鼠。
当它可以将所有属性分配给一个对象时,它做得很好,但当有多个对象和多个属性时,它就会处于懵逼状态。许多研究人员的态度是,这是DL在通往更像人类的智能道路上的「一堵墙」。
那么符号化操作到底是需要硬编码?还是可学习的呢?
这并不是Marcus的理解。
他假设符号推理是全有或全无的——因为DALL-E没有符号和逻辑规则作为其操作的基础,它实际上不是用符号进行推理。因此,大型语言模型的无数次失败表明它们不是真正的推理,而只是没有感情的机械模仿。
对Marcus来说,爬上一棵足够大的树是不可能到达月球的。因此,他认为目前的DL语言模型并不比Nim Chimpsky(一只会使用美国手语的雄性黑猩猩)基更接近真正的语言。DALL-E的问题不是缺乏训练。它们只是系统没有掌握句子潜在的逻辑结构,因此不能正确地掌握不同部分应该如何连接成一个整体。
相比之下,Geoffrey Hinton等人认为神经网络不需要硬编码符号和代数推理既可以成功地操纵符号。DL的目标不是机器内部的符号操作,而是学会从世界上的系统中产生正确的符号。
拒绝将两种模式混合并非草率的,而是基于一个人是否认为符号推理可以学习的哲学性差异。
人类思想的底层逻辑
Marcus对DL的批评源于认知科学中的一场相关争论,即智能是如何运作的,以及是什么让人类独一无二。他的观点与心理学中一个著名的「本土主义」学派一致,该学派认为认知的许多关键特征是天生的——实际上,我们在很大程度上生来就知道世界是如何运转的。
这种与生俱来的感知的核心是符号操作的能力(但是这究竟是在整个自然中发现的,还是人类特有的,尚且没有结论)。对Marcus来说,这种符号操作能力奠定了常识的许多基本特征:遵循规则、抽象、因果推理、重新识别细节、泛化和许多其他能力。
简而言之,我们对世界的很多理解都是自然赋予的,学习就是充实细节。
还有另一种经验主义观点打破了上述想法:符号操纵在自然界中是罕见的,主要是我们的古人类祖先在过去200万年中逐渐获得的一种学习交流能力。
从这个观点来看,主要的认知能力是非符号学习能力,与提高生存能力有关,比如快速识别猎物,预测它们可能的行动,以及发展熟练的反应。
这一观点认为,绝大多数复杂的认知能力都是通过一般的、自监督的学习能力获得的。它还假设,我们的大部分复杂认知能力不会依赖于符号操作。相反,他们通过模拟各种场景并预测最佳结果。
这种经验主义的观点认为符号和符号操纵只是另一种习得的能力,是随着人类越来越依赖合作行为来获得成功而获得的能力。这将符号视为我们用来协调团队间合作的发明——比如文字,但也包括地图、标志性描述、仪式甚至社会角色。
这两种观点之间的差异非常明显。对于本土主义传统来说,符号和符号操纵原本就在头脑中,对单词和数字的使用也源自这种原始能力。这一观点很有吸引力地解释了那些源自进化适应的能力(尽管对符号操纵如何进化或为什么进化的解释一直存在争议)。
从经验主义传统角度看,符号和符号推理是一项有用的交流发明,它源于一般的学习能力和我们复杂的社会世界。这将内部计算和内心独白等发生在我们头脑中的象征性事物,视为源自于数学和语言使用的外部实践。
人工智能和认知科学领域是紧密交织的,所以这些争斗在这里重现也就不足为奇了。既然人工智能中任一观点的成功都将部分(但仅部分)证明认知科学中的一种或另一种方法是正确的,那么这些辩论的激烈程度也就不足为奇了。
问题的关键不仅在于如何正确地解决当代人工智能领域的问题,还在于解决智能是什么以及大脑如何工作。
对AI,是押注,还是做空?
为什么「深度学习撞墙」的说法这样具有挑衅性?
如果Marcus是对的,那深度学习将永远无法实现与人类相似的AI,无论它提出了多少新的架构,也不管它投入了多少计算能力。
为神经网络继续添加更多的层只会让人更加困惑,因为真正的符号操纵需要一个天生的符号操纵者。由于这种符号化操作是几种常识能力的基础,所以DL只会对任何东西都「不求甚解」。
相比之下,如果DL的提倡者和经验主义者是正确的,那么令人困惑的是插入一个用于符号操纵的模块的想法。
在这种情况下,深度学习系统已经在进行符号推理,并将继续改进,因为它们通过更多的多模态自监督学习、越来越有用的预测世界模型以及用于模拟和评估结果的工作内存的扩展来更好的满足约束。
引入符号操作模块不会创造出更像人类的AI,相反会迫使所有的「推理」操作通过一个不必要的瓶颈,这将使我们更加远离「类人智能」。这可能会切断深度学习最激动人心的一个方面:它能够提出超过人类的完美解决方案。
话说回来,这些都不能证明那些愚蠢的炒作是正确的:由于当前的系统没有意识,所以它们不能理解我们,强化学习是不够的,你不能仅仅通过扩大规模来构建类人智能。但所有这些问题都是主要争论的「擦边问题」:符号操作到底是需要硬编码?还是可学习?
这是在呼吁停止研究混合模型(即具有不可微符号操纵器的模型)吗?当然不是。人们应该选择有效的方法。
但是,研究人员自20世纪80年代以来一直在研究混合模型,不过它们还没有被证明是一种有效的方式,在许多情况下,有可能甚至远不如神经网络。
更通俗地说,人们应该怀疑深度学习是否达到了上限。