Bengio、LeCun 等人联名发布 NeuroAI 白皮书：智能的本质是感觉运动能力，AI 迎来具身图灵测试大挑战-51CTO.COM

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

历史上，神经科学一直是人工智能发展的关键驱动力和灵感来源，特别是视觉、基于奖励的学习、与物理世界的互动以及语言等人类和其他动物非常擅长的领域，人工智能曾借助神经科学在这些领域取得长足进步。

但近年来，人工智能的研究方式似乎正在远离神经科学，与此同时，人工智能在追赶人类智能的路上困难不断。在此背景下，一股回归神经科学的人工智能热潮正在形成。

近日，一份白皮书发出了“NeuroAI 将催化下一代人工智能革命”的宣言。

这份以“Toward Next-Generation Artificial Intelligence: Catalyzing the NeuroAI Revolution”为题的白皮书，集结了 Yoshua Bengio、Yann LeCun 两位图灵奖获得者，以及一批致力于机器学习与神经科学结合研究的科学家。

Bengio、LeCun 等人联名发布 NeuroAI 白皮书：智能的本质是感觉运动能力，AI 迎来具身图灵测试大挑战

他们呼吁：为了加快人工智能的进步并发挥其巨大的潜力，我们必须致力于 NeuroAI 的基础研究。

白皮书首先提出，生物智能的基本要素在于动物与世界进行感觉运动交互的能力。

从这一前提出发，他们提出具身图灵测试（The Embodied Turing Test ）作为 NeuroAI 的终极挑战，它的核心在于高级感觉运动能力，具体包括与世界互动、动物行为的灵活性、能源效率等特征。

同时，白皮书还设想了应对具身图灵测试的路线，从进化史角度把 AI 系统的具身图灵测试分解为从中低级生物进阶到更复杂生物的智能。

1 NeuroAI：智能的本质在于感觉运动

人工智能向神经科学的回归是必然的。

人工智能革命的种子正是几十年前在计算神经科学中播下的，神经学家 McCulloch 和 Pitts 在 1943 年首次提出神经元性质的数学表达形式，他们试图了解大脑是如何计算的。

而冯·诺依曼发明“冯诺依曼计算机体系结构”，事实上也是来源于最早在构建“人工大脑”方面的工作，他从1940 年代还非常有限的大脑知识中汲取了灵感。

掀起最近一轮人工智能浪潮的深度卷积网络，则是建立在人工神经网络 (ANN) 之上的，该网络直接从猫的视觉处理电路方面的研究中得到启发。

同样，强化学习 (RL) 的发展也是直接从动物在学习过程中的神经活动中汲取了灵感。

几十年后的今天，人工神经网络和强化学习已经成为人工智能的主流技术，所以在大众看来，“通用人工智能”这一长期目标似乎已经在我们掌握之中。

然而，与这种乐观主义相反，许多一线的人工智能研究人员认为，我们仍需要取得新的重大突破，才有可能构建能够完成人类的所有工作的人工系统，而且不仅是人类，甚至包括像老鼠这样更简单的动物。

目前的 AI 还远远未达到这种目标：

AI 可以在国际象棋和围棋等游戏中轻松击败任何人类对手，但并不具有足够的稳健性，在面对新事物时经常遇到困难；

AI 还做不到‘”走到架子上、取下棋盘、布置棋子并在游戏中移动棋子”这一系列的简单行为；AI 的感觉运动能力还无法与四岁儿童相媲美，甚至是更简单的动物也比不上；AI 缺乏与不可预测的世界互动的能力，难以处理新情况，而这种能力是所有动物毫不费力就获得的基本能力。

因此，越来越多的 AI 研究人员怀疑，再沿着当前的路子往前走，难以解决以上问题。

既然我们的目标是让 AI 拥有更多自然智能，那么我们很可能就需要来自自然智能系统的新灵感。

虽然如卷积人工神经网络和强化学习等都受到了神经科学的启发，但目前机器学习的大部分研究都在走另一条路，其所采用的方法受到神经科学几十年前发现的启发，比如基于大脑注意力机制的神经网络。

现代神经科学的确仍在影响着 AI ，但影响还很微小。这是一种机会的错失。在过去的几十年里，我们已经积累了大量关于大脑的知识，这使我们能够深入了解支撑自然智能的解剖结构和功能结构。

正是在这样的背景下，这些科学家在这份白皮书中发出宣言：

NeuroAI 是神经科学和 AI 交叉的新兴领域，其所基于的前提是更好地理解神经计算将揭示智能的基本成分，它将催化 AI 的下一次革命，最终实现具有匹敌甚至超越人类能力的人工智能体。他们认为，现在是开展大规模工作来识别和理解生物智能原理，并将其抽象出来用于计算机和机器人系统的大好时机。

那么，生物智能最重要的要素是什么？

他们认为，适应性、灵活性和从稀疏观察中做出一般推断的能力，这些才是智能的基本要素，它们已经以某种形式存在于我们进化了数亿年的基本感觉运动电路中。

尽管抽象思维和推理经常被认为是人类特有的智能行为，但正如人工智能先驱 Moravec 所说，抽象思维只是“一种新技巧，历史也许还不到 10 万年……它之所以有效，是因为得到了更古老、更强大、但通常是无意识的感觉运动知识的支持。”

这无疑是个好消息，大鼠、小鼠和非人类灵长类动物可以作为自然智能实验中更易处理的模型，如果人工智能可以匹配它们的感知和运动能力，那么人类智能的步骤就会小得多。因此，如果我们弄清楚所有动物在与世界的具体感觉运动交互中拥有的核心能力，NeuroAI 就必将带来重大进步。

2 NeuroAI 大挑战：具身图灵测试

1950 年，艾伦·图灵提出“模仿游戏” ，用于测试机器所表现出的与人类相同、或无法区分的智能行为的能力。在那场比赛中，人类法官需要评估真人与受过训练、可以模仿人类反应的机器之间的自然语言对话。

图灵提出，相比于无法回答的“机器是否可以思考”问题，我们可以确定的是，机器的会话能力与人类能否区分。这当中隐含的观点是，语言代表了人类智能的顶峰，因此，能够对话的机器肯定是智能的。

在某种程度上，图灵是对的，但另一方面他也错了。

虽然没有 AI 能通过图灵测试，但近日，在大型文本库上训练的语言系统已经实现了有说服力的对话，这一成功在某种程度上也揭示了，我们容易将智力、能动性甚至意识归因于对话者。但同时，这些系统在某些推理任务上的表现仍然很差，这凸显了图灵忽视的一个事实，即智力远不止语言能力。

当前，自然语言处理（NLP）系统所犯的许多错误也说明了AI 对语义、因果推理和常识的根本缺乏。对这些模型而言，单词的意义在于它们在统计学上的共现性，而非现实世界的基础，所以即使是最先进的语言模型，尽管能力越来越大，但它们在一些基本的物理常识方面还是表现不佳。

最初制定的图灵测试并没有探究 AI 在与动物共享、以灵活方式理解物理世界的能力，只是建立一个简单的定性标准，以此来判断我们在构建 AI 方面取得的进展。而这当中的理解和能力，可能是建立在人类的感知和运动能力之上的，是通过无数代自然选择磨练出来的。

对此，作者在白皮书中提出了一个扩展的“具身图灵测试”（The Embodied Turing Test ），其中就包括了高级感觉运动能力，可将 AI 与人类和其他动物的交互进行基准测试和比较。

以动物为例，每只动物都有自己独特的一套能力，因此它们也定义了自己的具身图灵测试，例如测试人造的海狸建造水坝能力，松鼠跳树的能力等等。在这当中，许多核心的感觉运动能力几乎为所有动物共有，而动物能够迅速进化出适应新环境所需的感觉运动技能，也表明这些核心技能为其提供了一个坚实的基础。

下面是白皮书所介绍的感觉运动能力的几个共同特征。

与世界互动

有目的地四处走动、并与环境互动是动物的决定性特征。

尽管机器人技术近期在优化控制、强化学习和模仿学习等方面取得了进展，但在控制身体和操纵物体方面，距离要达到动物级别还很遥远。

作者指出，由于神经科学可以提供关于模块化和分层架构的指导，当这些架构适应于 AI 中时，可以使 AI 也能具有这些能力。

不仅如此，神经科学还为我们设计 AI 系统提供了一些原则性指导，如部分自主性（层次结构中的低级模块如何在没有高级模块输入的情况下半自主地行动）和分期控制（最初由缓慢的计划过程产生的运动如何最终转移到快速的反射系统中去）等。

了解特定的神经网络如何参与不同的任务——如运动，对四肢、手和手指的精细控制，感知以及行动选择——可能为这种系统如何在机器人中实现提供路径，也可能给其他形式的 "智能 "在更多认知领域中提供解决方案。例如，纳入低级运动控制的电路原理，有助于为 AI 的高级运动规划提供更好的基础。

动物行为的灵活性

了解特定的神经网络的另一个目标，是开发能够以与个体动物产生的行为范围相呼应的方式、参与大量灵活和多样化任务的人工智能系统。

如今，AI 可以很容易地学会在视频游戏中胜过人类，如《霹雳火》，只需使用屏幕上的像素和游戏分数。然而与人类玩家不同的是，这些 AI 是脆弱的，对小的扰动非常敏感，稍微改变游戏规则或输入几个像素，都会导致灾难性的糟糕表现。这是因为 AI 学习了一种从像素到行动的映射，而这种映射不需要涉及对游戏中的代理、物体以及支配它们的物理学的理解。

同样地，一辆自动驾驶汽车本身并不了解从它前面的卡车上掉下来的箱子的危险性，除非它真的看到从卡车上掉下来的箱子导致坏结果的案例。即使它接受过关于板条箱坠落危险的培训，系统也可能认为一个从它前面汽车吹过来的空塑料袋是一个要不惜一切代价避免的障碍，这是因为它实际上并不了解塑料袋是什么，或它在物理上有多大的威胁。这种无法处理训练数据中没有出现过的场景，是对广泛依赖 AI 系统的一个重大挑战。

为了在不可预测和不断变化的世界中取得成功，智能体必须具有灵活性，并通过这种情况的常规发展趋势来掌握新的变化，这也是动物所做的事情。由于动物在现实世界的互动中打下了坚实的基础，在进化和发展的过程中，它们生来就具备茁壮成长所需的大部分技能，或是能从有限经验中迅速获得这些技能。

因此可以明显看到，从头开始训练特定任务并不是动物获得技能的方式。动物不会进入白板世界，然后依靠大型标记训练集来学习。尽管机器学习一直在寻求避免这种“白板”的方法，包括自我监督学习、迁移学习、持续学习、元学习、一次性学习和模仿学习，但这些方法并没有太接近动物身上的灵活性。

为此，作者认为，理解为现实世界中的行为灵活性提供基础的神经回路级原理，即使是存在于简单的动物当中，也有可能大大提高 AI 的灵活性和实用性。也即是说，我们可以利用进化已经参与的优化过程，大大加快对用于现实世界交互的通用电路的探索。

能源效率

目前， AI 面临的一个重要挑战我们大脑已经克服了，就是能源效率。例如，训练 GPT‑3 等大型语言模型需要超过1000兆瓦时，足以为一个小镇供电一天。用于训练 AI 的能源总量很大并且增长迅速，相比之下，生物系统的能源效率更高，例如人类大脑的使用大约20瓦。

大脑和计算机对能力需求的差异源于信息处理得差异。在算法层面上，现代大规模人工神经网络如大规模语言模型依赖大的前馈架构，随时间推移对过程序列的自我关注，往往会忽略了递归对于处理连续信息的潜在力量。

目前，由于我们在循环网络中没有有效的信用分配计算机制，大脑利用灵活的循环架构来处理长时间序列的方式，显然可以高效地解决时间信用分配问题——甚至比当前人工神经网络中使用的前馈信用分配机制更有效。如果我们能利用大脑来指导如何为循环电路设计高效的训练机制，或许可以提高我们处理顺序数据的能力，同时进一步提高系统的能量效率。

其次，在实现层面上，生物神经元主要通过传输动作电位（尖峰信号）来进行交互，这是一种异步通信协议。就像传统数字元素之间的相互作用一样，神经元的输出可以看作是 0 和 1 的串，但与数字计算机不同的是，“ 1 ”（即峰值）的能量消耗比“ 0 ”高几个数量级。由于生物电路在尖峰稀疏的状态下运行——即使是非常活跃的神经元也很少超过 10% 的占空比，大多数以较低的速率运行——它们的能源效率要高得多。

此外，其他因素也可能有助于提高生物网络的能源效率。例如，即使某些组件非常不可靠或“嘈杂”，生物网络仍能有效计算。

突触释放——神经元交流的方式——也许很不可靠，以至于每 10 条信息中只有 1 条被传递。电路的组织方式使得尖峰序列是高度可变的，这一特性或可以令神经电路能进行概率推理。

这是一种很在不确定情况下的稳健计算形式，尽管目前许多研究正在努力开发峰值网络的潜力，但迄今为止，仍未出现能够与生物电路能量效率媲美的“杀手级应用”。当前主要问题是，“神经形态芯片”既不复制先天的神经回路功能，也不容易训练，因此尽管它们更节能，用处也不如同类能耗大的数字产品。

在这样的情况下，作者提出，要使 AI 中获得更高的能效，不仅可以借鉴稀疏尖峰网络的思想，还能通过提供具有神经回路功能和学习规则的神经形态芯片来实现。

3 如何应对具身图灵测试

那么，我们该如何开发具身图灵测试的 AI ？

作者认为，或许可以从进化史的角度逐步进行。例如，让绝大部分动物都进行以目标为导向的运动，比如靠近食物和远离威胁。在此基础上有更复杂的技能，包括结合不同感官，像视觉或嗅觉，通过不同感官信息来区分食物和威胁，导航到以前的位置，衡量激励和威胁来实现目标，并用准确的方式与世界互动来服务目标等等。

这些复杂的能力可以在像蠕虫这样简单的生物体中找到，而在鱼类和哺乳动物等更复杂的动物中，这些能力会被设计与新策略结合，以实现更强大的行为策略。这种进化的观点提出了一种解决具身图灵测试的策略，即将其分解为一系列相互依赖的增量挑战，并对此系列反复优化。

此外，代表解决中低级挑战的生物包括蠕虫、苍蝇、鱼类、啮齿动物和灵长动物等，都是神经科学研究中广泛使用的系统，我们可以利用此前关于这些动物行为模式背后的电路和机制等知识积累，使用虚拟环境和虚拟生物在计算机上进行相关研究。

为了达到所需行为的灵活水平，通过具身图灵测试的 AI 将面临一系列特定物种的测试，以探索自我监督学习、持续学习、迁移学习、元学习和终身记忆等，这些测试也可以被标准化，以便我们衡量研究进展。最终，成功的虚拟生物体可以通过机器人的努力来适应物理世界，并用于解决现实世界的问题。

要实现以上提到的目标，既需要大量资源，也需要在心理学、工程学、语言学等传统人工智能和神经科学以外的学科做出成绩。除了简单地利用这些学科的现有专业知识之外，我们的当务之急是培养同时擅长工程/计算科学和神经科学的新一代人工智能研究人员。

这些研究人员将利用神经科学数十年的成果，为人工智能研究制定全新的方向。最大的挑战将是确定如何利用神经科学、计算科学和其他相关领域的协同作用来推进探索，也就是确定大脑电路、生物物理学和化学的哪些细节是重要的，而哪些细节在 AI 应用中可以忽略。

因此，我们迫切需要在不同领域接受过一定培训的研究人员，他们用适用于计算机的方式抽象神经科学知识并帮助设计实验，从而产生与人工智能相关的新神经生物学研究成果。

其次，我们需要创建一个能够开发和测试这些虚拟智能体的共享平台。在创建迭代、体现图灵测试和进化人工生物来解决这个需求时，我们将面临的最大技术挑战之一就是计算能力。目前，仅针对单个具体任务（比如在 3 维空间中控制身体）训练一个大型神经网络模型可能就需要数天时间在专门的分布式硬件上。

第三，我们需要支持神经计算的基础理论和实验研究。

在过去的几十年里，我们已经了解了大量关于大脑的知识，我们开始越来越了解大脑的单个细胞，神经元，以及这些东西是如何作为简单电路的一部分发挥作用的。有了对这些模块的知识，我们的下一步就是将精力投入到探索大脑这个综合智能系统的运作方式中去。

而探索这个整体，就需要深入了解1000种不同类型的1000亿个神经元是如何连接在一起的，需要去了解每个神经元与数千个其他神经元之间那灵活多变、适应性强的连接，也需要去了解计算能力，也就是智能。所以我们必须对大脑进行逆向工程，把其运作的基本原理抽象出来。

请注意，虚拟智能体的发展将极大地加速这一过程，因为虚拟智能体允许在真实动物和计算机模拟动物的实验之间进行直接比较，而这将揭示鲁棒控制、灵活行为、能源效率和智能行为所必需的神经电路级别属性和机制的内在机理。

利用神经科学和人工智能之间强大的协同效应需要项目和基础设施支持，才能组织和实现跨学科的大规模研究。

4 结论

尽管神经科学推动人工智能发展的历史由来已久，而且其未来发展也有巨大的潜力，但人工智能界的大多数工程师和计算科学家都不知道可以借神经科学这股东风。

神经科学对冯·诺依曼、图灵和其他计算理论巨人思想的影响，在典型的计算机科学课程中很少被提及；NeurIPS 等前沿人工智能会议曾经被用来分享展示计算神经科学和机器学习的最新成果，但现在参会的人们也几乎只关注机器学习，而忽视了神经科学。

“工程师研究鸟类并不是为了造更好的飞机”是大家常说的一句话。但这个类比很失败，其部分原因是航空先驱确实研究过鸟类，而且现代也仍有学者在研究。此外，这种类比在一个更基本的层面上也不成立：现代航空工程的目标不是实现「鸟类水平」的飞行，但是人工智能的主要目标确实是实现，或者说超过「人类水平」的智能。

正如计算机在许多方面超过人类一样（比如计算质数的能力），飞机在速度、航程和载货能力等方面也超过了鸟类。如果航空工程师的目标确实是建造一种具有「鸟类水平」能力的机器，这种机器能够穿过茂密的森林，轻轻地降落在树枝上，那么这些工程师就得去密切关注鸟类是如何做到这一点的。

同样，如果人工智能的目标是达到动物级别的常识性感觉运动智能，研究人员最好要向动物学习，学习动物在这个不可预测的世界中进化出的行为方式。