Hinton痛悔毕生工作，AGI十年内降临或导致「奥本海默」灾难！图灵巨头联手中国专家为AI划红线-51CTO.COM

「现在我变成了死亡，世界的毁灭者。」

这是奥本海默曾经引用印度教经文《薄伽梵歌》中的一句话。

上世纪40年代，奥本海默的发明，如同天地初开，彻底重塑了世界的面貌。原子弹的问世，带来了一场空前的毁灭危机，让人类面临前所未有的生存考验。

1945年8月，就在美国新墨西哥沙漠中核试爆结束不到一个月，美国随即在日本广岛和长崎投下原子弹，在此后的几十年间，奥本海默曾多次表达对制造出大规模毁灭性武器的无限追悔和遗憾。可历史无法重演，数十万人的死亡成为科学发展历程中无法磨灭的一笔。

而在21世纪的今天，面对AI的迅速发展，同样表达出担忧和后悔的还有两位AI大佬：

深度学习泰斗、神经网络之父Geoffrey Hinton突然宣布离职谷歌，起因就源自于对生成式AI的恐惧，他甚至直言——「我对自己的毕生工作，感到非常后悔。」

Geoffrey Hinton认为，数字智能终将取代生物智能。接受了海量网络信息训练的AI会比人类更聪明，因而能够轻易操纵人类——这是超级智能接管人类控制权的路径之一。

也在近期，深度学习三巨头之一Yoshua Bengio指出，AI安全与核武器问题非常相似。世界上的 AGI 项目越多，对人类来说就越危险。因此，应该和通过国际条约来控制核武器数量一样，去控制AGI项目的扩散。

「这不是国与国之间的对抗，而是人类与机器之争。所有人都应该同舟共济，患难与共。」

上述观点正来自于3月10日-11日的「北京AI安全国际对话」，该对话是我国首个AI安全高端闭门论坛。

去年11月初，人工智能安全峰会在英国布莱切利公园举行，包括中国、美国、英国和欧盟在内的超25个国家代表参与，甚至剑拔弩张的Elon Musk和OpenAI创始人Sam Altman等也齐聚一堂。

在AI安全面前，每一位科技领袖都不计前嫌，共谋大计。英国媒体称，「这是罕见的全球团结表现」。

而此次大洋彼岸的「北京AI安全国际对话」正是中国版的「布莱切利」峰会。

本次对话由智源研究院发起，智源学术顾问委员会主任张宏江与图灵奖得主Yoshua Bengio担任共同主席。Geoffrey Hinton、姚期智、Stuart Russell、傅莹、张亚勤、薛澜等30余位专家参会。

作为国内最具影响力的AI研究机构之一，智源研究院成功搭建了国际AI安全交流的对话平台。

与会专家在为期两天的对话中展开深入探讨，共同拟定并签署了《北京AI安全国际共识》，提出人工智能风险红线及安全治理路线。

同时呼吁「在人工智能安全研究与治理上的全球协同行动，是避免不受控制的前沿人工智能发展为全人类带来生存风险的关键。」

AGI必将在10年或20年后降临，落入坏人手中后果不堪设想

Bengio在对话发言中提到，我们不知道距离实现AGI还有多远，但可以肯定的是，实现AGI是一种必然。

这个时间可能是5年，10年甚至20年。即使是10或20年，也并不遥远。

AGI的实现势必带来巨大变革，我们需要开始为此做好准备。如果只剩下5年，人类就更加迫切地需要寻求解决方案。

AI能力越强，为人类带来的优势越多，与此同时也越来越危险。一旦落入坏人手中或失控，后果将不堪设想。

AI系统一旦失控会怎样？

Bengio认为，AI的本质是有目标的机器。一个更加强大的AI系统是一个能够实现这些目标的机器。那么谁来决定AI的目标呢，它可能是一个恶意的人或组织，试图对社会做出灾难性的破坏。还有一种更糟糕的可能性，即这些目标是AI自发形成的。

AI自发的行动目标源于自我保护。这个星球上的每一个生物都有着自我保护和生存的目标。

如果AI也产生了自我保护意识，那它们就不再仅仅是人类的工具，它们会像生物一样抵制被关闭。AI甚至可能会采取欺骗手段来阻止人类进行一切不利于他们的行为。

未来，它们可能比人类更擅长使用语言来影响、说服和操纵，可能会对人进行威胁或雇佣罪犯，下达命令以获得更多控制权。它们也许可以在金融市场上比人类更轻松地赚钱。它们可以在互联网上自我复制，因此很难将其关闭。

最令人担忧的是，目前训练AI系统的方式可能会使其变成危险实体。

人类训练AI的方式类似于训练动物，依照行为进行反馈，做得好给奖励，做得不好给惩罚。但在我们真正想要实现的和机器所理解的目标之间通常会存在不匹配，我们称之为错位，或者不对齐（misalignment）。

比如，你要训练你的猫不要去厨房的桌子上，当你在厨房里时，它可能学会了不去厨房的桌子上，但也只有你责怪它的时候才听话。你一旦去其他地方寻找时，它可能还是会出现在厨房的桌子上。

大量科学证据表明，要确保AI能够准确理解人类想法非常困难。如果只是一只猫也无所谓，但如果是一个比人类更聪明的AI系统，情况则大不相同。

在这里，可以将AI比作一只比人还强大的灰熊。我们会建造一个所谓「安全防护」的笼子，但现在这个笼子还无法坚不可摧。

问题在于，在某个时刻，AI或者说灰熊，会找到办法破笼而出。然后它就不再依赖人类给它奖励了（比如给它喂鱼），它能自己去抓鱼。

为了让人类能够避免这类潜在的灾难，我们需要解决两大挑战。

其一，科学性的挑战。我们如何设计不会与人类为敌的安全人工智能？

其二，政治性的挑战，因为即使我们知道构建安全人工智能的秘诀，有些人也可能不认同，原因在于企业和国家之间存在的竞争。「坏人」可能不在乎安全的规则。

因此，我们需要探讨如何确保让世界上所有国家都遵守安全协议，并且确保没有国家会为了经济或军事霸权滥用AI的力量，因为这也会破坏地球的稳定。

数字智能终将取代生物智能，令人深感忧虑

在对话中，Geoffrey Hinton也进一步对数字智能取代生物智能的未来风险予以警示。

他指出，大语言模型理解世界、学习知识的方式与人类高度相似，它能够很好地预测人类大脑负责语言部分的活动，并像人脑的记忆机制一样将所有知识存储为特征交互，通过不断重建来提取记忆。

值得警惕的是，Hinton认为人工智能的数字计算优于人类大脑的生物计算。

如今的大模型能够通过学习（learning）获取程序和目标，这让软硬件协同的计算机设计和可朽计算（mortal computation）成为可能——知识与硬件的精确物理细节不可分割，这是人类大脑执行计算任务的方式。

不同的是，人类大脑之间仅能通过缓慢、低效的蒸馏（distillation）进行知识共享，大模型的不同副本之间可以通过权重或梯度共享（weight or gradient sharing）简单、快速地共享知识。

目前，数字计算的劣势在于需要消耗大量能源。然而随着能源成本不断降低，数字计算的优越性会日益显著，数字智能取代生物智能的预言或将一语成谶。

瞻望数字智能终将取代生物智能的未来，Hinton深感忧虑。

一旦AI拥有创造子目标的能力，它们将很快意识到「掌控更多权力」是非常明智的子目标，这让它们可以获取更多资源从而实现更多目标。

接受了海量网络信息训练的AI会比人类更聪明，因而能够轻易操纵人类——这是超级智能接管人类控制权的路径之一。

关于如何规避这些风险，Hinton表示一切都很不确定。

不同于以往的计算机程序，AI可以像人类一样理解世界，并且可能比人类聪明得多——这是人类从未应对的情况。或许人类能够找到方法来确保AI不会比人类更聪明，并且不会产生控制人类的意图，但Hinton对此抱以悲观态度。

因此Hinton认为，投入巨大资源来尝试确保AI安全是明智之举。

「我猜我们会失败，但我不确定。现在我们仍有机会，应该尽力去做。」

全人类同舟共济：这不是国与国之间的对抗，而是人类与机器之争

在国际合作与多边治理方面，与会专家认为，AGI项目的扩散问题（proliferation），与核武器问题非常相似。世界上的AGI项目越多，对人类来说就越危险。

因此，和通过国际条约来控制核武器数量一样。控制AGI项目的数量是一个扩散问题。

与此同时，权力集中在少数公司或单一国家手中是危险的。没有一个国家可以对这些AGI拥有完全的权力。与会专家认为，对于那些5年、10年，甚至20年后才会出现的强大AI系统，应以多边的方式进行治理和管控。

最理想的方案是由所有国家共同管理一个AGI项目，这将构建一个更加稳定的世界秩序，因为所有国家将共同控制AI的许多好处，并确保这种力量不被滥用来对抗彼此，减少战争和其他类似事件的风险。

与会专家达成共识：

这不是国与国之间的对抗，而是人类与机器之争。所有人同舟共济，患难与共。
与其他任何问题相比，AI给人类安全带来的威胁，足以使世界各国产生强烈的动机，为全人类的安全而放弃一部分主权。
那么如何做到这一点呢？
AGI项目的相互监督、跨国治理，以及最终的合并和削减。这当中还要考虑包括各国的优势。
最终，我们的目的是在分享AI红利的同时避免人类的终结。人类的未来不是由竞争驱动，而是由共同治理驱动。

对话达成共识——落实AI风险红线

本次对话共邀请了众多国际顶尖AI领域专家参与，包括图灵奖得主Geoffrey Hinton、Yoshua Bengio、姚期智，UC Berkeley教授人类兼容人工智能中心主任Stuart Russell、傅莹女士、清华大学智能产业研究院院长张亚勤、清华大学苏世民书院院长薛澜、南洋理工大学副校长林国恩、Anthropic安全专家Sam Bowman、未来人类研究所高级研究员Toby Ord、加州大学洛杉矶分校人工智能治理中心国际治理主管Robert Trager、加州大学伯克利分校教授，麦克阿瑟奖得主Dawn Song、施瓦茨·赖斯曼技术与社会研究所所长Gillian Hadfield、英国AI安全研究所CTO Jade Leung、英国先进研究与创新署（ARIA）项目总监David Dalrymple，北京大学AI安全与治理中心执行主任杨耀东，来自零一万物、智谱AI、瑞莱智慧等国内创业公司，多家互联网企业与投资机构代表，以及智源研究院黄铁军、王仲远、林咏华等。

在最终的共识拟定环节，与会者经过讨论一致认为，避免人工智能导致的灾难性全球后果需要我们采取果断的行动。

协同合作的技术研究与审慎的国际监管机制的结合可以缓解人工智能带来的大部分风险，并实现其诸多潜在价值。而我们必须继续坚持并加强国际学术界和政府在安全方面的合作。

共识从AI风险红线、落实治理路线两个角度进行了阐述（部分内容如下图）。

共识全文链接：https://baai.org/l/IDAISBeijing

2019年5月，在智源研究院的倡导下，北京多家高校、科研机构与企业联合发布了《人工智能北京共识》，为规范和引领中国人工智能健康发展提供「北京方案」。

2024年3月，此次智源研究院发起的「北京AI安全国际对话」成功举办，不仅加强了中国与国际AI安全领域的交流与合作，也推动了全球AI安全技术的发展和共识形成，为我国深度参与国际AI安全合作搭建了面向世界的平台。