人工智能真的可以帮助我们与动物交谈吗？-人工智能动物

一位海豚训练员用手发出“一起”的信号，然后是“创造”。两只训练有素的海豚消失在水下，交换声音然后浮出水面，仰面翻转并抬起尾巴。他们设计了自己的新把戏，并按照要求一前一后地表演。“这并不能证明存在语言，”拉斯金（Aza Raskin ）说。“但是，如果他们能够使用一种丰富的、象征性的交流方式，那肯定会让这项任务变得更容易。”

拉斯金是Earth Species Project (ESP) 的联合创始人兼总裁，这是一家加州非营利组织，其雄心壮志是：使用称为机器学习的人工智能 (AI) 形式对非人类通信进行解码，并将公开所有可用的专有技术，从而加深我们与其他生物物种的联系，以助力对它们的保护。一张1970 年的鲸鱼歌曲专辑激发了导致商业捕鲸被禁止的运动。动物王国的谷歌翻译会产生什么？

该组织于 2017 年在 LinkedIn 联合创始人 Reid Hoffman 等主要捐助者的帮助下成立，去年 12 月发表了第一篇科学论文。目标是在我们的有生之年开启与动物的沟通。“我们正在努力的目标是，我们能否解码动物交流，发现非人类语言的奥秘，”拉斯金说。“在此过程中，同样重要的是，我们正在开发支持生物学家和动物保护的技术。”

长期以来，了解动物的发声一直是令人类着迷并展开探究的主题。各种灵长类动物发出的警报声因捕食者而异；海豚用标志性的口哨呼朋引伴；一些鸣禽可以从它们的叫声中提取元素并重新排列它们以传达不同的信息。但大多数专家都没有将其称为一种语言，因为没有动物交流符合所有标准。

直到最近，解码主要依赖于艰苦的观察。但是，人们对应用机器学习来处理现在可以由现代动物交流传感器收集的大量数据产生了浓厚的兴趣。“人们开始使用它，”哥本哈根大学研究哺乳动物和鸟类声音交流的副教授 Elodie Briefer 说。“但我们还不知道我们能做多少。”

Briefer 与他人共同开发了一种算法，可以分析猪的咕噜声，以判断动物是否正在经历积极或消极的情绪。另一个名为 DeepSqueak 的方法是根据啮齿动物的超声波呼叫判断啮齿动物是否处于压力状态。另一个倡议——CETI 项目（代表鲸类翻译倡议）——计划使用机器学习来翻译抹香鲸的交流。

今年早些时候，Elodie Briefer 及其同事发表了一项基于猪的发声情绪的研究。在各种场景中从 411 头猪身上收集了 7,414 种声音。

然而 ESP 表示，它的方法不同，因为它不是专注于解码一个物种的交流，而是所有这些。虽然拉斯金承认，社会动物（例如灵长类动物、鲸鱼和海豚）之间进行丰富的象征性交流的可能性更高，但目标是开发可应用于整个动物王国的工具。“我们是物种不可知论者，”拉斯金说。“我们开发的工具……以便在所有生物学中发挥作用，从蠕虫到鲸鱼。”

Raskin 说，他对 ESP 的“激发直觉”的工作表明，机器学习可用于在不同的、有时是遥远的人类语言之间进行翻译——而不需要任何先验知识。

这个过程始于开发一种在物理相空间中表示单词的算法。在这种多维几何表示中，点（词）之间的距离和方向描述了它们如何有意义地相互关联（它们的语义关系）。例如，“国王”与“男人”的关系和“女人”与“女王”的距离和方向相同。（映射不是通过知道单词的含义来完成的，而是通过查看它们彼此靠近的频率。）

后来注意到，这些“形状”对于不同的语言是相似的。然后，在 2017 年，两组独立工作的研究人员发现了一种技术，可以通过对齐形状来实现平移。要从英语到乌尔都语，请对齐它们的形状并找到最接近英语单词点的乌尔都语词点。“这样一来你可以很好地翻译大多数单词，”拉斯金说。

ESP 的愿望是创造这种动物交流的表现形式——同时在单个物种和许多物种上工作——然后探索诸如是否与普遍的人类交流“形状”重叠等问题。Raskin 说，我们不知道动物是如何体验这个世界的，但也有一些情绪，例如悲伤和喜悦，似乎有些动物会与我们分享，并且很可能会与它们物种中的伙伴交流。“我不知道哪个更令人难以置信——形状重叠的部分，我们可以直接交流或翻译，还是那些我们不能与其的部分。”

海豚使用咔哒声、口哨声和其他声音进行交流。但他们在说什么？

他补充说，动物不仅仅通过声音交流。例如，蜜蜂通过“摇摆舞”让其他人知道一朵花的位置。也需要跨不同的沟通模式进行翻译。

目标是“就像去月球一样”，拉斯金承认，但这个想法也不是一下子就能达到。相反，ESP 的路线图涉及解决一系列小问题，以实现更大的图景。这应该会看到通用工具的发展，这些工具可以帮助研究人员尝试应用人工智能来解开所研究物种的秘密。

例如，ESP 最近发表了一篇关于动物交流中所谓的“鸡尾酒会问题”的论文（并分享了其代码），其中很难辨别一组相同动物中的哪个个体在嘈杂的社会环境中发声.

“据我们所知，以前没有人做过这种端到端的[动物声音]解缠，”拉斯金说。ESP 开发的基于 AI 的模型在海豚标志性口哨、猕猴咕咕声和蝙蝠发声上进行了试验，当呼叫来自模型训练过的个体时效果最佳；但是对于更大的数据集，它能够解开来自不在训练队列中的动物的混合呼叫。

另一个项目涉及使用人工智能产生新的动物叫声，以座头鲸作为测试物种。新颖的呼叫——通过将发声分成微音素（持续百分之一秒的不同声音单位）并使用语言模型“说出”类似鲸鱼的东西——然后可以回放给动物看它们是如何回应。Raskin 解释说，如果 AI 能够识别出随机变化与语义上有意义的变化的原因，它会让我们更接近有意义的交流。“它将让人工智能说这种语言，尽管我们还不知道它的含义。”

夏威夷乌鸦以使用工具而闻名，但也被认为有一套特别复杂的发声。

另一个项目旨在开发一种算法，该算法通过应用自我监督机器学习来确定一个物种有多少种呼叫类型，这不需要人类专家对数据进行任何标记来学习模式。在一个早期的测试案例中，它将挖掘由圣安德鲁斯大学生物学教授 Christian Rutz 领导的团队制作的录音，以制作夏威夷乌鸦的声音曲目清单——Rutz 发现了夏威夷乌鸦的声音曲目，具有制造和使用觅食工具的能力，并且被认为具有比其他乌鸦物种更复杂的发声集。

Rutz 对该项目的动物保护价值感到特别兴奋。夏威夷乌鸦极度濒临灭绝，只存在于圈养环境中，在那里它被繁殖以重新引入野外。希望通过记录不同时间的记录，可以追踪该物种的召唤曲目是否在圈养中受到侵蚀——例如，特定的警报呼叫可能已经丢失——这可能对其重新引入产生影响；这种损失可以通过干预来解决。Rutz 说：“这可能会在我们帮助这些鸟类从危机中恢复过来的能力上产生一个进步，”他补充说，手动检测和分类呼叫将是劳动密集型的，而且容易出错。

与此同时，另一个项目试图自动理解发声的功能意义。加州大学圣克鲁兹分校海洋科学教授 Ari Friedlaender 的实验室正在研究它。该实验室研究难以直接观察的野生海洋哺乳动物如何在水下活动，并运行世界上最大的标记程序之一。附着在动物身上的小型电子“生物记录”设备可以捕捉它们的位置、运动类型，甚至它们所看到的（这些设备可以包含摄像机）。该实验室还拥有来自海洋中战略性放置的录音机的数据。

ESP 旨在首先将自我监督机器学习应用于标签数据，以自动衡量动物正在做什么（例如它是否在进食、休息、旅行或社交），然后添加音频数据以查看是否可以赋予功能意义与该行为相关的呼叫。（然后可以使用回放实验来验证任何发现，以及之前已经解码的调用。）这项技术最初将应用于座头鲸数据——实验室已经在同一组中标记了几只动物，因此可以看到如何发出和接收信号。弗里德兰德说，就目前可用的工具可以从数据中梳理出的内容而言，他“达到了上限”。“我们希望 ESP 可以做的工作将提供新的见解，”他说。

但并不是每个人都对人工智能实现如此宏伟目标的力量如此狂热。Robert Seyfarth 是宾夕法尼亚大学心理学名誉教授，他在灵长类动物的自然栖息地中研究社会行为和声音交流已有 40 多年。虽然他认为机器学习可以解决一些问题，例如识别动物的声音曲目，但还有其他领域，包括发现发声的意义和功能，他怀疑这会带来很多问题。

他解释说，问题在于，虽然许多动物可以拥有复杂的社会，但它们的声音库比人类要少得多。结果是，完全相同的声音可以用于在不同的上下文中表示不同的事物，而这只能通过研究上下文——个人的呼唤是谁，他们与其他人的关系如何，他们在层次结构中的位置，他们与谁互动——其意义才有希望被确立。“我只是认为这些人工智能方法是不够的，”Seyfarth 说。“你必须出去看看动物。”

动物交流地图需要包含非声音现象，例如蜜蜂的“摇摆舞”。

对于这个概念本身——动物交流的形式将以有意义的方式与人类交流“形状”重叠——也存在疑问。Seyfarth 说，将基于计算机的分析应用于我们非常熟悉的人类语言是一回事。但对其他物种这样做可能“完全不同”。“这是一个令人兴奋的想法，但它是一个很大的延伸，”华盛顿大学的神经科学家 Kevin Coffey 说，他共同创建了 DeepSqueak 算法。

拉斯金承认，单靠人工智能可能不足以解锁与其他物种的交流。但他提到的研究表明，许多物种的交流方式“比人类想象的更复杂”。绊脚石是我们收集足够数据并进行大规模分析的能力，以及我们自己有限的认知。“这些是让我们摘下人类眼镜并了解整个物种交流系统的工具，”他说。