Bengio团队Nature发文：四个维度讲AI for Science，还讨论了AI跨界核心挑战-51CTO.COM

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

最近，Yoshua Bengio带领团队展示了一场人工智能十年跨界秀。

从数据收集到模型构建，从实验设计到过程控制，AI跨界正在改变科学研究方式，成为科学发现引擎。

尽管科学实践因科学研究阶段而异，但AI的发展跨越了传统上孤立的学科。

例如在粒子物理实验中，每秒产生的海量数据难以处理和存储，AI模型可以通过异常检测算法在实时流中找出罕见事件，大大减少存储压力。

在生物信息学领域，AI可以给海量未标注的基因序列赋予功能注释，帮助后续模型的训练。

AI正赋能众多科学领域的研究发现，融入科学发现的假设形成、实验设计、数据收集和分析各个阶段。

在“Scientific discovery in the age of artificial intelligence”这篇Yoshua Bengio领队的论文中，研究人员详解了自监督学习、几何深度学习、生成式人工智能等技术在科学研究中的应用，并提出了目前AI跨界仍存在的核心问题，目前该论文已刊于Nature综述文章。

来看大佬如何总结AI for Science。

十年科学发现中AI的身影

在这篇论文中，研究人员从AI辅助的科学研究数据收集和整理、学习有意义的科学数据表示、使用AI生成科学假说、AI驱动的实验和模拟几个方面讲述了近年来AI在科学研究中的应用。

AI辅助的科学研究数据收集和整理

科学发现和理论的形成基于数据的收集、转化和理解，过去十年AI在数据的选择、标注、生成、精化等方面得到了广泛应用。

在数据选择（Data selection）方面，随着科学实验中收集的数据集规模和复杂性不断增加，科学研究越来越依赖实时处理和高性能计算来选择性地存储和分析数据。

一个典型案例就是粒子碰撞实验，每秒将生成超100TB的数据，这给数据传输和存储带来巨大挑战。

在这类物理实验中，超过99.99%的原始数据都属于背景事件，需要实时检测并丢弃。

为了识别用于科学研究的罕见事件，深度学习方法取代了预编程的硬件事件触发器，而是使用算法搜索异常信号，并检测出可能被忽略的罕见现象。

这种无监督方法不需要标注样本，已被广泛应用在物理、神经科学、地球科学等领域。

在数据标注（Data annotation）方面，训练监督学习模型需要大量标注过的数据集来提供监督信息，但是科研数据的标注工作非常耗时耗力。

AI的加入提供了用半监督学习方法自动标注大规模无标注数据集的选择:

(1) 伪标记(Pseudo-labelling)：使用预训练模型为无标注样本生成伪标签，然后用这些伪标签来训练后续预测模型。

(2) 标签传播(Label propagation)：基于特征嵌入构建样本相似图，然后将已有标签扩散到无标注样本上。

(3) 主动学习(Active learning)：识别人类标注的最有信息量的数据点，或者确定要执行的最有信息量的实验。

在数据生成（Data generation）方面，提高训练数据的质量、多样性和规模可以改善深度学习的性能。

文中提到了两种主要的合成数据增强方法:

(1) 自动数据增强：手动设计或用增强学习方法发现自动数据增强策略。

(2) 深度生成模型：可以学习底层数据分布，然后从优化的分布中采样新的训练点。

生成对抗网络(GAN)已被证明对科研图像合成有益，可以合成各领域的逼真图像。

此外，概率编程，用计算机程序表达数据生成模型，是一种新兴的可编程生成建模方法。

目前，生成数据已被广泛应用于粒子物理、病理切片、X光、MRI、材料微结构、蛋白功能等领域。

在数据精化（Data refinements）方面，超高分辨率激光器等高精度仪器可以直接或间接测量真实世界对象，产生高度准确的数据。

使用AI技术可以显著提高测量分辨率，减少噪声、消除误差。

例如，深度卷积网络可以将质量较差的时空分辨率低的数据转换为高质量、超分辨率和结构化的图像。

去噪自编码器可以将高维输入数据投影到更紧凑的基本特征表示中，变分自编码器（VAE）通过潜在自编码学习随机表示，保留了基本数据特征，同时忽略了非基本的变化因素。

在科学实验中应用的例子包括可视化时空区域，如黑洞、捕捉物理粒子碰撞、提高活细胞图像的分辨率等。

学习有意义的科学数据表示

深度学习能够在不同抽象层次上提取科学数据的有意义表示，并通过端到端学习来优化这些表示用于指导研究。

优质的表示应简洁并保留尽可能多的信息。科学上有意义的表示应具有紧凑性、可区分性、可解耦性以及对下游任务的泛化能力。

研究人员介绍了三种满足这些要求的新兴策略：几何先验、自监督学习和语言建模。

1、几何先验

几何先验的应用能够有效地捕捉数据的几何和结构特征，这在科学领域尤为重要。

对称性是其中的一个关键概念，可以用不变性和等变性来描述，用于表示数学函数在一组变换下的行为规律。

比如一些重要的结构属性，像分子系统的二级结构、溶剂可及性、残基紧凑性和氢键模式等，在空间方向上是不变的。

在科学图像分析中，对象在图像中平移时不会改变，这意味着图像分割掩码是平移等变的，因为它们在平移输入像素时等效地变化。

通过将对称性等因素纳入模型中，可以改善在少标注数据集下的AI应用。通过增加训练样本，可以改进对于与模型训练过程中遇到的输入显著不同的外推预测。

图神经网络已成为在具有底层几何和关系结构的数据集上进行深度学习的主要方法之一。

几何深度学习显式利用局部化的图信息或变换群信息，通过神经消息传递算法学习关系模式。

2、自监督学习

在标注数据不足时，仅依赖监督学习是不够的，利用无标注数据可以提高模型性能和学习能力。

自监督学习使用无标注数据来学习一般特征，主要策略包括:

预测图像的遮挡区域
预测视频的前后帧
对比学习使模型区分相似和不相似数据点

自监督学习可以预训练模型抓取大规模无标注数据的特征，然后在小规模标注数据上微调。

3、语言建模

语言建模是一种流行的自监督学习方法，可以用于学习自然语言和生物序列的特征。

在训练过程中，主要目标是预测序列中的下一个token，而在基于掩码的训练中，自监督任务是使用双向序列上下文来恢复序列中的掩码token。

原子或氨基酸的排列类似于字母组成单词和句子，用于定义分子和生物功能的结构。蛋白质语言模型可以编码氨基酸序列以捕捉其结构和功能特性，并评估变异的进化适应性。

这些表示方法可以在各种任务中传递应用，包括序列设计和结构预测。在处理生物化学序列时，化学语言模型能够有效地探索广阔的化学空间，用于预测性质、计划合成过程以及探索化学反应的可能性。

说到这里，就不得不提Transformer架构，它能够通过灵活地建模任意token对之间的交互，从而处理token序列，超越了使用循环神经网络进行序列建模的早期尝试。

在自然语言处理领域，Transformer已占据主导地位，并成功应用于地震信号检测、DNA 和蛋白质序列建模、模拟序列变异对生物功能的影响、符号回归等系列问题。

使用AI生成科学假说

可检验的假设是科学发现的核心，它们可以来源于数学中的符号表达式、化学中的分子、生物学中的基因变异……

但提出这样一种有意义的假设可能需要漫长的时间，正如Johannes Kepler，花费了四年时间分析恒星和行星数据，才得出了一个能发现行星运动定律的假设。

AI可以用以下几种方式帮助提出科学假说:

(1) 黑箱预测器：高通量快速筛选候选假说，选择有价值的进行后续验证。

(2) 导航组合假说空间：使用强化学习评估每次搜索的回报，聚焦在最有前景的假说要素上。

(3) 优化可微假说空间：将离散假说空间映射到连续可微空间进行优化。

这些AI方法为科学假说的生成、评价和选择提供了强有力的新工具。

AI驱动的实验和模拟

通过实验评估科学假设对于科学发现至关重要，但实验成本高昂。

AI技术可以优化实验的参数设置、步骤设计等，减少不必要的试验，提高资源利用效率。

强化学习可以根据实时反馈动态调整实验方向，最大化实验成功率和安全性。

计算模拟可以探索实际难以实现的情况，补充实验。但是依赖于人为设置的简化参数和启发式方法，精度和效率存在局限。

然而，随着深度学习的出现，通过识别和优化假设进行有效测试，以及使计算机模拟能够将观察结果与假设联系起来，这些问题正被解决。

这些AI驱动的实验优化和计算模拟方法，已经在量子物理、化学合成、聚变反应堆控制等领域展现出价值。

AI跨界面临重大挑战

值得一提的是，文中还讨论了AI在科学发现中面临的挑战。

人工智能系统可以成为科学家发现新知识的重要助手，但也存在潜在的安全隐患。

例如，科学数据存在不完整、偏差等问题，需要规范化；还需要考虑数据的可访问性、隐私等。模型和数据的标准化也很必要。

其次，分布偏移是一个核心问题，需要增强模型的泛化能力。处理多模态科学数据仍有挑战，如何系统地整合科学知识和原理也需要进一步探索，增强模型的解释性和可信度亦很重要。

此外，AI专业人才短缺和计算资源需求巨大，需要产学界进一步合作，科学家需要掌握AI的适用性，还需建立伦理审查流程。

研究人员认为：

AI工具的错误应用和对其结果的错误解读可能会产生重大的负面影响。广泛的应用范围使这些风险变得更加复杂。

然而，人工智能的滥用不仅仅是一个技术问题，还取决于领导人工智能创新和投资人工智能实施的动机。建立道德审查流程和负责任的实施策略至关重要，包括对人工智能的范围和适用性进行全面审查。

团队介绍

除了Yoshua Bengio带队外，三位华人一作也格外引人注目，他们分别是：

Hanchen Wang

斯坦福大学CS和Genentech联合博士后研究员，剑桥大学ML博士学位。

Tianfan Fu

伊利诺伊大学香槟分校计算机科学系博士后研究员，佐治亚理工学院计算科学与工程系博士学位。

Yuanqi Du

康奈尔大学计算机科学博士研究生，2021年获乔治梅森大学计算机科学学士学位。

传送门：https://www.nature.com/articles/s41586-023-06221-2（论文链接）