MIT李巨教授组发布「贾维斯助手CRESt」：实验科学家秒变钢铁侠，全自动化实验+主动学习-51CTO.COM

人工智能以及自主实验目前主要由Python等语言编写，但并非所有实验科学工作者都擅长这类编程语言，在真实世界实验中的影响力还是比较有限。

不过，基于OpenAI 最近发布的ChatGPT API函数调用功能[1]，现有的技术已经足够支撑打造一个曾经只能在钢铁侠电影中看到的贾维斯智能助手。

图片

近日，MIT李巨教授组开发了一个实验科学家的人工智能助手CRESt（Copilot for Real-world Experimental Scientist），其后端是用ChatGPT作为核心串联起：

1. 真实世界的机械臂进行自动化实验

2. 本地或网上专业的材料数据库

3. 优化材料配方的主动学习算法

视频地址：https://youtu.be/POPPVtGueb0

目前CRESt的前端已经实现了voice-in voice-out，AI生成语音，以及多平台无缝切换。

有了CRESt之后，即使没有任何代码经验，科研工作者都能通过与其口头对话来利用自动化实验平台帮自己做实验。

图片

论文链接：https://doi.org/10.26434/chemrxiv-2023-tnz1x

项目介绍

「CRESt 操作系统」主要由四部分组成：用户界面，ChatGPT后端，主动学习和末端执行器。

其中用户界面基于一个支持语音转文本和文本转语音交互的Github项目chatgpt-voice[2]。其便捷的网络框架使得用户可以在离开实验室后在他们的手机上无缝地继续对话。

并且后端是独立运行的，即使前端改变也不会受到影响。

此外，作者还将可以实时生成非常逼真的人声的ElevenLabs AI语音集成到了前端中[3]

从前端收到的文本消息随后将被传输到建立在CallingGPT基础之上的ChatGPT后端。

CallingGPT是另一个Github项目，其能将Google docstring样式记录的Python函数转换成ChatGPT API可以识别的JSON格式，以供在ChatGPT认为需要时调用。

此外，它在ChatGPT和本地Python函数库之间闭合了一个反馈回路：ChatGPT所建议调用的函数将立即在本地执行，并且其返回值将被发送回ChatGPT。

除此之外，作者还在CRESt中嵌入了主动学习算法，得益于在小数据集上不错的性能，主动学习被认为是最适合实验科学的机器学习算法之一[5-7]。

在涉及真实物理世界实验的机器学习项目中，数据采集往往是最大的挑战。

与虚拟世界不同，真实物理世界中的每一个数据点可能都需要花费大量的时间和金钱。

一般来说，1000个点的数据集就已经是相当不错的了，在这样的条件下，如何对设计空间进行高效取样变得至关重要。

主动学习的主要功能是交互式地建议在下一批实验中测试的参数组合，比如在视频中展示的合金配方推荐。

在CRESt中内嵌的是由Meta团队开发的基于BoTorch的Ax平台[8, 9]，Ax有着优秀的SQL存储功能：即使GPT后端重置，也可以通过调取数据库中存储的记录来继续之前的主动学习。

末端执行器是一系列通过HTTP请求调用的子程序。其中一些可能涉及信息检索任务（本地或公共数据库查询，如Materials Project[10]），而其他一些可能会对物理世界产生真实的影响，就像在视频中展示的那样（液体处理机器人、激光切割机、泵、气阀、机械臂等），主要是用于做实验的一些自动化的硬件。

这些设备的自动化主要由PyAutoGUI实现，一个可以模拟人类鼠标和键盘动作的Python库[11]。

然而，作者预期这个冗余步骤最终将失去其必要性，因为在不久的将来大多数实验室设备都应该会在人类交互界面之外提供一个专用的AI通信接口。

展望

大语言模型可以为科学和工程领域带来什么？

这是作者团队自ChatGPT问世以来一直在思考的问题。毫无疑问，大语言模型已经展示了其作为文献整理员的超凡潜力，我们需要做的只是在预训练过程中向其提供更多的文献全文。

除此之外还有哪些可能性呢？除了我们以CRESt形式开发的实验员助手的角色，我们设想大语言模型至少还会在以下三个维度发挥革命性的作用：

仪器技术指导员

目前，研究人员必须理解他们希望利用的任何技术的理论基础，以及个别仪器的具体操作（有时是基于经验的“技巧”、“手艺”），而这些操作可能会因制造商而异。

后者往往意味着不可忽视的时间成本，例如一个公共仪器的一系列培训课程，或者阅读一个组内仪器的200页说明书，以及上百小时的实操练习。

但我们冷静下来思考一下，这些步骤真的是必要的吗？

我们预见，在不久的将来，研究人员只需要清楚地用自然语言表达他们的需求，大语言模型就能够将这些需求翻译成最佳的参数设置（其实这就是现在一些仪器专家正在做的事情，了解客户的需求，并转化成仪器参数设定/操作）。

当必要时，大语言模型也可以将说明书中的对应部分提供给用户以便用户了解详情。

从技术上来说，仪器制造商只需要适当地微调一个大语言基础模型，让其学习公司内高级技术员所掌握的仪器操作经验即可，这件事从今天就能开始做。

流水线诊断师

结合了多传感器的机器人或无人机后，大语言模型可以帮助确定实验可重复性不佳的根本原因。

在未来，最理想的实验范式是记录每个样品整个生命周期中的所有元数据。当出现无法解释的现象时，所有相关的日志数据都将被输入到多模态大语言模型进行分析。

利用其优秀的假说生成能力，大语言模型可以提出一系列潜在的原因，以供人类专家进一步调查他们认为最有可能的几个假说。

这种方法也可以应用于工业流水线——如果注意到生产产量/良品率大幅下降，大语言模型可以通过对比流水线历史记录来识别「罪魁祸首」。

只有需要复杂的现实世界操作时，人类工程师才需要介入，除此以外大语言模型可以直接对大概率出了问题的子环节进行参数微调。

实现这个角色的前提条件是大语言模型可以处理大量的图像（视频），且其性能取决于多模态信息（样品元数据，视觉信息，声音信息等）的对齐程度。

机理猜想者

我们预期大语言模型十分擅长将已建立的科学原理用于解释新的实验现象。科学机理探索阶段的很大一部分工作都是模式匹配型工作（例如，从光谱中提取微小的特征并与标准数据库进行比较），这些都在大语言模型的能力范围内。

在不久的将来，这个工作流将会变的非常简单直接，我们只需要问大语言模型：我们制备并测试了一个样品，它的成分是xxx，处理工艺和参数是xxx，其性能是xxx。

这是所有的表征结果（扫描电子显微镜，X射线衍射等），请给出10个理由详细表述为什么这个样品的性能这么好。

人类研究者可以从大语言模型生成的一系列叙述中筛选出最合理的解释，并以此为基础完善整个机理解释。

然而，这个任务是所有我们预想的大语言模型的角色中最具有挑战性的，其实现的前提条件包括：

1. 图像输入和与科学术语的对齐，

2. 从专业物理科学数据库中检索特定信息的能力，

3. 大语言模型在科学期刊正文和附录的预训练，

4. 大语言模型有能力调用一系列前沿的子领域的机器学习模型或是仿真模型。

总结

CRESt只是大语言模型协助科学家的一个起点，我们相信大语言模型的真正潜力在于其假说生成能力[12]。

人类拥有相对有限的知识库，但出色的因果推理能力使得我们能够给出虽然数量不多但一针见血的假说。

相比之下，人工智能有着广泛的知识库以及从大数据中提取统计信息的能力[13]，因此它们可以在短时间内生成大量的，没那么精准的假说。

因此，这不是一个人工智能与人类竞争的故事，而是人工智能补足人类短板的故事。

在「AI suggests, humans select」的合作模式下，双方都能发挥出各自的优势，「各尽其才」。