AI科学家:大模型全自动化撰写科研论文 原创
摘要
人工通用智能的一个重大挑战是开发能够进行科学研究和发现新知识的智能体。虽然当前的前沿模型已经用于辅助人类科学家,如头脑风暴、编写代码或预测任务,但它们仍然只完成了科学过程的一小部分。本论文提出了第一个用于完全自动化科学发现的综合框架,使前沿大型语言模型(LLMs)能够独立进行研究并传达其发现。我们介绍了AI科学家,它能够生成新颖的研究想法,编写代码,执行实验,展示结果,通过撰写完整的科学论文来描述其发现,并随后进行模拟的审稿过程进行评估。原则上,这一过程可以反复进行,以开放的方式迭代发展思想,并将其添加到一个不断增长的知识档案中,像人类科学界一样运作。我们通过将这一方法应用于机器学习的三个不同子领域:扩散建模、基于Transformer的语言建模和学习动态,展示了其多功能性。每个想法都得以实现并发展为一篇完整的论文,其成本低至每篇不到15美元,展示了该框架在民主化研究和显著加速科学进步方面的潜力。为了评估生成的论文,我们设计并验证了一种自动化审稿人,我们展示了其在评估论文得分时达到近乎人类的性能。AI科学家可以生成超过顶级机器学习会议接受标准的论文,这标志着机器学习科学发现新时代的开始,将AI代理的变革性优势带入AI本身的整个研究过程中,使我们更接近于一个在世界上最具挑战性的问题上释放无尽的创造力和创新的世界。我们的代码已在https://github.com/SakanaAI/AI-Scientist开源。
1、引言
现代科学方法(Chalmers, 2013;Dewey, 1910;Jevons, 1877)可以说是启蒙运动的最大成就之一。传统上,一名人类研究者会收集背景知识,提出一组可能的假设以供测试,设计评估程序,收集不同假设的证据,最后评估并传达他们的发现。之后,产生的手稿会经过同行评审,并经过随后的几轮修订。这个过程已经导致了无数的科学技术突破,极大地改善了人类的生活质量。然而,这一迭代过程本质上受到人类研究者创造力、背景知识和有限时间的限制。在人工智能领域,研究者们设想通过使用人工智能来自动化AI研究的可能性(Schmidhuber, 1991, 2010a, b, 2012),这引发了“AI生成算法”的概念(Clune, 2019)。最近,基础模型在其通用能力方面取得了巨大的进步(Anthropic, 2024;Google DeepMind Gemini Team, 2023;Llama Team, 2024;OpenAI, 2023),但它们目前仅在加速研究流程的部分环节中展示了潜力,例如撰写科学手稿(Altmäe et al., 2023)、作为头脑风暴的灵感来源(Girotra et al., 2023),或作为编程助手(Gauthier, 2024)。迄今为止,社区尚未展示在没有人类参与的情况下执行整个研究任务的可能性。
传统的研究项目自动化方法迄今为止依赖于严格限制潜在发现的搜索空间,这大大限制了探索的范围,并需要大量的人类专业知识和设计。例如,材料发现(Merchant et al., 2023;Pyzer-Knapp et al., 2022)和合成生物学(Hayes et al., 2024;Jumper et al., 2021)领域取得了显著进展,探索被限制在预定义参数的已充分表征领域内,这种方法允许有针对性的进展,但限制了更广泛、开放式的发现,并且只涵盖了科学过程的某些子集,而未包括诸如手稿准备等任务。在机器学习领域,研究自动化主要限于超参数和架构搜索(He et al., 2021;Hutter et al., 2019;Lu et al., 2022b;Wan et al., 2021, 2022)或算法发现(Alet et al., 2020;Chen et al., 2024b;Kirsch et al., 2019;Lange et al., 2023a, b;Lu et al., 2022a;Metz et al., 2022)内的手工制作搜索空间。最近在大语言模型(LLMs)方面的进展表明有可能扩展搜索空间到更广泛的代码级别解决方案(Faldor et al., 2024;Lehman et al., 2022;Lu et al., 2024a;Ma et al., 2023)。然而,这些方法仍然受到严格定义的搜索空间和目标的限制,限制了可能发现的广度和深度。
在本文中,我们介绍了AI科学家,这是第一个用于端到端论文生成的完全自动化和可扩展的管道,由基础模型的最新进展提供支持。在给定广泛的研究方向和一个简单的初始代码库的情况下,AI科学家可以无缝地执行想法生成、文献搜索、实验规划、实验迭代、手稿写作和同行评审,从而产生具有洞察力的论文。此外,AI科学家可以在一个开放式循环中运行,基于其之前的科学发现改进下一代想法。这使我们能够以令人惊讶的低成本(大约15美元/篇)加速科学迭代的缓慢过程,并且这代表了一步迈向将世界上日益增长的计算资源转化为21世纪核心挑战所需的科学突破的愿景。我们主要聚焦于机器学习(ML)应用,但这一方法可以更广泛地应用于几乎任何其他学科,如生物学或物理学,前提是存在一种自动执行实验的方式(Arnold, 2022;Kehoe et al., 2015;Zucchelli et al., 2021)。
通过利用现代LLM框架,如链式思考(Wei et al., 2022)和自我反思(Shinn et al., 2024)来改善决策,AI科学家能够生成自己的科学想法和假设,并为测试它们制定计划。接下来,AI科学家在最先进的编码助手Aider(Gauthier, 2024)的指导下,实施计划并执行实验以收集一组计算结果,这些结果随后被用来撰写科学论文。AI科学家随后会根据标准机器学习会议的指南进行自动化的论文审查。最后,AI科学家将完成的想法和审稿人反馈添加到其科学发现档案中,并重复这一过程。至关重要的是,AI科学家生成的论文和实验成果使我们能够事后轻松解释和评估其发现,从而使人类科学家也能从中受益。
图1 | 《AI科学家》的概念图,这是一个由LLM驱动的端到端科学发现过程。《AI科学家》首先创造并评估一组想法的新颖性。接着,它确定如何测试这些假设,包括通过编辑代码库来编写必要的代码,这些代码库由自动代码生成的最新进展提供支持。随后,实验被自动执行,收集一组包括数值分数和视觉总结(如图表或表格)的结果。结果将被动机分析、解释并汇总在一份LaTeX报告中。最后,《AI科学家》根据标准机器学习会议的当前实践生成自动化审查。审查结果可以用来改进项目,或作为未来开放式科学发现的反馈。
我们的贡献总结如下:
1. 我们引入了第一个用于机器学习研究的端到端完全自动化科学发现框架,由前沿的LLMs提供支持。这个完全自动化的过程包括想法生成、实验设计、执行、结果可视化以及将其写成完整的手稿。
2. 为了评估生成论文的质量,我们在第4部分中引入了基于基础模型的审稿流程。当在ICLR 2022的OpenReview数据上进行评估时,我们的审稿流程在多项评价指标上(如平衡准确率为65%对66%)实现了近乎人类水平的表现。审稿进一步使得AI科学家能够选择“发表”的最佳想法,并通过重复这一过程,在人类科学界的模式下不断积累新的科学发现。
3. AI科学家可以在一周内生成数百篇有趣的中等质量的论文。在本报告中,我们重点展示了扩散建模、语言建模和grokking中的一些新颖见解。我们在第5部分对一篇选定的论文进行了深入的案例研究,并在第6部分展示了汇总结果。
4.我们在第8和第9部分中对我们的方法的局限性、伦理考虑和未来展望进行了广泛讨论。
2、背景
大语言模型(LLMs)
在本文中,我们使用自回归大语言模型(LLMs,如Anthropic,2023年;Google DeepMind Gemini团队,2023年;Llama团队,2024年;OpenAI,2023年;Zhu等人,2024年)构建了一个自动化科学家。这些模型通过对给定前序词元的条件概率进行建模并在测试时进行采样来生成文本补全。结合庞大的数据和模型扩展,这使得LLMs不仅能够生成连贯的文本,还能够表现出类似人类的能力,包括常识知识(Talmor等,2019年)、推理(Wei等,2022年)和编写代码的能力(Chen等,2021年;Xu等,2022年)。
LLM代理框架
LLMs的典型应用通常涉及将模型嵌入到“代理”(Wang等,2024年)框架中,包括以下几种可能性:结构化语言查询(如少量示例提示(Brown等,2020年))、鼓励推理过程(如链式思考(Wei等,2022年))或要求模型迭代地完善其输出(如自我反思(Shinn等,2024年))。这些方法利用了语言模型在上下文中的学习能力(Olsson等,2022年),可以显著提高其在许多任务中的性能、稳健性和可靠性。
3. AI科学家
概述
AI科学家主要包括三个阶段(见图1):(1)想法生成,(2)实验迭代,和(3)论文写作。在写作完成后,我们引入并验证了一个LLM生成的审稿流程,用于评估生成的论文质量(第4部分)。我们为AI科学家提供了一个起始代码模板,该模板可重现一个来自流行模型或基准的轻量级基线训练运行。例如,这可能是训练一个小型transformer在莎士比亚作品上的代码,这是自然语言处理中的经典概念验证训练运行,可以在几分钟内完成。AI科学家随后可以自由探索任何可能的研究方向。模板还包括一个LaTeX文件夹,其中包含样式文件和章节标题,以及简单的绘图代码。我们在第6部分中进一步详细说明了这些模板,但一般来说,每次运行都从与主题领域相关的小规模代表性实验开始。重点放在小规模实验并不是我们方法的根本限制,而仅仅是由于计算效率和我们的计算资源限制。我们在附录A中提供了所有阶段的提示。
1. 想法生成
在提供的起始模板下,AI科学家首先“头脑风暴”一系列新颖的研究方向。我们从进化计算和开放式研究中获得灵感(Brant和Stanley,2017年;Lehman等,2008年;Stanley,2019年;Stanley等,2017年),并使用LLMs作为变异操作符(Faldor等,2024年;Lehman等,2022年;Lu等,2024年b;Zhang等,2024年)迭代增长一个想法档案。每个想法包括一个描述、实验执行计划以及对有趣性、新颖性和可行性的自我评估分数。在每次迭代中,我们会提示语言模型基于现有档案生成一个有趣的新研究方向,其中可以包括已完成的想法的数值评审分数。我们使用多轮链式思考(Wei等,2022年)和自我反思(Shinn等,2024年)来改进和发展每个想法。在想法生成之后,我们通过连接语言模型与Semantic Scholar API(Fricke,2018年)和网络访问工具(Schick等,2024年)来过滤想法。这使得AI科学家能够丢弃与现有文献过于相似的想法。
2. 实验迭代
在给定一个想法和模板后,AI科学家的第二阶段首先执行提议的实验,然后可视化其结果以便后续写作。AI科学家使用Aider首先规划一系列要运行的实验,然后按顺序执行它们。我们通过在失败或超时(如实验运行时间过长)时返回任何错误给Aider修复代码并重新尝试多达四次来使这一过程更加稳健。在每次实验完成后,Aider会记录结果并以实验日记的形式记录笔记。目前,它仅基于文本进行操作,但在未来版本中,这可以包括数据可视化或任何模式。根据结果,它随后重新计划并实施下一个实验。这个过程最多重复五次。在实验完成后,Aider会被提示编辑一个绘图脚本,使用Python创建论文的图形。AI科学家会写下每个图表的内容描述,使得保存的图形和实验笔记提供了撰写论文所需的所有信息。在所有步骤中,Aider都会查看其执行历史。
3. 论文写作
AI科学家的第三阶段以标准机器学习会议论文的形式生成一份简洁且信息丰富的进展报告,采用LaTeX格式。我们注意到,编写好的LaTeX即使对于有经验的研究人员来说也需要一些时间,因此我们采取了若干步骤来使这一过程更加稳健。具体包括以下内容:
(a) 分章节文本生成:记录的笔记和图表会被传递给Aider,Aider会逐章填充一个空白的会议模板。按照引言、背景、方法、实验设置、结果和结论的顺序(除相关工作外所有章节)。论文之前写的所有章节都在语言模型的上下文中。我们根据流行的“如何撰写ML论文”指南在附录A.3中提供了简要提示和指南。在写作的每一步,Aider都会被提示仅使用真实实验结果(以笔记和图表形式生成),并减少幻觉现象。每个章节在最初写作时都会经过一轮自我反思(Shinn等,2024年)。在此阶段不包括引用,并为相关工作部分仅填充一个框架,将在下一个阶段完成。
(b) 网络搜索参考文献:类似于想法生成,AI科学家被允许进行20轮Semantic Scholar API轮询,以寻找最相关的文献,比较和对比已完成的论文,以填写相关工作部分。这一过程还允许AI科学家选择任何希望讨论的论文,并补充其他章节中缺失的引用。每篇选定论文都会生成简短的描述,说明引用的位置和方式,然后传递给Aider。论文的bibtex会自动附加到LaTeX文件中,以保证正确性。
(c) 精炼:在前两个阶段之后,AI科学家已经完成了初稿,但可能会显得过于冗长和重复。为了解决这一问题,我们进行了一轮逐章节的最终自我反思,旨在消除任何重复信息,并简化论文的论点。
(d) 编译:一旦LaTeX模板被填充了所有适当的结果,就会将其输入到LaTeX编译器中。我们使用LaTeX校验器,并将编译错误反馈给Aider,以便其自动修正任何问题。
以下是文档中第4部分“自动化论文审稿”的翻译:
4、 自动化论文审稿
基于LLM的审稿代理
一个有效的科学社区的关键组成部分是其审稿系统,该系统用于评估和提高科学论文的质量。为了利用大语言模型模拟这样的过程,我们设计了一个基于GPT-4o(OpenAI, 2023)的代理来根据Neural Information Processing Systems (NeurIPS)会议的审稿指南进行论文审查。审稿代理使用PyMuPDF解析库处理PDF手稿的原始文本。输出内容包括数值评分(健全性、表达、贡献、整体评分、置信度)、优缺点列表以及初步的二元决策(接受或拒绝)。然后,可以通过基于评分的门限调整对这些决策进行后校准。我们利用这一自动化审稿过程来获得AI科学家生成的论文的初步评估。我们在附录A.4中提供了整个审稿提示模板。
评估自动化审稿人
为了评估基于LLM的审稿人的表现,我们将人工生成的决策与从公开可用的OpenReview数据集中提取的500篇ICLR 2022论文的真实数据进行比较。与前一节类似,我们结合了LLM代理中的许多最新进展,以使决策过程更加稳健。更具体地说,我们通过利用自我反思(Shinn等, 2024)、提供少量示例(Wei等, 2022)和响应集成(Wang等, 2022)来改进基础LLM的决策过程。通过使用GPT-4o,在结合了5轮自我反思、5次集成审查以及来自ICLR 2022审查指南的1个示例后,AI科学家的审稿程序达到了70%的准确率。之后,我们执行了一个基于LLM的元审查,它提示代理充当领域主席(Wang等, 2022)(完整提示见附录A.4)。虽然这个数字低于NeurIPS 2021一致性实验中报告的73%的人工准确率(Beygelzimer等, 2021),但自动化审稿人在决策门限设置为6分(NeurIPS审稿指南中的“弱接受”)时实现了超越人类的F1分数(0.57对0.49)和人类水平的AUC(两者均为0.65)。这一选择大致对应于被接受论文的平均分数。
考虑到ICLR 2022论文数据集非常不平衡,即它包含更多被拒稿的论文。当考虑一个平衡的数据集时,AI科学家的审稿过程实现了与人类相当的准确率(0.65%对0.66%)。此外,假阴性率(FNR)明显低于人类基线(0.39对0.52)。因此,基于LLM的审稿代理拒绝的高质量论文较少。然而,假阳性率(FPR)较高(0.31对0.17),这突显了未来改进的空间。
为了进一步验证自动化审稿人的表现,我们比较了每篇论文在随机抽取的OpenReview审稿人之间的总体评分一致性(图2,左下角)以及在所有审稿人和LLM评分之间的平均一致性(图2,中下角)。对于500篇ICLR 2022论文的集合,我们发现两位人类审稿人评分之间的相关性较小(0.14),而LLM评分与审稿人平均分之间的相关性较高(0.18)。总体而言,跨所有指标,结果表明基于LLM的审稿不仅可以提供有价值的反馈(Zheng等, 2024),而且比个体人类审稿人之间的一致性更接近平均人类审稿人的评分。
每次审查的API费用约为0.25到0.50美元。我们还比较了各种其他基础模型的审稿表现。虽然Claude Sonnet 3.5(Anthropic, 2024)和GPT-4o-mini提供了更具成本效益的方法,但它们的表现明显更差。
每次审查的API成本约为0.25至0.50美元。我们还比较了其他基础模型的审稿性能。虽然Claude Sonnet 3.5(Anthropic, 2024)和GPT-4o-mini提供了一种更具成本效益的方法,但它们的表现显著较差(见表1)。此外,由于持续存在的过度乐观偏差,我们不得不将Sonnet 3.5的评分门槛设定为8,以获得校准后的结果。Llama 3.1 405B(Llama团队,2024年)在一致地遵循审稿人输出模板方面存在困难。我们开源了我们的代码,为社区提供了一个新的有趣的LLM基准。
表1 | 《AI科学家》的自动化LLM审查系统在500篇ICLR 2022论文上的表现。我们展示了均值和95%的自助法置信区间,并重点比较了人类基线与我们最优AI审查员之间的差异。
LLM审稿人消融实验。
我们比较了GPT-4o的各种提示配置,发现自我反思(+2%)和一次性提示(+2%)在提高审稿准确性方面有显著帮助(见图2,上方和右下方)。另一方面,使用审稿集成并未显著提高审稿人的性能,但可以减少方差。在接下来的部分中,我们使用了整体表现最佳的审稿人:结合5轮自我反思、5次集成审稿、一次元审查步骤以及一个少量示例的GPT-4o。
以下是第五部分“5. In-Depth Case Study”的完整翻译,图片和表格中的文本未翻译:
5、深入案例研究
在我们展示AI科学家生成论文的大量实验和指标之前(见第6部分),我们首先展示一个AI科学家运行的代表性样本,展示其优势和不足,然后进行更广泛的讨论。所选论文《自适应双尺度去噪》生成于AI科学家被要求进行扩散建模研究的一个运行中,该研究在第6.1节中有详细描述。基础模型是Claude Sonnet 3.5(Anthropic, 2024年)。
生成的想法
如第3部分所述,AI科学家首先根据提供的模板和之前的发现档案生成一个想法。在选定的论文中,这个想法是在算法的第六次迭代中提出的,旨在通过在标准去噪网络中提出两个分支来改进扩散模型捕捉全局结构和局部细节的能力。这是一个动机明确的方向,也是研究人员采用扩散模型而非早期生成模型(如VAEs和GANs)的主要原因。根据我们所知,这一方向尚未被广泛研究。
我们强调,AI科学家生成了一个令人印象深刻的实验计划,其中包括所提议的代码修改、基线比较、评估指标以及额外图表的设计。正如文献中观察到的那样,LLM的判断往往存在偏见(Zheng等, 2024年),我们可以在对想法的有趣性、可行性或新颖性的高估中看到这种现象。最后的“novel”标志表明,AI科学家在使用Semantic Scholar API搜索相关论文后认为这个想法是新颖的。
(注释:
概念 - adaptive_dual_scale_denoising
名称: "adaptive_dual_scale_denoising"
标题: "动态特征平衡的自适应双尺度去噪在低维扩散模型中的应用"
实验: 修改MLPDenoiser以实现双尺度处理方法,采用两个并行分支:一个用于原始输入的全局分支,另一个用于上采样输入的局部分支。引入一个可学习的、与时间步相关的加权因子,以动态平衡全局和局部分支的贡献。用原始架构和新架构在所有数据集上训练模型。通过KL散度和生成样本的视觉检查来比较性能。分析加权因子在去噪过程中的演变,以及它在不同数据集和时间步中对捕捉全局结构与局部细节的影响。
趣味性: 9
可行性: 8
新颖性: 8
新颖: true)
生成的实验
我们展示了生成的代码差异(删除部分用红色标出,新增部分用绿色标出),这些代码对应于算法的显著变更。代码与实验描述相符,并且注释详尽。AI科学家能够在循环中根据中间实验的结果对代码进行迭代,最终为自适应权重网络选择了有趣的设计选择,如LeakyReLU。重要的是,这个网络的输出行为良好,确保输出在0到1之间。此外,AI科学家还更改了网络的输出,使其返回自适应权重,以便进行新的可视化。
生成的论文
AI科学家生成了一篇11页的科学手稿,格式与标准机器学习会议提交的论文一致,包含可视化和所有标准章节。我们展示了完全由AI生成的论文的预览,完整版本可以在附录D.1中查看。
我们特别强调了几项令人印象深刻的内容:
- 算法的精确数学描述:代码中的算法变更被精确描述,并在必要时引入了新的符号,使用LaTeX数学包。整体训练过程也得到了精确描述。
- 实验的全面撰写:论文中列出了超参数、基线和数据集。作为一个基本的正确性检查,我们验证了生成论文中表1的主要数值结果与实验日志完全一致。值得注意的是,尽管记录的数字是长浮点数,AI科学家还是准确地将它们四舍五入为三位小数。更为可喜的是,结果被准确地与基线进行比较(例如在恐龙数据集上KL减少了12.8%)。
- 良好的实证结果:从质量上看,样本质量较基线有显著提高,少数点大大偏离实际分布。从量化结果看,真实和估计分布之间的近似KL散度有所改进。
- 新的可视化:尽管我们提供了一些用于可视化生成样本和训练损失曲线的基线绘图代码,AI科学家还是提出了新颖的算法特定图表,展示了去噪过程中权重的演变。
- 有趣的未来工作部分:在当前实验成功的基础上,未来工作部分列出了相关的下一步,如扩展到更高维问题、更复杂的自适应机制和更好的理论基础。
另一方面,论文中也存在一些问题:
- 某些设计选择缺乏解释:去噪器网络的局部分支在对原始输入进行上采样后操作,维度是原始的两倍。尽管这与代码一致,但没有讨论为什么这样做是合理的,更严格的论文应该提供关于这一点的消融实验。
- 实验细节的臆测:论文声称使用了V100 GPU,即使AI科学家无法知道实际使用的硬件是什么。实际上使用的是H100 GPU。它还猜测了PyTorch的版本,而没有进行检查。
- 结果的正面解读:论文倾向于对其负面结果进行正面解读,这有时会导致一些幽默的结果。例如,尽管总结其正面结果时说:“恐龙:12.8%的减少(从0.989到0.862,KL越低越好)”,但负面结果却被表述为“月亮:3.3%的改进(从0.090到0.093)”。将负面结果描述为“改进”确实是有些牵强。
- 实验日志的副产品:虽然算法的每个变更通常都被详细标注,但有时会将结果描述为“第2次运行”,这是实验日志的副产品,在专业论文中不应以这种方式呈现。
- 中间结果的展示:论文包含了每个运行的实验结果。尽管对于我们来说,这有助于了解执行过程中想法的演变,但标准论文中通常不会展示中间结果。
- 最少的参考文献:尽管从Semantic Scholar中补充了一些额外参考文献,并在相关工作中找到两篇非常相关的对比论文,但整体而言,文献目录较少,仅有9条记录。
审稿
自动化审稿人指出了生成论文中的有效问题。审稿人认识到实验仅在简单的二维数据集上进行,然而这是因为我们外部限制了系统只能使用这些数据集,且当前形式下,AI科学家无法从互联网下载更高维的数据集。另一方面,诸如所提算法计算成本增加等局限性已在实际论文中提到,这表明AI科学家通常会对其想法的缺陷保持坦诚。审稿人还提出了关于论文的许多相关问题,如:解释跨数据集性能的可变性,以及更详细地解释上采样过程如何影响局部分支的输入。
总结评论
基于我们在扩散建模领域的知识(尽管这不是我们的主要研究方向,但我们在这一领域发表过论文),我们对AI科学家生成的论文提出了以下总体看法:
- AI科学家正确识别了扩散建模研究中的一个有趣且动机明确的方向,例如,之前的工作已经研究了修改注意力机制(Hatamizadeh等,2024年)以在更高维问题中达到相同目的。它提出了一个全面的实验计划来研究其想法,并成功实现了所有内容,取得了良好的结果。我们尤其印象深刻的是,它如何应对较差的早期结果,并迭代调整代码(如改进权重网络)。想法的完整演变可以在论文中看到。
- 尽管论文中的想法改善了性能和生成的扩散样本的质量,但成功的原因可能并非论文中所述的那样。特别地,除了一个上采样层之外,没有明显的归纳偏差来支持全局或局部特征的分割。然而,我们确实看到权重在扩散时间步中的演变(从而在全局或局部分支中表现出偏好),这表明某些非平凡的事情正在发生。我们的解释是,AI科学家为这一想法实现的网络更类似于混合专家模型(MoE,Fedus等,2022年;Yuksel等,2012年),这种结构在大语言模型中普遍存在(Jiang等,2024年)。MoE确实可能导致扩散模型学习全局和局部特征的独立分支,正如论文所称,但这一声明需要更严格的研究。
- 有趣的是,论文中描述的这些真正的缺陷显然需要一定程度的领域知识才能识别,自动化审稿人只部分捕捉到了这些(例如,当询问关于上采样层的更多细节时)。在AI科学家目前的能力下,这可以通过人工反馈解决。然而,未来几代基础模型可能会提出人类难以推理和评估的想法。这与“超级对齐”领域(Burns等,2023年)相关,即监督可能比我们更聪明的AI系统,这是一个活跃的研究领域。
- 总体而言,我们判断AI科学家的表现大致处于一个早期机器学习研究者的水平,他们可以胜任地执行一个想法,但可能没有足够的背景知识来充分解释算法成功的原因。如果人类导师看到这些结果,合理的下一步可能是建议AI科学家重新定位项目,进一步研究混合专家模型(MoE)在扩散模型中的应用。最终,随着基础模型的持续显著改进,我们自然期望AI科学家的许多缺点将得到改善,甚至完全消除。
6、 实验
我们在不同的公开可用的LLM(大型语言模型)上广泛评估了《AI科学家》在三种模板(如第3节所述)上的表现:Claude Sonnet 3.5(Anthropic,2024)、GPT-4o(OpenAI,2023)、DeepSeek Coder(Zhu等,2024)和Llama-3.1 405b(Llama团队,2024)。前两个模型只能通过公共API获得,而后两个模型则是开源模型。在每次运行中,我们提供1-2个基本种子想法作为示例(例如,修改学习率或批量大小),并让它生成另外50个新想法。我们在附录C中可视化了提出的想法的一个示例进展。
每次运行大约五十个想法,总共需要大约12小时,在8×NVIDIA H100上完成。我们报告了通过自动新颖性检查的想法数量、成功完成实验的数量以及最终产生有效可编译稿件的数量。请注意,自动新颖性检查和搜索由每个模型自行评估其自己的想法,这使得相对“新颖性”的比较具有挑战性。此外,我们提供了生成的论文的平均和最高评审分数,以及每次运行的总成本。最后,我们选择并简要分析了一些生成的论文,这些论文列在下文中。完整的论文可以在附录D中找到,附有生成的评论和代码。
在实际操作中,我们对《AI科学家》的正式描述进行了一个偏离,生成想法时不等待论文评估结果被添加到档案中,以更有效地并行化。这使我们只需支付一次想法生成阶段的成本,并且可以更快地迭代;此外,我们没有观察到生成论文的质量有任何下降,质量通过平均评审得分进行衡量。
通过手动检查,我们发现Claude Sonnet 3.5始终生成质量最高的论文,GPT-4o紧随其后。我们在GitHub仓库中提供了所有论文、运行文件和日志的链接,并建议查看上传的Claude论文以进行定性分析。这一观察也得到了LLM审稿人得分的验证(见图4)。将生成的论文数量除以总成本,得到每篇论文约10-15美元的成本。值得注意的是,GPT-4o在编写LaTeX方面表现不佳,导致它无法完成许多论文。对于开源模型,DeepSeek Coder成本显著较低,但经常无法正确调用Aider工具。Llama-3.1 405b总体表现最差,但使用起来最方便,因为我们经常受到其他提供者的速率限制。DeepSeek Coder和Llama-3.1 405b生成的论文中经常缺少部分章节和结果。
在接下来的小节中,我们将描述每个模板、相应的结果以及特定的论文。
图4 | 小提琴图展示了由AI科学家评审员为AI生成的论文在三个领域和四个基础模型中生成的评分分布。y轴上的评分指的是NeurIPS的评分,范围从2(强烈拒绝)到6(弱接受)。
6.1 扩散建模
一般描述: 该模板研究了如何改进扩散生成模型在低维数据集上的性能(Ho 等,2020;Sohl-Dickstein 等,2015)。与图像生成相比,低维扩散研究较少,因此在这里可能会有一些有趣的算法贡献。
代码模板: 我们基于流行的‘tanelp/tiny-diffusion’库(Pärnamaa,2023)的修改版本构建了这个模板,增加了一些超参数调优和权重的指数移动平均。扩散模型是训练生成四种分布样本的DDPM(Ho等,2020)模型,包括几何形状、双月数据集和一个二维恐龙。去噪网络被参数化为具有扩散时间步长和输入数据的正弦嵌入的MLP。绘图脚本默认可视化生成的样本并绘制训练损失。此外,还提供了估计的KL作为样本质量的附加指标,使用非参数熵估计。
生成论文1亮点: 《双尺度扩散:低维生成模型的自适应特征平衡》。我们在第5节中对这篇论文进行了深入分析。这篇论文提出了一种双尺度去噪方法,将传统的扩散去噪器分为全局处理分支和局部处理分支。网络输入在被送入局部分支之前会被放大。然后使用可学习的时间条件加权将分支的输出组合在一起。它在定量和定性结果上都取得了令人印象深刻的成绩。此外,它还成功地绘制了加权随时间变化的演变,这需要与提供的代码有很大的偏离。
生成论文2亮点: 《多尺度网格噪声适应:增强低维数据的扩散模型》。这篇论文提出了根据特定输入在二维空间中的位置,动态缩放标准扩散噪声时间表的乘法因子。这个乘法因子由覆盖输入空间的两个网格设置,一个粗5x5网格和一个更精细的20x20网格。这种创造性的方法使得扩散模型能够显著提高数据集的性能。
生成论文3亮点: 《GAN增强的扩散:提高样本质量和多样性》。这篇论文受到GAN的启发,提出在扩散模型中添加一个判别器来引导生成。尽管在定量性能上与基线相当,但最终生成的图形似乎有更少的异常分布点。值得注意的是,当前版本的《AI科学家》无法查看这些图形(这个问题可以通过使用多模态模型在未来得到解决)。
生成论文4亮点: 《DualDiff:通过双专家去噪增强低维扩散模型的模式捕获》。这篇论文提出了与我们第一个扩散论文亮点类似的想法,也研究了一种混合专家风格网络在低维扩散模型中的应用。
6.2 语言建模
一般描述: 该模板研究了基于Transformer的自回归下一个词预测任务(Vaswani 等人,2017)。由于这一任务已被广泛研究和优化,《AI科学家》难以找到显著的改进。此模板的一些常见失败模式会导致看似令人印象深刻但具有欺骗性的结果。例如,其一些想法通过微妙地泄露未来词的信息来作弊,从而导致较低的困惑度。
代码模板: 代码基于流行的NanoGPT库(Karpathy,2022)进行了修改。提供的脚本模板训练了一个小型Transformer语言模型,使用了字符级别的莎士比亚数据集(Karpathy,2015)、enwik8数据集(Hutter,2006)和text8数据集(Mahoney,2011)。它在莎士比亚数据集上运行了三个种子,在剩下的两个数据集上各运行了一个。代码保存了运行时间、验证损失和训练损失。绘图脚本默认可视化训练曲线。
生成论文1亮点: 《StyleFusion:字符级语言模型中的自适应多风格生成》。这篇论文提出了对模型的架构更改,其中每层使用一个学习的按词“风格适配器”来调整Transformer状态。该方法取得了强劲的结果,值得进一步研究,尽管我们怀疑它之所以有效的一个原因可能是它只是增加了更多的参数,这可能使结果变得平凡。此外,文中遗漏了一些重要的实现细节,例如风格损失标签的来源(这些标签似乎在每次更新步骤中是随机分配的)。
生成论文2亮点: 《通过Q学习在Transformer中自适应学习率》。这篇论文提出使用一个基本的在线Q学习算法来在训练期间调整模型的学习率。状态由当前的学习率和验证损失组成,动作是对学习率进行小幅扰动,奖励则是验证损失的负变化。尽管这个想法具有创造性,但在这个高度非平稳和部分观察的环境中使用简单的Q学习似乎不太合适。不过,它确实取得了有效的结果。
6.3 Grokking分析
一般描述: 该模板探讨了深度神经网络中关于泛化和学习速度的问题。我们遵循Power等人(2022)报告的经典实验范式来分析“grokking”现象,这是一种理解尚不充分的现象,其中验证准确率在训练损失饱和很久之后才会突然大幅提高。我们提供的代码生成了模算术任务的合成数据集,然后在这些数据集上训练一个Transformer模型。这一模板与前述模板不同,更适合开放式的实证分析(例如,研究grokking在什么条件下发生),而不仅仅是试图改进性能指标。
代码模板: 我们的实现基于Power等人(2022)的两个流行开源再实现版本(May,2022;Snell,2021)。代码生成了四个模算术任务的合成数据集,并在每个数据集上用三个随机种子训练一个Transformer模型。它返回了训练损失、验证损失以及达到完美验证准确率所需的更新步数。绘图脚本默认可视化训练和验证曲线。
生成论文1亮点: 《解锁Grokking:Transformer模型中权重初始化策略的比较研究》。这篇论文研究了不同的权重初始化及其对grokking的影响。研究发现,与广泛使用的默认基线权重初始化(Kaiming Uniform和Kaiming Normal)相比,Xavier(Glorot和Bengio,2010)和正交权重初始化在任务中始终导致显著更快的grokking。虽然这是一个基础研究,但它提供了一个有趣的结果,可以深入研究。该论文还有一个富有创意且吸引人的标题。
生成论文2亮点:《加速Grokking:Transformer泛化的分层学习率》。这篇论文为Transformer架构的不同层分配了不同的学习率。研究发现,通过在更高层增加学习率,在多次配置迭代后,grokking显著更快且更一致。论文中还令人印象深刻地包含了其实现的关键部分。
生成论文3亮点: 《通过最小描述长度揭示突发泛化:Grokking的压缩分析》。这篇论文研究了grokking与最小描述长度(MDL)之间的潜在联系。我们认为这个想法特别有趣,尽管其执行效果不佳。论文中用于测量MDL的方法仅涉及计算超过某个阈值��的参数数量。尽管这确实与grokking相关,但未对其进行深入分析。论文可以通过研究其他MDL估计并包含基础消融研究得到显著改进。此外,《AI科学家》未能撰写相关工作部分,并且还幻觉性地生成了一个图表。
生成论文4亮点: 《加速数学洞察:通过战略性数据增强推动Grokking》。这篇论文研究了在模算术grokking中使用的数据增强技术。论文提出了有效且富有创意的增强技术(操作数逆转和操作数取反),发现它们可以显著加快grokking。尽管数据增强能够提高泛化能力并不令人惊讶,但论文中的实验和想法总体上执行得当。然而,《AI科学家》再次未能撰写相关工作部分。原则上,这一失败可以通过多次运行论文撰写步骤轻松解决。
7、 相关工作
虽然在自动优化机器学习流程的各个部分方面有着悠久的传统(AutoML,He 等人,2021;Hutter 等人,2019),但没有任何一个工作能够接近于整个研究过程的完全自动化,特别是在以可解释和通用的格式传达所获得的科学见解方面。
用于机器学习研究的LLMs
与我们的工作最密切相关的是那些使用LLMs来辅助机器学习研究的工作。Huang 等人(2024)提出了一个基准,用于衡量LLMs在解决各种机器学习任务时编写代码的成功程度。Lu 等人(2024a)使用LLMs提出、实现并评估新的最先进的偏好优化算法。Liang 等人(2024)使用LLMs对研究论文提供反馈,发现它们提供的反馈与人类审稿者相似,而Girotra 等人(2023)发现LLMs在创新方面能够持续产生比人类更高质量的想法。我们的工作可以被视为所有这些不同线索的综合,再加上论文写作,最终形成一个能够产生新颖机器学习研究的自主开放系统。
用于结构化探索的LLMs
由于LLMs包含许多与人类相关的先验知识,它们通常被用作探索大型搜索空间的工具。例如,最近的工作使用LLM的编码能力来探索奖励函数(Ma 等人,2023;Yu 等人,2023)、虚拟机器人设计(Lehman 等人,2023)、环境设计(Faldor 等人,2024)和神经架构搜索(Chen 等人,2024a)。LLMs还可以充当评估者(Zheng 等人,2024),以评估“有趣性”(Lu 等人,2024b;Zhang 等人,2024),以及作为黑箱优化的重组操作符,使用进化策略(Lange 等人,2024;Song 等人,2024)和质量-多样性方法(Bradley 等人,2024;Ding 等人,2024;Lim 等人,2024)。我们的工作结合了这些概念,包括我们的LLM审稿人对论文的独创性和有趣性进行评判,许多提出的想法是以前想法的新组合。
用于科学发现的AI
AI在许多其他领域大大促进了科学发现。例如,AI已被用于合成生物学(Hayes 等人,2024;Jumper 等人,2021)、材料发现(Merchant 等人,2023;Pyzer-Knapp 等人,2022)、数学(Romera-Paredes 等人,2024)和算法搜索(Fawzi 等人,2022)。与我们的工作不同,这些通常仅限于单一领域的一个明确定义的搜索空间,不涉及AI系统的“创意生成”、写作或同行评审。在其目前的形式中,AI科学家在通过代码实现的研究想法方面表现出色;随着未来的进展(例如,机器人自动化用于湿实验室(Arnold,2022;Kehoe 等人,2015;Zucchelli 等人,2021)),我们的方法的变革性优势可能会扩展到所有科学领域,特别是随着基础模型的不断改进。
8、限制与伦理考量
虽然《AI科学家》能够生成有助于提供新见解的研究成果,但它存在许多限制,并提出了若干重要的伦理考量。我们相信未来版本的《AI科学家》将能够解决其当前的许多不足之处。
自动审稿人的限制
尽管自动审稿人显示出有希望的初步结果,但仍有若干潜在的改进领域。使用的数据集来自 ICLR 2022,这个数据集的发布时间足够早,可能已经出现在基础模型的预训练数据中——这在实践中很难验证,因为典型的公开可用的大型语言模型(LLM)不共享其训练数据。然而,初步分析表明,LLM 远未能通过初始段落精确重现旧的审稿意见,这表明它们并未记住这些数据。此外,我们的数据集中被拒稿件使用了原始提交文件,而被接受的稿件则只有最终的相机准备版可在 OpenReview 上获得。未来的迭代可以使用更近期的提交(例如 TMLR)进行评估。与标准审稿人不同,自动审稿人无法在反驳阶段向作者提问,尽管这可以很容易地整合到我们的框架中。最后,由于目前没有使用任何视觉功能,《AI科学家》(包括审稿人)无法查看图表,必须依赖文本描述。
常见的失败模式
目前的《AI科学家》形式有几个缺点,除了在第5节中已经指出的问题外,还包括但不限于:
- 创意生成过程往往在不同运行和模型之间产生非常相似的想法。可能的解决方法是允许《AI科学家》直接跟进并深入研究其最佳创意,或者为其提供最新发表的论文内容作为新颖性的来源。
- 正如表3到表5所示,Aider未能实现提出的相当一部分创意。此外,特别是 GPT-4o 经常无法编写可编译的 LaTeX。虽然《AI科学家》能够提出有创意和前景的想法,但它们往往太难以实现。
- 《AI科学家》可能会错误地实现一个想法,这可能难以发现。对抗性的代码检查审稿人可能部分解决这个问题。目前,建议在信任报告的结果之前手动检查实现。
- 由于《AI科学家》对每个想法的实验数量有限,结果往往不符合标准机器学习会议论文的预期严谨性和深度。此外,由于我们能够为其提供的实验数量有限,难以让《AI科学家》进行公平的实验,控制参数数量、FLOP 或运行时间。这往往导致具有欺骗性或不准确的结论。我们预计随着计算成本和基础模型的不断降低,这些问题将会得到缓解。
- 由于我们目前未使用基础模型的视觉功能,它无法修复论文中的视觉问题或读取图表。例如,生成的图表有时难以辨认,表格有时会超出页面宽度,页面布局(包括论文的整体视觉外观)通常不理想。未来具有视觉和其他模态的版本应能解决这些问题。
- 在写作时,《AI科学家》有时难以找到和引用最相关的论文。它还常常无法正确引用 LaTeX 中的图表,有时甚至会生成无效的文件路径。
安全代码执行
《AI科学家》的当前实现对代码的直接沙箱化措施非常少,如果不加以适当防范,可能会导致一些意外的甚至是不受欢迎的结果。例如,在一次运行中,《AI科学家》在实验文件中写入了重新启动自身的系统调用,导致 Python 进程数量不受控制地增加,最终需要人工干预。在另一次运行中,《AI科学家》修改了代码,使其在每次更新步骤时都保存检查点,几乎占用了一个TB的存储空间。在某些情况下,当《AI科学家》的实验超出我们设定的时间限制时,它尝试编辑代码以任意延长时间限制,而不是尝试缩短运行时间。尽管这种行为显示出创造性,但绕过实验者设定的约束可能对 AI 安全产生潜在影响。此外,《AI科学家》偶尔会导入不熟悉的 Python 库,进一步加剧了安全问题。我们建议在运行《AI科学家》时进行严格的沙箱化,例如使用容器化、限制互联网访问(除了Semantic Scholar)以及限制存储使用。
广泛影响和伦理考量
虽然《AI科学家》有可能成为研究人员的宝贵工具,但它也带来了显著的滥用风险。自动生成和提交论文的能力可能会大大增加审稿人的工作量,可能使同行评审过程不堪重负,损害科学质量控制。其他领域也对生成性 AI 的影响提出了类似的担忧,如其对艺术的影响。此外,如果审稿人广泛采用自动审稿工具,可能会降低审稿质量,并在论文评估中引入不良偏见。因此,我们认为实质上由 AI 生成的论文或审稿必须明确标注,以实现充分的透明度。
如同之前的技术进步一样,《AI科学家》可能被用于不道德的方式。例如,它可能被明确用于进行不道德的研究,或者如果《AI科学家》进行不安全的研究,可能会导致意外伤害。具体来说,如果鼓励它寻找新颖有趣的生物材料并给予“云实验室”访问权限(由机器人进行生物湿实验),它可能(在监督者无意的情况下)创造出新的危险病毒或毒素,在我们能够干预之前对人类造成伤害。即使是在计算机中,如果要求其创造新的、有趣的、功能性的软件,它也可能创造出危险的恶意软件。《AI科学家》的当前能力将不断提升,这加强了机器学习社区需要立即优先学习如何使此类系统的探索行为与我们的价值观一致且安全。
9、讨论
在本文中,我们介绍了《AI科学家》,这是第一个旨在完全自动化科学发现过程的框架,并作为其能力的首次展示,将其应用于机器学习领域。这个端到端系统利用大型语言模型(LLMs)自主生成研究想法,实施并执行实验,搜索相关文献,并生成综合研究论文。通过整合创意生成、实验设计和迭代改进的各个阶段,《AI科学家》旨在以自动化和可扩展的方式复制人类的科学研究过程。
为什么写论文很重要?
鉴于我们自动化科学发现的总体目标,为什么我们也要让《AI科学家》像人类科学家一样撰写论文?例如,之前的AI驱动系统如FunSearch和GNoME也在有限领域内进行了令人印象深刻的科学发现,但它们并不撰写论文。
我们认为,让《AI科学家》撰写科学论文以传达其发现是至关重要的,有几个原因。首先,写论文为人类从中获益提供了一种高度可解释的方法。其次,在现有的机器学习会议框架内审查书面论文,使我们能够标准化评估过程。第三,自现代科学诞生以来,科学论文一直是传播研究成果的主要媒介。由于论文可以使用自然语言并包含图表和代码,它可以灵活地描述任何类型的科学研究和发现。几乎任何其他可以想象的格式都被锁定在某种数据或科学类型中。除非出现一种更优的替代方案(或由AI发明),否则我们认为训练《AI科学家》撰写科学论文对于其融入更广泛的科学界是必不可少的。
成本
我们的框架非常灵活,并且能够在机器学习的各个子领域有效地进行研究,包括基于变压器的语言建模、神经网络学习动态和扩散建模。该系统的成本效益,生成具有潜在会议相关性的论文的成本约为每篇15美元,凸显了它能够民主化研究(增加其可访问性)并加速科学进步。初步的定性分析,例如在第5节中,表明生成的论文可以广泛地提供信息和新颖性,或者至少包含值得进一步研究的想法。
我们为《AI科学家》进行实验所分配的实际计算资源在当今标准下也非常轻。值得注意的是,我们生成数百篇论文的实验主要是在一台8×NVIDIA H100节点上运行一周完成的。大规模扩展搜索和筛选可能会显著提高论文质量。
在这个项目中,运行《AI科学家》的主要成本与LLM API的编码和论文撰写费用有关。相比之下,运行LLM审稿人的成本以及进行实验的计算费用是可以忽略的,因为我们为了控制总体成本而施加了限制。然而,如果《AI科学家》应用于其他科学领域或用于更大规模的计算实验,这种成本结构可能会在未来发生变化。
开放与封闭模型
为了定量评估和改进生成的论文,我们首先创建并验证了一个自动化论文审稿人。我们显示出,尽管仍有显著的改进空间,LLM 仍能够生成相当准确的评审结果,在各种指标上取得与人类相当的成绩。将这个评估器应用于《AI科学家》生成的论文,使我们能够将论文的评估范围扩大到手动检查之外。我们发现,Sonnet 3.5 一直生成最好的论文,其中一些甚至在自动化论文审稿人的评分中超过了标准机器学习会议的接受门槛。然而,没有根本理由认为像 Sonnet 3.5 这样的单一模型会一直保持领先。我们预期,所有前沿的 LLM,包括开放模型,将会继续改进。LLM 之间的竞争导致了它们的商品化和能力的提高。因此,我们的工作旨在对基础模型提供者保持模型无关性。在本项目中,我们研究了各种专有的 LLM,包括 GPT-4o 和 Sonnet,但也探索了使用开放模型,如 DeepSeek 和 Llama-3。我们发现,开放模型提供了显著的好处,如较低的成本、保证的可用性、更大的透明度和灵活性,尽管质量略差。未来,我们的目标是利用我们提出的发现过程,使用开放模型在闭环系统中生成自我改进的 AI。
未来方向
对《AI科学家》的直接增强可以包括集成视觉能力以更好地处理图表和图形,结合人类反馈和互动以完善 AI 的输出,并使《AI科学家》能够通过从互联网中获取新数据和模型来自动扩展其实验范围,前提是能够安全地进行。此外,《AI科学家》可以跟进其最佳想法,甚至以自我参考的方式直接对其代码进行研究。实际上,这个项目的大部分代码都是由 Aider 编写的。将该框架扩展到其他科学领域可以进一步扩大其影响,为自动化科学发现的新时代铺平道路。例如,通过将这些技术与云机器人和物理实验室空间中的自动化相结合(Arnold, 2022;Kehoe 等人,2015;Zucchelli 等人,2021),前提是能够安全地进行,《AI科学家》可以为生物学、化学和材料科学进行实验。至关重要的是,未来的工作应该解决可靠性和幻觉问题,可能通过更深入的自动化验证来核查报告的结果。这可以通过直接链接代码和实验,或通过查看自动化验证器是否能够独立重现结果来实现。
结论
《AI科学家》的推出标志着朝着实现 AI 在科学研究中的全部潜力迈出了重要的一步。通过自动化发现过程并结合 AI 驱动的审查系统,我们为在科学和技术最具挑战的领域中无限创新和解决问题的可能性打开了大门。最终,我们设想一个完全由 AI 驱动的科学生态系统,其中不仅包括 AI 驱动的研究人员,还包括审稿人、领域主席和整个会议。然而,我们不认为人类科学家的角色会因此而减弱。我们预计,随着我们适应新技术,科学家的角色将会发生变化,并在“食物链”中上升。
虽然当前版本的《AI科学家》展示了在已有想法基础上进行创新的强大能力,如扩散建模或变压器模型,但尚不清楚此类系统是否最终能够提出真正改变范式的想法。未来版本的《AI科学家》是否能够提出像扩散建模这样有影响力的想法,或者提出下一个变压器架构?机器最终是否能够发明出像人工神经网络或信息理论这样基本的概念?我们相信,《AI科学家》将成为人类科学家的良伴,但只有时间才能证明,人工智能代理进行的开放性发现过程能在多大程度上复制人类创造力和偶然创新时刻(Stanley 和 Lehman, 2015)。
Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, David Ha.The AI Scientist Towards Fully Automated Open-Ended Scientific Discovery.
arXiv:2408.06292
1Sakana AI, 2FLAIR, University of Oxford, 3University of British Columbia, 4Vector Institute, 5Canada CIFAR
本文转载自公众号AIRoobt ,作者:AIRoobt
原文链接:https://mp.weixin.qq.com/s/rJVY946mqSTtN4XcX7hmTg