刚刚,首个AI科学家登上Nature:端到端自动化AI科研时代来临
8 小时前 / 阅读约7分钟
来源:36kr
首个AI科学家“The AI Scientist”登上Nature,实现科研全流程自动化,生成论文通过顶级机器学习会议同行评审,展示了AI独立科研潜力,标志科研范式变革。

刚刚,首个 AI 科学家“The AI Scientist”登上权威科学期刊 Nature。

The AI Scientist 是由 Sakana AI、牛津大学、英属哥伦比亚大学研究团队提出的一个自动化科学研究和开放式发现的综合 AI 系统,首次实现了科学研究的全流程自动化

值得一提的是,它生成的一篇论文甚至成功通过了顶级机器学习会议 ICLR 研讨会的同行评审。

The AI Scientist 的核心突破在于实现了端到端的自动化:自主生成研究思路、编写代码、运行实验、绘制图表并分析数据、撰写完整的科学论文,并对自身成果进行同行评审。

这一成果展示了 AI 系统独立执行科学研究的潜力,代表了科研范式可能迎来一次深刻变革。

论文链接:https://www.nature.com/articles/s41586-026-10265-5

The AI Scientist如何工作?

科学研究的自动化是 AI 研究领域长久以来的宏愿。尽管学界在自动化科学研究流程的各个单独环节上已取得显著进展,但一个能够自主完成从构思到发表全部研究生命周期的系统,迄今仍未实现。

The AI Scientist 是一个能够全流程自动化的科研系统,通过以下四个阶段实现自动化科研:

首先利用大语言模型(LLM)基于已有的学术文献自动提出研究点。为了确保研究的新颖性,系统会连接学术数据库进行搜索和比对,剔除与现有工作高度相似的想法,从而保留具有创新性的研究假设。

在确定研究方案后,系统会自动编写相应的实验代码并运行。实验过程中,系统具备自动调试功能,能够识别运行错误并进行修复。所有的实验数据、生成的图表以及观察结果都会被详细记录在实验日志中。

基于实验日志和数据分析结果,系统会自动撰写完整的科学论文。它使用标准的 LaTeX 排版格式,生成包含引言、方法、结果、结论等章节的文档,并能自动插入相关的图表和引用。

最后,系统内置的自动审稿人(Automated Reviewer)会对生成的论文进行评估。该模块模拟学术会议的评审标准,对论文的稳健性、呈现方式和贡献度等方面进行打分,并提供详细的反馈意见,以此完成对科研成果的质量控制。

图 | The AI Scientist 的研发流程包含多个独立阶段,涵盖自动化创意生成、基于树状结构的实验设计、论文撰写与评审。

实验验证

为了验证 The AI Scientist 的实际能力,研究团队设计了相关实验。

图 | 研究实验阶段可视化为四阶段流程。首先构建初步基线代码实现(阶段1),并通过超参数调优进行优化(阶段2)。所得代码作为执行研究议程的起点,通过智能树搜索法进行探索(阶段3),随后开展消融实验(阶段4)。

研究团队向 ICLR 2025 的 ICBINB 研讨会提交了 3 篇完全由 The AI Scientist 生成的论文。为了确保公平性,审稿过程采用了盲审机制:审稿人被告知提交列表中包含 AI 生成的论文,但并不知晓具体是哪几篇。

实验结果显示,其中一篇由 The AI Scientist 生成的论文获得了 6.33 分(三位审稿人评分分别为 6、7、6),高于该研讨会的平均录用线。研讨会组织者表示,如果不是根据预先制定的协议因“AI 生成”而撤回,这篇论文极大概率会被接收。另外两篇论文则因质量未达标未能通过评审。

图 | 选自 The AI Scientist 发表的一篇论文,该论文通过同行评审后被顶级机器学习会议研讨会收录。在元评审前,该论文获得 6 分(弱接受)、7 分(接受)和 6 分(弱接受)的评审分数,位列同行评审提交论文的前45%。这表明完全由 AI 生成的论文能够成功通过顶级会议研讨会的同行评审流程。

为了能够大规模、自动化地评估生成论文的质量,研究团队开发了 Automated Reviewer。测试数据显示,该系统在判断论文是否应被录用这一任务上,其表现与人类审稿人具有高度一致性。基于 NeurIPS 会议历史数据的评估表明,自动审稿人的 F1 分数和平衡准确率与人类审稿人之间的表现相当,甚至在部分指标上优于人类平均水平

研究团队还分析了影响 AI 科学家产出质量的关键变量。结果发现,随着基础模型能力的提升,生成的论文质量呈现明显的上升趋势。此外,在实验执行阶段投入更多的计算资源,也能显著提升最终论文的得分。这表明,随着算力成本的降低和模型能力的增强,该系统的产出质量有望进一步提高。

图 | 人类评审员与自动化评审系统性能对比。

意义与局限

The AI Scientist 的成功运行标志着 AI 在科学推理领域迈出了重要一步。该系统生成的论文能够通过同行评审,证明了 AI 已经具备了处理复杂科学任务的能力。特别是在计算机实验领域,这种端到端的自动化系统有望显著加速科学发现的进程,提高科研效率

尽管取得了重大进展,The AI Scientist 仍有较大的提升空间。在实验中,仅有 1 篇论文通过了评审,且该研讨会的接收率远高于 ICLR 主会,这意味着目前的 AI 尚未达到顶级学术会议的发表标准。

研究还发现,系统常见的失败模式包括:生成的创意较为浅显或未充分发展、代码实现存在错误、缺乏深层的方法论严谨性,以及在引用文献等方面出现的幻觉问题。

展望未来,该系统的发展与底层基础模型的进步紧密相关。研究数据显示,随着大模型能力的提升,The AI Scientist 所产出论文的质量也呈现出明显的正相关上升趋势。这意味着,随着 AI 技术的持续迭代,该自动化科研系统有望攻克更具挑战性的科研难题,并在更广泛的科学领域发挥作用。

最后,研究团队也在论文中写道:

与任何具有重大影响力的新技术一样,这一系统也潜藏着不容忽视的风险,包括加剧本已不堪重负的审稿系统的压力,以及向科学文献中引入“噪音”。然而,如果能以负责任的方式加以发展,此类自主系统有望大幅加速科学发现的进程。