刚刚，首个AI科学家登上Nature：端到端自动化AI科研时代来临 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

刚刚，首个AI科学家登上Nature：端到端自动化AI科研时代来临

2026-03-26 / 阅读约7分钟

来源：36kr

首个AI科学家“The AI Scientist”登上Nature，实现科研全流程自动化，生成论文通过顶级机器学习会议同行评审，展示了AI独立科研潜力，标志科研范式变革。

刚刚，首个 AI 科学家“The AI Scientist”登上权威科学期刊 Nature。

The AI Scientist 是由 Sakana AI、牛津大学、英属哥伦比亚大学研究团队提出的一个自动化科学研究和开放式发现的综合 AI 系统，首次实现了科学研究的全流程自动化。

值得一提的是，它生成的一篇论文甚至成功通过了顶级机器学习会议 ICLR 研讨会的同行评审。

The AI Scientist 的核心突破在于实现了端到端的自动化：自主生成研究思路、编写代码、运行实验、绘制图表并分析数据、撰写完整的科学论文，并对自身成果进行同行评审。

这一成果展示了 AI 系统独立执行科学研究的潜力，代表了科研范式可能迎来一次深刻变革。

论文链接：https://www.nature.com/articles/s41586-026-10265-5

The AI Scientist如何工作？

科学研究的自动化是 AI 研究领域长久以来的宏愿。尽管学界在自动化科学研究流程的各个单独环节上已取得显著进展，但一个能够自主完成从构思到发表全部研究生命周期的系统，迄今仍未实现。

The AI Scientist 是一个能够全流程自动化的科研系统，通过以下四个阶段实现自动化科研：

首先利用大语言模型（LLM）基于已有的学术文献自动提出研究点。为了确保研究的新颖性，系统会连接学术数据库进行搜索和比对，剔除与现有工作高度相似的想法，从而保留具有创新性的研究假设。

在确定研究方案后，系统会自动编写相应的实验代码并运行。实验过程中，系统具备自动调试功能，能够识别运行错误并进行修复。所有的实验数据、生成的图表以及观察结果都会被详细记录在实验日志中。

基于实验日志和数据分析结果，系统会自动撰写完整的科学论文。它使用标准的 LaTeX 排版格式，生成包含引言、方法、结果、结论等章节的文档，并能自动插入相关的图表和引用。

最后，系统内置的自动审稿人（Automated Reviewer）会对生成的论文进行评估。该模块模拟学术会议的评审标准，对论文的稳健性、呈现方式和贡献度等方面进行打分，并提供详细的反馈意见，以此完成对科研成果的质量控制。

图 | The AI Scientist 的研发流程包含多个独立阶段，涵盖自动化创意生成、基于树状结构的实验设计、论文撰写与评审。

实验验证

为了验证 The AI Scientist 的实际能力，研究团队设计了相关实验。

图 | 研究实验阶段可视化为四阶段流程。首先构建初步基线代码实现（阶段1），并通过超参数调优进行优化（阶段2）。所得代码作为执行研究议程的起点，通过智能树搜索法进行探索（阶段3），随后开展消融实验（阶段4）。

研究团队向 ICLR 2025 的 ICBINB 研讨会提交了 3 篇完全由 The AI Scientist 生成的论文。为了确保公平性，审稿过程采用了盲审机制：审稿人被告知提交列表中包含 AI 生成的论文，但并不知晓具体是哪几篇。

实验结果显示，其中一篇由 The AI Scientist 生成的论文获得了 6.33 分（三位审稿人评分分别为 6、7、6），高于该研讨会的平均录用线。研讨会组织者表示，如果不是根据预先制定的协议因“AI 生成”而撤回，这篇论文极大概率会被接收。另外两篇论文则因质量未达标未能通过评审。

图 | 选自 The AI Scientist 发表的一篇论文，该论文通过同行评审后被顶级机器学习会议研讨会收录。在元评审前，该论文获得 6 分（弱接受）、7 分（接受）和 6 分（弱接受）的评审分数，位列同行评审提交论文的前45%。这表明完全由 AI 生成的论文能够成功通过顶级会议研讨会的同行评审流程。

为了能够大规模、自动化地评估生成论文的质量，研究团队开发了 Automated Reviewer。测试数据显示，该系统在判断论文是否应被录用这一任务上，其表现与人类审稿人具有高度一致性。基于 NeurIPS 会议历史数据的评估表明，自动审稿人的 F1 分数和平衡准确率与人类审稿人之间的表现相当，甚至在部分指标上优于人类平均水平。

研究团队还分析了影响 AI 科学家产出质量的关键变量。结果发现，随着基础模型能力的提升，生成的论文质量呈现明显的上升趋势。此外，在实验执行阶段投入更多的计算资源，也能显著提升最终论文的得分。这表明，随着算力成本的降低和模型能力的增强，该系统的产出质量有望进一步提高。