“AI 推理模型已经接近数学天才”
五月中旬的一个周末,一个秘密的数学会议召开了。
30 位世界著名的数学家齐聚美国加州伯克利。小组成员与一个“推理”聊天机器人展开对决,该机器人的任务是解决他们为测试其数学能力而设计的问题。
在向机器人抛出两天教授级别的问题后,研究人员震惊地发现,它能够回答一些世界上最难解决的问题。“我的同事们真的说这些模型接近数学天才了,”弗吉尼亚大学数学家、会议领导者兼评委 Ken Ono 说。
该聊天机器人由o4-mini提供支持,这是一种推理大型语言模型 (LLM)。它由 OpenAI 训练,能够进行高度复杂的推理。谷歌的同类产品Gemini 2.5 Flash具有类似的能力。与支持早期版本 ChatGPT 的 LLM 一样,o4-mini 可以学习预测序列中的下一个单词。然而,与早期的 LLM 相比,o4-mini 及其等效模型更轻量级、更灵活,它们在专门的数据集上进行训练,并有来自人类的强化训练。这种方法使聊天机器人能够比传统的 LLM 更深入地研究复杂的数学问题。
为了追踪 o4-mini 的进展,OpenAI 此前委托 Epoch AI(一家负责对 LLM 进行基准测试的非营利组织)设计 300 道尚未公布答案的数学题。即使是传统的 LLM 也能正确回答许多复杂的数学问题。然而,当 Epoch AI 向几个这样的模型提出这些问题(这些问题与它们之前训练过的问题不同)时,最成功的模型也只能解答不到 2%,这表明这些 LLM 缺乏推理能力。但 o4-mini 最终将证明它超越了此前的局限。
Epoch AI 聘请了最近获得数学博士学位的 Elliot Glazer 加入新的基准测试合作项目,该项目名为FrontierMath,于 2024 年 9 月开展。该项目收集了不同难度级别的新问题,前三个级别涵盖本科生、研究生和研究级别的挑战。到 2025 年 4 月,Glazer 发现 o4-mini 可以解决大约 20% 的问题。
然后,Glazer 进入了第四个级别测试:一组即使对学术数学家来说也具有挑战性的问题。世界上只有一小部分人能够设计出这样的问题,更不用说回答它们了。参与的数学家必须签署保密协议,要求他们只能通过加密消息应用程序 Signal 进行交流。其他联系方式,例如传统电子邮件,可能会被大模型扫描并在无意中对其进行训练,从而污染数据集。
o4-mini 每一道无法解决的问题,提出该问题的数学家都会获得 7,500 美元的奖励。该小组在寻找问题方面进展缓慢,但进展稳定。但 Glazer 想要加快速度,因此 Epoch AI 于 5 月中下旬举办了线下会议。参与者敲定最后一批挑战题。30 位与会者被分成六人一组。在两天的时间里,这些学者们相互竞争,设计出自己能够解决但会让 AI 推理机器人犯错的问题。
到了一个周六的晚上, Ken Ono 对这个机器人感到很失望——因为它的数学能力超出预料,阻碍了团队的进展。
“我提出了一个问题,我们领域的专家都会认为这是一个数论中的开放性问题——一个博士级别的好问题,”他说。他让o4-mini来解决这个问题。在接下来的10分钟里, Ono 目瞪口呆地看着机器人实时展现出解决方案,并演示了它的推理过程。
前两分钟,机器人查找并掌握了该领域的相关文献。然后,它在屏幕上写道,它想先尝试解决一个更简单的“玩具”版本的问题,以便学习。几分钟后,它写道,它终于准备好解决更难的问题了。五分钟后,o4-mini给出了一个正确但又俏皮的解决方案。“它开始变得非常调皮了,” Ono 说道,他同时也是Epoch AI的自由数学顾问。 “最后还写道,‘无需引用,因为这个神秘数字是我计算出来的!’”
失败后, Ono在周日清晨在Signal发消息,通知了其他参赛者。“我没想到会和这样的大模型竞争,”他说,“我从未在模型中见过这种推理。这才是科学家该做的事。这太可怕了。”
虽然团队最终成功找到了10个让机器人难以应对的问题,但研究人员对人工智能在一年时间里取得的进步感到震惊。Ono将其比作与一位“强大的合作伙伴”合作。伦敦数学科学研究所的数学家、人工智能在数学领域应用的早期先驱Yang Hui He表示:“这相当于一个非常优秀的研究生会做的事情——事实上,(机器人)做得更多。”
该机器人的速度也比专业数学家快得多,只需几分钟就能完成人类专家需要数周或数月才能完成的工作。
与o4-mini的较量虽然激动人心,但它的进展也令人担忧。Ono 和 He 表示担心,o4-mini的结果可能被过度信任。“有归纳证明,有反证证明,还有威吓证明,” He 说道。“如果你说的话足够权威,人们就会感到害怕。我认为o4-mini已经掌握了威吓证明的技巧;它说的每句话都充满自信。”
会议结束时,小组开始思考数学家的未来。讨论转向了不可避免的“第五层”问题——即使是最优秀的数学家也无法解决的问题。如果人工智能达到这个水平,数学家的角色将发生巨大的变化。例如,数学家可能会转向简单地提出问题并与推理机器人互动,以帮助他们发现新的数学真理,就像教授对待研究生一样。因此,Ono 预测,在高等教育中培养创造力将是数学传承给子孙后代的关键。
“我一直告诉我的同事,说广义人工智能永远不会到来、它只是一台计算机,这是一个严重的错误,”Ono 说。“我不想加剧这种恐慌,但在某些方面,这些大型语言模型的表现已经超越了我们世界上大多数最优秀的研究生。”