这届大学生太难了,好不容易拼进编程竞赛总决赛,还要被AI秀一脸。
在刚刚结束的2025年国际大学程序设计竞赛(ICPC)世界总决赛上,OpenAI的系统完美解决全部12道题目,若计入排名将位居第一。
谷歌的Gemini 2.5 Deep Think模型解决10道题目,达到金牌水准名列第二。
这场顶级赛事汇集了来自全球103个国家、近3000所大学的139支顶尖队伍。
而AI系统在ICPC官方监督的独立“AI实验赛道”中,与人类选手面对相同题目和评测标准,表现非常抢眼。
其中比较难的一道“问题C”,没有一个大学团队能够解决,Gemini和OpenAI的模型组合都解决了。
谷歌不知出于什么原因,还比人类选手晚10分钟才启动系统,就有点过分了啊。
OpenAI这次派出的是GPT-5和一个实验性推理模型的组合阵容。在不到五小时的比赛时间里,这套系统成功解决了全部12道题目。
具体来说,GPT-5独立完成了前11道题目,而且其中11道题都是一次提交就通过了ICPC官方的在线评测环境。
对OpenAI系统来说,最有挑战的是问题G,由实验性推理模型在GPT-5遇到困难后接力完成,两个模型总共提交了9次才攻克这道难题。
人类选手中也只有第一名圣彼得堡国立大学团队在3次尝试中解决,很多大学团队一次都没有提交过这个问题。
OpenAI暂没有分享这道题的解决思路,但他们特别强调参赛的是通用推理模型,并没有专门为ICPC进行训练。
另外值得一提的是,OpenAI团队中有不少研究员本身就是ICPC的参赛选手出身,包括接任Ilya的首席科学家Jakub Pachocki,关于他的故事可以看奥特曼:点名表扬两个波兰人,OpenAI还没遇到过他们解决不了的问题。
此时距离OpenAI首次推出推理模型o1差不多刚好一年,与一年前相比,现在的推理模型不仅更智能、更快速,而且成本效益更高了。
谷歌Gemini 2.5 Deep Think在比赛开始10分钟后启动,最终在五小时内成功解决了12道题目中的10道,达到了金牌级别。
Gemini在前45分钟内就解决了8道题目,三小时内又攻克了两道,按照总用时677分钟计算,若与大学队伍比较,Gemini的成绩将排在第二位。
下图中,Gemini解决问题的时间以蓝色显示,最快的大学队伍所用时间以灰色显示。
对于人类选手没解决的问题C,谷歌分享了解题思路。
这道题要求设计一个通过相互连接的管道网络向储存库分配液体的方案,目标是找到一种配置使所有储存库尽快填满。
由于每个管道可以打开、关闭或部分打开,可能的配置数量是无限的,这使得搜索最优配置变得极其困难。
Gemini的解决方案:
它首先假设每个储存库都有一个“优先级值”,代表相对于其他储存库应该优先考虑的程度。
当给定一组优先级值时,可以使用动态规划算法找到管道的最佳配置通过应用极小化极大定理,原始问题可以通过寻找使结果流量最受约束的优先级值来解决。
利用优先级值和最优流量之间的关系,Gemini使用嵌套三元搜索在碗状凸解空间中快速找到最优优先级值,成功解决了问题C。
谷歌DeepMind表示,Gemini的成功融合了预训练、后训练、新型强化学习技术、多步推理和并行思维等一系列技术进展。
在强化学习过程中,他们训练Gemini为编程界面临的一些最困难的问题进行推理和生成代码,从结果反馈中学习并不断改进方法。
自推理模型范式问世之后,AI连续在数学奥赛IMO,信息学奥赛IOI,编程大赛ICPC中表现出色。
不过,这次OpenAI研究副总裁Jerry Tworek表示:
ICPC之后我们可能不会打别的竞赛了,下一个前沿领域更令人兴奋。
人类选手们可以松一口气了。
那么什么是下一个前沿领域?可以参考Tworek最新的个人介绍:
如何将各类科学和工程技能应用于现实世界的问题。
这些领域的研究者、工作者们,GPT-5来找你们了。
参考链接:
[1]https://x.com/OpenAI/status/1968368133024231902
[2]https://deepmind.google/discover/blog/gemini-achieves-gold-level-performance-at-the-international-collegiate-programming-contest-world-finals/
[3]https://worldfinals.icpc.global/2025/