GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

12 小时前 / 阅读约4分钟

来源：凤凰网

GPT-5.5发布，在编程、推理、数学等基准测试中全榜第一，碾压Claude Opus 4.7和Gemini 3.1 Pro。GPT-5.5在编程领域表现尤为出色，可完成端到端编程任务，使用更少token仍全面赶超GPT-5.4。

新智元报道

编辑：好困桃子

【新智元导读】就在刚刚，奥特曼深夜掷出GPT-5.5！全方位暴击Claude Opus 4.7，重新夺回地表最强王座。从写代码到搞科研，AI独立接管电脑的时代真的来了！

硅谷今夜未眠！

就在刚刚，GPT-5.5震撼登场——OpenAI迄今最强、最全能的新一代旗舰模型。

它是一种全新级别的智能，彻底进化为Agent时代的「原生大脑」。

没错，就是那个万众期待的「土豆」（Spud），终于在今天杀出来了。

最值得看的是，GPT-5.5在各项基准测试中：全榜第一！

不论在编程、推理、数学，还是智能体任务上，Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了脚下。

相较于上一代，GPT-5.5 Thinking堪称「降维打击」，拉开了代际差距。

在AAI测试中，相同输出token下，GPT-5.5智能指数冠绝全球；另在ARC-AGI-2上，同样刷新了SOTA。

奥特曼忍不住大加赞赏，「GPT-5.5既聪明又快速」。

每个token的速度与GPT-5.4一样快，且每个任务使用token量显著降低。

它可以几乎做到心领神会，知道自己该做什么！

总裁Greg激动称，「这朝着一种全新的计算机工作方式迈出了一步」。

今天起，GPT-5.5在ChatGPT、Codex中正式上线。

编程新王登场

Opus 4.7跌落神坛

先看最核心的编程领域，GPT-5.5可谓是打了一场漂亮的翻身仗！

用OpenAI的话来说，它是迄今为止最强大的智能体编程模型。

Terminal-Bench 2.0测试考的是全链路Agent工程实力。

题目会给模型一个终端环境和一个模糊目标，让它自己规划路径、调工具、写脚本、处理报错、反复迭代。

在这里，GPT-5.5拿下82.7%，GPT-5.4是75.1%，Claude Opus 4.7只有69.4%。13个百分点的差距，碾压级别。

OpenAI内部的Expert-SWE评测，专门测那些人类预估中位完成时间20小时的长周期编程任务，GPT-5.5拿到73.1%，同样高于GPT-5.4的68.5%。

在业界公认最能反映真实GitHub问题解决能力的评测SWE-Bench Pro中，GPT-5.5得分58.6%，略逊色于Claude Opus 4.7（64.3%）。

不过，OpenAI在这个数据旁边标了一个星号，写着「Anthropic报告称在部分问题子集上存在过拟合（记忆）迹象」。

换句话说就是，Opus 4.7虽然考试成绩好，但我怀疑你背过答案。

Codex研究员直言：SWE-Bench早已不能衡量顶尖编程能力了

最关键是，在这三项的评估中，GPT-5.5使用了更少的token，但仍全面赶超GPT-5.4。

这一能力在Codex中，体现得更为明显。

它可以完成「端到端」的编程任务，从实现、重构到调试、测试和验证等流程。

举个栗子，让GPT-5.5做一个阿尔忒弥斯II太空任务可视化应用。

首先把一张任务的截图扔给GPT-5.5，然后要求用WebGL和Vite实现一个可交互的3D轨道模拟器，轨迹数据必须来自NASA/JPL Horizons的真实矢量数据，并且还要有逼真的轨道力学。

只见，GPT-5.5从零搭完，鼠标拖拽能转，猎户座飞船、月球、太阳的相对位置都对得上。

上一篇：Day0适配 | 壁仞科技x腾讯混元，率先支持Hy3 preview语言模型

下一篇：51年首见！微软推自愿离职方案最多7% 美国员工适用

返回列表

热文阅读

2 天前

机器人从算力竞争升级到散热大战，手机厂商已发起降维打击？

2 天前

OpenAI 最前沿的 AI 智能体编程模型 GPT-5.5 偷跑

2 天前

OpenAI 发布 ChatGPT Images 2.0 生图工具：支持联网搜索、单次生成 8 张连贯图像

2 天前

消息称 OpenAI 拟 15 亿美元投资一合资企业，发力企业级 AI 市场

2 天前

面对Cloud WAN，电信运营商如何“化危为机”？

2 天前

Cognizant推出Cognizant Skillspring™，加速AI人才培养：全新人才转型平台，助力企业快速提升员工AI就绪能力

2 天前

特斯拉车机语音大模型服务在我国上海市完成备案

2 天前

OpenAI CEO 奥尔特曼炮轰 Anthropic：为 Mythos“制造恐慌式营销”

2 天前

拒绝透露姓名，却拿了两个世界第一：具身圈大佬们都在打听它是谁

2 天前

闪电半马夺冠背后是荣耀液冷散热技术

上一篇：Day0适配 | 壁仞科技x腾讯混元，率先支持Hy3 preview语言模型

下一篇：51年首见！微软推自愿离职方案最多7% 美国员工适用

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们