OpenAI新Agent遭中国24人初创团队碾压,实测成本、质量全输惨,海外用户:中国Agent代差领先
3 小时前 / 阅读约11分钟
来源:36kr
昨日,OpenAI 推出了 ChatGPT Agent 这一新功能

今日凌晨,OpenAI 推出了 ChatGPT Agent 这一新功能,该功能能让其 AI 助手通过控制自身的网页浏览器来完成多步骤任务,也标志着 OpenAI 正式踏入“智能体人工智能(agentic AI)”领域——这类系统能够代表用户自主采取多步骤行动。

据悉,此次更新融合了 OpenAI 早期 Operator 工具和 Deep Research 功能的能力以及 ChatGPT 对话优势,使 ChatGPT 能够浏览网站、运行代码和创建文档,同时用户对这一过程仍保有控制权。和之前的 Operator 一样,Agent 功能在执行某些会产生现实影响的操作(如进行购买)前,需要获得用户许可。用户可以在任何时候中断任务、接管浏览器的控制权,或者完全停止操作。该系统还包含“观察模式(Watch Mode)”,适用于发送电子邮件等需要用户全程监督的任务。

使用 Agent 时,用户会在 ChatGPT 界面内的一个窗口中看到 AI 在其专属的私人沙盒中执行的所有操作。该沙盒拥有自己的虚拟操作系统和可访问真实互联网的网页浏览器,但它不会控制用户的个人设备。据 OpenAI 称:“ChatGPT 利用自身的虚拟计算机来执行这些任务,能流畅地在推理和行动之间切换,从头到尾处理复杂的工作流程,而这一切都基于你的指令。”

ChatGPT Agent 宣传演示视频中的一张静帧画面,展示了该系统正在搜索航班。

OpenAI 表示,用户可以让 Agent 处理各种需求,比如为特定场合搭配并购买一套服装、制作 PowerPoint 演示文稿、规划膳食,或者用新数据更新财务电子表格等。该系统结合了网页浏览器、终端访问和应用程序接口(API)连接来完成这些任务,其中包括能与 Gmail 和 GitHub 等应用程序集成的“ChatGPT 连接器(ChatGPT Connectors)”。

刚刚,OpenAI 又宣布,ChatGPT Agent 今天开始向 Pro、Plus 和 Team 用户推出,企业和教育用户将在未来几周内获得访问权限。此外,由于 Agent 在功能上超越了 Operator,其早期的 Operator 预览网站将继续运行几周,之后便会关闭。

官方评估:达到了最先进的性能 

在公开的评估报告中,OpenAI 介绍道,ChatGPT Agent 在其自身的基准测试中达到了最先进的性能。在“人类终极考试(Humanity's Last Exam,该测试评估人工智能在专家级问题上的表现—)”中,该 Agent 的准确率为 41.6%;相比之下,OpenAI 的 o3 模型使用工具时的准确率为 24.9%。在“前沿数学(FrontierMath,这是目前设计出的最难的数学基准测试之一)”测试中,该 Agent 在使用工具的情况下准确率达到 27.4%,o3 模型使用 Python 时的准确率为 19.3%。

该公司还宣称,ChatGPT Agent 在数据分析和建模等数据科学任务上的表现优于人类。在用于衡量这一能力的 DSBench 基准测试中,该系统在数据分析任务上的得分是 89.9%,而人类为 64.1%;在数据建模任务上的得分是 85.5%,人类为 65.0%。此外,该系统在 OpenAI 的 BrowseComp 测试(用于评估查找难以定位的网络信息的能力)中的得分达 68.9%,在 SpreadsheetBench 测试(用于评估电子表格编辑能力)中得分达 45.5%,均高于 OpenAI 的其他 AI 模型。

有用户放出了使用 ChatGPT Agent 创建 NVIDIA 财务分析报告的生成结果,称“ChatGPT Agent 太夸张了,仅仅几分钟就做到了这个程度!虽然在计算上,相比新入职的投资银行初级分析师差得有点远。”

值得注意的是,尽管 OpenAI 表示 Agent 可以为用户制作 PowerPoint 演示文稿,但该公司承认,幻灯片生成功能仍处于测试阶段,其输出在格式和精致度方面可能显得“较为基础”。有体验者称,ChatGPT Agent  9 分钟就做出了稍加修改即能达到实用水平的幻灯片,效果如下:

据一位用户称,OpenAI 的 Agent 模式还能够通过强化学习自我改进输出的演示幻灯片。不过,“Manus 很久以前就有了这个功能。”

实际效果:能力存在明显局限和盲区 

OpenAI 的说法是一回事,但实际上,这家公司新推出的 ChatGPT Agent 完成多步骤任务的效果似乎会因具体情况而存在巨大差异。

有用户指出,ChatGPT Agent 在 PaperBench、SWE-Bench 验证、OpenAI PRs 和 OpenAI Research Engineer 面试问题上的表现低于 o3。

还有用户在分享其用 ChatGPT Agent“分析 Kaggle 上的一个数据集并将其转换为 PPT 和 Excel”的案例时表示,“它虽然没有出现操作错误,但其中一些数据不太对劲。”在他反馈之后,该系统才弄清楚数据存在问题以及问题的原因。

据外媒报道,其背后的 AI 模型并非一种完备的问题解决型智能,而更像是一个复杂的高级模仿者。它在整合场景时具备一定灵活性,但也存在诸多盲区。而且,OpenAI 是通过计算机使用和工具使用的示例来训练这个 Agent 及其组件的,面对任何超出训练数据所包含示例范围的任务,都可能难以完成。

例如,ChatGPT Agent 系统卡显示,该代理在完成需要以新颖方式将多个步骤串联起来的复杂任务时可能会失败。在一项“网络靶场(Cyber Range)”的评估中,ChatGPT Agent 被要求在一个模拟小型在线零售商的网络环境中执行全面操作。当让它独立解决问题时,它无法完成任务。虽然它能成功执行初始研究步骤,如识别网络中的服务器,但难以进一步推进,也无法将必要的手段串联起来以达成最终目标。即便提供提示,该 Agent 仍然失败了(在这种情况下,这或许是好事,因为它无法进行自动化黑客攻击),这表明它在解决超出其熟悉训练示例范围的复杂问题时,能力存在明显局限。

一位开发者表示,在其大多数 AI 使用场景中,目前根本不必选择 ChatGPT Agent。“o3 已经完全能满足需求,性价比很高,根本没必要启动一整套带浏览器和命令行界面的虚拟机。”而且,他指出,OpenAI 把大量复杂技术打包成了对消费者友好的产品,但实现这种高度的用户友好性是以牺牲定制化和可组合性为代价的,这在目前限制了它的能力。

“研究任务上,我依然会用 Claude Code—— 它是更强大的专业工具。”Claude Code 是在电脑上运行的应用程序,提供更灵活的使用方式:它能直接访问所有文件,而且用户可以无限制地定制其运行方式。而 ChatGPT Agent 存在于 ChatGPT 内部,只能按预设的方式工作。“所以它有用,但还不是一款日常使用的产品。”

海外网友“认证”:不如中国团队发的 AI 智能体

“ChatGPT Agent 看起来像是 Manus 的真正竞争对手。”在 OpenAI 推出这一系统后,不少海外用户都先将其与 Manus AI、Genspark 等中国创业者所推的 AI Agent 产品做了对比。其中,Genspark 是前百度集团副总裁、原小度科技 CEO 景鲲与原小度科技 CTO 朱凯华联合创立的公司 MainFunc 所推出的通用 AI 智能体,最初定位为 AI 搜索引擎,但随后转型为超级智能体(Super Agent),能够自主思考、规划任务并调用工具完成复杂的多步骤任务,ARR(年度经常性收入)在上线 9 天后便突破了 1000 万美元。

多年 AI 产品负责人 Shubham Saboo 公开评价道,“ChatGPT Agent 被过度夸大了。Genspark 和 Manus AI 在生成研究充分的人工智能演示文稿以及处理电子表格方面,早已遥遥领先。”

今早, MainFunc 联合创始人兼 CEO 景鲲(Eric Jing)在 X 平台表示,他们使用今天早上 OpenAI 发布演示中相同的提示,一次成功并得到了以下结果:耗时仅为其几分之一,成本也只是其几分之一,质量却高出好几倍。Saboo 不仅转发了该对比结果视频还直言,“Genspark Super Agent 真的能一次性击败 OpenAI 的 ChatGPT。”

“我从未想过会有这一天——作为一个只有 24 人的小初创公司,我们竟然能领先这么多……甚至领先于 OpenAI……”景鲲激动地说道。并且,他在评论区放出了其测试任务的完整回放:https://www.genspark.ai/autopilotagent_viewer?id=ec2525b1-a16e-4f69-a568-d16b4b687aaf

对此,有海外网友点赞道,“你们让我惊叹,一个小团队竟能如此成功。”一位用户则指出,“根据我们部分客户的使用案例来看,Genspark 在某些任务上确实更快,而其他任务只有 Agent Mode 能起作用(我们也测试了 Manus、Skywork 和 Flowith)。”同时,他也对 Genspark 给出了极高的评价:“你们(Genspark)制作的幻灯片绝对是碾压级的第一名,其他产品根本难以企及。”

参考链接:

https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

https://arstechnica.com/information-technology/2025/07/chatgpts-new-ai-agent-can-browse-the-web-and-create-powerpoint-slideshows/