刚刚,奥特曼官宣ChatGPT“终极OS入口”!8分钟速搭智能体,8亿人狂欢
6 小时前 / 阅读约11分钟
来源:凤凰网
OpenAI 2025开发者日上,奥特曼宣布四大更新:Apps SDK打造ChatGPT为操作系统入口,AgentKit一键拖拽构建智能体,Codex无代码开发,Sora 2等三大API登场。

编辑:桃子 定慧

OpenAI 2025开发者日上,全场座无虚席。奥特曼重磅官宣四大更新:首发Apps SDK要把ChatGPT打造为「操作系统终极入口」,一键拖拽构建智能体AgentKit,无代码Codex开发,以及Sora 2等三大API登场。OpenAI的野心,彻底藏不住了。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

OpenAI 2025开发者日,奥特曼的精彩演讲引爆全场!

现场,50分钟发布会,奥特曼重磅官宣了四项重大更新:

Apps SDK:与外部应用无缝集成,OpenAI最大野心——把ChatGPT打造成未来的操作系统;

AgentKit:无需编码,拖放搭建智能体。人人都可快速开发智能体,还能评估智能体能力;

Codex全面可用:不写一行代码,打造爆款APP;

API更新:三大API更新,Sora 2 API同步上线。

最最重磅的,还是Apps SDK,所有人皆可在ChatGPT中构建原生应用,其意义堪比2023年首发的GPTs。

这预示着,ChatGPT又将成为一个新时代的「APP Store」!

正如爆料所言,AgentBuilder让智能体构建变得像搭积木一样简单直观。现场,仅用8分钟拖拽,便一键完成了完整Agent的搭建。

自从2023年11月首届开发日以来,短短两年,OpenAI开发者规模已经从200万增长到400万,翻了1倍!

ChatGPT周活也从1亿暴增超8亿,翻了8倍!

现在,OpenAI API每分钟都有近60亿token产生,相比此前的3亿token,翻了20倍!

这些里程碑的数字不仅代表增长,更意味着AI正在成为新的技术基础设施。

OpenAI未来的野心,全部藏在了这场发布会的四大核心发布中。

ChatGPT,下一代「操作系统」

首先,奥特曼带来首个重磅发布叫做——Apps SDK。

意味着你可以在ChatGPT直接调用其他APP。借助Apps SDK,ChatGPT可以集成各种应用。

这个功能完全反映了OpenAI的野心!

奥特曼想把ChatGPT打造成未来的操作系统。

现在我们的应用都是运行在MacOS、Windows、Linux等操作系统上。

未来,ChatGPT将成为更上级的「操作系统」,即使是专业APP,都可以直接「运行」在ChatGPT里。

ChatGPT的目标是成为「操作系统级」的入口,而不仅仅是一个「应用」!

OpenAI的应用CEO Fidji Simo盛赞这个功能将「无法想象」,非常期待开发者打造的应用。

奥特曼想把ChatGPT变成每个人的「默认界面」,就像曾经Windows桌面是每个人的「默认界面」一样。

目前公布支持的APP包括:Booking.com、Canva、coursera、Expedia、Figma、Spotify和Zillow。

OpenAI的软件工程师Alexi现场展示了如何在ChatGPT直接调用这些外部应用。

比如只需要输入「Coursera」,ChatGPT就能自动识别并调用Coursera的功能。

可以直接在ChatGPT中要求「Canva」制作海报,而不需要额外跳转。

类似的,可以直接在ChatGPT中使用Zillow查询周边房价,并使用Zillow的UI来直接呈现。

奥特曼承诺,更多应用即将上线。

一键拖拽,8分钟搭一个Agent

第二个全新的功能就是此前剧透的可视化智能体构建平台。

新功能名为AgentKit,是面向开发者和企业的一整套构建、部署和优化智能体的工具。

AgentKit包含三个工具:

Agent Builder:可视化画布

Connector Registry:管理数据和工具如何连接

ChatKit: 嵌入定制聊天界面的工具包

Agent Builder是一个全新的可视化拖拽平台,AI智能体的构建流程就像搭积木一样简单!

ChatKit可以生成各种各样的聊天工具,提供独一无二的Chat体验。

此外,OpenAI这次还提供了评估智能体能力的Eval指标。

通过四个方面,数据集、跟踪评分、自动化提示和第三方模型支持,来评估新建智能体的能力。

关于如何定义Agents,什么是智能体的定义,奥特曼在这次大会也给出了一个答案:

「能够为你工作的系统」都可以称为智能体,Agents!

奥特曼现场展示了Albertsons如何构建智能体来分析销量。

比如,可以直接让ChatGPT出一个提高冰激淋销量的方案。

OpenAI平台体验部门的Christina Huang现场直播展示了,如何只用8分钟就构建一个完整的智能体!

使用Agent Builder无需写任何一行代码,全程只需要拖拽和参数配置。

现在Agent Builder功能已经在OpenAI Platform网站上线。

简单体验了下,构建过程非常的丝滑。

进入开发者平台,点击左侧的「Agent Builder」即可使用。

构建后,点击右上角Evaluate即可开始对新建智能体的评估。

不写一行代码,打造爆款APP

除了ChatGPT原生应用和智能体,AI在软件开发上,已带来颠覆性的变革。

谁曾想,如今,OpenAI内部每周70%的PR都由Codex完成。

就比如,在Codex加持下,拖放搭建智能体工具从0开发仅用6周完成。

奥特曼称,我们正进入一个全新时代,任何有想法的人,都能为自己、家人、社区构建一款应用。

在此,他举了几个鲜活的、发生在每个人身边的案例——

一位89岁退休日本老人,用ChatGPT自学编程为老年用户开发了11款iPhone应用;西班牙的一位老人和流媒体成员,借助ChatGPT、Sora等,帮人们重拾记忆;

在ASU医学院,基于ChatGPT搭建的虚拟患者应用,帮助学习模拟练习如何和患者沟通;还有在法国凡尔赛宫,官方基于Realtime API打造的一款APP,让游客与艺术品和雕塑进行实时对话。

重点来了,今天起OpenAI Codex结束预览,正式进入通用可用阶段。

自今年初首次发布,到GPT-5 Codex的迭代后,Codex的每日消息量增长10倍,自发布处理了超40万亿token。

这一次,新增功能包括:Slack集成、Codex SDK、企业控制。

目前,思科在内部部署Codex后,代码审查速度提升50%,项目平均周期从数周缩短至数天。

现场,OpenAI开发者负责人Romain Huet带来了「舞台灯光控制器」的实时互动演示。

设计原型非常简单,一个控制面板——左侧是摄像头画面,右侧排列操作按钮。

全程无需手写一行代码,Codex快速生成一个功能齐全的界面。

「如何在Node.js中控制索尼FR7相机?」

面对C++ SDK的复杂性,Codex提出了更加优雅的解决方案——基于VISC协议集成控制功能。

几分钟内,Codex不仅生成了Node服务器代码,还解析了相机所需的UDP数据包,甚至发现了特定型号相机所需的特殊头部信息。

仅仅用按钮控制相机还不够,下一步,让Xbox无线手柄实现相机控制。

通过Codex IDE扩展发送指令,Codex便会迅速制定计划、分析文件,自动识别Xbox的输入逻辑,并将摇杆映射为控制的最佳方式。

运行服务器,现场摄像头画面屏幕闪现,台下所有人挥手打招呼。

更令人兴奋的是,它还集成了语音交互功能。

通过Codex的Realtime API和智能体语音,可以将自然语言引入这款应用。

只需说一句,「将灯光聚焦到观众席」,Codex便通过MCP服务器控制会场灯光系统,瞬间点亮观众席。

最后,Romain还用Codex SDK拍了一张全体照片,实现了一个「电影式结尾」——演职员表,将现场所有参会者的名字动态呈现。

这一切,全部通过语音指令完成。

Codex GA(General Availability)开放,标志着软件工程未来全新可能。

奥特曼现场表示,「它将最复杂的编码难题简化为自然语言指令,唯一的限制就是你的想象力」。

三大API,Sora 2也上线了

最后,奥特曼带来了三大API——GPT-5 Pro、gpt-realtime-mini、Sora 2。

开发者们可以抢先一步,享用最强GPT-5 Pro智能,其在指令遵循方面能力大幅提升,体验更优。

在处理那些高精度、深度推理复杂任务,GPT-5 Pro更拿手,尤其是在金融、法律、医疗保健等众多行业。

如今,OpenAI API即可支持GPT-5 Pro的调用。

它的训练截止时间是2024年9月30日,400k上下文窗口,最大支持272k token输出。

输入价格:15美元/百万token,输出价格:120美元/百万token。目前支持文本、图像输入,仅文本输出。

最新的API定价,再次刷新了价格天花板。

GPT-5 Pro输入价格是GPT-5 15倍,输出价格是GPT-5 12倍。

同时,OpenAI还在API中发布了一款语音模型——gpt-realtime-mini。

这是两个月前高级语音模型的缩小版,成本降低了70%,但语音质量和性能保持不变。

奥特曼称,「就我个人而言,我认为语音将成为人们与 AI 交互的主要方式之一。而这次发布正是迈向这一现实的一大步」。

值得一提的是,几天前刚刚上线的Sora 2,预览版的API也正式上线。

视频长度、宽高比、分辨率,全程可控。

这意味着,任何一款APP直接可以用Sora API,生成出令人惊叹的视频。

可控性,是Sora 2最大的优势。比如,拍摄iPhone视图,Sora即可扩展成一个全景电影宽镜头。

首次实现音画同步,Sora 2直出背景、环境音效。

甚至,人们还可以将现实世界的片段融入Sora。比如,将自家狗照片上传,就可以瞬间为它造出「赛博狗友」。

在电商广告中,Sora 2还可以做概念开发。

一个用户案例是,OpenAI联手MATTEL,将创意师的产品创意瞬间变为现实。

演讲的最后,奥特曼激动表示,「我们正见证一个前所未有的时代」。

曾几何时,开发一款软件需要数月,甚至数年的周期。

而今天,有了AI,一个想法可以在几分钟内落地成型。

开发者不再需要一个庞大的团队,只需一个好的创意,就能超越以往的速度,将灵感变为现实。

我们的愿景,是让AI真正为每一个人所用。

而这个愿景,离不开你们每一个人的参与。