红杉资本访谈OpenAI团队:首次披露ChatGPT Agent研发内幕
8 小时前 / 阅读约21分钟
来源:36kr
OpenAI核心成员首次披露:我们是如何打造ChatGPT Agent的

7月23日消息,红杉资本日前举办了一场对话会,与OpenAI ChatGPT Agent团队成员深入探讨其技术创新与未来潜力。对话由红杉资本两位合伙人索尼娅·黄(Sonya Huang)和劳伦·里德(Lauren Reeder)共同主持,参与ChatGPT Agent发布活动的OpenAI团队成员伊萨・富尔福德(Isa Fulford)、凯西·楚(Casey Chu)和孙之清(Edward Sun)参加。

在这场对话中,他们分享了ChatGPT Agent的开发历程,探讨了ChatGPT Agent如何结合Deep Research和Operator的优势,实现跨领域任务的高效执行。他们还讨论了ChatGPT Agent的安全保障措施以及广泛的应用场景。

按照OpenAI的设想,ChatGPT Agent将具备更强的独立判断能力,能够根据每个用户的习惯和需求提供定制化服务,并支持语音、文字、图像等多种交流方式。未来,OpenAI将打造通用超级智能体,能够处理人类在计算机上的近乎所有任务。

以下为对话内容精简版:

主持人:今天,我们将与OpenAI团队的富尔福德、凯西·楚和孙之清共同探讨AI Agent的演进历程。你们开发了全新的ChatGPT Agent,请介绍一下它的核心功能和重大突破。

富尔福德:感谢邀请我们参加节目。ChatGPT Agent是Deep Research和Operator团队协作开发的成果。这款AI Agent能够执行复杂且耗时长达一小时的多步骤任务。我们为它配备了一个虚拟计算机环境,集成了文本浏览、视觉浏览、终端访问和API集成等功能,所有这些工具共享状态,类似于人类使用计算机时多个应用程序共享文件系统。

这种设计让ChatGPT Agent能够灵活处理各种复杂任务,显著提升效率和能力。我们对这款模型在多轮对话中的表现尤为满意,它能持续处理任务并不断改进。未来,我们希望进一步增强个性化和记忆功能,使ChatGPT Agent能够在无需用户主动发起的情况下执行任务。

1 诞生与演进

主持人:能否分享一下这个项目的起源故事?它是如何开始的?

凯西·楚:这个项目源于Deep Research和Operator两个产品的结合。2025年1月,我们发布了Operator,它能够执行在线购物等互联网任务。

两周后,我们推出了Deep Research,专注于浏览和综合网络信息,生成带有引文的详细研究报告。在制定未来发展路线时,我们意识到这两个产品可以互补。

Operator擅长处理视觉交互,例如点击网页元素,而Deep Research更擅长处理文本信息,例如阅读长篇文章。用户反馈显示,他们希望Deep Research能访问付费内容,而Operator已具备这种能力。因此,将两者结合是一个自然而然的选择。

孙之清:我们的团队通过统一Deep Research和Operator的架构,实现了能力的巨大飞跃。所有工具共享状态,用户可以在文本分析、视觉浏览和代码执行之间流畅切换。我们没有预先编程工具的使用模式,而是通过强化学习,在数千个虚拟机上让模型自行发现最佳策略。

这种方法使ChatGPT Agent能够与用户协作数小时,提出澄清问题并接受任务中的更正,极大地扩展了与AI智能体的交互方式。我们还面临安全性和任务复杂性等挑战,例如日期选择对AI仍是一个难题。小型团队通过精心的数据筛选实现了突破,表明AI发展进入了一个新阶段,产品洞察与计算能力同样重要。

富尔福德:ChatGPT Agent能够执行需要人类耗费大量时间的复杂任务。我们为它提供了一个虚拟计算机环境,包含多种工具:文本浏览器(类似于Deep Research工具),用于高效获取在线信息;视觉浏览器(类似于Operator工具),能够与图形用户界面交互,支持点击、输入表单、滚动和拖动等操作;以及终端工具,用于运行代码、分析文件、生成电子表格或幻灯片等成果物。

此外,通过API集成,ChatGPT Agent可以访问GitHub、Google Drive、SharePoint等服务,所有工具共享状态,类似于人类计算机上的应用程序共享文件系统。这种设计使ChatGPT Agent能够灵活应对复杂任务,为用户提供强大支持。

主持人:能否详细谈谈这个结合的过程?如何实现“1+1大于2”的效果?

凯西·楚:我们的团队分别开发了Operator和Deep Research。Operator擅长处理视觉交互,例如在网页上点击或填写表单,但不擅长阅读长篇文章;Deep Research则擅长高效浏览和综合文本信息,但难以处理交互性强的视觉元素。我们注意到用户在Operator上尝试Deep Research类型的任务,例如“研究旅行然后预订”。

因此,将两者结合是自然的选择。我们不仅融合了这两个工具,还加入了终端工具、图像生成工具和API调用功能,使ChatGPT Agent能够执行更广泛的任务。例如,终端工具可以运行命令进行计算,图像生成工具可以为幻灯片添加视觉元素,API调用可以生成PowerPoint演示文稿。

孙之清:这种结合显著增强了ChatGPT Agent的能力。例如,它可以用文本浏览器高效搜索信息,然后切换到视觉浏览器查看图片或交互元素,甚至在终端中运行代码生成成果物。所有工具共享状态,使ChatGPT Agent能够像人类一样无缝操作不同应用程序。

我们的团队成员埃里克(Eric)分析了用户在Operator上的提示,发现许多任务涉及Deep Research类型的需求,例如“研究旅行然后预订”,这进一步验证了结合的必要性。

2 多场景任务能力

主持人:ChatGPT Agent的具体应用场景有哪些?用户如何使用它?

富尔福德:我们有意设计了一个开放式的智能体,命名为“ChatGPT Agent”,鼓励用户探索其潜力。我们训练它处理Deep Research任务,例如生成详细报告;训练它完成Operator任务,例如预订航班或在线购物;以及数据分析任务,例如创建电子表格或幻灯片。其灵活性让我们期待用户会发现更多未曾预料的用途。

例如,Deep Research用户意外发现了代码搜索功能。我们希望ChatGPT Agent在消费者和企业场景中都能发挥作用,例如帮助专业用户生成详细报告,或为个人用户规划活动。无论是消费者等待30分钟获取详细报告,还是企业用户在工作中使用,它都能胜任。

凯西·楚:我个人用它处理Google Docs中的数据,生成展示数据的幻灯片。另一个有趣的案例是,我用它研究古DNA领域的新进展。由于该领域信息分散且缺乏综合参考资料,ChatGPT Agent能够从网络上收集信息,综合成报告或幻灯片,极大地简化了我的工作。

孙之清:我用它进行在线购物,尤其是需要视觉浏览的场景,例如通过搜索过滤器查看商品图片或选择款式。它在规划活动方面也非常有用,例如安排行程或活动。我最喜欢的购物任务是购买衣服,因为许多网站需要视觉浏览器来处理搜索过滤器或查看商品外观。

主持人:你们之前还展示了一个很酷的案例,能否分享一下?

富尔福德:当然!我们的同事让ChatGPT Agent基于网络信息估算OpenAI的估值,生成财务模型,包括电子表格、总结分析和展示结果的幻灯片。这个任务耗时28分钟,展示出它处理长时间任务的能力。ChatGPT Agent的预测相当大胆,而且幻灯片的质量令人印象深刻!

凯西·楚:这个案例开启了一种新范式:用户提出任务后可以离开,ChatGPT Agent在一段时间后返回详细报告。随着ChatGPT Agent变得更具自主性,任务时间可能更长,这是一个很好的例证。

主持人:28分钟已经很长了!你们有更长时间的任务吗?如何确保ChatGPT Agent长时间运行不偏离轨道?

孙之清:我最近运行了一个长达一小时的任务,可能是我们见过的最长时间任务。为了确保稳定性,我们开发了工具扩展ChatGPT Agent的上下文长度,使其记录任务进展,逐步完成复杂任务。

此外,我们设计了灵活的人机交互机制,用户可以随时纠正ChatGPT Agent、提供额外指令或要求状态更新。例如,用户可以要求它总结当前进展,或补充指令,例如“我只想要蓝色运动鞋”。

富尔福德:这种协作模式模仿了人们通过Slack沟通的方式。ChatGPT Agent会在需要时询问权限或澄清问题,例如在执行破坏性操作或需要登录时征求用户同意。

我们的界面还允许用户实时监控ChatGPT Agent的操作,甚至在任务完成后接管虚拟计算机环境,例如登录账户或输入信用卡信息。这种“观察同事操作并随时接手”的体验非常直观,增强了用户对ChatGPT Agent的控制感。

3 训练与突破

主持人:从技术角度看,ChatGPT Agent是如何训练的?

凯西·楚:我们采用了强化学习(RL)技术,在虚拟机环境中为它提供文本浏览器、GUI浏览器、终端和图像生成工具等

我们设计了复杂任务,让ChatGPT Agent通过试验发现最佳工具使用策略,并根据任务完成的质量和效率给予奖励。例如,ChatGPT Agent可能先用文本浏览器搜索餐厅信息,再用GUI浏览器查看菜品图片和预订可用性,或从网站下载数据后在终端中处理。这种共享状态的工具设计使ChatGPT Agent能够无缝切换工具,完成多样化任务。

富尔福德:与以往的工具使用不同,所有工具共享状态,类似于人类在计算机上使用多个应用程序。这种设计使ChatGPT Agent能高效处理互联网、文件系统和代码等交互任务。我们没有预先指定工具使用规则,而是让模型通过强化学习自行发现最佳策略,效果近乎神奇。强化学习的数据需求远小于预训练,我们通过精心筛选的高质量数据集教授模型新技能。

孙之清:强化学习非常数据高效,我们只需少量高质量数据集就能教授新技能。例如,我们创建了多样化的任务集,包括查找小众信息、撰写长篇报告等。只要能评估输出质量,强化学习就能有效提升性能。为了让Operator功能表现良好,我们在过去两三年里投入大量时间,使模型能够理解视觉元素和页面交互,为当前的ChatGPT Agent奠定了基础。

主持人:这种强化学习方法是OpenAI训练AI智能体的标准方法吗?

富尔福德:我们认为这种方法潜力巨大。这次发布是我们团队合作后的最简可行产品(Minimum Viable Product,MVP),但已展现强大能力。例如,幻灯片生成功能已非常出色,感谢众多团队成员的努力。我们相信通过同样的技术可以进一步提升,但可能还需引入其他技术。

凯西·楚:这种方法非常神奇,同样的强化学习算法适用于Deep Research、Operator以及现在的计算机使用ChatGPT Agent。我们在短时间内取得了这些成果,未来还有很大提升空间。

主持人:强化学习在交互性方面有什么特别的训练方法吗?

孙之清:我们主要关注端到端性能,从用户提示到任务完成。ChatGPT Agent在与用户交互方面表现良好,部分原因是我们在训练中纳入了多样化的任务轨迹。用户可随时干预,提供澄清或更正,它也能根据反馈调整行为。

主持人:早期的World of Bits项目(OpenAI开发的通用AI训练平台)尝试用强化学习控制鼠标路径,但问题过于复杂。现在有什么变化使这个问题变得可解?

孙之清:ChatGPT Agent的开发可追溯到2017年的World of Bits项目,我们戏称其为“World of Bits 2”。最大的变化是训练规模的提升,无论是预训练还是强化学习,计算量可能增加了数十万倍。数据规模和计算能力的提升使我们的目标得以实现。

4 如何防止“失控”

主持人:ChatGPT Agent在执行外部操作时,如何确保安全性和可靠性?

富尔福德:由于ChatGPT Agent能够与外部世界交互,例如访问网站或调用API,安全是核心关注点。

相比Deep Research的只读模式,ChatGPT Agent可能引发更大风险,例如在完成任务时执行意外的破坏性操作,如购买100个不同选项以确保用户满意。为此,我们实施了多层次安全措施,包括内部和外部红队测试、实时监控系统(类似于防病毒软件)以及快速响应新威胁的协议。我们特别关注生物风险等严重问题,例如防止ChatGPT Agent被用于创建生物武器。

凯西·楚:互联网充满风险,存在钓鱼攻击、欺诈等威胁。我们的模型经过安全训练,能识别部分风险,但有时可能过于急于完成任务而被欺骗。我们开发了一个实时监控系统,检查ChatGPT Agent的行为,若发现可疑操作(如访问异常网站),会立即暂停任务。

此外,我们有协议快速响应新威胁,类似于更新防病毒软件。感谢公司生物风险团队的缓解工作,我们进行了数周的红队测试,确保模型不会被用于有害用途。

富尔福德:安全训练是一个跨团队努力,涉及安全、治理、法律、研究和工程团队。我们在每个层面实施了防护措施,并将继续迭代以应对新威胁。例如,我们确保ChatGPT Agent在执行敏感操作(如登录银行账户)前会征求用户许可。

5 背后的团队协作

主持人:开发团队是如何协作的?规模如何?

富尔福德:我们的团队由Deep Research和Operator的研究与应用团队合并而成,总人数并不多。Deep Research团队最初只有3-4人,Operator团队约6-8人,加上由亚什・库马尔(Yash kumar)领导的优秀工程和产品设计团队。研究与应用团队紧密合作,从定义产品功能到模型训练均以用户场景为导向。这种小团队协作使我们在短时间内取得了显著成果。

凯西·楚:研究与应用团队的界限并不严格。应用工程师参与模型训练,研究人员也参与模型部署。这种跨职能合作使项目充满活力,团队氛围非常好。富尔福德和我是老朋友,这种默契也促进了团队合作。

孙之清:小团队能成就大事。我们在几个月内完成了这个项目,研究与应用团队从一开始就共同定义产品功能,确保以用户需求为导向。虽然ChatGPT Agent尚未完全实现所有目标,但这种框架使我们能够快速迭代。

主持人:训练过程中最大的挑战是什么?

孙之清:训练的稳定性是一个巨大挑战。Deep Research只涉及文本浏览和Python,而ChatGPT Agent需同时处理多种新工具,如GUI浏览器、终端、图像生成工具和API调用,所有这些都在同一虚拟机环境中运行。我们需要同时运行成千上万的虚拟机访问网络,经常遇到网站宕机、API限制或网络容量不足等问题

例如,某些网站可能因流量过载而暂时不可用,或者API调用因速率限制而失败,这要求我们在训练中加入鲁棒性机制,确保ChatGPT Agent能处理这些异常情况。尽管面临这些挑战,我们通过优化虚拟机环境和改进训练算法,最终成功训练了模型,使其在多样化任务中表现出色。

富尔福德:未来,我们希望进一步提升ChatGPT Agent的多轮对话能力、个性化和记忆功能。目前,所有任务都由用户发起,但我们设想ChatGPT Agent未来能够自主识别用户需求并主动执行任务。例如,它可能根据用户历史行为预测需求,自动生成报告或规划活动。

我们也在探索新的用户界面和交互模式,例如更直观的非聊天式交互方式、语音指令或图形化界面等,以提升用户体验。此外,我们计划优化ChatGPT Agent的上下文管理,使其在长时间任务中更好地保持任务连贯性,同时减少对计算资源的依赖。

凯西·楚:从编码角度看,我发现ChatGPT Agent在代码搜索和小型代码编辑方面表现优异,因为它能准确读取文档并减少幻觉。例如,它可以通过API访问GitHub,搜索特定代码库并提取相关代码片段。我用它处理类似o3的交互式编码任务,而Codex更适合解决明确定义的问题。用户会发现更多新用例,如Deep Research用户发现的代码搜索功能。

未来,我们希望ChatGPT Agent在编程任务中进一步提升,比如支持更复杂的代码调试或自动化生成完整应用程序。此外,我们正在研究如何让ChatGPT Agent更好地理解用户意图,例如在代码编辑中自动推断用户想要的功能,而无需详细指令。

6 打造通用超级智能体

主持人:你们会开发专门的子智能体,例如财务分析智能体或活动策划智能体,还是坚持单一超级智能体的愿景?

富尔福德:我们倾向于打造一个通用的超级智能体。如果一个智能体能根据需求灵活调用所有工具,就像一位全能的首席幕僚,这将是简单高效的解决方案。

我们的训练数据显示,不同任务之间存在正向迁移,例如在购物任务中学习到的视觉交互技能可应用于研究任务中的网页导航。因此,单一智能体模型在扩展性和通用性上更具潜力。我们希望通过持续优化,让ChatGPT Agent能够无缝处理从简单查询到复杂工作流的各种任务,减少用户对多个专用模型的依赖

凯西·楚:虽然在产品发布时,定制化模型可能有市场价值,但从训练角度看,通用智能体能更好地利用技能的可迁移特性。例如,ChatGPT Agent在购物任务中可能使用终端进行预算计算,无需专门的财务分析工具。我们也在探索如何通过强化学习进一步提高它的泛化能力,例如让它在遇到全新任务时快速适应,而无需大量额外训练数据。未来,ChatGPT Agent可能通过学习用户反馈,动态调整其行为模式,进一步提升任务完成的精准度

孙之清:我们的目标是让ChatGPT Agent处理人类在计算机上执行的几乎所有任务。用户甚至可以要求它‘尝试在网上赚钱’,尽管目前执行尚不完美。我们将通过迭代部署提高任务完成的质量和准确性。例如,我们计划优化ChatGPT Agent在复杂任务中的决策过程,减少错误操作的可能性,同时提高其在动态环境中的适应能力。此外,我们希望通过用户反馈和实际使用数据,持续改进ChatGPT Agent的性能,使其在处理跨领域任务时更加智能和高效。

主持人:展望未来,你们对ChatGPT Agent的愿景是什么?

富尔福德:我们为ChatGPT Agent提供了涵盖人类在计算机上所能完成大部分任务的工具集。我们将致力于提升模型在多样化任务上的表现,优化用户交互体验,探索新的交互模式,例如更个性化的记忆功能或自主任务发起。

我们希望ChatGPT Agent未来能够自主感知并响应用户需求。例如,ChatGPT Agent可能根据用户日程自动规划会议,或根据历史偏好推荐个性化解决方案。

凯西·楚:我们对改进用户界面和体验感到兴奋。当前基于聊天的交互仅是起点,未来可能有更多创新交互方式,例如基于手势或多模态输入的界面。

我们希望用户发现ChatGPT Agent的新能力,如Deep Research用户发现的代码搜索功能。例如,ChatGPT Agent在数据科学任务中已超越人类基准,感谢同事约翰·布莱克曼(John Blackman)在电子表格和数据分析方面的努力。未来,我们计划让ChatGPT Agent在数据处理和可视化方面进一步提升,例如自动生成交互式仪表板。

孙之清:自1月发布Operator以来,我们显著提高了点击和表单填写的准确性,尽管日期选择等任务仍有改进空间。我们为ChatGPT Agent提供了通用工具集,涵盖人类在计算机上的大部分任务。未来的挑战是确保模型在所有任务上表现出色,并开发新的交互范式,例如更自然的语音交互或实时协作工具。我们期待用户与ChatGPT Agent形成更自然的协作关系,开启AI智能体的新时代。

主持人:非常感谢你们的分享!祝贺新产品发布,期待看到它的更多精彩表现!