离职工程师长文复盘:为什么OpenAI总能诞生伟大产品?
12 小时前 / 阅读约25分钟
来源:凤凰网
没有多余的扯皮,没有李度OKR谁能上就直接上!

编辑 重点君

从掀起新一轮科技浪潮的ChatGPT,到DALL·E、Whisper、Sora、Codex,很多人好奇,为什么OpenAI总能诞生改变世界的伟大产品?

三周前,OpenAI资深工程师Calvin French-Owen宣布离职,他是Codex项目的核心成员之一,Codex 是 OpenAI 的新型编程助手,竞争对手包括 Cursor 和 Anthropic 的 Claude Code。

离开后,Calvin 写了一份长长的内部回忆,从一线工程师的角度,给所有好奇OpenAI 的人揭秘了这个组织内部的真实情况。在他眼里,OpenAI是一个非常复杂的存在:既像研究实验室,更像一台永不停歇的产品机器。

OpenAI一年,从一千人暴增到三千人

在加入OpenAI 时,Calvin 是第 1000 多个员工,一年后,公司规模翻了三倍。他在博客里写道,这种飞速扩张带来了典型的“成长的烦恼”:组织沟通混乱、团队节奏各异、Slack 消息轰炸一切。

OpenAI 内部几乎不用邮件,所有沟通都在 Slack 上完成。没有人会管你怎么用,只要你能跟上节奏。

他形容自己从Segment 的小团队创始人身份,切换到 3000 人组织里的一颗螺丝钉,这种落差感让他一度怀疑自己的决定。但这段时间,也让他看见了一个“巨型科研与产品工厂”是怎么运转的。

自下而上,一切都能自己先干起来

Calvin 反复提到一个词:自下而上。在 OpenAI,好点子往往不是靠流程生出来的,而是哪个人先偷偷动手做了个原型。

当时Codex 的原型,内部一度有 3-4 个版本同时流传,都是几个人自己攒出来的。等到效果好,就能拉人、组队、立项。

管理也和传统巨头不太一样:谁能想出好点子、能做出来,谁就能在团队里获得更高的话语权。相比演讲和政治手腕,这家公司更看重“你能不能把东西做出来”。

他甚至说,最好的研究员都像是“小型 CEO”,他们对自己手头的研究有完全的自主权,没人会管你要做什么,只看结果。

迅速行动,Codex 仅七周就上线

Calvin 在这封备忘录里最鲜活的部分,来自 Codex 冲刺的 7 周。

他提前结束了陪产假,又回到办公室,和十几个人拼了命地打磨产品、测试功能、改代码。他写道:“这是我近十年来最累的七周。每天晚上十一二点回家,清晨五点半又被孩子叫醒,七点重新坐进办公室,周末也在赶工。”

从第一行代码到上线,Codex 只用了 7 周。在这背后,是一个不到 20 人的核心团队,外加随时拉来的 ChatGPT 工程师、设计、产品经理、市场。没有多余的扯皮,没有季度 OKR,谁能上就直接上。

他说自己从没见过哪家公司能在这么短的时间里把一个idea 变成产品,还免费开放给所有人用——这就是 OpenAI 最真实的工作节奏。

被放大的注目与隐形的压力

这家公司的野心远不止ChatGPT。Calvin 爆料,OpenAI 同时在十几个方向上下注:API、生图、编码代理、硬件、甚至还有没对外公布的项目。

他也看见了这背后不可避免的高压。

几乎所有团队都在追赶同一个目标:打造通用人工智能(AGI)。他们的每一条 Slack 消息,都可能会被全球放大成新闻。内部很多产品和收入数据严防死守,团队里有不同的权限区隔。

外界讨论的安全问题,Calvin 也有他的观察。他说,真正让大多数团队日夜担心的,并不是“AI 什么时候掌控世界”,而是仇恨言论、政治操纵、提示注入、或者用户拿它来写生物武器配方。这些现实的、不起眼的风险,远比哲学问题更棘手。

OpenAI 到底酷在哪儿?

在外人看来,这家公司是“离人类终极智能最近的地方”。在离开的人眼里,酷的地方恰恰是:它仍然没变成一个迟钝的巨头。

Codex 项目用 7 周上线,团队可以随时跨项目调人,“只要有用,就别等下个季度计划”。领导层天天泡在 Slack 里,不是象征性露面,而是真的参与具体讨论和决策。

还有一点让他很服气:OpenAI 把最强大的模型免费放到 API 里,不仅卖给大企业,也给普通人用,不用签年度协议,也不用交昂贵授权费。这点,他们算是说到做到。

他离开的原因,也没那么戏剧化。外界总爱把离职放大成阴谋。Calvin 却说,离开 OpenAI 70% 只是因为他想重新做点自己的事。

在他眼里,OpenAI 已经从一群科学怪人做实验室,变成了一个混合体:一半是科研,一半是消费级应用的产品机器,不同团队有不同目标和节奏。而他需要新的探索。

最后这封信留给外界的,是一份旁观者视角的提醒:OpenAI 不是冷冰冰的 AGI 工厂,而是一群人,用一套近乎极限的速度,把脑子里的点子变成全世界用得上的产品。

他写道:“哪怕只是站在这台巨型机器里的一颗小螺丝钉,也足够让人清醒,也足够让人兴奋。”

这段话或许就是所有离开、留下,或者正好奇着OpenAI 的人,都会懂的一句话。

原文链接:https://calv.info/openai-reflections

以下为Calvin 分享原文(由GPT翻译):

关于OpenAI 的思考

2025 年 7 月 15 日

我三周前离开了OpenAI。我是在 2024 年 5 月加入这家公司的。

我想分享我的一些感想,因为围绕OpenAI 的所作所为有很多烟雾弹和噪音,但关于在那里工作的文化实际感受却鲜有第一手的描述。

纳比尔·奎雷希有一篇精彩的文章《对 Palantir 的反思》,他在文中深思了 Palantir 的独特之处。我也想趁记忆犹新时,对 OpenAI 做同样的反思。这里没有任何商业机密,更多的是对这个历史上最引人入胜的组织之一在极其有趣时期的现状的一些感想。

先说明一下:我离开的决定中没有任何个人恩怨——事实上我对此感到非常矛盾。从自己创办的项目转变为一家拥有 3000 名员工的组织中的一员,这种转变很难。现在我渴望一个新的开始。

完全有可能是工作的质量会吸引我回去。很难想象能打造出像AGI 那样有深远影响的东西,而 LLMs 无疑是本十年的技术创新。我很幸运能亲眼见证一些发展,并且参与了 Codex 的发布。

显然,这些并非公司的观点——作为观察,这是我个人的看法。OpenAI 是一个大平台,这只是我对它的一扇小窗。

文化

关于OpenAI,首先要了解的是它的快速成长。当我加入时,公司员工刚刚超过 1000 人。一年后,人数已超过 3000,而我在任职时间上位于前 30%。几乎所有领导层成员的工作内容与 2-3 年前截然不同。

当然,快速扩张带来了各种问题:如何作为一个公司进行沟通,汇报结构,产品发布流程,人员管理与组织,招聘流程等等。各团队文化差异显著:有些团队一直全速冲刺,有些则在监控大型项目运行,还有些保持着更为稳定的节奏。没有单一的OpenAI 体验,研究、应用和市场推广部门的时间节奏也大相径庭。

OpenAI 的一个特殊之处在于,所有一切——我指的是所有——都依赖 Slack 进行。没有电子邮件。在我整个任职期间,收到的邮件大约只有 10 封。如果你不善于组织,这会让你感到极度分心。但如果你能合理管理频道和通知,使用起来还是相当可行的。

OpenAI 在研究方面尤其注重自下而上的方式。当我刚加入时,我开始询问下一季度的路线图。得到的回答是:“这并不存在”(虽然现在有了)。好点子可以来自任何地方,而且通常很难提前判断哪些点子会最有成效。与其说有一个宏大的“总体规划”,不如说进展是迭代的,随着新研究成果的出现逐步显现。

正因为这种自下而上的文化,OpenAI 也非常重视能力和贡献。公司历来的领导者主要是基于他们提出好点子并付诸实施的能力而晋升。许多非常有能力的领导者在全员大会上的演讲或政治手腕方面并不擅长。在 OpenAI,这些方面的重要性远不如其他公司。最好的点子往往会胜出。

有一种强烈的行动偏向(你可以直接去做事情)。类似的团队,虽然彼此无关,却经常会在各种想法上不谋而合。我最初参与了一个与ChatGPT 连接器类似的平行(但内部)项目。在我们决定推动发布之前,可能有大约 3-4 个不同的 Codex 原型在流传。这些工作通常由少数几个人在未获许可的情况下自行开展。随着项目展现出潜力,团队往往会迅速围绕它们组建起来。

Andrey(Codex 负责人)曾告诉我,你应该把研究人员看作他们自己的“小型高管”。有一种强烈的倾向是专注于自己的事情,看看结果如何。这里有一个推论——大多数研究都是通过“极客诱导”研究人员专注于某个特定问题来完成的。如果某个问题被认为无聊或“已解决”,它很可能不会被继续研究。

优秀的研究经理极具影响力,但同时也非常有限。最出色的经理能够连接许多不同的研究工作,汇聚成更大的模型训练。同样的道理也适用于出色的产品经理(向ae 致敬)。

我合作过的ChatGPT 产品经理(Akshay、Rizzo、Sulman)是我见过的最酷的客户之一。感觉他们几乎已经见识过一切。他们大多相对放手,但都聘用了优秀的人才,并努力确保他们能够取得成功。

OpenAI 能够迅速调整方向。这是我们在 Segment 非常重视的一点——随着新信息的出现,做正确的事远比仅仅因为有计划而坚持原路更好。令人惊讶的是,像 OpenAI 这样规模庞大的公司依然保持着这种精神——而谷歌显然没有。公司决策迅速,一旦决定追求某个方向,就全力以赴。

公司面临着大量的审视。作为来自B2B 企业背景的人,这让我有些震惊。我经常看到新闻媒体爆出尚未在内部宣布的消息。当我告诉别人我在 OpenAI 工作时,常常会遇到对公司已有的既定看法。一些 Twitter 用户运行自动机器人,检查是否有新功能即将发布。

因此,OpenAI 是一个非常保密的地方。我不能向任何人详细透露我正在做的工作。这里有几个拥有不同权限的 Slack 工作区。收入和资金消耗数据则被更加严格地保密。

OpenAI 也是一个比你想象中更严肃的地方,部分原因是因为风险感非常高。一方面,目标是构建通用人工智能(AGI)——这意味着有很多事情必须做到位。另一方面,你正在打造一个产品,数亿用户依赖它来获取从医疗建议到心理治疗的各种服务。再另一方面,公司正参与全球最大的竞争舞台。我们会密切关注 Meta、谷歌和 Anthropic 的动态——我相信他们也在做同样的事情。所有主要国家政府都在密切关注这一领域。

尽管OpenAI 经常在媒体上受到诋毁,但我遇到的每个人实际上都在努力做正确的事。鉴于其面向消费者的定位,它是大型实验室中最为显眼的,因此也承受了大量的诽谤。

话虽如此,你大概不应该把OpenAI 看作一个单一的整体。我认为 OpenAI 起初像洛斯阿拉莫斯实验室一样,是一群科学家和技术爱好者在探索科学前沿。这个团队偶然间催生了史上最具病毒传播性的消费级应用。随后,它的发展目标扩展到了向政府和企业销售。组织中不同资历和不同部门的人,随后有了截然不同的目标和观点。你在那里的时间越长,越可能通过“研究实验室”或“为公益服务的非营利机构”的视角来看待事情。

我最欣赏这家公司的一点是,它在分配人工智能利益方面“言行一致”。最先进的模型并不局限于某个需要年度协议的企业级别。世界上任何人都可以直接使用 ChatGPT 获取答案,即使没有登录。你可以注册并使用 API——大多数模型(即使是最先进或专有的)通常也会很快进入 API,供初创企业使用。你可以想象一种与我们今天所处的体系截然不同的运作模式。OpenAI 为此应当获得大量赞誉,这仍然是公司核心的基因。

安全性实际上比你从Zvi 或 Lesswrong 等大量阅读中猜测的要重要得多。有大量人员致力于开发安全系统。鉴于 OpenAI 的性质,我看到更多关注的是实际风险(仇恨言论、滥用、操纵政治偏见、制造生物武器、自残、提示注入)而非理论风险(智能爆炸、权力寻求)。这并不是说没人关注后者,确实有人专注于理论风险。但从我的角度来看,这并不是重点。大部分工作没有公开发表,OpenAI 确实应该做更多工作来发布这些内容。

与其他公司在每次招聘会随意发放周边不同,OpenAI 几乎不发放周边(即使是给新员工)。取而代之的是“限时发售”,你可以订购有现货的商品。第一次发售时,需求量大到导致 Shopify 商店瘫痪。内部还流传着一篇帖子,讲解如何正确 POST JSON 数据包以绕过限制。

与GPU 成本相比,几乎所有其他开销都微不足道。举个例子:作为 Codex 产品一部分开发的一个小众功能,其 GPU 成本与我们整个 Segment 基础设施的 GPU 成本相当(虽然规模不及 ChatGPT,但也承担了相当一部分互联网流量)。

OpenAI 可能是我见过的最令人畏惧的雄心勃勃的组织。你可能会认为拥有全球顶级的消费级应用之一已经足够了,但他们渴望在数十个领域展开竞争:API 产品、深度研究、硬件、编码代理、图像生成,以及一些尚未公布的领域。这是一个孕育并推动创意不断前进的沃土。

公司非常关注推特。如果你发了一条与OpenAI 相关且广为传播的推文,很可能有人会看到并加以考虑。我的一个朋友开玩笑说:“这家公司靠推特氛围运转。”作为一家面向消费者的公司,这说法或许并不完全错误。虽然他们确实还在大量分析使用情况、用户增长和留存率,但氛围同样重要。

OpenAI 的团队比其他地方更加灵活。在推出 Codex 时,我们需要几位有经验的 ChatGPT 工程师的帮助以赶上发布日期。我们与一些 ChatGPT 的工程经理会面提出请求。第二天,就有两位非常厉害的人准备投入并提供帮助。没有“等待季度计划”或“重新调整人员编制”的繁琐过程,进展非常迅速。

领导层非常显眼且深度参与。在像OpenAI 这样的公司,这或许很明显,但每位高管似乎都非常投入。你会经常在 Slack 上看到 gdb、sama、kw、mark、dane 等人积极发言。没有缺席的领导者。

代码

OpenAI 使用一个庞大的单一代码库,主要是 Python(尽管也有越来越多的 Rust 服务和少量用于网络代理等的 Golang 服务)。这导致代码风格多样,因为 Python 有很多不同的写法。你会遇到既有来自拥有十年经验的谷歌老兵设计的可扩展库,也有刚毕业博士写的临时 Jupyter 笔记本。几乎所有东西都围绕 FastAPI 来创建 API,使用 Pydantic 进行验证。但整体上并没有强制执行统一的代码风格指南。

OpenAI 的所有服务都运行在 Azure 上。有趣的是,我认为只有三项服务是值得信赖的:Azure Kubernetes 服务、CosmosDB(Azure 的文档存储)和 BlobStore。没有真正等同于 Dynamo、Spanner、Bigtable、BigQuery、Kinesis 或 Aurora 的服务。自动扩展单元的思维方式也较为罕见。IAM 的实现通常远不如 AWS 那样完善,而且有很强的内部开发倾向。

在人员方面(至少在工程领域),Meta 到 OpenAI 的人才流动非常显著。在许多方面,OpenAI 类似于早期的 Meta:一个爆款的消费级应用、初步的基础设施,以及快速发展的渴望。我见过从 Meta 和 Instagram 转过来的大多数基础设施人才都非常优秀。

将这些因素结合起来,你会发现许多基础设施的核心部分让人联想到Meta。内部重新实现了 TAO,努力在边缘整合身份认证,我相信还有许多我不了解的其他项目。

聊天的概念非常深入。自从ChatGPT 走红以来,很多代码库的结构都是围绕聊天消息和对话的理念构建的。这些基本元素已经深深植入其中,忽视它们可能会带来风险。我们在 Codex 中稍有偏离(更多借鉴了响应 API 的经验),但仍然利用了大量已有的技术成果。

代码取胜。与其依赖某个中央架构或规划委员会,决策通常由计划执行工作的团队做出。结果是行动导向非常强烈,代码库中常常存在多个重复的部分。我大概见过半打左右的队列管理或代理循环相关的库。

在几个方面,快速扩展的工程团队和缺乏工具带来了问题。sa-server(后端单体应用)成了一个有些杂乱的地方。主分支上的持续集成(CI)故障比预期频繁得多。即使测试用例并行运行,并且只考虑部分依赖,使用 GPU 运行也可能需要大约 30 分钟。这些问题并非无法解决,但这提醒我们,这类问题无处不在,而且在快速扩展时可能会变得更严重。值得肯定的是,内部团队正高度重视并致力于改进这一状况。

我学到的其他东西

这就是大型消费品牌的样子。在我们开始开发Codex 之前,我并没有真正意识到这一点。所有的衡量标准都是以“专业用户”为单位。即使是像 Codex 这样的产品,我们也主要考虑个人使用的入门体验,而不是团队使用。作为一个主要来自 B2B/企业背景的人,这让我有些难以适应。你只需一开关,流量从第一天起就会涌入。

大型模型的训练(高层次概述)。从“实验”到“工程”存在一个光谱。大多数想法最初都是小规模实验。如果结果看起来有希望,它们会被纳入更大规模的训练中。实验不仅涉及调整核心算法,还包括调整数据组合并仔细研究结果。在大规模训练方面,几乎看起来像是巨型分布式系统工程。会遇到各种奇怪的边缘情况和意想不到的问题,调试这些问题的责任就在于你。

如何进行GPU 计算。作为 Codex 发布的一部分,我们必须预测负载容量需求,而这也是我第一次真正花时间对 GPU 进行基准测试。关键是你应该从所需的延迟要求入手(整体延迟、令牌数量、首个令牌时间),而不是从底层分析 GPU 能支持的性能开始。每一次新模型的迭代都可能极大地改变负载模式。

如何在大型Python 代码库中工作。Segment 结合了微服务,主要使用 Golang 和 Typescript。我们没有 OpenAI 那样庞大的代码量。我学到了很多关于如何根据开发者数量来扩展代码库的经验。你必须为“默认可用”、“保持主分支干净”和“难以误用”等方面设置更多的保护措施。

发布Codex

我在OpenAI 的最后三个月中,很大一部分时间都投入到了 Codex 的发布。这无疑是我职业生涯中的一个重要亮点。

背景介绍:早在2024 年 11 月,OpenAI 就设定了 2025 年推出编程代理的目标。到了 2025 年 2 月,我们内部已有一些利用模型取得显著效果的工具在运行。我们感受到了推出专门针对编程的代理的压力。显然,模型已经发展到对编程非常有用的阶段(市场上新兴的各种编程辅助工具的爆发即是明证)。

我提前结束了陪产假,回去协助参与Codex 的发布。一周后,我们经历了两个团队(略显混乱的)合并,随后开始了疯狂的冲刺。从最初编写第一行代码到完成,整个产品仅用了 7 周时间。

Codex 冲刺可能是我近十年来最努力的一次。大多数晚上都工作到十一点或午夜。每天早上五点半被新生儿叫醒。七点又去办公室。大多数周末也在工作。我们作为一个团队全力以赴,因为每一周都至关重要。这让我想起了在 Y Combinator 的时光。

这种速度之快,难以用言语形容。我从未见过无论大小的组织能在如此短的时间内,从一个想法发展到完全发布且免费提供的产品。范围也不小;我们构建了一个容器运行时,优化了代码库下载,微调了一个定制模型以处理代码编辑,处理了各种git 操作,引入了全新的界面,启用了互联网访问,最终打造出一个使用起来非常愉快的产品。 4

不管你怎么说,OpenAI 依然保持着那种开拓精神。

好消息是,合适的人才能创造奇迹。我们是一个由大约8 名工程师、4 名研究员、2 名设计师、2 名市场推广人员和 1 名产品经理组成的高级团队。如果没有这支团队,我想我们早就失败了。没人需要太多指导,但确实需要相当多的协调。如果你有机会与 Codex 团队的任何人合作,请知道他们每一个人都非常出色。

发布前一晚,我们五个人熬夜到凌晨4 点,试图部署主单体系统(这是一个耗时数小时的过程)。然后我们又回到办公室,准备上午 8 点的发布公告和直播。我们开启了功能开关,开始看到流量涌入。我从未见过一个产品仅仅出现在左侧边栏就能获得如此迅速的增长,但这就是 ChatGPT 的力量。

在产品形态方面,我们最终确定了一种完全异步的形式。与当时的Cursor(现在也支持类似模式)或 Claude Code 等工具不同,我们的目标是让用户能够启动任务,让代理在自己的环境中运行。我们的赌注是在最终阶段,用户应该像对待同事一样对待编码代理:他们向代理发送信息,代理有时间完成工作,然后带着一个 PR 回来。

这有点像一场赌博:我们现在处于一个有些奇怪的状态,模型表现不错,但还不算出色。它们可以连续工作几分钟,但还不能持续几个小时。用户对模型能力的信任程度差异很大。而且我们甚至还不清楚模型的真正能力到底有多强。

从长远来看,我确实相信大多数编程将更像Codex。同时,观察所有产品如何展开将会非常有趣。

Codex(也许并不令人意外)非常擅长在大型代码库中工作,理解如何导航。与其他工具相比,我见过的最大区别是它能够同时启动多个任务并比较它们的输出。

我最近看到有公开数据比较了不同LLM 代理提交的 PR 数量。仅从公开数据来看,Codex 已经生成了 63 万个 PR。自发布以来的 53 天内,平均每位工程师提交了约 7.8 万个公开 PR(你可以自行推测私有 PR 的倍数)。我不确定我这辈子是否曾参与过如此有影响力的项目。

离别感言

说实话,我最初对加入OpenAI 感到有些担忧。我不确定放弃自由、接受上司管理、成为庞大机器中一个微小部分的感觉会是怎样。我一直低调地保密自己加入了,万一不合适的话。

我确实想从这次经历中获得三样东西:

1、建立对模型训练方式及其能力发展方向的直觉理解

2、与杰出人才共事并学习

3、推出一款伟大的产品

回顾这一年,我认为这是我做过的最明智的决定之一。很难想象在别处还能学到更多。

如果你是创始人,感觉你的初创公司真的没有什么进展,你应该要么1)深入重新评估如何增加更多尝试机会,要么 2)去加入一家大型实验室。现在是一个极佳的创业时机,同时也是洞察未来走向的绝佳时刻。

在我看来,通向通用人工智能(AGI)的道路目前是一场三马争霸:OpenAI、Anthropic 和谷歌。每个组织都会根据自身的基因(面向消费者、面向企业、坚实的基础设施加数据)走不同的路径。在其中任何一家工作都会是一次开阔眼界的经历。

感谢Leah 在深夜时分给予极大的支持并承担了大部分育儿工作。感谢 PW、GDB 和 Rizzo 给我这个机会。感谢 SA 团队的成员教我入门:Andrew、Anup、Bill、Kwaz、Ming、Simon、Tony 和 Val。还要感谢 Codex 核心团队带我经历了人生难忘的旅程:Albin、AE、Andrey、Bryan、Channing、DavidK、Gabe、Gladstone、Hanson、Joey、Josh、Katy、KevinT、Max、Sabrina、SQ、Tibo、TZ 和 Will。我永远不会忘记这次冲刺。

每当有领导离职时,人们很容易去解读各种戏剧性事件,但我认为其中大约70%的原因仅仅是这个事实。

我确实认为我们正处于一个轻微的阶段性变化。公司正在从外部大量招聘高级领导。我总体上支持这一点,我认为公司从注入新的外部基因中受益匪浅。

我感觉,扩展有史以来增长最快的C端产品往往会锻炼出强大的实力。

当然,我们也是站在巨人的肩膀上。CaaS 团队、核心强化学习团队、人类数据和通用应用基础设施使这一切成为可能。

我们也一直在坚持。

几周前我们看到Meta 有一些重要的招聘。xAI 推出了在基准测试中表现出色的 Grok 4。Mira 和 Ilya 都有很强的才华。也许这会改变局面(这些人很优秀)。他们还有一些需要赶上的地方。