52 天75 次发布,A司这场“产品大爆炸”太猛烈了
3 小时前 / 阅读约16分钟
来源:36kr
Anthropic在52天内发布75款产品,引领AI产品创新浪潮。其成功在于技术自举的加速循环和线束架构,实现AI编程闭环。OpenAI开始模仿Anthropic路径,聚焦编程工具和企业客户。

最近两个月我在刷手机的时候,感觉每天都有Anthropic的新闻。今天发布了个啥,明天又发布了个啥。

产品管理社区Product Compass创始人帕维尔·胡林(Paweł Huryn)也有相同的感觉,于是他把这些新闻整理成了一份日历发在X上,从美东时间2月1日到3月23日,Anthropic在52天发布了73款产品。

这条X发出的当天,Anthropic发布了Computer Use(电脑操控功能),以及Claude Code Channels for Teams + Enterprise。

所以应该叫52天发布75个产品才对。

这篇X刚发出不到24小时,Anthropic又发布了Claude的Auto Mode。

Anthropic相当于每0.7天就发布一个新产品,是OpenAI自称“每3天一个新功能”速度的4倍以上,甚至说我还没写完一篇稿,下一个新产品就已经发布了。

在之前字母AI的文章《150万AI agent社交狂欢背后,是一场“产品大爆炸”》中,我提出了“产品大爆炸”的概念,自从Claude Code 掀起编程革命之后,整个AI圈都投入了一场产品 创新 迭代的浪潮之中, “龙虾”OpenClaw 就是其中的代表。毫无疑问,Anthropic既是“产品大爆炸”的引领者,同时也是最大的受益者和践行者。

但是你有没有想过,为什么Anthropic能做到?

诚然,AI编程是至关重要的一环,用AI来开发,事半功倍。

可是在全球最严格的编程测试集SWE-Bench Pro里,ChatGPT-5.4和Gemini 3 Pro的成绩都比Claude Opus 4.6要高。

所以在我看来,AI编程只是第一步,它是目前所有AI公司都拥有的能力,Anthropic的成功并不只在于此。

而是在于他们形成了技术自举的加速循环,用AI来完成整个闭环。人类开发者在其中的作用,只是提供一个想法,唯一需要做的就是等AI跑出结果。

当工具开始制造工具本身时,我们可能正在目睹技术奇点的早期信号。

现在看是52天发布75款产品,过几天可能就缩短到30天发布80款产品,15天发布100款产品……

Anthropic如今的成功,正在迫使行业老大OpenAI重新审视自己的战略,开始全面模仿Anthropic的路径。

01 52 天的产品浪潮

引领这场产品浪潮的是Anthropic在1月中旬发布的Cowork。

这个产品开发团队只有4个人,总工时10天,90%的代码由AI编写。

可就是这么一个超短周期的产品,却能根据你所描述的任务,自主实现规划、执行,以及交付结果。彻底改变了许多人的工作方式。

显然,Cowork的成功给了Anthropic信心。于是到了2月初开始,浪来了。

Claude上线了法律插件,它能够审查法律文件、追踪合规任务、自动化合同审查,与Thomson Reuters等法律数据库深度集成。

这个插件在单日引发全球软件和服务类股票约2850亿美元的抛售,6个交易日总共造成8300亿美元的抛售。

Thomson Reuters、LegalZoom等法律科技公司股价当场暴跌,软件ETF基金IGV从2026年初至2月27日下跌22.8%。

2月17日,重磅炸弹Claude Sonnet 4.6来了。

这是Anthropic产品历史上第一次,Sonnet级别的模型在编程测试中超越了上一代的Opus。

Sonnet 4.6的上下文窗口扩展到了100万token,约75万个单词,相当于2500页文档,意味着AI可以一次性处理整个大型代码库。

过去企业在选择AI服务时,成本和能力是跷跷板的两端,性能高价格就高,价格低性能就低。

现在Anthropic把跷跷板拆了,Sonnet 4.6比Opus 4.6便宜了将近一半,加速了企业市场向Anthropic的迁移。

2月20日,Claude Code Security上线,使用基于推理的扫描来发现代码库中的零日漏洞。

传统安全扫描工具需要不断更新规则库,就像是拿着通缉犯照片在街上找人。

而Claude Code Security可以发现从未见过的漏洞模式,它理解代码编写的逻辑,所以能在很早的时候就判断出哪些地方可能出问题,即使这个问题从没有被记录过。

2月24日,Anthropic开始发布大体量的产品,这家公司在当天连发了10个企业插件。

包括投资银行插件能做交易审查、估值建模,财富管理插件能做投资组合分析,私募股权插件能做尽职调查,人力资源插件能处理入职材料、品牌规范,还有工程、设计、运营等插件。

Anthropic与FactSet、S&P、Thomson Reuters、RBC Wealth Management等行业巨头深度合作。

市场再次出现抛售,但是与Anthropic合作的公司股票反而上涨。投资者的理由很简单,“与Anthropic合作”是生存之道,而非对手。

同期,私有插件市场上线。

Anthropic为企业客户提供了一个“私有插件市场”,企业可以开发自己的插件,将公司特有的工作流、合规要求、品牌规范编码为agent,然后在组织内部分发。

它把Anthropic的能力变成了一个平台,企业不再是购买一个工具,而是获得了一个可以无限扩展的基础设施。

3月9日,Code Review上线。

当AI开始大量生成代码,这时候人类就审查不过来了,只能交给AI自己来处理。

Code Review就是这样一款专门审查代码的多agent系统。它能自动分析代码逻辑、标记错误、识别安全漏洞,每次审查成本15到25美元。

同时这也是Anthropic实现AI开发自举循环的关键一环。

3月11日,Anthropic迈出了更大的一步,发布了微软Excel和PowerPoint跨应用协作功能。

Anthropic让Claude可以在Excel和PowerPoint之间无缝工作。

举个例子,你可以让Claude从Excel中提取财务数据、构建交易对比表,然后自动将估值摘要放入演示文稿,最后起草发邮件。

整个过程信息、指令、任务历史在不同应用间流动,用户不需要重复说明上下文。

这个功能虽然说起来简单,然而它实际上解决了一个长期存在的问题:AI的记忆是孤立的。你在Excel里告诉AI的事情,到了PowerPoint里它就忘了。

3月17日,持久化agent线程发布。

用户现在可以用Claude Apps来管理Cowork中的任务,agent可以跨会话保持上下文和任务状态。你早上在手机上给AI布置任务,下午在电脑上打开,AI还记得你要什么,进展到哪里了。

根据Ramp的数据,仅仅10周。在首次购买AI工具的企业中,Anthropic占据的份额从50%飙升至73%,OpenAI从50%跌至27%。在整体企业市场中,Anthropic的份额超过40%,OpenAI为27%。

OpenAI被打得有点懵圈了。

02 为什么是 Anthropic 引领了这场浪潮

前面咱们也说过了,别人的AI编程能力比 Anthropic 还强,但是凭什么是Anthropic领先呢?

核心原因不在AI编程上,而是在于Anthropic使用的线束架构(harness)。

线束架构不是新鲜事物,OpenAI也在用。

线束架构的本质是一个让agent能够长时间自主运行、完成复杂任务的编排系统。

在Anthropic的官方blog中写到,如果把AI模型比作引擎,线束就是让引擎持续运转的整套基础设施。线束管理上下文、编排多个agent协作、处理任务分解、进行状态传递,确保AI能够在数小时甚至更长时间内自主工作,而不需要人类持续介入。

Anthropic在构建长时间运行的AI编程系统时,发现了两个关键问题。

第一个是上下文焦虑。当任务变得复杂、对话历史变长时,模型会开始失去连贯性。模型会出现“上下文焦虑”,当它们认为快要达到上下文限制时,会过早地结束工作。

就像一个打工人,眼看快下班了,可是他手头的活还没干完,他就只能匆匆收尾。

Anthropic的解决方案是上下文重置(Context Reset)。完全清空上下文窗口,启动一个全新的agent,但通过结构化的“交接文档”传递前一个agent的状态和下一步计划。

这给了agent一个干净的起点,同时保持了工作的连续性。这与简单的“压缩”不同。压缩是把早期对话总结后保留在同一个会话中,但“上下文焦虑”依然存在。

重置则是彻底的新开始,代价是需要精心设计交接文档,确保下一个agent能无缝接手。

第二个问题是自我评估失效。

当要求AI评估自己生成的代码或设计时,它们倾向于自信地称赞自己的作品,即使在人类看来质量明显平庸。这个问题在主观任务上尤其严重,因为没有像软件测试那样的二元验证标准。

你让AI设计一个网页,它做完了,你问它做得怎么样,它说“非常好,符合现代设计美学”。你一看,又是紫色渐变配白色卡片,丑绝人寰,甲方看了想退单,产品看了想杀人。

Anthropic的解决方案是分离生成者和评估者。

让一个agent负责生成,另一个agent负责评判。这种分离本身不会立即消除宽容倾向,可是一旦外部反馈输入,生成者就有了具体的改进目标。

Anthropic目前采用了三agent的线束架构,分别是Planner、Generator、Evaluator。

这个系统实现了完整的AI编程闭环。

Planner(规划agent)的任务是把用户的简单想法扩展为完整的产品规格文档。

用户只需提供简单的想法,Planner就会将其扩展为完整的产品规格文档。

Anthropic特意让Planner专注于产品背景和高层技术设计,而不是细节实现。因为如果Planner在前期就指定了错误的技术细节,这些错误会级联到后续实现中。所以才要约束最终交付物,让agent在工作中自己找到路径。

Generator(生成agent)采用“一次一个功能”的方式工作,从规格文档中逐个挑选功能实现。

每个冲刺(sprint)结束后,Generator会先自我评估,然后将工作交给Evaluator进行质量检查。它使用React、Vite、FastAPI、SQLite或PostgreSQL技术栈,并通过git进行版本控制。

Generator就是真正干活的那个。它不会一口气把所有功能都做完,而是一次只做一个功能。

做完一个功能后,它会先自己检查一遍,然后把成果交给Evaluator去打分。它用的都是现成的主流技术,而且还会做版本管理,以便做坏的时候恢复到以前版本。

Evaluator(评估 agent)使用Playwright MCP工具,像真实用户一样点击运行中的应用,测试UI功能、API端点和数据库状态。

然后根据一套标准对每个冲刺打分,比如产品深度、功能性、视觉设计、代码质量之类的。

每个标准都有硬性阈值,如果任何一项低于阈值,冲刺就会失败,Generator会收到详细的反馈说明哪里出了问题。

除此之外,在每个冲刺开始前,Generator和Evaluator会协商一份“冲刺合约”。

在写任何代码之前,需要先达成合约上规定的东西。

Generator提议要构建什么、如何验证成功,Evaluator审查这个提议,确保Generator在构建正确的东西。

双方通过文件进行沟通,一个agent写文件,另一个读取并回复。这种机制确保工作忠于规格,同时不会过早地过度指定实现细节。

你可以这么理解,在每次开始干活之前,Generator和Evaluator会先开个会,碰一碰需求。用行话来讲就是“对齐一下颗粒度”。

只有所有人都满意这个方案的时候,才会开工去执行,并且每执行一步,都要拿出这个方案来再瞅一眼。

Anthropic用同一个提示词对单agent模式和三agent的线束模式进行测试,题目为:创建一个2D复古游戏制作工具,包含关卡编辑器、精灵编辑器、实体行为和可玩测试模式。

单agent方式运行20分钟,成本9美元。生成的界面看起来符合预期,但实际使用时问题不断。

布局浪费空间、工作流程僵硬、最关键的是游戏本身坏了,实体出现在屏幕上但不响应输入。

完整线束方式运行6小时,成本200美元。

Planner将一句话提示扩展为16个功能、10个冲刺的完整规格,远超单agent尝试的范围。除了核心编辑器和播放模式,还包括精灵动画系统、行为模板、音效和音乐、AI辅助的精灵生成器和关卡设计器,以及带分享链接的游戏导出功能。

线束模式的成本是单agent的22倍,但产出的质量差距不是22倍能形容的。单agent的产出是一个看起来能用、实际不能用的半成品。完整线束的产出是一个可以直接发布的产品。

这个架构的真正价值不在于它能做什么,而在于它能持续做什么。单agent可以完成一个简单任务,但当任务复杂到需要数小时甚至数天时,单agent就会迷失方向。

线束架构通过分工、检查、重置,让AI能够像一个小团队一样工作。

线束架构不是Anthropic的发明,Anthropic的优势在于,他们比别人更早、更系统地遇到这些问题,然后把解决方案标准化、产品化。

03 Anthropic 帮助整个行业看清了方向

虽然Anthropic引领了这波产品浪潮,但是2026年初,整个AI行业最火的产品,却不是Anthropic的产品,而是OpenClaw。

大街小巷都有各种“养龙虾”攻略教程,这已经无需多言。

可OpenClaw的成功,恰恰证明了Anthropic路线是正确的。

真正的护城河不在于模型性能,而是用AI来完成整个闭环。

OpenClaw能访问你的电脑文件系统、执行终端命令、控制浏览器、接入社交软件。更重要的是,它运行在用户自己的电脑上,拥有你给它的所有权限。

你发一句话给它,它就能自己去执行,最后返回给你结果。

当然它也会有失败的时候,但是它绝大多数都能成功。

这才致使用户宁愿冒着巨大的安全风险,给AI开放底层电脑权限,让它去帮自己订票、发邮件、修Bug。

用户不是不在乎安全,他们对“让AI干活”的渴求已经强烈到可以暂时压过对风险的恐惧。

还有一家企业也被Anthropic的产品大爆炸所影响,它就是OpenAI。

2026年3月16日,在OpenAI的内部会上,应用业务CEO菲吉·西莫(Fidji Simo)直言:“Anthropic的进展应该成为警钟。”

自此,OpenAI宣布从“do-it-all”策略转向聚焦编程工具和企业客户。

在产品层面,OpenAI计划将ChatGPT、Codex、Atlas浏览器像 Claude 一样合并为单一应用。

在企业市场,OpenAI也准备模仿Anthropic,推出类似的插件市场。

不过OpenAI现在面临的问题是,即使他们理解了Anthropic的策略、也懂得构建类似的线束架构,他们还需要时间来追赶。

可是在AI这个行业,时间就是一切。Anthropic可是每0.7天发布一个新产品,OpenAI哪怕耽误一秒钟都有可能会掉队。

抓点紧吧!