6小时，200美元，0人类代码：Anthropic把AI编程推过了临界点 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

6小时，200美元，0人类代码：Anthropic把AI编程推过了临界点

2 小时前 / 阅读约8分钟

来源：36kr

Anthropic通过多智能体结构让AI分工，实现项目交付。AI不再单枪匹马，而是形成团队，分工明确，各司其职，逼近交付能力。AI的创造力被高标准逼出，分水岭是反复修改到交付。

【导读】代码没有消失，但它不再是少数人特权。在「创造平权」的AI时代，真正稀缺的不再是编程能力，而是你是否有一个值得让机器为你燃烧几百美元算力的好想法。

真正让人不安的，不是AI提高生产力，而是AI开始主导「生产关系」。

Anthropic最危险的进步，不是AI会写代码，而AI开始独自把项目做完。

一句话需求、6个小时、200美元。

没有产品经理、没有程序员、没有设计师，甚至全程人类补一行代码。

Anthropic把Claude丢进一个任务里：做一套完整的复古游戏编辑器。

结果，Claude没有只交出一个像样的页面。

它自己拆需求，自己写代码，自己测试，自己返工，最后交出一个真的能跑起来的成品。

在Anthropic这次实验里，AI已经不只是生成代码，而是在逼近交付。

过去我们聊AI编程，聊的是它写得快不快。现在问题变成了：它能不能连续工作几个小时，在第5轮、第10轮修改里不跑偏，最后把东西交出来。

Anthropic这次给出的答案是：能。

但前提不是把AI当一个人使，而是把它组织成一个团队。

原文链接：https://www.anthropic.com/engineering/harness-design-long-running-apps

AI不是不聪明，而是不稳定

过去的AI很像一个天赋很高的实习生。

第一版，冲得很猛。

第一个页面，出得很快。

第一轮代码，看上去也像那么回事。

但任务一拉长，它就开始乱：

逻辑散了，上下文丢了。

该修的没修，该测的没测。

最麻烦的是，它常常会提前进入一种「看起来做完了」的状态。

Anthropic点得很准：问题不一定出在智力上，而是出在长程执行上。

Anthropic做了一个对照实验，结果很残酷。

单智能体模式下，AI用20分钟、9美元，也做出了一个「像游戏编辑器」的东西。

问题是，一上手就露馅——

交互没打通；实体没正常响应；核心玩法直接失灵。

这说明一件事：

以前大家总以为AI不行，是因为还不够聪明。

现在看，很多时候真正拖AI后腿的，不是智商，而是稳定性。

很多人一说AI记不住，第一反应都是：那就给它更大的上下文窗口。

听起来很合，但Anthropic这次泼了一盆冷水。

窗口更大，不一定更强。很多时候，只是把混乱一起放大了。

东西越堆越多，但真正重要的主线，反而越容易被淹掉。这就是所谓的「上下文腐烂」。

更麻烦的是，模型还容易高估自己。

Anthropic发现，程序明明一跑就崩，模型却觉得自己做得不错。

于是单智能体会掉进两个坑：一边越写越乱；一边越乱越觉得自己没问题。

这就是为什么，单纯靠更大模型、更长窗口、更高token上限，AI并不能独立完成项目交付。

为了取得突破，Anthropic Labs成员Prithvi Rajasekaran探索了一些新颖的AI工程方法。

这些方法在两个截然不同的领域中均适用：一个由主观品味定义，另一个则以可验证的正确性和可用性为准。

受对抗生成网络（GANs）的启发，他设计了一种包含生成器和评估器的多智能体结构。

没造「超人」，但Anthropic造了神团队

这次最关键的变化，不是参数。不是窗口。也不是什么神秘提示词。

真正的变化是，Anthropic不再逼一个AI单枪匹马干完整个项目。

它开始让AI分工。

这套结构很像一个小型产品团队。

Planner，负责想清楚。它先把一句模糊需求，扩成规格，定义产品到底要做什么。

Generator，负责动手。它下场写代码，搭前后端，接交互，做集成，一轮轮推进。

Evaluator，负责挑错。它不负责体面。它只负责验收。点页面、试按钮、查数据库、测接口，把问题一个个揪出来，再打回去重做。

最后一步特别关键，因为一边写，一边给自己打分，最后AI很容易说服自己：差不多就行。

但把两者拆开，很多本来会被糊弄过去的问题，就过不去了。

拿那套复古游戏编辑器来说，Planner最初拿到的只有一句话需求。

但最后扩出来的，是一份包含16个功能、10个冲刺的规格书。

精灵动画、音效系统、行为模板、AI精灵生成、关卡设计助手、导出分享，全部被拆进流程里。

这已经不是「AI写代码」了，AI开始学会像团队一样做产品。

真正拉高质量的，是高压验收

今天很多AI产品都有一种共同气质——看着完整，配色安全，布局规整。

挑不出大错，但也没什么灵魂。这种东西叫AI Slop「AI泔水」。说白了，就是「像成品的样子货」。

显然，Anthropic不满足于这种结果。

所以它不只让Evaluator查bug，还让它盯四件事：

设计质量、原创性、工艺感、功能性。

而且，它还故意把「原创性」和「设计质量」的权重拉高。

译成人话就是：别总交最安全的答案，做点真的像作品的东西出来。

这背后是一个很重要的信号:

很多人以为AI的创造力来自灵光一现，但很多时候，AI的创造力，恰恰是被高标准一点点逼出来的。

所以，下一阶段真正稀缺的能力，可能不是「谁更会生成」，而是「谁更会评价」。

你有多会挑错，决定AI最终能走多远。

最可怕的是，AI真能改到第10轮

这次实验最让人不安的，是Claude开始形成很强的闭环感。

还是看RetroForge，也就是那套复古游戏编辑器。

同样一句话需求。

单智能体版，20分钟，9美元。很快，也很便宜，但更像一个空壳。

三智能体版本，6小时，200美元。贵得多，慢得多，但最后结果完全不是一个量级。

它真的把27条验收标准，一条一条啃过去了。

这里面暴露出来的，是实打实的软件工程问题。比如：

函数写了，但事件没触发。

接口有了，但路由顺序错了，参数被错误解析。

这说明它做的，已经不只是拼页面，开始进入真正的工程地带。

另一个例子更夸张。

Claude用了不到4小时、约124.7美元，做出一个能在浏览器里跑的DAW，也就是数字音频工作站。

它有排列视图、有混音器、有传输控制、有实时波形预览。

还内置了一个AI智能体，可以直接理解自然语言的音乐指令。

你告诉它节奏、调性、旋律、鼓轨、混响，它能继续往下做。

更关键的是，Evaluator没有放过它:

恰恰是这些被揪出来的问题，证明了这套系统真的形成了闭环：

不止要做完，还要被打回去改。改到能过验收，才算结束。

这才是软件开发里最难、也最有价值的部分。

第一版从来不难，难的是第8版、第9版、第10版。

真正的分水岭，AI第一次反复改到交付

Anthropic这次最值得行业警惕的，不是让Claude变成了一个更强的程序员。

而是让它第一次表现得像一个真正的产品组织，分工明确，各司其职。

这就是为什么，这次突破看起来不像「生产力升级」，更像一次「生产关系升级」。

过去，AI最强的能力是「生成一个答案」。

现在，它开始逼近另一种更难的能力：

围着一个目标，持续工作，持续修正，直到交付。

这才是真正的临界点。

代码没有消失，它只是在失去作为少数人特权的地位。

在这个「创造平权」的时代，你是否真的有一个值得让机器为你燃烧算力的好主意？

这才是最值得深思的问题。

参考资料：

https://www.anthropic.com/engineering/harness-design-long-running-apps

https://x.com/AnthropicAI/status/2036481033621623056

上一篇：阿里通义千问 Qwen 3.6 Plus 免费预览版上线 OpenRouter：可提供比 3.5 更...

下一篇：让大模型看懂「高亮标注」：在注意力计算前编辑Key向量，用频谱分解让模型「听你指挥」

返回列表

热文阅读

2 天前

所有“联创”均离职，马斯克“彻底重组”xAI

2 天前

月之暗面冲刺IPO：大模型竞争进入“定价阶段”

2 天前

谷歌的龙虾，名叫“史密斯特工”，《黑客帝国》真降临了？

2 天前

光纤招标价格，炸了！

1 天前

消息称比亚迪上调 2026 年汽车出口目标至 150 万辆，较此前目标高出 15%

3 天前

韦德布什分析师大胆预测：特斯拉和 SpaceX 明年将合二为一

2 天前

36氪首发 | 这家量子计算公司获吉利等数亿投资，对标国际巨头Quantinuum

1 天前

老旧新能源车私改续航“续命”乱象调查

2 天前

OpenAI逐步收缩成人内容等高风险消费级功能

2 天前

哈萨比斯为何能率领谷歌DeepMind反超OpenAI？

上一篇：阿里通义千问 Qwen 3.6 Plus 免费预览版上线 OpenRouter：可提供比 3.5 更...

下一篇：让大模型看懂「高亮标注」：在注意力计算前编辑Key向量，用频谱分解让模型「听你指挥」

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们