聪明这件事，已经不够用了 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

聪明这件事，已经不够用了

7 小时前 / 阅读约9分钟

来源：36kr

AI核心价值转向对错可验证性，代码和数学因明确反馈闭环快速进化，而创意写作等主观领域进展缓慢。未来稀缺能力是将模糊任务转化为可验证指标的系统设计能力，答案贬值，标准升值。

AI时代，模型的核心价值已从单纯的“智力”转向“对错的可验证性”。作者指出，AI在代码和数学领域的突破并非源于模型变聪明，而是因为这些环境能提供明确的反馈闭环，支持系统通过大规模试错自主进化。相比之下，创意和写作等主观领域因缺乏统一标准而进展缓慢，导致传统的逻辑与表达能力正在经历价值贬值。未来最稀缺的竞争力不再是储备知识，而是能够将模糊任务转化为可验证指标的系统设计能力。简而言之，当答案变得廉价，定义评价标准和构建验证环境的人将拥有更高的商业溢价。

过去两三年，AI 的快速发展让人产生了一种错觉：它越来越聪明了。

但真相可能恰恰相反。Keras 之父、Google AI 研究员 François Chollet 在近期的对话中指出：最具商业价值的 AI 其实没变聪明，只是进入了对错能验证的环境。

一旦能验证对错，AI 就能自动试错、规模化放大。这就是为什么代码工具快速走向了商用交付，而难以说清对错的写作、创意工作等领域却进展缓慢。

这种技术演进的快与慢，正在重新定义：什么样的“聪明”，还值钱？

面对新的技术坐标系，如果还在用旧标准衡量自己，你可能已经站错了位置。

第一节｜AI 并没有更聪明，但突然更有用了

代码智能体突然变得很好用，写出来的代码甚至能直接交付。数学证明辅助也在快速跟进，表现越来越稳定。

很多人把这归结为：模型变聪明了。

但拆开来看，关键的变化并不在模型本身的智力跃升，而在于它进入了能够“把事做成”的闭环。

拿代码为来说。一段程序写得对不对，可以直接被验证：能不能跑通、有没有报错、测试用例通没通过。这意味着，AI 不用靠猜，也不需要人类一条条去纠正。它可以自己反复跑代码、检查结果、再继续修改。每一次尝试都会留下有效反馈，这些反馈一旦快速累积，系统表现就会大幅提升。

因此，代码智能体在极短时间内变得非常好用，甚至开始逼近直接交付的水平。

同样的逻辑也正在向其他领域蔓延。数学是下一个。一个证明是否成立，可以用严格的规则检查；一个推导步骤对不对，能按逻辑验证。这类问题一旦能明确对错，就具备了和写代码一样的高速增长路径。

这个规律，甚至在 AI 测试自身的发展中也得到了验证。

ARC AGI 是目前公认最难的 AI 智力测试。V1 版本发布时，基础模型的得分还不到 10%，直到推理模型出现才有所突破。随后更难的 V2 版本发布，却很快被攻破：研究人员让 AI 生成类似任务、自己解题、验证答案，再用成功案例反哺训练。在这个反复循环下，仅用几个月，分数就被推到了 97%。

只要能验证对错，AI 就能通过海量试错实现快速进化。

但换个场景，情况就截然不同了。

写文章、做创意、定策略，这些工作没有统一的标准。什么叫“写得好”？不同人的评价大相径庭。AI 在这些领域依然能生成内容，但无法像写代码那样，通过机器自身的试错来快速逼近一个“正确答案”。

正如 Chollet 前面提到的，这类不可验证的领域，训练数据严重依赖人类专家的标注。成本极高，导致进展缓慢，甚至容易触及天花板。

这导致了目前行业里呈现出两种完全不同的节奏：

一类问题进展越来越快，甚至呈指数级爆发；

另一类问题看起来也在进步，但表现始终不稳定，难以跨越商业化门槛。

为什么会这样？底层逻辑其实很简单：

这个问题，能不能被清晰验证。

能验证，AI 就能踩下油门自己往前跑；无法验证，它就只能停在“看起来还不错”的阶段。

所以你看到，同样是 AI，有的场景已经可以替代人工交付，有的却依然只能做个辅助工具。模型本身并没有突然获得更高的智商，它只是在“对错分明”的环境中，被训练得更具执行力了。

第二节｜“聪明”正在经历通货膨胀

剥开第一节的技术表象，一个更残酷的真相是：过去被职场和教育反复推崇的“聪明”，正在快速失去它的溢价空间。

长期以来，社会对能力的衡量标准非常直观：知识储备广、反应速度快、逻辑阐述完整。在信息获取成本极高、处理效率低下的前 AI 时代，这些特质极其稀缺，“聪明”本身就构成了核心竞争力。

但如今，大模型正在无差别地抹平这层壁垒。

信息获取几乎没有了门槛，内容整理可以自动化完成，连复杂的表达和逻辑组织也能在瞬间生成。你不再需要花费大量时间积累，就能迅速得到一个看起来“足够聪明”的结果。

这场技术变革带来的最深远影响，并非简单的“机器换人”，而是能力评价体系的重构。

过去，能给出答案就是赢家；今天，答案已经成为最廉价的工业品。核心考题变成了：谁能用这些答案去真正解决问题。

François Chollet 的理论恰好能解释这一现象：他将系统能力划分为“智力（Intelligence，应对未知的能力）”和“技能/知识（Skill，应对已知的能力）”。当系统拥有足够庞大的静态知识储备时，它不需要多高的真实“智力”，就能在大部分常规工作中表现得游刃有余。

AI 的突飞猛进，本质上是用暴力的算力和海量的数据，将大量曾经需要人类“聪明才智”的工作，降维成了纯粹的“知识调用”。这也造成了目前 AGI 定义的分裂：是实现“万物皆可自动化”，还是实现“像人一样举一反三”？目前的 AI 正在狂奔向前者，但这只是技能的堆砌，而非智力的飞跃。

这完美契合了当下大多数人的使用体感：AI 提供的方案完美无瑕，但往往无法落地；它能条分缕析地解释问题，却缺乏把事情做成的闭环能力。

这正是“聪明（表达与逻辑）”与“有用（执行与结果）”的分水岭。

当信息的获取和表达都变得廉价时，单纯依赖理解快、说得清，已经不足以构成护城河。这些能力依然是基础，但不再是拉开差距的决定性因素。它们就像如今的算力和网速一样，一旦成为基础设施，就不再是衡量高低的标准。

真正拉开差距的，变成了另一种能力。

第三节｜什么能力开始值钱

当“聪明”不再稀缺，新的稀缺能力是什么？

很多人会说是：执行力、沟通能力、领导力。这些确实重要，但还不够切中要害。

真正的答案，其实藏在第一节提到的那条分界线里：能不能把一件事，变成可验证的。

现实中，大部分工作并不天然具备这个条件。写文章、做策划、定策略、做创意……这些事情目标模糊、标准主观，很难绝对判定对错。于是 AI 在这里只能停留在辅助工具的水平，无法像跑代码那样实现自我进化。

因此，未来真正稀缺的能力，是把这些模糊的事情，重新设计成可验证的任务。这不是简单的“拆解目标”或“列清单”，而是一种更底层的系统构建能力：搭建验证环境。

Chollet 将其称为“控制机制（Control Mechanism）”。本质上，这是人类设计的一套规则，用来告诉 AI 怎么试错、怎么验证、怎么优化。

去年，两家创业公司 Poetic 和 Confluence Labs 在攻克极具挑战的 ARC V2 推理基准测试时，证明了这种能力的价值。他们的解法不是去硬卷“更聪明的模型”，而是设计了一套精巧的控制机制：让 AI 生成类似的测试题，尝试用程序解题，验证答案的正确性，记录成功的推理链路，再用这些数据反哺训练。

几个月后，Confluence Labs 将准确率推到了 97%，且任务成本更低。原因不是模型突然变聪明了，而是有人把原本模糊的推理任务，改造成了一个可以反复跑通、持续优化的验证环境。

这个逻辑完全可以平移到更多商业领域。

谁能把主观的客服对话变成可量化评分的维度，谁能把依赖“网感”的短视频脚本拆解成可测试完播率和人设共鸣度的指标，谁能把战略规划变成可阶段性验证的节点，谁就掌握了让 AI 从“玩具”变成“生产力”的钥匙。

这也是为什么同样在用 AI，有人只是稍微提高了排版效率，有人却直接重构了整个业务飞轮。差别不在于工具，而在于重新设计问题、定义规则的能力。

Chollet 的建议很明确：你的专业知识越深，越能把这些工具用好。与其对抗 AI 的进化，不如学会借力，顺势而为。

但这里的“专业知识”，不再只是背诵行业常识，而是一种全新的转译能力：将你所在领域的模糊经验，翻译成 AI 可以参与优化的明确指标。具体来说，就是设计评分标准、搭建测试环境、定义验证规则，让机器的每一步都有清晰的反馈。

未来的分工会很清晰：AI负责解题，人负责出题。谁能设计好考卷，谁就越值钱。

答案在贬值，标准在升值。