AI时代,模型的核心价值已从单纯的“智力”转向“对错的可验证性”。作者指出,AI在代码和数学领域的突破并非源于模型变聪明,而是因为这些环境能提供明确的反馈闭环,支持系统通过大规模试错自主进化。相比之下,创意和写作等主观领域因缺乏统一标准而进展缓慢,导致传统的逻辑与表达能力正在经历价值贬值。未来最稀缺的竞争力不再是储备知识,而是能够将模糊任务转化为可验证指标的系统设计能力。简而言之,当答案变得廉价,定义评价标准和构建验证环境的人将拥有更高的商业溢价。
过去两三年,AI 的快速发展让人产生了一种错觉:它越来越聪明了。
但真相可能恰恰相反。Keras 之父、Google AI 研究员 François Chollet 在近期的对话中指出:最具商业价值的 AI 其实没变聪明,只是进入了对错能验证的环境。
一旦能验证对错,AI 就能自动试错、规模化放大。这就是为什么代码工具快速走向了商用交付,而难以说清对错的写作、创意工作等领域却进展缓慢。
这种技术演进的快与慢,正在重新定义:什么样的“聪明”,还值钱?
面对新的技术坐标系,如果还在用旧标准衡量自己,你可能已经站错了位置。
代码智能体突然变得很好用,写出来的代码甚至能直接交付。数学证明辅助也在快速跟进,表现越来越稳定。
很多人把这归结为:模型变聪明了。
但拆开来看,关键的变化并不在模型本身的智力跃升,而在于它进入了能够“把事做成”的闭环。
拿代码为来说。一段程序写得对不对,可以直接被验证:能不能跑通、有没有报错、测试用例通没通过。这意味着,AI 不用靠猜,也不需要人类一条条去纠正。它可以自己反复跑代码、检查结果、再继续修改。每一次尝试都会留下有效反馈,这些反馈一旦快速累积,系统表现就会大幅提升。
因此,代码智能体在极短时间内变得非常好用,甚至开始逼近直接交付的水平。
同样的逻辑也正在向其他领域蔓延。数学是下一个。一个证明是否成立,可以用严格的规则检查;一个推导步骤对不对,能按逻辑验证。这类问题一旦能明确对错,就具备了和写代码一样的高速增长路径。
这个规律,甚至在 AI 测试自身的发展中也得到了验证。
ARC AGI 是目前公认最难的 AI 智力测试。V1 版本发布时,基础模型的得分还不到 10%,直到推理模型出现才有所突破。随后更难的 V2 版本发布,却很快被攻破:研究人员让 AI 生成类似任务、自己解题、验证答案,再用成功案例反哺训练。在这个反复循环下,仅用几个月,分数就被推到了 97%。
只要能验证对错,AI 就能通过海量试错实现快速进化。
但换个场景,情况就截然不同了。
写文章、做创意、定策略,这些工作没有统一的标准。什么叫“写得好”?不同人的评价大相径庭。AI 在这些领域依然能生成内容,但无法像写代码那样,通过机器自身的试错来快速逼近一个“正确答案”。
正如 Chollet 前面提到的,这类不可验证的领域,训练数据严重依赖人类专家的标注。成本极高,导致进展缓慢,甚至容易触及天花板。
这导致了目前行业里呈现出两种完全不同的节奏:
一类问题进展越来越快,甚至呈指数级爆发;
另一类问题看起来也在进步,但表现始终不稳定,难以跨越商业化门槛。
为什么会这样?底层逻辑其实很简单:
这个问题,能不能被清晰验证。
能验证,AI 就能踩下油门自己往前跑;无法验证,它就只能停在“看起来还不错”的阶段。
所以你看到,同样是 AI,有的场景已经可以替代人工交付,有的却依然只能做个辅助工具。模型本身并没有突然获得更高的智商,它只是在“对错分明”的环境中,被训练得更具执行力了。
剥开第一节的技术表象,一个更残酷的真相是:过去被职场和教育反复推崇的“聪明”,正在快速失去它的溢价空间。
长期以来,社会对能力的衡量标准非常直观:知识储备广、反应速度快、逻辑阐述完整。在信息获取成本极高、处理效率低下的前 AI 时代,这些特质极其稀缺,“聪明”本身就构成了核心竞争力。
但如今,大模型正在无差别地抹平这层壁垒。
信息获取几乎没有了门槛,内容整理可以自动化完成,连复杂的表达和逻辑组织也能在瞬间生成。你不再需要花费大量时间积累,就能迅速得到一个看起来“足够聪明”的结果。
这场技术变革带来的最深远影响,并非简单的“机器换人”,而是能力评价体系的重构。
过去,能给出答案就是赢家;今天,答案已经成为最廉价的工业品。核心考题变成了:谁能用这些答案去真正解决问题。
François Chollet 的理论恰好能解释这一现象:他将系统能力划分为“智力(Intelligence,应对未知的能力)”和“技能/知识(Skill,应对已知的能力)”。当系统拥有足够庞大的静态知识储备时,它不需要多高的真实“智力”,就能在大部分常规工作中表现得游刃有余。
AI 的突飞猛进,本质上是用暴力的算力和海量的数据,将大量曾经需要人类“聪明才智”的工作,降维成了纯粹的“知识调用”。这也造成了目前 AGI 定义的分裂:是实现“万物皆可自动化”,还是实现“像人一样举一反三”?目前的 AI 正在狂奔向前者,但这只是技能的堆砌,而非智力的飞跃。
这完美契合了当下大多数人的使用体感:AI 提供的方案完美无瑕,但往往无法落地;它能条分缕析地解释问题,却缺乏把事情做成的闭环能力。
这正是“聪明(表达与逻辑)”与“有用(执行与结果)”的分水岭。
当信息的获取和表达都变得廉价时,单纯依赖理解快、说得清,已经不足以构成护城河。这些能力依然是基础,但不再是拉开差距的决定性因素。它们就像如今的算力和网速一样,一旦成为基础设施,就不再是衡量高低的标准。
真正拉开差距的,变成了另一种能力。
当“聪明”不再稀缺,新的稀缺能力是什么?
很多人会说是:执行力、沟通能力、领导力。这些确实重要,但还不够切中要害。
真正的答案,其实藏在第一节提到的那条分界线里:能不能把一件事,变成可验证的。
现实中,大部分工作并不天然具备这个条件。写文章、做策划、定策略、做创意……这些事情目标模糊、标准主观,很难绝对判定对错。于是 AI 在这里只能停留在辅助工具的水平,无法像跑代码那样实现自我进化。
因此,未来真正稀缺的能力,是把这些模糊的事情,重新设计成可验证的任务。这不是简单的“拆解目标”或“列清单”,而是一种更底层的系统构建能力:搭建验证环境。
Chollet 将其称为“控制机制(Control Mechanism)”。本质上,这是人类设计的一套规则,用来告诉 AI 怎么试错、怎么验证、怎么优化。
去年,两家创业公司 Poetic 和 Confluence Labs 在攻克极具挑战的 ARC V2 推理基准测试时,证明了这种能力的价值。他们的解法不是去硬卷“更聪明的模型”,而是设计了一套精巧的控制机制:让 AI 生成类似的测试题,尝试用程序解题,验证答案的正确性,记录成功的推理链路,再用这些数据反哺训练。
几个月后,Confluence Labs 将准确率推到了 97%,且任务成本更低。原因不是模型突然变聪明了,而是有人把原本模糊的推理任务,改造成了一个可以反复跑通、持续优化的验证环境。
这个逻辑完全可以平移到更多商业领域。
谁能把主观的客服对话变成可量化评分的维度,谁能把依赖“网感”的短视频脚本拆解成可测试完播率和人设共鸣度的指标,谁能把战略规划变成可阶段性验证的节点,谁就掌握了让 AI 从“玩具”变成“生产力”的钥匙。
这也是为什么同样在用 AI,有人只是稍微提高了排版效率,有人却直接重构了整个业务飞轮。差别不在于工具,而在于重新设计问题、定义规则的能力。
Chollet 的建议很明确:你的专业知识越深,越能把这些工具用好。与其对抗 AI 的进化,不如学会借力,顺势而为。
但这里的“专业知识”,不再只是背诵行业常识,而是一种全新的转译能力:将你所在领域的模糊经验,翻译成 AI 可以参与优化的明确指标。具体来说,就是设计评分标准、搭建测试环境、定义验证规则,让机器的每一步都有清晰的反馈。
未来的分工会很清晰:AI负责解题,人负责出题。谁能设计好考卷,谁就越值钱。
答案在贬值,标准在升值。
很多人依然习惯用老标准来衡量自己:够不够聪明,够不够努力。
但游戏的规则已经变了。
真正稀缺的不再是“知道得更多”,而是能把模糊的经验,转化为可验证的问题。
面对新的技术坐标系,最后只剩下一个问题:
你的能力,是在被 AI 放大,还是在被 AI 替代?
原文链接:
https://www.youtube.com/watch?v=k2ZLQC8P7dc&t=15s
来源:官方媒体/网络新闻
