AGI 会不会到来?
这是AI 行业里反复被讨论、却一直始终缺乏清晰论证的问题。
最近,西雅图艾伦人工智能研究所(AI2)的研究员蒂姆·德特默斯(Tim Dettmers)在一篇文章,题目很直接——《为什么 AGI 不会实现?》。

蒂姆·德特默斯
在这篇文章中,他提出了一个被长期忽视、却至关重要的前提:
计算并不是抽象概念,而是一件彻底受物理规律约束的事情。
这意味着,智能的提升并不是“想象空间”问题,而是绕不开能量、带宽、存储、制造和成本的物理限制。
德特默斯认为,当下市场对AGI 的判断普遍偏乐观,一个关键原因在于:
很多讨论只停留在模型、参数和算法层面,却忽视了支撑这些能力的物理基础正在逼近极限。
在文章中,德特默斯第一次从物理约束的角度,系统性地解释了为什么AGI 面临一系列难以回避的现实。这些判断,也有助于我们更好地理解当前的AI行业。
他在文章中总结了几条关键判断:
1)Transformer 的成功并非偶然,而是在当前物理约束下接近最优的工程选择,继续通过架构改进获得的边际收益正在快速下降。
2)当下大量所谓“创新”,本质仍是既有框架上的渐进改进,很难带来结构性跃迁。
3)AI 过去的 Scaling Law 很大程度上依赖GPU的性能红利,而GPU“可压榨空间”正在接近尾声。
4)真正的AGI 不只是认知能力问题,还必须具备在现实世界中执行具有经济意义工作的能力,而这一领域恰恰最受物理与成本约束。
以下内容为蒂姆·德特默斯文章的编译,略有删减。
关于AGI、超级智能、扩展定律的讨论,尤其在湾区,有一个长期被忽视的问题:这些讨论大多停留在观念层面,而非物理现实之中。
很多人谈论通用人工智能、超级智能,习惯把它们当成纯粹的抽象概念,像做哲学思想实验一样推演未来:参数还能不能再大?算力还能不能继续堆?智能会不会指数级自我进化?
但这套思维,本身就建立在一个根本性的误解之上——计算不是抽象的,它是物理的。
要理解这一点,先看一个最基础的事实:高效计算,始终在做两件事的平衡。
一是把分散在各处的信息,搬运到计算发生的地方;
二是把局部计算的结果,再重新汇聚成新的信息。
问题在于,计算本身是便宜的,信息移动是昂贵的。
随着晶体管尺寸变小,单次计算的成本持续下降。但信息在芯片内部、在不同存储层级之间移动,其成本却会随着距离呈平方级增长。这是一个绕不开的物理规律。
缓存层级就是最直观的例子。
L1、L2、L3 缓存用的是同样的工艺,但性能差异巨大:L1 最快、容量最小;L3 最大、却慢得多。原因并不复杂:离计算核心越远,访问成本越高。
因此有两个结论非常重要:
第一,更大的缓存,必然更慢;
第二,随着制程进步,芯片上“算力”的成本在下降,但“内存”和“带宽”的成本反而在上升。
今天的高端芯片设计中,真正用于“计算”的逻辑单元,其实只占很小一部分。绝大多数硅面积,都被用在了存储、互连和数据通路上。
当然理论上仍然可以设计一颗拥有10 exaflops 算力的芯片,但如果没有与之匹配的内存系统,这些算力大多只会闲置,变成“无用的浮点运算”。
这一点,在很多关于算力的叙事中被刻意忽略了。
把这个现实放回AI 架构上,就会发现一件事:
Transformer 的成功,并不是算法上的偶然,而是在当前物理约束下接近最优的工程选择。
它的核心计算模式,恰好对应了当前硬件条件下最“划算”的两类操作:
一类是局部计算(MLP);
另一类是受限形式的全局信息汇聚(注意力机制)。
Transformer当然不是“理论上最优”的智能结构,但在现实硬件条件下,它可能已经非常接近物理意义上的最优解。
这意味着,你可以继续在Transformer上做改进,但每一步的收益都会越来越小。
类似的限制不止存在于硅基计算里,也同样发生在我们人类身上。
神经科学早已发现:一个物种能拥有多少神经元,几乎可以由其长期稳定的能量摄入精确推算。人类通过烹饪,突破了原始能量获取的限制,但也仅止于此。
我们的智力并非无限扩展的结果,而是刚好卡在能量、代谢和生育之间的平衡点上。
如果人类的大脑再大一些,问题并不在于头骨或产道,而在于能量供给:
我们将无法在孕期同时维持两个高能耗大脑的生存。这意味着,人类智能本身就是一道被能量约束锁死的物理上限。
数字计算也正在走向类似的边界。
算力还会增长,工程还会优化,但把这些变化解读为“智能可以无限外推”,本身就是一种脱离物理现实的想象。
几乎所有成熟领域的研究,最终都会收敛到同一个结论:
线性的进步,往往需要指数级的资源投入。
这句话翻译成白话就是:如果你想让一个系统持续变得更精确、更高效、更强大,那么每往前走一步,所需要付出的成本都会比上一步高得多。
背后原因并不复杂。在物理世界里,任何有效结果,都依赖资源在时间和空间上的聚集。要产生线性规模的效果,你至少需要线性规模的资源。
但随着系统规模变大,这些资源会在空间、时间和能量上发生竞争,协同效率不断下降,最终表现为:投入增长得很快,产出却增长得越来越慢。
在物理世界如此,在思想世界也一样。
如果两个想法彼此完全独立,它们的叠加效果可能是倍增的;但一旦想法之间存在依赖关系,边际收益就会迅速下降。
绝大多数“新想法”,并不是从零开始,而是建立在已有框架之上的改进。即便这个改进再聪明,它所能带来的提升也往往是渐进式的。
当一个领域足够成熟时,这种现象会变得非常明显。
即使你看似提出了“完全不同”的方法,它们往往仍然在解决同一个核心问题。
比如,看起来路径不同的状态空间模型和 Transformer,本质上都在处理“如何高效建模长程依赖”这个问题。
在这样的背景下,任何对同一机制的改进,都只能带来有限收益。
这种约束,在物理学中表现得最为残酷。一位顶尖理论物理学家曾这样形容这个处境:
如果一个想法被限制在同一个子领域内,那么几乎不可能产生真正有意义的突破。因为该想的,早就被想过了;而那些看似天马行空的创意,往往只是重新排列了既有规则,并没有触及根本问题。
实验物理则从另一个角度揭示了这种边界。
为了验证更深层的物理规律,我们不得不建造越来越昂贵、越来越复杂的实验装置。大型强子对撞机耗资数十亿美元,但带来的更多是对理论的排除,而不是明确的新答案。
这并不一定意味着我们“不够聪明”,而更可能意味着:某些问题本身,就被资源和复杂度锁在了我们目前无法触及的层级之外。
最终,我们一次又一次回到同一个现实判断:
当一个系统进入成熟阶段后,想要获得线性的改进,往往必须付出指数级的资源代价。
这既是科学研究的边界,也是技术、算力和智能扩展所共同面对的硬约束。
另一个影响极大的误解是:人们默认硬件会一直线性进步。
过去十多年,AI 的几次关键跃迁,确实都踩在了GPU性能提升的节奏上。
AlexNet 的成功,本质上是CUDA + GPU跑通了卷积网络的结果。此后,无论是更深的CNN,还是Transformer的规模化训练,几乎都依赖两个变量:单卡性能提升+GPU数量增加。
于是,一个非常自然的叙事形成了:GPU 越来越强,推动AI 越来越强。
但问题恰恰在这里。GPU 并不是在“持续进步”,而是在逐步逼近物理和工程的边界。
如果回头看,会发现GPU 真正快速提升的阶段,大概在 2018 年左右已经结束。
此后我们看到的“进步”,更多是通过一系列一次性、不可重复的工程红利换来的:
最早是FP16,然后是 Tensor Core(或等价的矩阵加速单元),再往后是 HBM 高带宽内存,接着是更激进的数据搬运机制(如 TMA),再然后是 INT8、INT4 甚至更低比特宽度。
这些手段,本质上都在做同一件事:用精度换吞吐,用工程技巧压榨边界。
问题在于,这条路是有限的。
从计算物理和信息论角度看,在特定块大小、访存模式和调度结构下,最优的数据类型和计算布局是可以算出来的。
这些结论并不神秘,也早已被论文系统性地讨论过。现在的硬件厂商,事实上已经把这些“可压榨的空间”基本用完了。
继续往前走,不再是“免费性能提升”,而只剩下权衡:
要么牺牲计算效率,换更小的内存占用;
要么牺牲内存效率,换更高的计算吞吐。
无论选哪条路,都不再带来数量级上的提升。这并不意味着硬件已经“停止进化”,而是意味着:
硬件不再是那个能持续兜底一切问题的变量了。
在这个背景下,很多人的注意力开始转向机架级、数据中心级的系统优化。
这一步确实重要,比如高效的KV cache 传输、节点间通信、内存拓扑设计,都是当前推理成本的关键瓶颈。
但这里同样存在一个现实限制。
从系统工程角度看,真正高效的设计空间其实非常有限。你可以在实现上做得更极致,但在结构上,往往只有一到两种接近最优的方案。它们难度高、工程量大,但并不神秘,也不存在“颠覆性架构”。
这也是为什么无论是OpenAI,还是其他前沿实验室,在基础设施层面更多体现的是执行力和规模,而不是不可复制的系统优势。
即便通过机架级或数据中心级优化获得领先,这种优势也往往是暂时的。
随着行业跟进,这些改进会迅速扩散、被吸收。可能在2026年,也可能在2027年,这部分红利就会基本被吃完。
归根结底,这一切指向同一个结论:
AI 的下一个阶段,不能再假设“硬件会继续把问题解决掉”。
GPU 曾经是推动智能跃迁的核心杠杆,但这个杠杆,正在失去它的长度。
我最近在推特上讨论了一个判断:Gemini 3,可能标志着这一轮AI 发展正在接近阶段性停滞。
不少回复认为我太悲观了,说一句话概括就是:“规模化不是还在起作用吗?”
问题在于,这里真正需要讨论的,并不是“规模化有没有用”,而是规模化还能用多久、以什么代价继续起作用。
真正发生变化的是成本结构。
过去十多年,我们之所以能在模型规模上持续推进,并不是因为扩展本身变得“更高效”,而是因为GPU的指数级性能提升,抵消了扩展所需的指数级资源投入。
换句话说,过去是线性成本,带来线性回报。现在变成了指数级成本,带来勉强的线性回报。
这本身并非不可接受,但它清晰地划定了一个边界:扩展不再是一个“可以无限外推”的策略,而是一个正在快速逼近物理极限的手段。
在我看来,我们真正剩下的扩展窗口,可能只有一到两年。
2025 年,单纯靠扩展带来的提升已经非常有限;如果 2026、2027 年没有新的研究路径或软件层面的突破,那么扩展本身在物理上就会变得不可持续。
更微妙的问题在于:
当扩展带来的边际收益,开始低于研究和软件创新带来的收益时,硬件就会从资产变成负担。
这并不是一个假设,而是已经开始出现的现实信号。
像MoonshotAI、Z.ai 这样的公司已经证明:不需要天量算力,也能做到非常接近前沿模型的能力水平。
从个人体验来看,我甚至更偏好Kimi K2的思考方式,而不是 Sonnet 4.5 在编码上的“蛮力感”。这本身就说明:能力提升并不完全等同于规模扩张。
如果这些小团队能在研究或工程上进一步突破规模限制,它们完全有可能在不拥有庞大基础设施的情况下,做出最有竞争力的模型。
在推理侧,它们甚至可以转向如华为昇腾这样的替代硬件——这些芯片在推理性能上已经足够好。
这也引出了扩展基础设施面临的另一个系统性风险。
目前,大模型推理效率高度依赖“规模本身”:只有当GPU数量足够多、用户请求足够密集时,计算、网络通信和 KV cache 才能充分重叠,从而实现接近理论最优的利用率。
这意味着,只有拥有巨大用户规模的公司,才能真正“用好”这些昂贵的前沿模型。
这也是为什么,开放权重模型目前并没有在推理成本上彻底改写格局——不是模型不行,而是部署成本要求一个同样庞大的用户池来摊薄。
但这里的关键在于:这是一个软件问题,而不是物理问题。
vLLM、SGLang 等推理框架,主要针对的是前沿实验室那种“超大规模部署”场景;在中小规模部署时,它们并不能提供同等级别的效率。
一旦出现更适合中等规模的推理栈,情况就会完全不同。
如果有人能让一个3000亿参数级别的模型,在较小规模下,也能接近 OpenAI 或 Anthropic 的推理效率,那么前沿实验室在基础设施上的护城河,可能会在极短时间内消失。
更何况,还有两个变量在同时逼近:
一是小模型能力持续提升(比如GLM 4.6 这类趋势);
二是AI 应用越来越垂直、越来越专业化,对“通用前沿模型”的依赖正在下降。
在这种情况下,部署复杂度下降、开源推理栈成熟、硬件选择多样化,会让整个系统迅速逼近物理最优解。
而一旦接近物理最优,规模优势的溢价就会快速蒸发。
如果扩展速度放缓,那么下面三件事中的任何一件,都可能在短时间内显著削弱AI 基础设施的价值:
研究或软件层面的突破
成熟、强大的开放权重推理栈
向其他硬件平台迁移
从这个角度看,当前的趋势对前沿实验室并不友好。因为真正的竞争,很可能即将回到:研究深度、工程效率,以及对物理现实的敬畏。
我注意到一个频繁出现的现象:
当你问湾区的人“AGI 什么时候到来”,他们往往会给出一个相对乐观的时间表——几年之内、影响巨大、范式颠覆;
但当你追问“AGI 究竟是什么”,他们的定义几乎总是停留在认知层面,既不包含体力劳动,也很少讨论资源投入与物理约束。
这是一个关键缺失。
如果我们严格定义“通用人工智能”为能够完成几乎所有人类任务的系统,那么它就不可能只存在于文本框或服务器里。
真正的AGI,必然需要具备在现实世界中执行具有经济意义工作的能力——也就是体力劳动。
而恰恰是这一部分,构成了人类经济活动中规模最大、最复杂、也是最受物理约束的领域。
从现实来看,机器人技术并未走向“通用化”,而是高度分化。
在受控环境中,例如工厂,专用自动化系统已经极其成熟。中国的“工厂”已经证明:
在明确流程、固定场景下,专用机器人在效率、精度和成本上远远优于任何通用方案。这类系统并不需要“通用智能”,它们靠的是工程优化和流程确定性。
而在非受控环境中,许多看似“智能”的机器人任务,往往在经济上并不成立。
例如给T 恤缝袖子、在复杂环境中叠衣服,这些任务在技术上困难、数据采集成本极高,但在现实中人类完成它们所需的时间和成本极低。
即便机器人在几年后能够完成这些动作,其产出质量、成本结构和维护复杂度,也很难构成真正的经济优势。
换句话说,机器人领域的问题并不主要是“能不能做”,而是“值不值得做”。
更重要的是,机器人学习的扩展规律,与大语言模型高度相似,却面临更严苛的现实约束。物理世界的数据采集昂贵、反馈稀疏、状态空间巨大,这决定了其扩展速度远慢于纯数字环境。
结果是,自动化在工厂里高度成功,而在大多数日常体力劳动中,经济回报极其有限。
这也引出了“超级智能”叙事的根本问题。
超级智能的核心假设是:一旦系统在智能水平上超过人类,就能够不断自我改进,最终形成失控式跃迁。
这一观点源于牛津哲学传统,并在湾区被进一步放大。但它忽略了一个基本事实——智能不是抽象存在,而是嵌入在物理系统中的能力。
任何系统的改进都需要资源。即便一个系统能更高效地利用资源,它依然无法逃脱规模定律的约束:
线性改进,往往需要指数级投入。通过引入一次性优化(例如新的数据类型、特殊硬件单元)确实可以暂时绕开收益递减,但这些路径本身也会很快耗尽。
因此,更合理的理解是:所谓“超级智能”并不会无限拓展能力边界,而只是填补现有能力空白。这种填补是有价值的,但它带来的是渐进改进,而非指数失控。
类似的误判也出现在对硬件进步的预期上。
很多人假设,如果智能足够强,它就能加速GPU、内存和系统架构的进化。
但现实是,GPU 的核心性能提升已经接近尾声。未来的改进更多来自封装、互连、HBM 演进和机架级工程优化,而这些都是高度资本密集、周期漫长的制造问题,并不存在“靠更聪明就能解决”的捷径。
Transformer 架构本身也已经接近物理最优。大规模推理部署,更多是成熟工程问题,而非需要突破性创造力的研究领域。超级智能无法显著重写这些基本约束。
从这个角度看,超级智能或许能帮助AI 更快普及,但它并不是普及的决定性因素。真正限制 AI 经济价值释放的,从来不是能力上限,而是落地、部署与应用结构。
因此,任何将“超级智能”作为核心目标的组织,都可能在现实中遭遇持续的摩擦:高成本、低回报、难以转化。相反,那些专注于降低部署门槛、推动经济普及、嵌入真实流程的参与者,更可能在长期胜出。
归根结底,人们常设想的AGI 并不会以神话般的方式降临。它忽视了计算的物理约束、规模进步的真实成本,以及我们已经触及的工程极限。
超级智能之所以被反复讨论,并非因为它理论上稳固,而是因为它在回音室中构建了一种极具吸引力的叙事。
而AI 的真实未来,将由经济可行性、实际应用与在物理限制下的持续改进共同塑造。越早接受这一现实,我们就越能把注意力从幻想,转向真正能提高生产力与人类福祉的系统。
