AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
4 小时前 / 阅读约18分钟
来源:36kr
西雅图艾伦人工智能研究所研究员蒂姆·德特默斯从物理约束角度解释了AGI难以实现的原因,包括计算受物理规律约束、低垂果实已摘完、GPU性能逼近极限、扩展策略不可持续及AGI需具备现实世界工作能力等。

AGI 会不会到来?

这是AI 行业里反复被讨论、却一直始终缺乏清晰论证的问题。 

最近,西雅图艾伦人工智能研究所(AI2)的研究员蒂姆·德特默斯(Tim Dettmers)在一篇文章,题目很直接——《为什么 AGI 不会实现?》。 

蒂姆·德特默斯 

在这篇文章中,他提出了一个被长期忽视、却至关重要的前提: 

计算并不是抽象概念,而是一件彻底受物理规律约束的事情。

这意味着,智能的提升并不是“想象空间”问题,而是绕不开能量、带宽、存储、制造和成本的物理限制。 

德特默斯认为,当下市场对AGI 的判断普遍偏乐观,一个关键原因在于: 

很多讨论只停留在模型、参数和算法层面,却忽视了支撑这些能力的物理基础正在逼近极限。

在文章中,德特默斯第一次从物理约束的角度,系统性地解释了为什么AGI 面临一系列难以回避的现实。这些判断,也有助于我们更好地理解当前的AI行业。 

他在文章中总结了几条关键判断: 

1)Transformer 的成功并非偶然,而是在当前物理约束下接近最优的工程选择,继续通过架构改进获得的边际收益正在快速下降。 

2)当下大量所谓“创新”,本质仍是既有框架上的渐进改进,很难带来结构性跃迁。 

3)AI 过去的 Scaling Law 很大程度上依赖GPU的性能红利,而GPU“可压榨空间”正在接近尾声。 

4)真正的AGI 不只是认知能力问题,还必须具备在现实世界中执行具有经济意义工作的能力,而这一领域恰恰最受物理与成本约束。 

以下内容为蒂姆·德特默斯文章的编译,略有删减。 

01 被物理极限“锁死”的AGI

关于AGI、超级智能、扩展定律的讨论,尤其在湾区,有一个长期被忽视的问题:这些讨论大多停留在观念层面,而非物理现实之中。

很多人谈论通用人工智能、超级智能,习惯把它们当成纯粹的抽象概念,像做哲学思想实验一样推演未来:参数还能不能再大?算力还能不能继续堆?智能会不会指数级自我进化? 

但这套思维,本身就建立在一个根本性的误解之上——计算不是抽象的,它是物理的。 

要理解这一点,先看一个最基础的事实:高效计算,始终在做两件事的平衡。 

一是把分散在各处的信息,搬运到计算发生的地方; 

二是把局部计算的结果,再重新汇聚成新的信息。 

问题在于,计算本身是便宜的,信息移动是昂贵的。 

随着晶体管尺寸变小,单次计算的成本持续下降。但信息在芯片内部、在不同存储层级之间移动,其成本却会随着距离呈平方级增长。这是一个绕不开的物理规律。 

缓存层级就是最直观的例子。 

L1、L2、L3 缓存用的是同样的工艺,但性能差异巨大:L1 最快、容量最小;L3 最大、却慢得多。原因并不复杂:离计算核心越远,访问成本越高。 

因此有两个结论非常重要: 

第一,更大的缓存,必然更慢; 

第二,随着制程进步,芯片上“算力”的成本在下降,但“内存”和“带宽”的成本反而在上升。 

今天的高端芯片设计中,真正用于“计算”的逻辑单元,其实只占很小一部分。绝大多数硅面积,都被用在了存储、互连和数据通路上。 

当然理论上仍然可以设计一颗拥有10 exaflops 算力的芯片,但如果没有与之匹配的内存系统,这些算力大多只会闲置,变成“无用的浮点运算”。 

这一点,在很多关于算力的叙事中被刻意忽略了。 

把这个现实放回AI 架构上,就会发现一件事: 

Transformer 的成功,并不是算法上的偶然,而是在当前物理约束下接近最优的工程选择。 

它的核心计算模式,恰好对应了当前硬件条件下最“划算”的两类操作: 

一类是局部计算(MLP); 

另一类是受限形式的全局信息汇聚(注意力机制)。 

Transformer当然不是“理论上最优”的智能结构,但在现实硬件条件下,它可能已经非常接近物理意义上的最优解。 

这意味着,你可以继续在Transformer上做改进,但每一步的收益都会越来越小。 

类似的限制不止存在于硅基计算里,也同样发生在我们人类身上。 

神经科学早已发现:一个物种能拥有多少神经元,几乎可以由其长期稳定的能量摄入精确推算。人类通过烹饪,突破了原始能量获取的限制,但也仅止于此。 

我们的智力并非无限扩展的结果,而是刚好卡在能量、代谢和生育之间的平衡点上。 

如果人类的大脑再大一些,问题并不在于头骨或产道,而在于能量供给: 

我们将无法在孕期同时维持两个高能耗大脑的生存。这意味着,人类智能本身就是一道被能量约束锁死的物理上限。 

数字计算也正在走向类似的边界。 

算力还会增长,工程还会优化,但把这些变化解读为“智能可以无限外推”,本身就是一种脱离物理现实的想象。 

02 低垂果实已摘完了

几乎所有成熟领域的研究,最终都会收敛到同一个结论: 

线性的进步,往往需要指数级的资源投入。 

这句话翻译成白话就是:如果你想让一个系统持续变得更精确、更高效、更强大,那么每往前走一步,所需要付出的成本都会比上一步高得多。 

背后原因并不复杂。在物理世界里,任何有效结果,都依赖资源在时间和空间上的聚集。要产生线性规模的效果,你至少需要线性规模的资源。 

但随着系统规模变大,这些资源会在空间、时间和能量上发生竞争,协同效率不断下降,最终表现为:投入增长得很快,产出却增长得越来越慢。 

在物理世界如此,在思想世界也一样。 

如果两个想法彼此完全独立,它们的叠加效果可能是倍增的;但一旦想法之间存在依赖关系,边际收益就会迅速下降。 

绝大多数“新想法”,并不是从零开始,而是建立在已有框架之上的改进。即便这个改进再聪明,它所能带来的提升也往往是渐进式的。 

当一个领域足够成熟时,这种现象会变得非常明显。 

即使你看似提出了“完全不同”的方法,它们往往仍然在解决同一个核心问题。 

比如,看起来路径不同的状态空间模型和 Transformer,本质上都在处理“如何高效建模长程依赖”这个问题。 

在这样的背景下,任何对同一机制的改进,都只能带来有限收益。 

这种约束,在物理学中表现得最为残酷。一位顶尖理论物理学家曾这样形容这个处境: 

如果一个想法被限制在同一个子领域内,那么几乎不可能产生真正有意义的突破。因为该想的,早就被想过了;而那些看似天马行空的创意,往往只是重新排列了既有规则,并没有触及根本问题。 

实验物理则从另一个角度揭示了这种边界。 

为了验证更深层的物理规律,我们不得不建造越来越昂贵、越来越复杂的实验装置。大型强子对撞机耗资数十亿美元,但带来的更多是对理论的排除,而不是明确的新答案。 

这并不一定意味着我们“不够聪明”,而更可能意味着:某些问题本身,就被资源和复杂度锁在了我们目前无法触及的层级之外。 

最终,我们一次又一次回到同一个现实判断: 

当一个系统进入成熟阶段后,想要获得线性的改进,往往必须付出指数级的资源代价。 

这既是科学研究的边界,也是技术、算力和智能扩展所共同面对的硬约束。 

03 GPU已经被“榨干”了

另一个影响极大的误解是:人们默认硬件会一直线性进步。

过去十多年,AI 的几次关键跃迁,确实都踩在了GPU性能提升的节奏上。 

AlexNet 的成功,本质上是CUDA + GPU跑通了卷积网络的结果。此后,无论是更深的CNN,还是Transformer的规模化训练,几乎都依赖两个变量:单卡性能提升+GPU数量增加。 

于是,一个非常自然的叙事形成了:GPU 越来越强,推动AI 越来越强。 

但问题恰恰在这里。GPU 并不是在“持续进步”,而是在逐步逼近物理和工程的边界。 

如果回头看,会发现GPU 真正快速提升的阶段,大概在 2018 年左右已经结束。 

此后我们看到的“进步”,更多是通过一系列一次性、不可重复的工程红利换来的: 

最早是FP16,然后是 Tensor Core(或等价的矩阵加速单元),再往后是 HBM 高带宽内存,接着是更激进的数据搬运机制(如 TMA),再然后是 INT8、INT4 甚至更低比特宽度。 

这些手段,本质上都在做同一件事:用精度换吞吐,用工程技巧压榨边界。 

问题在于,这条路是有限的。 

从计算物理和信息论角度看,在特定块大小、访存模式和调度结构下,最优的数据类型和计算布局是可以算出来的。 

这些结论并不神秘,也早已被论文系统性地讨论过。现在的硬件厂商,事实上已经把这些“可压榨的空间”基本用完了。 

继续往前走,不再是“免费性能提升”,而只剩下权衡: 

要么牺牲计算效率,换更小的内存占用; 

要么牺牲内存效率,换更高的计算吞吐。 

无论选哪条路,都不再带来数量级上的提升。这并不意味着硬件已经“停止进化”,而是意味着: 

硬件不再是那个能持续兜底一切问题的变量了。 

在这个背景下,很多人的注意力开始转向机架级、数据中心级的系统优化。 

这一步确实重要,比如高效的KV cache 传输、节点间通信、内存拓扑设计,都是当前推理成本的关键瓶颈。 

但这里同样存在一个现实限制。 

从系统工程角度看,真正高效的设计空间其实非常有限。你可以在实现上做得更极致,但在结构上,往往只有一到两种接近最优的方案。它们难度高、工程量大,但并不神秘,也不存在“颠覆性架构”。 

这也是为什么无论是OpenAI,还是其他前沿实验室,在基础设施层面更多体现的是执行力和规模,而不是不可复制的系统优势。 

即便通过机架级或数据中心级优化获得领先,这种优势也往往是暂时的。 

随着行业跟进,这些改进会迅速扩散、被吸收。可能在2026年,也可能在2027年,这部分红利就会基本被吃完。 

归根结底,这一切指向同一个结论: 

AI 的下一个阶段,不能再假设“硬件会继续把问题解决掉”。 

GPU 曾经是推动智能跃迁的核心杠杆,但这个杠杆,正在失去它的长度。 

04 Gemini3,是一个拐点信号

我最近在推特上讨论了一个判断:Gemini 3,可能标志着这一轮AI 发展正在接近阶段性停滞。

不少回复认为我太悲观了,说一句话概括就是:“规模化不是还在起作用吗?” 

问题在于,这里真正需要讨论的,并不是“规模化有没有用”,而是规模化还能用多久、以什么代价继续起作用。 

真正发生变化的是成本结构。 

过去十多年,我们之所以能在模型规模上持续推进,并不是因为扩展本身变得“更高效”,而是因为GPU的指数级性能提升,抵消了扩展所需的指数级资源投入。 

换句话说,过去是线性成本,带来线性回报。现在变成了指数级成本,带来勉强的线性回报。 

这本身并非不可接受,但它清晰地划定了一个边界:扩展不再是一个“可以无限外推”的策略,而是一个正在快速逼近物理极限的手段。 

在我看来,我们真正剩下的扩展窗口,可能只有一到两年。 

2025 年,单纯靠扩展带来的提升已经非常有限;如果 2026、2027 年没有新的研究路径或软件层面的突破,那么扩展本身在物理上就会变得不可持续。 

更微妙的问题在于: 

当扩展带来的边际收益,开始低于研究和软件创新带来的收益时,硬件就会从资产变成负担。 

这并不是一个假设,而是已经开始出现的现实信号。 

像MoonshotAI、Z.ai 这样的公司已经证明:不需要天量算力,也能做到非常接近前沿模型的能力水平。 

从个人体验来看,我甚至更偏好Kimi K2的思考方式,而不是 Sonnet 4.5 在编码上的“蛮力感”。这本身就说明:能力提升并不完全等同于规模扩张。 

如果这些小团队能在研究或工程上进一步突破规模限制,它们完全有可能在不拥有庞大基础设施的情况下,做出最有竞争力的模型。 

在推理侧,它们甚至可以转向如华为昇腾这样的替代硬件——这些芯片在推理性能上已经足够好。 

这也引出了扩展基础设施面临的另一个系统性风险。 

目前,大模型推理效率高度依赖“规模本身”:只有当GPU数量足够多、用户请求足够密集时,计算、网络通信和 KV cache 才能充分重叠,从而实现接近理论最优的利用率。 

这意味着,只有拥有巨大用户规模的公司,才能真正“用好”这些昂贵的前沿模型。 

这也是为什么,开放权重模型目前并没有在推理成本上彻底改写格局——不是模型不行,而是部署成本要求一个同样庞大的用户池来摊薄。 

但这里的关键在于:这是一个软件问题,而不是物理问题。 

vLLM、SGLang 等推理框架,主要针对的是前沿实验室那种“超大规模部署”场景;在中小规模部署时,它们并不能提供同等级别的效率。 

一旦出现更适合中等规模的推理栈,情况就会完全不同。 

如果有人能让一个3000亿参数级别的模型,在较小规模下,也能接近 OpenAI 或 Anthropic 的推理效率,那么前沿实验室在基础设施上的护城河,可能会在极短时间内消失。 

更何况,还有两个变量在同时逼近: 

一是小模型能力持续提升(比如GLM 4.6 这类趋势); 

二是AI 应用越来越垂直、越来越专业化,对“通用前沿模型”的依赖正在下降。 

在这种情况下,部署复杂度下降、开源推理栈成熟、硬件选择多样化,会让整个系统迅速逼近物理最优解。 

而一旦接近物理最优,规模优势的溢价就会快速蒸发。 

如果扩展速度放缓,那么下面三件事中的任何一件,都可能在短时间内显著削弱AI 基础设施的价值: 

研究或软件层面的突破 

成熟、强大的开放权重推理栈 

向其他硬件平台迁移 

从这个角度看,当前的趋势对前沿实验室并不友好。因为真正的竞争,很可能即将回到:研究深度、工程效率,以及对物理现实的敬畏。 

05 没有身体的AGI,是一个伪命题

我注意到一个频繁出现的现象: 

当你问湾区的人“AGI 什么时候到来”,他们往往会给出一个相对乐观的时间表——几年之内、影响巨大、范式颠覆; 

但当你追问“AGI 究竟是什么”,他们的定义几乎总是停留在认知层面,既不包含体力劳动,也很少讨论资源投入与物理约束。 

这是一个关键缺失。 

如果我们严格定义“通用人工智能”为能够完成几乎所有人类任务的系统,那么它就不可能只存在于文本框或服务器里。 

真正的AGI,必然需要具备在现实世界中执行具有经济意义工作的能力——也就是体力劳动。 

而恰恰是这一部分,构成了人类经济活动中规模最大、最复杂、也是最受物理约束的领域。 

从现实来看,机器人技术并未走向“通用化”,而是高度分化。 

在受控环境中,例如工厂,专用自动化系统已经极其成熟。中国的“工厂”已经证明: 

在明确流程、固定场景下,专用机器人在效率、精度和成本上远远优于任何通用方案。这类系统并不需要“通用智能”,它们靠的是工程优化和流程确定性。 

而在非受控环境中,许多看似“智能”的机器人任务,往往在经济上并不成立。 

例如给T 恤缝袖子、在复杂环境中叠衣服,这些任务在技术上困难、数据采集成本极高,但在现实中人类完成它们所需的时间和成本极低。 

即便机器人在几年后能够完成这些动作,其产出质量、成本结构和维护复杂度,也很难构成真正的经济优势。 

换句话说,机器人领域的问题并不主要是“能不能做”,而是“值不值得做”。 

更重要的是,机器人学习的扩展规律,与大语言模型高度相似,却面临更严苛的现实约束。物理世界的数据采集昂贵、反馈稀疏、状态空间巨大,这决定了其扩展速度远慢于纯数字环境。 

结果是,自动化在工厂里高度成功,而在大多数日常体力劳动中,经济回报极其有限。 

这也引出了“超级智能”叙事的根本问题。 

超级智能的核心假设是:一旦系统在智能水平上超过人类,就能够不断自我改进,最终形成失控式跃迁。 

这一观点源于牛津哲学传统,并在湾区被进一步放大。但它忽略了一个基本事实——智能不是抽象存在,而是嵌入在物理系统中的能力。 

任何系统的改进都需要资源。即便一个系统能更高效地利用资源,它依然无法逃脱规模定律的约束: 

线性改进,往往需要指数级投入。通过引入一次性优化(例如新的数据类型、特殊硬件单元)确实可以暂时绕开收益递减,但这些路径本身也会很快耗尽。 

因此,更合理的理解是:所谓“超级智能”并不会无限拓展能力边界,而只是填补现有能力空白。这种填补是有价值的,但它带来的是渐进改进,而非指数失控。 

类似的误判也出现在对硬件进步的预期上。 

很多人假设,如果智能足够强,它就能加速GPU、内存和系统架构的进化。 

但现实是,GPU 的核心性能提升已经接近尾声。未来的改进更多来自封装、互连、HBM 演进和机架级工程优化,而这些都是高度资本密集、周期漫长的制造问题,并不存在“靠更聪明就能解决”的捷径。 

Transformer 架构本身也已经接近物理最优。大规模推理部署,更多是成熟工程问题,而非需要突破性创造力的研究领域。超级智能无法显著重写这些基本约束。 

从这个角度看,超级智能或许能帮助AI 更快普及,但它并不是普及的决定性因素。真正限制 AI 经济价值释放的,从来不是能力上限,而是落地、部署与应用结构。 

因此,任何将“超级智能”作为核心目标的组织,都可能在现实中遭遇持续的摩擦:高成本、低回报、难以转化。相反,那些专注于降低部署门槛、推动经济普及、嵌入真实流程的参与者,更可能在长期胜出。 

归根结底,人们常设想的AGI 并不会以神话般的方式降临。它忽视了计算的物理约束、规模进步的真实成本,以及我们已经触及的工程极限。 

超级智能之所以被反复讨论,并非因为它理论上稳固,而是因为它在回音室中构建了一种极具吸引力的叙事。 

而AI 的真实未来,将由经济可行性、实际应用与在物理限制下的持续改进共同塑造。越早接受这一现实,我们就越能把注意力从幻想,转向真正能提高生产力与人类福祉的系统。