AGI为什么不会到来？这位研究员把AI的“物理极限”讲透了 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

AGI为什么不会到来？这位研究员把AI的“物理极限”讲透了

4 小时前 / 阅读约18分钟

来源：36kr

西雅图艾伦人工智能研究所研究员蒂姆·德特默斯从物理约束角度解释了AGI难以实现的原因，包括计算受物理规律约束、低垂果实已摘完、GPU性能逼近极限、扩展策略不可持续及AGI需具备现实世界工作能力等。

AGI 会不会到来？

这是AI 行业里反复被讨论、却一直始终缺乏清晰论证的问题。

最近，西雅图艾伦人工智能研究所（AI2）的研究员蒂姆·德特默斯（Tim Dettmers）在一篇文章，题目很直接——《为什么 AGI 不会实现？》。

蒂姆·德特默斯

在这篇文章中，他提出了一个被长期忽视、却至关重要的前提：

计算并不是抽象概念，而是一件彻底受物理规律约束的事情。

这意味着，智能的提升并不是“想象空间”问题，而是绕不开能量、带宽、存储、制造和成本的物理限制。

德特默斯认为，当下市场对AGI 的判断普遍偏乐观，一个关键原因在于：

很多讨论只停留在模型、参数和算法层面，却忽视了支撑这些能力的物理基础正在逼近极限。

在文章中，德特默斯第一次从物理约束的角度，系统性地解释了为什么AGI 面临一系列难以回避的现实。这些判断，也有助于我们更好地理解当前的AI行业。

他在文章中总结了几条关键判断：

1）Transformer 的成功并非偶然，而是在当前物理约束下接近最优的工程选择，继续通过架构改进获得的边际收益正在快速下降。

2）当下大量所谓“创新”，本质仍是既有框架上的渐进改进，很难带来结构性跃迁。

3）AI 过去的 Scaling Law 很大程度上依赖GPU的性能红利，而GPU“可压榨空间”正在接近尾声。

4）真正的AGI 不只是认知能力问题，还必须具备在现实世界中执行具有经济意义工作的能力，而这一领域恰恰最受物理与成本约束。

以下内容为蒂姆·德特默斯文章的编译，略有删减。

01 被物理极限“锁死”的AGI

关于AGI、超级智能、扩展定律的讨论，尤其在湾区，有一个长期被忽视的问题：这些讨论大多停留在观念层面，而非物理现实之中。

很多人谈论通用人工智能、超级智能，习惯把它们当成纯粹的抽象概念，像做哲学思想实验一样推演未来：参数还能不能再大？算力还能不能继续堆？智能会不会指数级自我进化？

但这套思维，本身就建立在一个根本性的误解之上——计算不是抽象的，它是物理的。

要理解这一点，先看一个最基础的事实：高效计算，始终在做两件事的平衡。

一是把分散在各处的信息，搬运到计算发生的地方；

二是把局部计算的结果，再重新汇聚成新的信息。

问题在于，计算本身是便宜的，信息移动是昂贵的。

随着晶体管尺寸变小，单次计算的成本持续下降。但信息在芯片内部、在不同存储层级之间移动，其成本却会随着距离呈平方级增长。这是一个绕不开的物理规律。

缓存层级就是最直观的例子。

L1、L2、L3 缓存用的是同样的工艺，但性能差异巨大：L1 最快、容量最小；L3 最大、却慢得多。原因并不复杂：离计算核心越远，访问成本越高。

因此有两个结论非常重要：

第一，更大的缓存，必然更慢；

第二，随着制程进步，芯片上“算力”的成本在下降，但“内存”和“带宽”的成本反而在上升。

今天的高端芯片设计中，真正用于“计算”的逻辑单元，其实只占很小一部分。绝大多数硅面积，都被用在了存储、互连和数据通路上。

当然理论上仍然可以设计一颗拥有10 exaflops 算力的芯片，但如果没有与之匹配的内存系统，这些算力大多只会闲置，变成“无用的浮点运算”。

这一点，在很多关于算力的叙事中被刻意忽略了。

把这个现实放回AI 架构上，就会发现一件事：

Transformer 的成功，并不是算法上的偶然，而是在当前物理约束下接近最优的工程选择。

它的核心计算模式，恰好对应了当前硬件条件下最“划算”的两类操作：

一类是局部计算（MLP）；

另一类是受限形式的全局信息汇聚（注意力机制）。

Transformer当然不是“理论上最优”的智能结构，但在现实硬件条件下，它可能已经非常接近物理意义上的最优解。

这意味着，你可以继续在Transformer上做改进，但每一步的收益都会越来越小。

类似的限制不止存在于硅基计算里，也同样发生在我们人类身上。

神经科学早已发现：一个物种能拥有多少神经元，几乎可以由其长期稳定的能量摄入精确推算。人类通过烹饪，突破了原始能量获取的限制，但也仅止于此。

我们的智力并非无限扩展的结果，而是刚好卡在能量、代谢和生育之间的平衡点上。

如果人类的大脑再大一些，问题并不在于头骨或产道，而在于能量供给：

我们将无法在孕期同时维持两个高能耗大脑的生存。这意味着，人类智能本身就是一道被能量约束锁死的物理上限。

数字计算也正在走向类似的边界。

算力还会增长，工程还会优化，但把这些变化解读为“智能可以无限外推”，本身就是一种脱离物理现实的想象。

02 低垂果实已摘完了

几乎所有成熟领域的研究，最终都会收敛到同一个结论：

线性的进步，往往需要指数级的资源投入。

这句话翻译成白话就是：如果你想让一个系统持续变得更精确、更高效、更强大，那么每往前走一步，所需要付出的成本都会比上一步高得多。

背后原因并不复杂。在物理世界里，任何有效结果，都依赖资源在时间和空间上的聚集。要产生线性规模的效果，你至少需要线性规模的资源。

但随着系统规模变大，这些资源会在空间、时间和能量上发生竞争，协同效率不断下降，最终表现为：投入增长得很快，产出却增长得越来越慢。

在物理世界如此，在思想世界也一样。

如果两个想法彼此完全独立，它们的叠加效果可能是倍增的；但一旦想法之间存在依赖关系，边际收益就会迅速下降。

绝大多数“新想法”，并不是从零开始，而是建立在已有框架之上的改进。即便这个改进再聪明，它所能带来的提升也往往是渐进式的。

当一个领域足够成熟时，这种现象会变得非常明显。

即使你看似提出了“完全不同”的方法，它们往往仍然在解决同一个核心问题。

比如，看起来路径不同的状态空间模型和 Transformer，本质上都在处理“如何高效建模长程依赖”这个问题。

在这样的背景下，任何对同一机制的改进，都只能带来有限收益。

这种约束，在物理学中表现得最为残酷。一位顶尖理论物理学家曾这样形容这个处境：

如果一个想法被限制在同一个子领域内，那么几乎不可能产生真正有意义的突破。因为该想的，早就被想过了；而那些看似天马行空的创意，往往只是重新排列了既有规则，并没有触及根本问题。

实验物理则从另一个角度揭示了这种边界。

为了验证更深层的物理规律，我们不得不建造越来越昂贵、越来越复杂的实验装置。大型强子对撞机耗资数十亿美元，但带来的更多是对理论的排除，而不是明确的新答案。

这并不一定意味着我们“不够聪明”，而更可能意味着：某些问题本身，就被资源和复杂度锁在了我们目前无法触及的层级之外。

最终，我们一次又一次回到同一个现实判断：

当一个系统进入成熟阶段后，想要获得线性的改进，往往必须付出指数级的资源代价。

这既是科学研究的边界，也是技术、算力和智能扩展所共同面对的硬约束。

03 GPU已经被“榨干”了

另一个影响极大的误解是：人们默认硬件会一直线性进步。

过去十多年，AI 的几次关键跃迁，确实都踩在了GPU性能提升的节奏上。

AlexNet 的成功，本质上是CUDA + GPU跑通了卷积网络的结果。此后，无论是更深的CNN，还是Transformer的规模化训练，几乎都依赖两个变量：单卡性能提升+GPU数量增加。

于是，一个非常自然的叙事形成了：GPU 越来越强，推动AI 越来越强。

但问题恰恰在这里。GPU 并不是在“持续进步”，而是在逐步逼近物理和工程的边界。

如果回头看，会发现GPU 真正快速提升的阶段，大概在 2018 年左右已经结束。

此后我们看到的“进步”，更多是通过一系列一次性、不可重复的工程红利换来的：

最早是FP16，然后是 Tensor Core（或等价的矩阵加速单元），再往后是 HBM 高带宽内存，接着是更激进的数据搬运机制（如 TMA），再然后是 INT8、INT4 甚至更低比特宽度。

这些手段，本质上都在做同一件事：用精度换吞吐，用工程技巧压榨边界。

问题在于，这条路是有限的。

从计算物理和信息论角度看，在特定块大小、访存模式和调度结构下，最优的数据类型和计算布局是可以算出来的。

这些结论并不神秘，也早已被论文系统性地讨论过。现在的硬件厂商，事实上已经把这些“可压榨的空间”基本用完了。

继续往前走，不再是“免费性能提升”，而只剩下权衡：

要么牺牲计算效率，换更小的内存占用；

要么牺牲内存效率，换更高的计算吞吐。

无论选哪条路，都不再带来数量级上的提升。这并不意味着硬件已经“停止进化”，而是意味着：

硬件不再是那个能持续兜底一切问题的变量了。

在这个背景下，很多人的注意力开始转向机架级、数据中心级的系统优化。

这一步确实重要，比如高效的KV cache 传输、节点间通信、内存拓扑设计，都是当前推理成本的关键瓶颈。

但这里同样存在一个现实限制。

从系统工程角度看，真正高效的设计空间其实非常有限。你可以在实现上做得更极致，但在结构上，往往只有一到两种接近最优的方案。它们难度高、工程量大，但并不神秘，也不存在“颠覆性架构”。

这也是为什么无论是OpenAI，还是其他前沿实验室，在基础设施层面更多体现的是执行力和规模，而不是不可复制的系统优势。

即便通过机架级或数据中心级优化获得领先，这种优势也往往是暂时的。

随着行业跟进，这些改进会迅速扩散、被吸收。可能在2026年，也可能在2027年，这部分红利就会基本被吃完。

归根结底，这一切指向同一个结论：

AI 的下一个阶段，不能再假设“硬件会继续把问题解决掉”。

GPU 曾经是推动智能跃迁的核心杠杆，但这个杠杆，正在失去它的长度。

04 Gemini3，是一个拐点信号

我最近在推特上讨论了一个判断：Gemini 3，可能标志着这一轮AI 发展正在接近阶段性停滞。

不少回复认为我太悲观了，说一句话概括就是：“规模化不是还在起作用吗？”

问题在于，这里真正需要讨论的，并不是“规模化有没有用”，而是规模化还能用多久、以什么代价继续起作用。

真正发生变化的是成本结构。

过去十多年，我们之所以能在模型规模上持续推进，并不是因为扩展本身变得“更高效”，而是因为GPU的指数级性能提升，抵消了扩展所需的指数级资源投入。

换句话说，过去是线性成本，带来线性回报。现在变成了指数级成本，带来勉强的线性回报。

这本身并非不可接受，但它清晰地划定了一个边界：扩展不再是一个“可以无限外推”的策略，而是一个正在快速逼近物理极限的手段。

在我看来，我们真正剩下的扩展窗口，可能只有一到两年。

2025 年，单纯靠扩展带来的提升已经非常有限；如果 2026、2027 年没有新的研究路径或软件层面的突破，那么扩展本身在物理上就会变得不可持续。

更微妙的问题在于：

当扩展带来的边际收益，开始低于研究和软件创新带来的收益时，硬件就会从资产变成负担。

这并不是一个假设，而是已经开始出现的现实信号。

像MoonshotAI、Z.ai 这样的公司已经证明：不需要天量算力，也能做到非常接近前沿模型的能力水平。

从个人体验来看，我甚至更偏好Kimi K2的思考方式，而不是 Sonnet 4.5 在编码上的“蛮力感”。这本身就说明：能力提升并不完全等同于规模扩张。

如果这些小团队能在研究或工程上进一步突破规模限制，它们完全有可能在不拥有庞大基础设施的情况下，做出最有竞争力的模型。

在推理侧，它们甚至可以转向如华为昇腾这样的替代硬件——这些芯片在推理性能上已经足够好。

这也引出了扩展基础设施面临的另一个系统性风险。

目前，大模型推理效率高度依赖“规模本身”：只有当GPU数量足够多、用户请求足够密集时，计算、网络通信和 KV cache 才能充分重叠，从而实现接近理论最优的利用率。

这意味着，只有拥有巨大用户规模的公司，才能真正“用好”这些昂贵的前沿模型。

这也是为什么，开放权重模型目前并没有在推理成本上彻底改写格局——不是模型不行，而是部署成本要求一个同样庞大的用户池来摊薄。

但这里的关键在于：这是一个软件问题，而不是物理问题。

vLLM、SGLang 等推理框架，主要针对的是前沿实验室那种“超大规模部署”场景；在中小规模部署时，它们并不能提供同等级别的效率。

一旦出现更适合中等规模的推理栈，情况就会完全不同。

如果有人能让一个3000亿参数级别的模型，在较小规模下，也能接近 OpenAI 或 Anthropic 的推理效率，那么前沿实验室在基础设施上的护城河，可能会在极短时间内消失。

更何况，还有两个变量在同时逼近：

一是小模型能力持续提升（比如GLM 4.6 这类趋势）；

二是AI 应用越来越垂直、越来越专业化，对“通用前沿模型”的依赖正在下降。

在这种情况下，部署复杂度下降、开源推理栈成熟、硬件选择多样化，会让整个系统迅速逼近物理最优解。

而一旦接近物理最优，规模优势的溢价就会快速蒸发。

如果扩展速度放缓，那么下面三件事中的任何一件，都可能在短时间内显著削弱AI 基础设施的价值：

研究或软件层面的突破

成熟、强大的开放权重推理栈

向其他硬件平台迁移

从这个角度看，当前的趋势对前沿实验室并不友好。因为真正的竞争，很可能即将回到：研究深度、工程效率，以及对物理现实的敬畏。

05 没有身体的AGI，是一个伪命题

我注意到一个频繁出现的现象：

当你问湾区的人“AGI 什么时候到来”，他们往往会给出一个相对乐观的时间表——几年之内、影响巨大、范式颠覆；

但当你追问“AGI 究竟是什么”，他们的定义几乎总是停留在认知层面，既不包含体力劳动，也很少讨论资源投入与物理约束。

这是一个关键缺失。

如果我们严格定义“通用人工智能”为能够完成几乎所有人类任务的系统，那么它就不可能只存在于文本框或服务器里。

真正的AGI，必然需要具备在现实世界中执行具有经济意义工作的能力——也就是体力劳动。

而恰恰是这一部分，构成了人类经济活动中规模最大、最复杂、也是最受物理约束的领域。

从现实来看，机器人技术并未走向“通用化”，而是高度分化。

在受控环境中，例如工厂，专用自动化系统已经极其成熟。中国的“工厂”已经证明：

在明确流程、固定场景下，专用机器人在效率、精度和成本上远远优于任何通用方案。这类系统并不需要“通用智能”，它们靠的是工程优化和流程确定性。

而在非受控环境中，许多看似“智能”的机器人任务，往往在经济上并不成立。

例如给T 恤缝袖子、在复杂环境中叠衣服，这些任务在技术上困难、数据采集成本极高，但在现实中人类完成它们所需的时间和成本极低。

即便机器人在几年后能够完成这些动作，其产出质量、成本结构和维护复杂度，也很难构成真正的经济优势。

换句话说，机器人领域的问题并不主要是“能不能做”，而是“值不值得做”。

更重要的是，机器人学习的扩展规律，与大语言模型高度相似，却面临更严苛的现实约束。物理世界的数据采集昂贵、反馈稀疏、状态空间巨大，这决定了其扩展速度远慢于纯数字环境。

结果是，自动化在工厂里高度成功，而在大多数日常体力劳动中，经济回报极其有限。

这也引出了“超级智能”叙事的根本问题。

超级智能的核心假设是：一旦系统在智能水平上超过人类，就能够不断自我改进，最终形成失控式跃迁。

这一观点源于牛津哲学传统，并在湾区被进一步放大。但它忽略了一个基本事实——智能不是抽象存在，而是嵌入在物理系统中的能力。

任何系统的改进都需要资源。即便一个系统能更高效地利用资源，它依然无法逃脱规模定律的约束：

线性改进，往往需要指数级投入。通过引入一次性优化（例如新的数据类型、特殊硬件单元）确实可以暂时绕开收益递减，但这些路径本身也会很快耗尽。

因此，更合理的理解是：所谓“超级智能”并不会无限拓展能力边界，而只是填补现有能力空白。这种填补是有价值的，但它带来的是渐进改进，而非指数失控。

类似的误判也出现在对硬件进步的预期上。

很多人假设，如果智能足够强，它就能加速GPU、内存和系统架构的进化。

但现实是，GPU 的核心性能提升已经接近尾声。未来的改进更多来自封装、互连、HBM 演进和机架级工程优化，而这些都是高度资本密集、周期漫长的制造问题，并不存在“靠更聪明就能解决”的捷径。

Transformer 架构本身也已经接近物理最优。大规模推理部署，更多是成熟工程问题，而非需要突破性创造力的研究领域。超级智能无法显著重写这些基本约束。

从这个角度看，超级智能或许能帮助AI 更快普及，但它并不是普及的决定性因素。真正限制 AI 经济价值释放的，从来不是能力上限，而是落地、部署与应用结构。

因此，任何将“超级智能”作为核心目标的组织，都可能在现实中遭遇持续的摩擦：高成本、低回报、难以转化。相反，那些专注于降低部署门槛、推动经济普及、嵌入真实流程的参与者，更可能在长期胜出。

归根结底，人们常设想的AGI 并不会以神话般的方式降临。它忽视了计算的物理约束、规模进步的真实成本，以及我们已经触及的工程极限。

超级智能之所以被反复讨论，并非因为它理论上稳固，而是因为它在回音室中构建了一种极具吸引力的叙事。

而AI 的真实未来，将由经济可行性、实际应用与在物理限制下的持续改进共同塑造。越早接受这一现实，我们就越能把注意力从幻想，转向真正能提高生产力与人类福祉的系统。

上一篇：OpenAI大佬爆料：打字太慢拖后腿，人类竟成了AGI短板？

下一篇：60秒极限挑战！中国GPU独角兽杀出重围，斩获图形顶会大奖

返回列表

热文阅读

2 天前

华为靳玉志：L2 级辅助驾驶渗透率提升至 50% 仅用五年时间，智能驾驶正快速迭代

2 天前

AI翻译的“最后一公里”

2 天前

比亚迪第 1500 万辆新能源汽车即将下线，海洋速度“四年走完合资十几年的路”

2 天前

迪士尼砸10亿绑定OpenAI，200个IP+Sora，该起飞了吧

2 天前

《33号远征队》包揽TGA九项大奖；《影之刃零》定档明年9月；《明日方舟：终末地》公测定档明年1月 | 氪游周报

1 天前

残酷真相：AI疯狂发展了三年，大家有觉得自己变强了吗？

1 天前

美国男子“听信 ChatGPT 谗言”弑母后自杀事件后续：OpenAI 拒交关键聊天记录

2 天前

万兆光网试点巡礼| 重庆电信联合华为打造涪陵化工万兆工厂

2 天前

GPT-5.2降智遭全网差评，奥特曼慌了

2 天前

暴涨3倍，18-34岁占比反降15%：这届中年人开始占领AI

上一篇：OpenAI大佬爆料：打字太慢拖后腿，人类竟成了AGI短板？

下一篇：60秒极限挑战！中国GPU独角兽杀出重围，斩获图形顶会大奖

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们