Scaling Law没死!Gemini核心大佬爆料,谷歌已有颠覆性密钥
4 小时前 / 阅读约10分钟
来源:凤凰网
谷歌Gemini预训练负责人透露未来一年大模型预训练领域将迎重大创新,包括长上下文处理效率提升、上下文长度扩展及注意力机制改进。强调AI发展转向高效利用有限数据,构建系统而非单纯模型。

新智元报道

编辑:Aeneas 倾倾

【新智元导读】谷歌大模型将迎颠覆升级!Gemini负责人爆料:长上下文效率与长度双重突破在即,注意力机制迎来惊人发现。Scaling Law未死,正加速演变!

谷歌又要有重大突破了?

最近,Google DeepMind的Gemini预训练负责人Sebastian Borgeaud在采访中给出重磅爆料——

未来一年,大模型预训练领域将在「长上下文处理效率」和「上下文长度扩展」 两大方向迎来重大技术创新。

同时,Google Gemini三巨头——Jeff Dean、OriolVinyalsML和Noam Shazeer罕见同台了,他们的对谈中,跟Sebastian的内容展现出了惊人的一致。

众多高瞻远瞩、闪烁着智慧光芒的思想让人深思。

难怪,谷歌依然是那个巨人。

谷歌大佬激动预言

已破解大模型核心秘密

Google DeepMind的Gemini预训练负责人Sebastian Borgeaud在最近的访谈中表示,预计在未来一年内,针对提升长上下文处理效率以及进一步扩展模型上下文长度的预训练技术,将会有重大创新。

另外他还透露说,最近他们在注意力机制方面取得了一些非常有趣的发现,这可能在未来几个月内重塑他们的研究方向。

对此,他表示非常兴奋。

而且他提出了振聋发聩的一句话:Scaling Law并未消亡,只是正在演变!

Sebastian Borgeaud是Gemini 3的预训练负责人。

这次,是他首次接受博客采访,带我们深入了解了Gemini 3背后的实验室思维——变化究竟发生在哪里,为什么现在的工作不再是「训练模型」,而是构建一个完整的系统。

Gemini 3背后:AI的未来正在加速到来

一场意外的飞跃后,一个系统诞生了。

「如果对自己诚实的话,我想……我们比我认为我们能达到的地方,走得更远了。」

坐在麦克风前的Sebastian Bourjou语气平静,但这句话却像一颗投入湖面的石子,激起无限涟漪。

为何Gemini 3会实现如此巨大的性能飞跃?

Sebastian的回答看似很简单:「更好的预训练和更好的后期训练」。

然而,在这轻描淡写的背后,是一个根本性的认知转变。

「我们不再仅仅是在构建一个模型了,」他缓缓说道,「我认为,在这一点上,我们真正在构建的是一个系统。」

而这,就是Gemini 3颠覆性进步的关键。

人们常常想象,从一个Gemini版本到下一个版本,总有一些石破天惊的「秘密武器」。但Sebastian揭示的真相是:进步源于无数细微改进的聚合。是来自庞大团队中,日复一日发现的那些「旋钮」和优化。

他还指出,AI发展范式正在经历的潜在转移:过去,我们仿佛拥有无限数据,可以随意扩大数据集;而现在,我们正转向一个「数据有限」体制。

这意味着,未来的AI,必须要学会更高效地利用有限的数据资源,构建更复杂的系统工程。

这也就是模型架构研究的核心价值所在。

这一转变,将迫使整个行业从「大力出奇迹」的粗放模式,转向「精雕细琢」的精细模式。

未来的竞争焦点,将不再是「谁的数据中心更大」,而是「谁的学习算法更高效」、「谁的模型架构更优雅」、「谁能从有限数据中提取更多智慧」。

而Gemini 3的大脑架构——混合专家模型MoE,就代表了LLM发展的一条清晰路径:从追求单纯的「大」,转向追求「大而高效,大而智能」。

AI的下一站——长上下文、高效检索与「成本革命」

展望未来几年的技术前沿,Sebastian指出了激动人心的方向,它们将共同塑造下一代AI的能力与形态。

1. 长上下文:从「短记忆」到「海量工作台」

Gemini 1.5带来的超长上下文能力,已经是一场变革。Sebastian预测,这方面的创新将持续加速。「我认为未来一年左右,将在使长上下文更高效、并进一步扩展上下文长度方面看到更多创新。」

这不仅仅是「记住更多」这么简单。超长上下文将把模型变成一个真正的数字工作台:它可以同时载入整个代码库、多篇科研论文、长时间对话历史,并在其中进行连贯的分析、推理和创作。

这为复杂的多步任务、深度研究和创作提供了前所未有的可能,是迈向更强大「智能体」的关键基础设施。

2. 注意力机制的进化

Sebastian特别提到,在注意力机制上,「我们最近有了一些真正有趣的发现,我认为这将塑造未来几个月的大量研究。」他对此「个人非常兴奋」。

这暗示着,被认为是当前大模型基石的注意力机制,仍有巨大的改进空间。

更高效、更强大或具备新特性的注意力机制,可能从底层显著提升模型的理解、推理和计算效率,是推动性能边界的重要杠杆。

3. 检索的回归:让模型学会「查资料」

Sebastian早期曾主导「Retro」项目,研究让模型在训练和推理时检索外部知识库,而非将所有知识死记硬背在参数中。他认为,这一方向远未过时。

「我内心深处相信,长期的答案是以可微分的方式学习这种能力。」这意味着,未来模型可能将检索与推理更原生地结合,动态地从海量知识源中获取信息进行思考,而非依赖后期「嫁接」的搜索工具。

这能让模型更精准、更及时,并可能突破参数规模的知识容量限制。

4. 效率与成本的「革命」

一个日益凸显的挑战是:随着用户激增,模型的部署和服务成本变得至关重要。未来的研究将不再只追求性能峰值,还必须关注如何让强大模型变得「便宜又好用」。

我仍看不到尽头

采访临近尾声,当我们把镜头拉回这位站在AI浪潮之巅的研究者本人时,Sebastian的回答透露着一种沉静的乐观与纯粹的热情。

尽管探讨了数据瓶颈、成本挑战等现实问题,但Sebastian对AI进步的总体判断依然充满信心。

「我已经多次提到这一点,但确实有如此多不同的事情会复合起来,还有许多有改进空间的方向。我现在真的看不到这类工作停止给我们带来进步的任何尽头。」

这种信心并非盲目。它源于他作为一线领航者所目睹的:大量细微但确定的改进空间,以及整个领域尚未枯竭的创造活力。

在他看来,至少在未来几年,这种进步势头不会放缓。

规模不再是神话

Noam Shazeer回归后的第一桶冷水

接下来,是Jeff Dean、Noam Shazeer、Oriol Vinyals三位大佬的对谈。

在会议中,我们能明显感受到,Noam不再是那个把油门踩到底的激进派。

他几乎不主动谈论「颠覆」,也很少用那些让人血脉喷张的宏大词汇。甚至一反常态,多次谈到研发节奏、系统的稳定性,以及如何长期运行。

作为Transformer的开创者,他曾经引领着大模型从无到有;现在,大模型一路高歌猛进,他却停下来警告:大模型给出的答案太快,自我检查的次数太少。

他曾在公开场合反复强调:

现在的模型并不缺「聪明」,缺的是持续思考,并在复杂任务中反复修正的能力。

也就是说,大模型的规模依然重要,但它不再是决定一切的唯一变量。

当Noam讨论推理时,他明显将重心从「能不能更强」移向了「能不能更稳定」。

这是他回归Google后,第一次在公开场合展现这种判断。

听起来并不像是否定过去,而更像是在承认一个事实:那条单纯靠堆参数就能不断前进的路,已经接近边界了。

顶级科学家的共识:一次高分,不能定义AI的未来

Noam提到一个词:慢思考(Slow Thinking)。

不只是简单的放慢研发速度,而是反复追问值不值、贵不贵、能不能被规模化复制。

至此,智能不再是一项抽象的能力,而是一项需要长期支付的工程开销,需要和CPU、硬盘一起放进账本里讨论。

这一步一旦迈出去,很多过去衡量AI的标准,如Benchmark也在慢慢失效。

在整场会议中,三位顶级科学家没有表现出对榜单的兴奋,也没用「谁赢了谁」来定义进展。

榜单擅长衡量瞬时表现,却很难回答「能不能一直运行」这类长期问题。

而Noam和Jeff反复强调的,恰恰是后者:模型是否可靠、是否具备迁移能力、是否能在复杂任务中持续自我修正。

这些能力,很难被压缩成一个漂亮的数字。

Gemini被当成System,而不是Model

在这场对谈里,「System」出现的频率极高,这显然不是一种修辞。

Noam和Jeff在描述Gemini时,刻意避开了「一个更强的模型」这种表述,而是反复强调它是一个可以长期运行、不断迭代的「系统」。

「系统」和「模型」,听起来差不多,但背后的逻辑天差地别。

「模型」更像是一次性的成果,是在实验室里的瞬间表现;而「系统」更像基础设施,它关心的是稳定性、可扩展性,以及在出现错误后能不能快速修复并继续工作。

对于Noam这类,极度强调架构设计、研发节奏和工程约束的人,天然会更在意一个系统能不能稳健地运行十年、二十年,而不是某一次响应速度有多快。

在他们眼中,Gemini不是胜利者的奖品,而是一种「长期可用」的智能形态。

正因如此,整场对谈没有急于求成的产品宣发,没有剑拔弩张的「对标某模型」。

它更像是在对外强调:Google追求的不是昙花一现的成品,而是一套能反复使用、不断进化的智能工业体系。