- AI进步的根本标准并非基准测试分数,而是在于其能否真正融入并赋能现实世界的知识与创造工作
- Gemini 3的核心提升聚焦于精准的意图理解、全球化服务能力及具备指数效应的工具化与创造能力
- “氛围编程”(自然语言编程)正打破创意与实现间的壁垒,让创新成为每个人触手可及的能力
- AGI的实现不是封闭的实验室研究,而是必须通过与真实世界的持续交互来共同构建的工程实践
- 文本与视觉模型正共享底层架构,这种技术汇流创造了更符合人类直觉的交互体验
- 实现统一模型架构的核心难点,在于解决文本的结构化信号与图像生成所需的像素级精确、概念级连贯之间的双重标准。
“我们距离顶尖水平还差得很远。”两年半前,当谷歌DeepMind启动Gemini项目时,首席技术官兼首席AI架构师科雷·卡武克乔格鲁在内部会议上直言不讳。
那时的谷歌,在大模型赛道上明显落后,AI Studio仅有3万用户且零收入,团队在激烈的竞争中承受着巨大压力。
从坦诚落后到Gemini 3引爆市场,谷歌完成了一场令人瞩目的逆袭。这场翻身仗的背后,是三个关键转变:
第一, 从实验室思维转向战场思维,建立“每六个月重大迭代”的更新节奏;
第二, 放弃大而全,聚焦三大杀手锏,让模型真正理解人类意图、服务全球用户、具备使用和创造工具的能力;
第三, 激活谷歌的终极武器,调动六大洲2500名专家,实现从芯片层到搜索、Android等亿级产品的端到端协同。
在这场关乎未来的AI军备竞赛中,一家巨头如何放下身段承认落后,又如何在短短两年半内后来居上?在与GoogleDeepMind高级产品经理洛根·基尔帕特里克的对话中,卡武克乔格鲁首次揭示了逆袭背后的真实故事。

问:Gemini 3发布后市场反馈积极,你如何评价这一代模型的突破?
卡武克乔格鲁:在完成基准测试和预发布验证后,Gemini 3的实际表现确实达到了我们的预期。这个模型不仅具备强大的技术能力,更重要的是在真实应用场景中获得了用户的认可。虽然仍有完善空间,但目前的反馈令人鼓舞,用户关注的创新点与我们设定的技术方向高度一致。
问:从Gemini 2.5到Gemini 3.0,技术进步的速度似乎仍在加速。你如何看待这种发展态势?
卡武克乔格鲁:当前AI领域确实保持着惊人的创新节奏。无论是在基础研究还是工程实践层面,我们都看到了持续突破。这种进步源于一个良性循环:当技术在实际场景中产生价值时,我们会获得更多反馈,进而催生新的创新思路。随着待解决问题的复杂度和多样性不断提升,这种挑战反而推动着我们向前发展。
问:基准测试在技术发展中扮演着怎样的角色?
卡武克乔格鲁:基准测试与模型开发是相辅相成的关系。比如,以号称“人类最后考试”的HLE(衡量AI解决人类级复杂难题能力)基准测试中,早期模型只能达到1%或2%的水平,如今DeepThink之类的先进模型已能突破40%的水平。而像GPQA Diamond这样的挑战性基准,虽然我们仍在逐步提升其中1%的性能,但它们确实指向了尚未完全解决的核心难题。
问:在GPQA等基准测试上的进展,是否意味着我们需要重新定义技术前沿?
卡武克乔格鲁:基准测试确实重要,但它与真实进步之间并非完全划等号。在我看来,衡量技术进步的根本标准在于实际应用。当科学家借助模型推进研究、学生通过它完成学业、工程师利用它解决实际问题时,当这些工具真正融入人类知识工作的各个环节,我们才能说实现了真正的进步。基准测试的作用,在于为这种进步提供可量化的参照维度。
问:在模型迭代过程中,团队如何确定技术突破的重点方向?对于Gemini,特别是Pro模型,你们试图在哪些方面进行重点提升?
卡武克乔格鲁:我们主要聚焦三个核心维度:
首先是精准的意图理解。模型必须准确捕捉用户指令的深层意图,而非简单地进行模式匹配。这需要突破传统应答逻辑,建立真正的任务理解与执行能力。
其次,全球化服务能力。作为服务全球用户的技术平台,谷歌需要确保技术具备真正的包容性,能够触达全球的每个人。Gemini 3 Pro在多个非优势语言场景的表现突破,标志着我们向技术普惠迈出了重要一步。
最后,工具化与创造能力。在技术实现层面,我们正重点突破函数调用、工具运用、智能体行动与代码生成等核心能力。其中,工具调用能力具有独特的指数效应,它使模型既能灵活运用现有工具库完成复杂推理,又具备了创造新工具的原生能力。这种自我进化的特性,让模型从执行工具转变为创造工具的主体。
代码能力的重要性不仅体现在技术层面,更在于其作为数字世界的构建基石。在数字化深度发展的今天,代码已成为连接创意与现实的核心媒介,让每个想法都具备通过计算实现的可能性。
我们正在见证编程范式的根本变革。通过自然语言编程(或称氛围编程),创作者只需用日常语言描述构想,就能实时生成可用程序。这种"描述即实现"的新范式,将技术门槛降至前所未有的程度。当创意与实现之间的屏障被打破,创新不再是专业开发者的特权,而是每个拥有想法的人都可触及的能力。
问:谷歌新推出的智能体编码平台Anti-Gravity对模型优化有何价值?
卡武克乔格鲁:这类产品平台构成了我们技术演进的重要基础设施。从模型研发角度看,与开发者建立直接的产品级连接具有双重价值:
首先,通过AI Studio、Anti-Gravity等产品获得的真实用户反馈,为我们提供了最直接的技术优化方向。这些来自开发一线的需求信号,比任何模拟测试都能更精准地揭示模型需要改进的维度。
其次,这种产品与研究的闭环正在重塑我们的研发范式。正如搜索的AI概览功能通过海量用户交互持续优化,Anti-Gravity在发布阶段提供的深度反馈,同样成为推动模型迭代的关键动力。
需要强调的是,虽然基准测试为我们设定了技术攻坚的坐标,但真正衡量技术价值的标尺始终是现实世界的应用效果。只有当模型在具体场景中持续创造价值,技术演进才具有真正的生命力。
问:作为首席AI架构师,你如何看待模型研发与产品落地的协同关系?
卡武克乔格鲁:技术价值最终需要通过产品体验来实现。我的核心使命是确保谷歌各产品线都能获得最前沿的AI能力支撑,同时将产品反馈转化为技术演进的重要驱动力。
技术赋能与需求洞察的双向循环。我们致力于构建完整的技术赋能体系:一方面将尖端模型能力转化为产品价值,另一方面通过真实用户场景获取改进方向。这种双向循环正在重塑我们的研发范式,产品不仅是技术的应用场景,更是驱动技术突破的重要源头。
重新定义AI时代的用户体验。当前我们正处于人机交互范式变革的关键节点。新型AI技术正在重新定义用户对产品的期待,包括交互方式、服务深度和信息呈现形式。这就需要我们与各产品团队紧密协作,共同探索下一代智能体验的边界。
构建AGI的实践路径。我们坚信,AGI的实现必须通过与真实世界的持续交互。产品平台恰恰提供了这种宝贵的连接通道,让我们能够收集来自亿万用户的反馈信号,持续校准技术发展方向。这正是我们将产品整合视为AGI演进核心环节的根本原因。
问:你提到与客户和产品共同构建AGI的理念,这似乎超越了传统的研究模式?
卡武克乔格鲁:这正是我们方法论的核心理念。构建AGI不是封闭的实验室研究,而是与真实世界持续互动的工程实践。
为此,我们正在建立一套基于工程思维的完整体系:
系统化的安全架构:从模型预训练阶段开始,安全考量就深度融入开发全流程。我们不仅设有专业的安全团队,更让每位研发人员都具备安全意识。在每次迭代评审时,安全指标与性能指标具有同等重要的地位。
全局协作的工程实践:Gemini 3的发布体现了谷歌独特的协同能力。就像现代航天工程需要全球协作一样,我们汇聚了六大洲的技术团队,实现了从底层研究到产品集成的无缝衔接。这种规模的技术协调,确保了模型发布时就能在全线产品中提供一致的用户体验。
产品驱动的技术演进:当AI概览、Gemini应用等产品在开发初期就参与模型优化,我们实际上建立了一个持续改进的飞轮。产品团队不仅是技术使用者,更是共同定义技术方向的战略伙伴。这种深度整合让我们能够快速将实验室创新转化为用户价值。
问:在Gemini 3取得显著成就后,团队将如何规划下一代模型的发展路径?
卡武克乔格鲁:我们始终在“庆祝成就”与“追求卓越”之间保持平衡。当前确实应该为Gemini 3取得的进展感到自豪,但同时也清醒地认识到技术突破永无止境。
从技术维度来看,我们识别出若干关键提升方向:
内容创作质量:虽然当前模型已具备出色的文本生成能力,但在保持风格一致性、情感准确性和逻辑严密性方面仍需加强
智能体与编程能力:这代表着最具潜力的突破领域。我们需要让模型在复杂任务规划、自主决策和代码优化方面达到新高度
专业化场景覆盖:尽管现有模型已服务了绝大多数开发者群体,但在处理特定领域的复杂需求时,我们仍需提升模型的精准度和可靠性
问:回顾Gemini的发展历程,为何在多模态领域能持续领先,而在智能体工具使用方面却经历了渐进式发展?
卡武克乔格鲁:这种差异源于技术演进逻辑的根本转变。Gemini项目代表着我们从纯研究范式向工程化思维的重大转型。早期团队主要由研究人员构成,我们擅长在封闭环境中解决定义明确的问题。
多模态技术正好符合这种模式,其技术挑战相对聚焦,评估标准也较为清晰。而智能体工具使用本质上是一个开放环境问题,需要与真实世界持续交互才能完善。
如今我们建立了完全不同的开发节奏:每六个月发布重大版本迭代,同时保持月度更新频率。这种工程化周期让我们能够将用户反馈快速融入技术改进,形成持续优化的闭环。
问:在构建AGI的进程中,生成式媒体模型扮演着怎样的角色?
卡武克乔格鲁:生成式媒体模型的发展轨迹揭示了AI演进的内在逻辑。回溯学术发展史,图像生成曾是早期研究的重要切入点。通过视觉输出,我们能够直观检验模型对物理世界的理解程度。从PixelCNN等先驱工作开始,我们逐步建立起对生成模型的系统性认知。
然而技术发展呈现出有趣的辩证关系:当文本模型因其结构化特性成为快速进步的主要载体时,媒体模型经历了必要的沉淀期。但如今我们看到,多模态融合正成为技术发展的必然趋势。
这种融合并非人为推动,而是架构演进的自然结果。随着模型能力的提升,文本与视觉这两个原本分离的领域正在共享越来越多的底层架构。文本模型带来的语义理解与图像模型蕴含的物理直觉,正在形成强大的互补效应。
我们最近看到的Nano Banana模型正是这种融合的早期例证。它展现出模型同时处理视觉和语言信号的能力,让用户感受到系统真正理解了他们的创作意图。这种技术汇流不仅提升了性能指标,更重要的是创造了更符合人类直觉的交互体验。
问:像Nano Banana这样的非正式命名方式,是否会成为团队的文化特色?
卡武克乔格鲁:这种命名方式确实反映了技术团队特有的文化气质。Gemini 3的开发代号RiftRunner,包括Nano Banana这样生动形象的名称,往往源于团队在开发过程中自然形成的共识。这种有机的命名文化,某种程度上体现了技术团队与所创造产品之间的情感连接。
在正式命名与创意代号之间,我们更看重命名的自然生成过程。当某个名称能准确传达技术特性并与团队产生共鸣时,它就具有独特的价值。但我们也认识到,在正式发布和技术传播中,保持命名体系的一致性同样重要。
基于Gemini 3 Pro架构升级的Nano Banana Pro,代表了我们在多模态理解上的重要进展。这个模型在保持创意生成能力的同时,在文本渲染精度和物理世界理解等专业维度实现了显著提升。特别在需要深度融合文本与视觉信息的复杂场景中,它展现出了超越前代模型的推理能力。
问:在技术融合的过程中,哪些突破最让你印象深刻?
卡武克乔格鲁:我们正在见证模型架构演进带来的根本性变革。Gemini系列采用的模型家族理念——通过Pro、Flash等不同规格满足多样化需求,体现了我们在性能与效率间的精密权衡。这种技术思路同样适用于图像生成领域。
基于Gemini 3 Pro架构升级的新一代模型,在理解复杂文档并生成信息图方面展现出惊人能力。当用户输入大量专业材料后,模型不仅能准确解析内容,还能将其转化为直观的视觉呈现。这种从文本到图像的流畅转换,标志着多模态交互正在迈向成熟。
问:关于统一模型架构的愿景,目前面临哪些核心技术挑战?
卡武克乔格鲁:我们正稳步推进统一模型架构的探索,不同模态的模型确实呈现出架构收敛的趋势。但这本质上是一个遵循科学规律的探索过程,我们需要通过不断提出假设和验证来推进,成功与失败都是技术发展的必经之路。
当前的核心挑战在于模型输出空间的本质差异。模型现有的强大能力主要源于代码和文本提供的结构化学习信号,而图像生成则要求模型同时达到两个维度的标准:既要实现像素级的精确还原,又要确保视觉元素在整体概念上的高度连贯。这种双重标准使得训练一个能均衡处理多模态任务的模型变得尤为复杂。
我相信这个技术目标终将实现,但关键在于我们需要找到那个能够打破现状的关键创新点,从而让模型真正融会贯通不同模态的能力。
问:作为DeepMind的第一位深度学习研究员,回顾这13年的旅程,你有何感想?
卡武克乔格鲁:2012年我加入DeepMind时,专注于深度学习的初创公司还很少见。当时我和我的朋友Carl Greger都在NYU的Yann Lab,我们同时加入了DeepMind。这个地方真正专注于构建智能,而深度学习正是其核心,这让我感到非常兴奋。从深度学习开始,到强化学习、智能体系统,我们始终秉持着以学习为核心的第一性原理。这段旅程确实令人振奋。
但我反思时也感到,我们很幸运能生活在这个时代。AI现在正在发生,不仅仅是因为机器学习和深度学习,还因为硬件演进达到了某种状态,互联网和数据也达到了某种状态。很多因素汇聚在一起,让我们能够见证这个时刻。我们做出了选择投身AI领域,但同时也非常幸运能在这个时代处于这个位置。
问:从AlphaFold到Gemini,您认为DeepMind在组织层面形成了哪些独特的能力?
卡武克乔格鲁:我们通过一系列重大项目积累了独特的经验。从早期的DQN、AlphaGo、AlphaZero到AlphaFold,每个项目都教会我们如何围绕明确目标、使命组建团队。在DeepMind创立初期,25人共同完成一个研究项目并联合发表论文的做法曾让学界惊讶,但这正是我们刻意培养的协作模式。
近年来,我们进一步将研究思维与工程思维深度融合。现在我们已经建立起模型主线的开发节奏,并学会在保持主线稳定的同时进行技术探索。DeepThink模型就是一个典范,我们选择国际数学奥林匹克竞赛这类极具挑战性的目标,但坚持基于通用模型架构进行优化,最终让竞赛级模型能够惠及所有用户。
问:从早期25人合作论文到如今Gemini 3可能涉及2500名贡献者,这种规模变化意味着什么?
卡武克乔格鲁:这种规模跃迁确实令人惊叹,但恰恰体现了谷歌作为技术生态系统的独特优势。我们拥有从芯片设计、数据中心架构到算法研发的全栈专家,这种深度整合能力让我们能够实现真正的端到端优化。
当模型设计与硬件研发形成双向反馈——我们基于硬件特性优化模型架构,同时根据模型需求定制下一代芯片——技术演进就进入了良性循环。这种紧密协同需要数千名顶尖专家的精密配合,而谷歌正具备这样的大规模协作能力。
问:在当今时代,DeepMind如何平衡基础科学研究与Gemini模型的规模化扩展?
卡武克乔格鲁:保持这种平衡确实是我们面临的核心挑战。即便现在,当我思考Gemini发展的最大风险时,始终认为是创新源泉的枯竭。我从不相信我们已经找到了可以简单复制的"成功配方",只需按图索骥就能实现智能。
真正的突破永远来自创新——无论是沿着现有技术路径的深化探索,还是开辟全新的研究方向。在Gemini项目内部,我们持续进行着架构创新和方法论实验,这是推动进步的根本动力。
但同时,Google DeepMind和Google Research正在更广阔的领域进行探索。有些前沿课题可能超出了当前Gemini项目的范畴,但这些探索至关重要。因为最终,Gemini代表的不是某个特定架构,而是我们构建通用智能的使命。技术架构会不断演进,但追求智能的目标始终如一。
问:在谷歌I/O大会上,人们能感受到DeepMind团队特有的人文关怀与温暖,这种文化是如何被塑造和体现的?
卡武克乔格鲁:我认为核心在于我们始终相信团队的力量,重视信任赋予和机会共享。这是我在DeepMind成长过程中领悟到的重要理念:从初创小团队到如今规模,如何建立并保持信任始终是关键。
我们致力于营造这样的环境:让每位成员都感受到我们正在共同应对能真正影响世界的技术科学挑战。Gemini项目正是如此,构建智能是高度复杂的技术科学议题,需要我们既保持专业严谨,又心怀谦逊、持续自省。
我常为团队感到自豪。大家确实疲惫不堪,项目充满挑战,但我们没有完美架构可言,全靠每个人凝聚合力、相互支撑。正是这种团队协作,让艰难的工作变得有意义,让我们能够攻克真正复杂的难题。
同时,我们清醒地认识到现有技术的潜力与局限。二十年后必然不会沿用当前的大模型架构,因此我们必须保持探索精神,与Google Research及学术界共同推进多元研究方向。比起争论对错,更重要的是通过实际能力证明技术价值,这才是最具说服力的答案。
问:在谷歌的早期阶段,你们开发AI Studio时用户仅3万,尚无收入,处于Gemini模型的起步期。如今局面已大不相同,整个生态系统都意识到了这一进展。你当时是否也感受到一种“逆袭”的心态?你如何看待团队跨越这一转折点的表现?
卡武克乔格鲁:确实如此,甚至在更早阶段我就有此感受。当大语言模型(LLM)展现出强大潜力时,我清楚地意识到,尽管DeepMind是前沿AI实验室,但我们在某些方面的投入尚显不足。这对我作为研究者而言,是一次深刻的教训。因此我始终强调:我们需要广泛布局,探索至关重要,这不局限于某一种架构或方法。
大约两年半前,我们更认真地启动Gemini项目时,我便坦诚地告诉团队:我们距离顶尖水平仍有差距,许多方面尚不成熟。那是一个追赶的阶段,持续了相当长的时间。如今,我认为我们已跻身领先阵营,对当前的运营节奏和团队状态感到积极乐观。
追赶并不可耻,关键是要诚实面对。我们必须借鉴他人所长,但更要坚持自主创新,无论是在技术、模型、流程还是运营模式上都是如此。我们与谷歌整体协同运作,将规模优势转化为独特竞争力。我们正是通过不断学习与创新才达到今天的位置,而这条路也成就了现在的我们。
如今我们刚刚站上起跑线,目标始终是构建真正的智能。我们将继续汇聚智慧与创新,以正确的方式实现这一使命。
