「如果我想去远远甩开当前的对手,这一代智驾我们应该怎么做?」
时间回到两年前,在美国硅谷小鹏的办公室,何小鹏见到刘先明时,几乎只问了这一个问题。
这个问题非常关键。
刘先明的回答是拆掉语言的 VLA。在一个小时的交流里,刘先明觉得这不像是一场面试,也不需要说服老板接受新的技术方案,而是两个人已经开始商量去做这件事的具体步骤。
刘先明从何小鹏的办公室出来之后,只有一个想法:「这是一个我必须来的地方。」

而刘先明,已经是小鹏自研智驾十年来的第四任大将。
吴新宙完成了小鹏智驾的「代际领先」;李力耘完成了小鹏从规则时代到端到端的转型。但正在这个阶段,很多玩家靠着端到端火速完成超车。
显然,小鹏没有预想到其他人跟进速度如此之快。
就在小鹏下线第 100 万辆车的时候。外界有一种声音:小鹏销量从 ICU 到了 KTV,但智驾却被「理想、华为们」围追堵截,甚至陷入「吃老本」的质疑。
小鹏智驾的起伏很像中国新势力智驾突围史的缩影,均围绕着体系、量产、算法三种能力比拼。
但同时它又具备特殊性。

8 年间小鹏三次换帅,牵引出了另一层深意:
真正的智驾战争,不是眼前的技术代差,而是对抗组织惯性。
时代变了、架构在变、主导的人,也需要变。
放眼望去,只有少数车企,敢在智驾这件事上反复自我革命。
这种自我革命,不是说在端到端时代就一定要推翻一切,而是说有没有推倒重来的底气——你敢不敢拆掉过去自己费尽心思搭建的金字塔?你敢不敢承认每个人都有属于自己的历史使命,而完成使命的感觉是「自己干掉自己」。
2024 年,何小鹏之所以问出「怎么样才能甩开对手」, 恰恰就是他更早意识到小鹏的智驾不再「高人一头」。
这个问题的起点来自吴新宙与李耕耘建立的智驾宇宙观。
吴新宙建造的小鹏智驾,是规则时代的巅峰期。
系统出身的吴新宙,全局意识要比大多数一号位强得多。吴新宙加入小鹏一年之后,就搭建起了小鹏完整的感知、规控和地图三大团队,帮助小鹏把技术、团队、体系这三个层面,从萌芽状态拉升到代际领先。
比团队更核心的,在于吴新宙打造的智驾数据闭环开发模式,让小鹏成了规则时代里的引领者。
回顾当时行业的三种技术路径:
第一类特斯拉:HydraNet + 规则规控,其核心在于感知模块通过 HydraNet 检测环境与目标物体。
第二类传统车企:采用 Mobileye、博世等供应商的黑盒方案,稳定,但迭代慢,不够聪明。
第三类新势力全栈自研:小鹏在 Xpolit3.0 采用了基于规则的多传感器融合架构,自研交付了当时体验最好的高速 NOA。在随后陆续展开的城市 NOA PK 赛中,保持了速度和质量上的前三名。

其中的 Xpolit3.0、3.5 版本即吴新宙的代表作。
但即便是从高速切换到城区,面对场景差异,唯一的办法也是「重写每一个预测和规划算法」。
吴新宙所打造的小鹏 Xpilot 系列版本,对应的是智驾的规则时代,以定位、感知、决策、规划、控制这样的分段式架构为主。
唯一不同的地方是,吴新宙较早有意识要把车端数据变成算法快速迭代的引擎,小鹏也是在规则时代就拥有类似特斯拉的数据迭代能力的玩家。
而继任者李力耘守住的是小鹏端到端的前夜。
前端到端时代,分别要跨过感知端到端、决策规划模型化两道门槛。
前者将自动驾驶架构拆解为感知与预测决策规划两大模块,后者将预测、决策、规划功能整合至同一神经网络。
李力耘主导了小鹏 Xpolit 架构全面转向 XNGP+,守住了量产,完成了「前端到端」时代的两个阶段。
XNGP+底层架构已经是初步的端到端大模型,模型由感知神经网络 XNet+规控大模型 XPlanner+AI 大语言模型 XBrain 构成,这就是将决策规划模型化的典型案例。

在 2024 年年底,智驾行业迈入「后端到端时代」之后,通过一段式端到端、VLA 架构翻身的玩家大有人在。
开城之战中,华为、理想迅速跟上。再后来小鹏上了端到端,就有人提 One model,小鹏上了 VLA,一觉醒来身边也都是 VLA。定眼一看都是第一梯队。
吴新宙建了一座城、李力耘守了一座城。
而围绕规则时代所运转的组织惯性、依靠规则所建成的金字塔,反而成了负担。
极致的端到端要先摧毁半座城,才能另起城池。成功即诅咒,这点小鹏也逃不过。
两个人都无法回答何小鹏的那个问题。
与其他玩家齐头并进的状态,对何小鹏来说,是无法容忍的。
到了后端到端时代,刘先明找到了答案:
——「如果我想远远甩开当前的对手,这一代智驾我们应该怎么做?」
——拆掉 VLA 里的「语言」。
VLA 架构即 Vision-Language-Action (视 觉-语 言- 行 动) ,这是一种典型的端到端架构,一改过去自动驾驶在规则时代中的模块化处理方式,VLA 将传感器数据变成语言和符号,再通过推理形成决策交由车辆执行。
相比于两段式端到端,理解能力更强,且有可解释的推理痕迹,避免了黑箱情况。
刘先明主导了小鹏 VLA 的「二次变革」。
其中最本质的变化就是,拆掉了「传感器信号翻译成语言 token」的中间步骤,推理任务从 LLM 大语言模型变成了一个多模态 Transformer 大模型。

其中的原因有两个:
其一,解决传统 VLA 中的信息损耗。
传统 VLA 需要先两次语言转译,明确离散的结构化数据变成连续信号,这个过程会带来大量的物理世界信息丢失。第二代 VLA 使用更多的连续信号完成任务,网络结构极其简单。
其二,解决传统 VLA 输出受限,提升模型效率和泛化能力。
语言是离散的,而控制信号 (车辆转向、加速) 是连续量。传统 VLA 很难精确控制物理系统,限制了模型在复杂场景下的表现。第二代 VLA 拆掉语言转译环节,就能简化训练方式,直接输出物理世界 Action。
比如小鹏 Super LCC 不需要任何导航、文字指令,就可以实现园区漫游。再比如这种模式也会让自监督成为可能,小鹏推动全球自动驾驶时,不需要数据标注即可泛化训练。
有意思的是,小鹏第二代与特斯拉 FSD V14 有异曲同工之妙。
FSD V14 核心也是多模态模型,先输入视觉、导航地图、声音、本车状态的融合信息,再经过推理后给出联合结果,最终协同做出驾驶决策。

这种多模态信号一方面产生 Language 作为中间表征,另一方面生成全景分割、3D 占用、3D 高斯表征等信号,共同决定输出的 Action。
在云端,小鹏和特斯拉都有「类世界模型」,其功能也是一致的。
这种世界模型都从过去智能生成环境场景,变成了能想象、评估决策质量的预测系统。
小鹏的世界模型叫世界模拟器,V 和 L 输出轨迹和决策时,就会被记录到世界模型中,用 VLA 数据训练世界模型。最主要任务就是模拟器生成不同的驾驶决策,并且还要给这些不同的策略来打分。
这与特斯拉的神经模拟器主要功能一致,验证新模型是否更好、合成低频极端场景。
刘先明此前提过,他们并不知道特斯拉的 FSD V14 是怎么做的,之后看到特斯拉的演讲才发现思考的路径很接近。
2025 年 12 月末,何小鹏跨国完成了两场对特斯拉和小鹏的测评 (小鹏第二代 VLA 与 FSDV14) 两者都具备「涌现」能力。特斯拉和小鹏都具备「招手即停」的能力。
尽管特斯拉曾数次引领了智驾技术重构,但通过实测能看到,小鹏通过更迭先进的技术架构,有机会实现对特斯拉的超车。
能解出何小鹏问题的,只有刘先明。
何小鹏遇到刘先明,以及这场巨大的技术变革,都不是意外。
这背后有两个必然,第一个必然来自于何小鹏坚持保留的小鹏美国研发中心,在这场变革中起到了巨大作用。
回到 2017 年,在美国建立研发中心一点都不稀奇。
当时湾区到处都是中国公司的海外研发中心,除了百度、滴滴、小马智行之外,甚至连长城、比亚迪也尝试过在湾区研发自动驾驶。
这些公司曾都寄希望于湾区的人才能给自己的技术源头「安上一个水龙头」,随时打开随时有水。
七年之后,这些海外研发中心要么大幅缩水,要么不复存在。
自动驾驶的技术竞争比很多人想象中更漫长。何小鹏更早意识到,美国研发中心的作用不是水龙头,而是保存先进技术延续下去的火种。
在这十年之中,唯独小鹏在硅谷保留了可观的研发人数——在湾区小鹏大约还有 200 人团队。
湾区总会以一种更意外的方式派上用场。

加州小鹏北美研发中心,图源小红书
往前追溯,小鹏智驾四代大将全部来源于湾区,刘先明也是如此。
人才来源不熄火,这是小鹏能在起伏的智驾竞争中能再次翻身的关键。
第二个必然则在于刘先明。
刘先明给小鹏的答案,不是灵机一动,而是刘先明在 Facebook 与 Cruise 的经验使然。
「想做点有使命感的事儿」一直贯穿刘先明的职业生涯。
第一个阶段,刘先明在 Facebook 积累的数据采集、模型训练到系统部署的全流程经验,赋予了他解决真实世界复杂问题的能力
刘先明在 Facebook 的三年里,主要是做传统的计算机视觉和机器视觉。他所在的实验室当时正在开发全球最大的开源机器学习项目,通过卫星、无人机等技术为全球偏远地区提供互联网连接。
他主要参与的人口密度数据集,就是这个项目的基础设施。
通过计算机视觉和深度学习分析卫星图像,估算每个区域的人口密度,项目的数据最终可以提供 World Bank 去做调查,然后提供给红十字会做救援。

当时刘先明参与的 Facebook 项目之一:开源地图
项目开发时一度占用了 Facebook16% 的计算资源。
在 Facebook 刘先明学到的是「建造」的能力。
第二个阶段,在 Cruise 的四年中,刘先明积累的是极致简化与大规模 Infra 的思路。
一方面,Cruise 在当时就开始进行全面 AI 化转型,那时 Cruise 的 Infra 团队有几百人,是自动驾驶企业里研发规模最大的。
另一方面,刘先明意识到了数据迭代的重要性,当时在他们的团队内部就有计划做「持续性机器学习」项目,尝试用数据解决一切问题。
这些都让刘先明意识到自动驾驶企业无非沿着两条路来做:更大规模的算力升级,更多的数据驱动,才能解决问题。
第三个必然则来自于,刘先明是「局外人」,没有小鹏过去架构的包袱。
简洁,是刘先明团队最大的技术栈特点。
刘先明在内部一直强调:模型就是机器,它的燃料就是数据,但需要找到一种方式让数据在机器里流动起来。
一旦插入了任何的语言的监督,就会让整个流程的效率变得极低。
但在有深厚积累的组织内部,要把历史积累拆得片甲不留,需要「局外人」。
为了拆规则、拆语言,他在内部拍过几回桌子。
「阻力其实挺大的,所有人都告诉你语言不重要,反常识。 但我们的数据就是看到瓶颈,加不动了。那就必须拆。」
刘先明拆掉了所有的规则,一点也不留。甚至连车辆过 ETC,这种原本用规则会更高效的场景下,刘先明也拆了。
小鹏需要借助第二代 VLA 再超行业一头。

按照小鹏节奏:3 月份将会给 P7、G7、X9 Ultra 车型率先推送第二代 VLA,其他车型之后陆续跟进。
某种程度上,在刘先明身上能看到更宏观的视野,把小鹏当成一家物理 AI 公司再去倒推智驾技术栈。
所以刘先明带领团队花了一年时间搭建基础设施,保证系统的稳定性,再用模型去验证效果、用数据去 Scale up,最终在技术落地和技术突破上找平衡。
现在,小鹏内部正在紧锣密鼓研发,可以用来训练不同架构的基础模型——图灵模型。
这些都是小鹏接下来,想要再高出行业「大半头」的武器。
刘先明很清醒。
在访谈中,他曾被问到历史使命,他说:「很难想象我在小鹏的历史使命是什么,如果有的话,我想应该是我把这个事做到了之后,就会感觉我好像是自己把自己干掉了。」
这个回答,基本契合小鹏历来的换帅逻辑。
典型如特斯拉,也在多次迭代技术架构的基础之上,更换过 4 次自动驾驶一号位的位置。
在端到端时代,像卓驭这样的玩家,也经历过极其痛苦的「删库重练」。
特斯拉、小鹏、卓驭等等,这些能在智驾上有所成就的玩家,特征也很明显——拆墙。
就像小鹏一样,在组织架构自我革命之下,拆了英伟达芯片、拆了激光雷达、拆了规则、拆了语言。
回归到整个行业里,智驾需要自我革命,却少有人敢反复自我革命。
本质上原因是,如果一家企业没有敢于自我革命的决心,是很难迈过规则到端到端的门槛。
真理可能就这么一条,大家最终可能都会踩在这条路上。只不过不善于及时跟随技术范式调整组织的玩家,也有可能在下一个范式下落后。
尤其面向 L4,需要的是端到端+大模型的双重发力。这意味着,需要在原来拆掉的空地上,新建大楼。如果上一个时代,连旧楼都没拆掉,何来建新楼的空间。
在接下来的竞争中,吃老本的玩家只会被加速淘汰,而剩下的位置是留给能持续进化的组织。
