智驾圈都在等何小鹏 - 智能汽车

Just Quick Just Quality

热门话题

白天

搜索

资讯

智驾圈都在等何小鹏

2026-02-26 / 阅读约14分钟

来源：36kr

小鹏智驾历经多次换帅，从规则时代到端到端时代，面临组织惯性挑战。刘先明提出拆掉VLA中的语言，推动小鹏智驾变革，实现技术突破，小鹏计划推送第二代VLA。

「如果我想去远远甩开当前的对手，这一代智驾我们应该怎么做？」

时间回到两年前，在美国硅谷小鹏的办公室，何小鹏见到刘先明时，几乎只问了这一个问题。

这个问题非常关键。

刘先明的回答是拆掉语言的 VLA。在一个小时的交流里，刘先明觉得这不像是一场面试，也不需要说服老板接受新的技术方案，而是两个人已经开始商量去做这件事的具体步骤。

刘先明从何小鹏的办公室出来之后，只有一个想法：「这是一个我必须来的地方。」

而刘先明，已经是小鹏自研智驾十年来的第四任大将。

吴新宙完成了小鹏智驾的「代际领先」；李力耘完成了小鹏从规则时代到端到端的转型。但正在这个阶段，很多玩家靠着端到端火速完成超车。

显然，小鹏没有预想到其他人跟进速度如此之快。

就在小鹏下线第 100 万辆车的时候。外界有一种声音：小鹏销量从 ICU 到了 KTV，但智驾却被「理想、华为们」围追堵截，甚至陷入「吃老本」的质疑。

小鹏智驾的起伏很像中国新势力智驾突围史的缩影，均围绕着体系、量产、算法三种能力比拼。

但同时它又具备特殊性。

8 年间小鹏三次换帅，牵引出了另一层深意：

真正的智驾战争，不是眼前的技术代差，而是对抗组织惯性。

时代变了、架构在变、主导的人，也需要变。

放眼望去，只有少数车企，敢在智驾这件事上反复自我革命。

这种自我革命，不是说在端到端时代就一定要推翻一切，而是说有没有推倒重来的底气——你敢不敢拆掉过去自己费尽心思搭建的金字塔？你敢不敢承认每个人都有属于自己的历史使命，而完成使命的感觉是「自己干掉自己」。

问题的开始，为何小鹏需要甩开「对手」

2024 年，何小鹏之所以问出「怎么样才能甩开对手」，恰恰就是他更早意识到小鹏的智驾不再「高人一头」。

这个问题的起点来自吴新宙与李耕耘建立的智驾宇宙观。

吴新宙建造的小鹏智驾，是规则时代的巅峰期。

系统出身的吴新宙，全局意识要比大多数一号位强得多。吴新宙加入小鹏一年之后，就搭建起了小鹏完整的感知、规控和地图三大团队，帮助小鹏把技术、团队、体系这三个层面，从萌芽状态拉升到代际领先。

比团队更核心的，在于吴新宙打造的智驾数据闭环开发模式，让小鹏成了规则时代里的引领者。

回顾当时行业的三种技术路径：

第一类特斯拉：HydraNet + 规则规控，其核心在于感知模块通过 HydraNet 检测环境与目标物体。

第二类传统车企：采用 Mobileye、博世等供应商的黑盒方案，稳定，但迭代慢，不够聪明。

第三类新势力全栈自研：小鹏在 Xpolit3.0 采用了基于规则的多传感器融合架构，自研交付了当时体验最好的高速 NOA。在随后陆续展开的城市 NOA PK 赛中，保持了速度和质量上的前三名。

其中的 Xpolit3.0、3.5 版本即吴新宙的代表作。

但即便是从高速切换到城区，面对场景差异，唯一的办法也是「重写每一个预测和规划算法」。

吴新宙所打造的小鹏 Xpilot 系列版本，对应的是智驾的规则时代，以定位、感知、决策、规划、控制这样的分段式架构为主。

唯一不同的地方是，吴新宙较早有意识要把车端数据变成算法快速迭代的引擎，小鹏也是在规则时代就拥有类似特斯拉的数据迭代能力的玩家。

而继任者李力耘守住的是小鹏端到端的前夜。

前端到端时代，分别要跨过感知端到端、决策规划模型化两道门槛。

前者将自动驾驶架构拆解为感知与预测决策规划两大模块，后者将预测、决策、规划功能整合至同一神经网络。

李力耘主导了小鹏 Xpolit 架构全面转向 XNGP+，守住了量产，完成了「前端到端」时代的两个阶段。

XNGP+底层架构已经是初步的端到端大模型，模型由感知神经网络 XNet+规控大模型 XPlanner+AI 大语言模型 XBrain 构成，这就是将决策规划模型化的典型案例。

在 2024 年年底，智驾行业迈入「后端到端时代」之后，通过一段式端到端、VLA 架构翻身的玩家大有人在。

开城之战中，华为、理想迅速跟上。再后来小鹏上了端到端，就有人提 One model，小鹏上了 VLA，一觉醒来身边也都是 VLA。定眼一看都是第一梯队。

吴新宙建了一座城、李力耘守了一座城。

而围绕规则时代所运转的组织惯性、依靠规则所建成的金字塔，反而成了负担。

极致的端到端要先摧毁半座城，才能另起城池。成功即诅咒，这点小鹏也逃不过。

两个人都无法回答何小鹏的那个问题。

与其他玩家齐头并进的状态，对何小鹏来说，是无法容忍的。

拆掉语言的 VLA，成了小鹏智驾分水岭

到了后端到端时代，刘先明找到了答案：

——「如果我想远远甩开当前的对手，这一代智驾我们应该怎么做？」

——拆掉 VLA 里的「语言」。

VLA 架构即 Vision-Language-Action （视觉-语言- 行动），这是一种典型的端到端架构，一改过去自动驾驶在规则时代中的模块化处理方式，VLA 将传感器数据变成语言和符号，再通过推理形成决策交由车辆执行。

相比于两段式端到端，理解能力更强，且有可解释的推理痕迹，避免了黑箱情况。

刘先明主导了小鹏 VLA 的「二次变革」。

VLA1.0：视觉—语言—动作，需要两次语言转译。先输入视觉和语言，再输出语言，然后去把语言变成轨迹点（gopoi nt）或者动作（action），最终扔到端到端模型里面来做决策。
VLA2.0：视觉+语言—动作，拆掉了语言的那堵墙。语言和视觉作为信息输入做推理之后，直接给出动作、最终的结果。

其中最本质的变化就是，拆掉了「传感器信号翻译成语言 token」的中间步骤，推理任务从 LLM 大语言模型变成了一个多模态 Transformer 大模型。

其中的原因有两个：

其一，解决传统 VLA 中的信息损耗。

传统 VLA 需要先两次语言转译，明确离散的结构化数据变成连续信号，这个过程会带来大量的物理世界信息丢失。第二代 VLA 使用更多的连续信号完成任务，网络结构极其简单。

其二，解决传统 VLA 输出受限，提升模型效率和泛化能力。

语言是离散的，而控制信号（车辆转向、加速）是连续量。传统 VLA 很难精确控制物理系统，限制了模型在复杂场景下的表现。第二代 VLA 拆掉语言转译环节，就能简化训练方式，直接输出物理世界 Action。

比如小鹏 Super LCC 不需要任何导航、文字指令，就可以实现园区漫游。再比如这种模式也会让自监督成为可能，小鹏推动全球自动驾驶时，不需要数据标注即可泛化训练。

有意思的是，小鹏第二代与特斯拉 FSD V14 有异曲同工之妙。

FSD V14 核心也是多模态模型，先输入视觉、导航地图、声音、本车状态的融合信息，再经过推理后给出联合结果，最终协同做出驾驶决策。

这种多模态信号一方面产生 Language 作为中间表征，另一方面生成全景分割、3D 占用、3D 高斯表征等信号，共同决定输出的 Action。

在云端，小鹏和特斯拉都有「类世界模型」，其功能也是一致的。

这种世界模型都从过去智能生成环境场景，变成了能想象、评估决策质量的预测系统。

小鹏的世界模型叫世界模拟器，V 和 L 输出轨迹和决策时，就会被记录到世界模型中，用 VLA 数据训练世界模型。最主要任务就是模拟器生成不同的驾驶决策，并且还要给这些不同的策略来打分。

这与特斯拉的神经模拟器主要功能一致，验证新模型是否更好、合成低频极端场景。

刘先明此前提过，他们并不知道特斯拉的 FSD V14 是怎么做的，之后看到特斯拉的演讲才发现思考的路径很接近。

2025 年 12 月末，何小鹏跨国完成了两场对特斯拉和小鹏的测评（小鹏第二代 VLA 与 FSDV14）两者都具备「涌现」能力。特斯拉和小鹏都具备「招手即停」的能力。

尽管特斯拉曾数次引领了智驾技术重构，但通过实测能看到，小鹏通过更迭先进的技术架构，有机会实现对特斯拉的超车。

硅谷火种，绝非意外

能解出何小鹏问题的，只有刘先明。

何小鹏遇到刘先明，以及这场巨大的技术变革，都不是意外。

这背后有两个必然，第一个必然来自于何小鹏坚持保留的小鹏美国研发中心，在这场变革中起到了巨大作用。

回到 2017 年，在美国建立研发中心一点都不稀奇。

当时湾区到处都是中国公司的海外研发中心，除了百度、滴滴、小马智行之外，甚至连长城、比亚迪也尝试过在湾区研发自动驾驶。

这些公司曾都寄希望于湾区的人才能给自己的技术源头「安上一个水龙头」，随时打开随时有水。

七年之后，这些海外研发中心要么大幅缩水，要么不复存在。

自动驾驶的技术竞争比很多人想象中更漫长。何小鹏更早意识到，美国研发中心的作用不是水龙头，而是保存先进技术延续下去的火种。

在这十年之中，唯独小鹏在硅谷保留了可观的研发人数——在湾区小鹏大约还有 200 人团队。

湾区总会以一种更意外的方式派上用场。

加州小鹏北美研发中心，图源小红书

往前追溯，小鹏智驾四代大将全部来源于湾区，刘先明也是如此。

人才来源不熄火，这是小鹏能在起伏的智驾竞争中能再次翻身的关键。

第二个必然则在于刘先明。

刘先明给小鹏的答案，不是灵机一动，而是刘先明在 Facebook 与 Cruise 的经验使然。

「想做点有使命感的事儿」一直贯穿刘先明的职业生涯。

第一个阶段，刘先明在 Facebook 积累的数据采集、模型训练到系统部署的全流程经验，赋予了他解决真实世界复杂问题的能力

刘先明在 Facebook 的三年里，主要是做传统的计算机视觉和机器视觉。他所在的实验室当时正在开发全球最大的开源机器学习项目，通过卫星、无人机等技术为全球偏远地区提供互联网连接。

他主要参与的人口密度数据集，就是这个项目的基础设施。

通过计算机视觉和深度学习分析卫星图像，估算每个区域的人口密度，项目的数据最终可以提供 World Bank 去做调查，然后提供给红十字会做救援。

当时刘先明参与的 Facebook 项目之一：开源地图

项目开发时一度占用了 Facebook16% 的计算资源。

在 Facebook 刘先明学到的是「建造」的能力。

第二个阶段，在 Cruise 的四年中，刘先明积累的是极致简化与大规模 Infra 的思路。

一方面，Cruise 在当时就开始进行全面 AI 化转型，那时 Cruise 的 Infra 团队有几百人，是自动驾驶企业里研发规模最大的。

另一方面，刘先明意识到了数据迭代的重要性，当时在他们的团队内部就有计划做「持续性机器学习」项目，尝试用数据解决一切问题。

这些都让刘先明意识到自动驾驶企业无非沿着两条路来做：更大规模的算力升级，更多的数据驱动，才能解决问题。

第三个必然则来自于，刘先明是「局外人」，没有小鹏过去架构的包袱。

简洁，是刘先明团队最大的技术栈特点。

刘先明在内部一直强调：模型就是机器，它的燃料就是数据，但需要找到一种方式让数据在机器里流动起来。

一旦插入了任何的语言的监督，就会让整个流程的效率变得极低。

但在有深厚积累的组织内部，要把历史积累拆得片甲不留，需要「局外人」。

为了拆规则、拆语言，他在内部拍过几回桌子。

「阻力其实挺大的，所有人都告诉你语言不重要，反常识。但我们的数据就是看到瓶颈，加不动了。那就必须拆。」

刘先明拆掉了所有的规则，一点也不留。甚至连车辆过 ETC，这种原本用规则会更高效的场景下，刘先明也拆了。

小鹏需要借助第二代 VLA 再超行业一头。

按照小鹏节奏：3 月份将会给 P7、G7、X9 Ultra 车型率先推送第二代 VLA，其他车型之后陆续跟进。

某种程度上，在刘先明身上能看到更宏观的视野，把小鹏当成一家物理 AI 公司再去倒推智驾技术栈。

所以刘先明带领团队花了一年时间搭建基础设施，保证系统的稳定性，再用模型去验证效果、用数据去 Scale up，最终在技术落地和技术突破上找平衡。

现在，小鹏内部正在紧锣密鼓研发，可以用来训练不同架构的基础模型——图灵模型。

这些都是小鹏接下来，想要再高出行业「大半头」的武器。

刘先明很清醒。

在访谈中，他曾被问到历史使命，他说：「很难想象我在小鹏的历史使命是什么，如果有的话，我想应该是我把这个事做到了之后，就会感觉我好像是自己把自己干掉了。」

这个回答，基本契合小鹏历来的换帅逻辑。

典型如特斯拉，也在多次迭代技术架构的基础之上，更换过 4 次自动驾驶一号位的位置。

在端到端时代，像卓驭这样的玩家，也经历过极其痛苦的「删库重练」。

特斯拉、小鹏、卓驭等等，这些能在智驾上有所成就的玩家，特征也很明显——拆墙。

就像小鹏一样，在组织架构自我革命之下，拆了英伟达芯片、拆了激光雷达、拆了规则、拆了语言。

回归到整个行业里，智驾需要自我革命，却少有人敢反复自我革命。

本质上原因是，如果一家企业没有敢于自我革命的决心，是很难迈过规则到端到端的门槛。

真理可能就这么一条，大家最终可能都会踩在这条路上。只不过不善于及时跟随技术范式调整组织的玩家，也有可能在下一个范式下落后。

尤其面向 L4，需要的是端到端+大模型的双重发力。这意味着，需要在原来拆掉的空地上，新建大楼。如果上一个时代，连旧楼都没拆掉，何来建新楼的空间。

在接下来的竞争中，吃老本的玩家只会被加速淘汰，而剩下的位置是留给能持续进化的组织。

上一篇：零跑 A10 纯电小车座舱细节公布：二排坐垫可 60° 上翻，配折叠小桌板

下一篇：中国新能源车在美国价格62万元起？

返回列表

热文阅读

1 天前

OpenAI总裁当庭“认罪”！自曝零元购300亿，马斯克这回真要赢了？

2 天前

Claude Token榜：迪士尼“榜一大哥”9天46万次，Meta月烧60万亿

20 小时前

“全民公敌”阿莫迪

19 小时前

让具身智能更实用中国移动以“灵犀”共建产业新生态

2 天前

员工展示特斯拉工厂下线的最后一辆 Model X 照片，车身签满名字

22 小时前

Claude最新功能泄露！主动助手Orbit接管一切工作

2 天前

揭秘华尔街顶级律师威廉 · 萨维特：曾在法庭击败马斯克，如今替奥尔特曼出战

2 天前

Red Hat 红帽推出 Tank OS 开源项目，将 OpenClaw 运行环境封装为专用容器以提升安全

21 小时前

对标 OpenClaw：谷歌正内测全新 AI 智能体“Remy”

1 天前

ChatGPT免费模型升级了：幻觉砍半/记忆更强/回答更简洁

上一篇：零跑 A10 纯电小车座舱细节公布：二排坐垫可 60° 上翻，配折叠小桌板

下一篇：中国新能源车在美国价格62万元起？

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们