从技术路线到人员更迭,为什么智能驾驶又开始了“新造词”?
8 小时前 / 阅读约15分钟
来源:36kr
智能驾驶技术快速迭代,从规则式到端到端,再到VLA和世界模型。汽车公司内部组织架构频繁调整,自研与供应商方案竞争激烈。VLA和世界模型被视为通向L4的积极因素。

高阶智驾、无图NOA、端到端、VLA、WEWA架构、NWM······每隔几个月汽车公司和智能驾驶行业都会诞生新的名词,对应的则是智能驾驶技术的快速迭代。

但背后技术迭代过快的问题同样显现,用户一年前购买的新车,已经无法被现在的新技术接纳;甚至用户的认知都已经无法赶上这些新名词。汽车公司的内部同样是暗流涌动,从规则式到端到端,再到世界模型、物理AI的架构,造车新势力的智能驾驶部门总是面临人员更迭、高管离职。

智能驾驶行业普遍认为,今年第四季度到明年的上半年,是辅助驾驶技术落地的又一段关键时期,随着基于世界模型、VLA的升级,包括坚持自研的汽车公司,以Momenta、元戎启行、文远知行在内的解决方案供应商在内,领先身位随时都在发生变化。

从规则、端到端再到世界模型

基于规则的‌辅助驾驶系统,核心模块包括感知、预测、规划、控制,业界俗称为“模块化方案”,优势在于容易量产,但缺点也很明显,四个独立模块以串联方式进行工作,时延比较长,信息损耗大。所以,车辆受制于博弈能力,在路上进退为难的情况比较常见。

2023年8月,特斯拉推出基于端到端的FSD V12测试版,“端到端”也成为国内智驾圈子的热门话题。华为、小鹏、蔚来和理想陆续跟进,Momenta等解决方案供应商也陆续推出了端到端的方案。

但不论是规则还是端到端,本质上都是辅助驾驶系统的模仿和学习——将海量的人类驾驶数据投喂给系统,让系统学会如何驾驶,因此衍生了数据采集、标注和清洗等环节,核心是让学习模型理解这些数据,然后才能提高学习的效率和精度。

从根本上来说,这种方法和人类学习驾驶的过程基本相似,但不同之处主要在于系统的前期学习和后期修正都是被动的,而非人类那样主动学习和主动修正。

举个例子,在双左转车道的路口左转,人类驾驶员一般偏向于选择车辆少的车道,且跟车距离也会各有不同。但基于规则和端到端的辅助驾驶系统,一般会选择最内侧车道。再比如,当车辆变道进入匝道的时候遇到堵车,人类驾驶员可以择机汇入,但系统则容易导致车辆原地停留。

另外一个问题是,不具备主动学习和修正能力的系统,无法应对所有的可能性。用小鹏汽车自动驾驶中心组织负责人刘先明的话来说就是:“即使每天都能解决99%的corner case(极端情况),今天99%,明天99%,但也是解决不完的,除非可以穷尽所有可能,这个要到猴年马月才能实现L4。所以这就是一个无法收敛的难题。”

理想汽车创始人李想对此的解释是,端到端对真实的物理世界是没有理解能力的,它只是接收到了来自视觉系统的三维图像,结合车辆的速度给出运动轨迹。端到端足以应付大部分泛化场景,但如果是从来没有学到的、特别复杂的情况,就会遇到问题。这从另外一方面也说明,从去年开始,量产的端到端都是两段式的,而非一段式。

为了解决端到端无法收敛的短板,理想汽车的做法是加入了VLM(视觉语言模型),但因为这些模型是开源的,在交通场景中的能力非常有限,只能起到非常有限的辅助作用,比如能够识别红灯的读秒,结合导航地图输出运动信号。

模仿人类驾驶,已经被证明无法帮助辅助驾驶系统突破到L3,因为模仿行为本身存在短板,它必须要有明确的模仿对象,且需要穷尽模仿的所有行为的可能性——这就像套娃,永远出现下一个更小的套娃。

“既然模仿的路走不通,那就应该回到原点。”刘先明说,自动驾驶不是简单的模仿学习,而是应该重新去理解这个世界,真正像人类那样驾驶汽车。

李想也表达了类似的观点:第三阶段也就是VLA(vision-language-action,视觉语言行动模型),用3D的视觉和2D组合看真实的物理世界,甚至可以看懂导航软件,知道它的运行方式——相比起来,VLM看到的只是一张图片。VLA还有自己的大脑系统,能够理解看到的物理世界,基于自己的语言体系、思维链和推理能力,像人类一样真正执行驾驶动作。

理想汽车的VLA也称之为“VLA司机大模型”,其原理是将视觉成像转译为语言,再执行动作。小鹏汽车则更加激进,在11月5日的小鹏2025科技日上,何小鹏宣布小鹏汽车将在新一代VLA模型中直接取消语言转译的环节,把摄像头捕捉到的多模态物理信号输入,直接输出连续的控制信号。

但小鹏的第二代VLA同样存在推理过程,只不过至隐藏在模型当中,并不是由一个显性的语言模型来进行。取消“L“(意指语言)有两个好处,其一是提高了模型工作的简洁度和效率,降低信息传递过程的损耗,视频和IMU(空间姿态传感器)提供的信号可以不经过语言转译环节,直接输出连续的控制信号;第二则是系统具备了大规模“自监督学习”的可能,车辆从物理世界采集的视频可以直接成为训练数据,系统因此具备了极强的泛化能力。

刘先明说:“在海外任何一个市场,小鹏不再需要重新测绘、标注数据,只要有小鹏的车在跑,就能够支撑模型的训练,可以快速支持部署和落地。”

对于每家公司来说,做自动驾驶的第三个阶段,选择的路线不尽相同。理想汽车自动驾驶研发高级副总裁郎咸朋认为,华为是规则时代的强者,用规则是打不败华为的,顺着战略大势做的端到端本来也是新的技术路线,但今天它已经从新市场变成了旧市场。“如果理想要做真正的自动驾驶就不能继续在这个战场打了,要换一个战场,那就是VLA。”

今年3月,理想汽车已经发布了VLA技术方案。此后关于VLA是否可行的讨论声渐起,华为智能汽车解决方案BU CEO靳玉志认为,华为不会走VLA的技术路线,因为VLA将视频转化为语言token再对车辆进行控制的做法是“取巧的”,华为的WAWE架构和小鹏第二代VLA类似,也是省略语言环节,通过视觉、声音、触觉等多模态信息直接控制车辆。

博世智能驾驶与控制系统事业部中国区总裁吴永桥则提到VLA落地的四个难点:多模态特征对齐很困难;多模态的训练数据提取很困难;大语言模型存在无法避免的“幻觉”;当前的智驾芯片存储带宽不是为大模型专属设计,无法支持大量的数据传输和计算。

与华为同样选择世界模型路线的是蔚来。蔚来自动驾驶研发首席专家、副总裁任少卿也举类似观点,他认为VLA把语言和动作捆绑在一起,仍然以语言为中心。语言模型的带宽不足以应对现实世界的复杂性和连续性。

用刘先明的说法,VLA模型中的多模态特征对齐可能存在信息丢失的问题。小鹏汽车展示的一个接近6秒的视频片段中,包含非常多的视觉信息、道路状况和车辆运动信息,如果是使用VLA模型,意味着这些信息要先转化为语言文本,而对齐就是确保转化准确度达到最优的过程。“但实际上,就算用上千字来描述,也会比直接视频呈现存在信息损失,这就是所见非所得。我们认为,去掉语言环节是最简单、简洁的方式。”刘先明说。

但不论哪一条路线,背后指向的都是“大算力、大数据和大模型”。在小鹏计划面向Ultra版车主交付的第二代VLA中,支持的算力高达2250TOPS,由三颗自研的图灵AI芯片提供。蔚来同样自研了芯片——在蔚来的世界模型里,任少卿力推加入强化学习模型,他认为这是把短时记忆的模仿学习升级为可处理长时序智能体的关键。

加入蔚来之前,任少卿与曹旭东在2016年创办了自动驾驶公司Momenta。当他选择在2020年——蔚来的低谷期加入蔚来领导自动驾驶开发,曾引发一时轰动。他认可大规模的高质量数据对人工智能技术变革的推动作用,这也是他从Momenta离开加入蔚来的核心原因。

震荡的内部组织

自动驾驶技术路线的切换,实际上从2023年底就已经开始了。2024年的11月,小鹏把原本在10月24日举办的科技日更改到11月7日。在科技日之前,小鹏P7+上市,当时刚刚晋升副总裁,担任自动驾驶中心负责人的李力耘是端到端技术发布的主讲。

但当时小鹏已经在内部同时推进两条研发路线——传统VLA和创新VLA,建成了3万卡规模智算集群。所谓的创新VLA就是目前第二代VLA的雏形,去掉L的环节。但一直看不到希望,“当时团队的几个负责人连月会、周会都不好意思来开了”,何小鹏一度想过放弃,先聚焦传统的VLA。

创新VLA的曙光出现在第二季度。何小鹏接到了自动驾驶团队的电话,应他们要求亲自测试了当时的VLA版本,结果体验超出他的预料。随后他果断放弃传统VLA,全力开发第二代VLA。

创新VLA项目负责人是刘先明。他在2024年3月加入小鹏汽车,在此之前,他曾在Meta和通用汽车旗下Cruise从事机器学习与计算机视觉研究。何小鹏非常信任他,两人交流的频率非常高,并且很多次的交流都能持续几个小时之久。

2025年10月,国庆假期刚过,小鹏汽车在内部宣布刘先明接替李力耘担任自动驾驶中心组织负责人。刘先明和李力耘是智驾领域不同技术路线的代表,后者偏向于智驾产品,重在功能实现和产品落地,李力耘帮助小鹏实现了NGP落地至数百个城市,刘先明则重在打造能够推演物理世界的世界基座模型,帮助小鹏的自动驾驶技术具备更强的泛化能力,走向全世界。这一调整意味着小鹏汽车的自动驾驶技术路线彻底从功能实现到基础模型的转型。

更早之前,吉利、蔚来和理想汽车的智驾组织已经大幅调整。吉利将内部多个智驾研发团队整合到千里科技,同时还引入外部合作伙伴作为核心供应商。

今年9月19日,理想汽车将自动驾驶研发部门重组为11个二级部门,调整的重点是将研发资源向VLA倾斜,原本的模型算法团队被拆分成了基础模型部、VLA模型部和模型工程部。11个部门的负责人均直接向郎咸朋汇报。“此次调整是为了推动团队向AI组织演进。”理想汽车在内部信提到。同时,他们还取消了过去采用的大规模封闭研发模式。

蔚来的调整和小鹏几乎处于同一时间。蔚来世界模型负责人马宁宁、蔚来智驾产品负责人黄鑫、蔚来智驾项目管理部负责人郑可、蔚来智驾端侧部署AI引擎部负责人吴钊等自动驾驶团队负责人相继离职。蔚来对此的解释是:“主动调整的组织架构,将更有利于蔚来全力冲刺世界模型2.0版本的开发与交付。”这已经是蔚来一年内关于自动驾驶部门的第三次组织架构调整。

每一次技术路线的切换,都意味着公司投入资源的倾斜和对应的人事调整。规则时代的模块化的开发并不适用于端到端,因此,从规则式切换到端到端,小鹏、理想、蔚来的自动驾驶部门已经发生了多轮组织架构调整。

2024年8月,小鹏就因为切换到端到端路线,把原本承担算法研发,覆盖了感知、规划、控制和定位的技术开发部拆成三个全新的部门,分别是AI端到端、AI能效和AI应用。

随着端到端成为旧时代产物,汽车公司也迅速调整组织以迎合新技术路线的开发需求。以理想汽车为例,他们曾经将夏中谱负责的端到端从算法研发部门独立出来,两者成为平行部门。但不久之后,理想就将VLA确定为下一代技术路线,由算法研发部门的负责人贾鹏主导研发,人员和研发资源也向算法研发部门倾斜,这被认为夏中谱最终离职的原因之一。

逼近的自动驾驶公司

在造车新势力的带动下,自动驾驶技术自研曾经被认为是汽车公司的标配。比如奇瑞汽车,后来成立的大卓智能,就是前特斯拉、小鹏汽车自动驾驶专家谷俊丽领导的专门进行自动驾驶技术研发的公司。

在自研的浪潮中,长城以内部孵化和投资的方式成立了毫末智行;吉利的新能源高端品牌极氪也选择自研路线。上汽、广汽和长安也纷纷把钱投向自研。但从去年开始,这些汽车公司开始选择优质自动驾驶公司成为核心供应商。

长城汽车把魏牌蓝山的NOA交给了元戎启行,还参与了后者的最新一轮融资,形成鲜明对比的是,毫末智行陷入困难,管理层先后离开;奇瑞汽车先后和卓驭科技(前身是大疆孵化的车载事业部)、文远知行达成合作,大卓智能始终上不了台面;广汽重新和华为合作;上汽在和Momenta合作后,又和华为成立了全新尚界品牌。

自研和供应商方案的竞争,在今年愈演愈烈。长期关注智能驾驶的电动知士资深媒体人大雨认为,今年第四季度,供应商方案会成为闪光点,他们的进展非常快,竞争会从自研的汽车公司主导转向供应商主导。

今年8月,文远知行正式推出与博世合作的一段式端到端辅助驾驶解决方案WePilot AiDrive,这距离他们的两段式端到端方案量产上车仅过去半年时间。两位曾经参加过该方案的体验者给予了很高的评价,认为文远知行足以依靠这套方案跻身第一梯队,消解小鹏汽车这些汽车公司原本建立的领先优势。这套方案将首先应用在奇瑞汽车星途的ES、ET系列车型上。

文远知行的一段式端到端方案具备可伸缩的算力适配能力、多传感器构型适配能力,意味着兼容能力更强,可适配车型更多。当然,这也是Momenta、元戎启行这些解决方案供应商的天生优势。

一位在造车新势力负责智驾测试的工程师说,车企的平台化设计、成本考量就决定了自研很难拥有供应商的自由度、兼容性和快速迭代的能力,的确,车企的核心优势在数据,但随着合作伙伴的增加,供应商能够把数据的劣势缩小。

他这样比喻自研和供应商的区别:“自研更像是定食套餐,根据餐厅的定位设计开发,给什么就吃什么;供应商就像是自选餐厅,要吃什么自己选,丰俭由人。”这个比喻并不全面,但极具代表性。

资金的效率成为自研的另外一个掣肘。正如何小鹏在2025科技日上感慨的那样,从2024年至今,小鹏汽车建成了3万卡规模智算集群,光训练费用的投入就高达20亿元,正因为如此,何小鹏一度考虑过先放弃创新VLA路线。理想汽车同样如此,为了支持研发,理想汽车在云端搭建了13 EFLOPS算力。但对小鹏汽车、蔚来而言,今年第四季度盈利又显得尤为迫切。

不管是规则式,端到端还是现在的造车新势力、华为主导的VLA、世界模型等路线,在产品落地层面,仍然属于L2的框架。但现在VLA和世界模型被认为是通向L4的积极因素。小鹏汽车甚至认为,第二代VLA可以为具身智能的落地铺路。

何小鹏曾说过,没有智能化,电动汽车毫无意义。从2020年到现在,智能驾驶真正的竞争才刚刚开始。