小鹏集团发布 X-Mind，宣称让自动驾驶拥有“预见未来”的大脑 - 智能汽车

Just Quick Just Quality

热门话题

白天

搜索

资讯

小鹏集团发布 X-Mind，宣称让自动驾驶拥有“预见未来”的大脑

9 小时前 / 阅读约3分钟

来源：IT之家

小鹏发布X-Mind技术框架，通过内嵌预测性世界模型，赋予车载智能体高效视觉思维链，破解认知推理与实时计算矛盾，提升自动驾驶安全性与合规性，推理效率支持车规级芯片量产落地。

IT之家 6 月 29 日消息，小鹏汽车官方今日宣布，面对让模型主动思考、拉高预见能力的上限的难题，小鹏集团近日正式发布 X-Mind 技术框架，通过内嵌预测性世界模型，赋予车载智能体高效的视觉思维链，攻克了认知推理与实时计算之间的矛盾，宣称让自动驾驶拥有“预见未来”的大脑。

据介绍，X-Mind 的整体架构是让预测世界模型无缝嵌入在大型驾驶模型中。通过使用循环块扩散机制，网络在单次前向传播中，在其不同的内部层上执行渐进式去噪步骤，以生成紧凑的抽象草图。基于这种预期的物理未来推演，规划器得出最优的自车轨迹。

小鹏研发团队将视觉思维链（Visual CoT）实例化，在动作生成之前执行显式的时空推演。这意味着车辆可以像经验丰富的老司机一样在驾驶的时候可以想在前头，让每一条规划出来的路径都考虑到未来交通流的变化，具备更好的防御性驾驶能力。

小鹏汽车表示，X-Mind 抛弃了对高清纹理的执着，转而构建了一种融合了鸟瞰图（BEV）布局与抽象驾驶先验的“认知画布”。其中，思维草图包含了物理场景元素（车道线、障碍物）、动态交通灯状态、自适应导航意图以及合规车速轮廓。

优势是通过深度压缩自编码器（DC-AE），将 12 帧的未来世界推演压缩至仅 96 个 Token。这证明了相比于高冗余的图像或昂贵的 3D 重建，思维草图能更有效地过滤掉与规划无关的纹理干扰，仅保留道路拓扑、交通灯状态和导航意图等核心语义先验，从根本上解决了长上下文带来的计算瓶颈。

小鹏汽车表示，在包含数亿帧真实世界数据的训练集上，X-Mind 无论是面对前车的急刹、匝道汇入，还是复杂的十字路口博弈，都能提前推演出障碍物的占位和场景因果链条。对比实验数据表明：

精度提升： 相比传统 VLA 模型，X-Mind 在横向和纵向的轨迹预测误差（ADE）上均有显著降低，特别是在复杂长尾场景下，安全性与合规性大幅提升。
效率革命： 与使用原始图像或 3D 高斯溅射（3DGS）作为中间表示的方案相比，X-Mind 的推理延迟极低，具备了在资源受限的车规级芯片上量产落地的可行性。