关于ZAKER Skills 合作
雷科技 5小时前

智驾路线大洗牌!小鹏 CVPR 掀翻智驾棋盘:要给传统端到端判死刑?

小鹏的世界模型,又有新进展了。

在本周举行的全球计算机视觉顶级学术会议 CVPR 2026 上,小鹏集团通用智能中心负责人刘先明受邀参与,并在首届具身智能基座模型部署研讨会上做主题演讲。

在演讲中,刘先明首次完整展现了小鹏世界模型的技术图谱,并表示小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型。

(图源:小鹏)

至于世界模型和 VLA 之间的关系,刘先明表示,世界模型和小鹏的第二代 VLA 并非相互替代和相互竞争的关系,而是通过不同训练信号共同提升模型对物理世界的理解能力和物理世界的行动能力。

一句话来概括,就是小鹏的物理世界基座模型,既是第二代 VLA,也是世界模型。

目前汽车主机厂使用的智能驾驶模型,大都采用 VLA 或世界模型二选一,而小鹏是为数不多同步使用 VLA 及世界模型训练智能驾驶辅助及 L4 自动驾驶技术的车企。

那么,小鹏采用的世界模型 +VLA 技术路线,有什么样的特点,对比其他车企选择的 VLA/ 世界模型二选一,又有什么优势呢?

对于世界模型,小鹏官方给它的定位是:"小鹏基座模型的另一支柱",而小鹏物理世界的另一支柱,就是现在已经量产上车的 VLA 2.0。

此前,VLA 与世界模型这两条自动驾驶模型的技术路线之争,一直以来都没有停止过。各家也频频 " 秀肌肉 ",来验证自身技术路线的优越性。

在聊车企们的路线选择前,先简单介绍一些 VLA 和世界模型各自的特点以及二者的不同之处。

这里引用一下刘先明在朋友圈发布的对于 VLA 和世界模型两个技术的总结。他表示,"VLA 学的是:人在这个世界中会怎么做;世界模型学的是:这个世界本身会怎么变化。"

放在智能辅助驾驶技术上,VLA 是感知到道路状况,然后思考人类在遇到这类状况时会怎么做,然后再去执行。而世界模型则是感知到道路状况之后,思考车辆执行之后,道路会发生怎样的变化。

VLA 的能力,在于能读懂当下环境,并且知道如何去执行。例如路口拐弯之前知道应该提前变道到对应车道、别的车加塞知道应该去刹停,而至于车辆执行之后,道路交通状况会变得怎么样,VLA 是没办法去预测的。

世界模型的能力,则在于对未来的推演、想象。例如能够想象出如果在路口不提前变道,就没法完成拐弯的动作,所以会提前变道。别的车加塞自己不刹车的话,未来就会撞上,所以会刹车,但世界模型只能根据想象的结果去做决策,无法理解传感器输入的场景代表着什么含义。

在模型的选择上,各家品牌明面上分为了 VLA 和世界模型两派,例如理想、小鹏是 VLA 路线,蔚来、华为是世界模型路线,但实际上的技术路线并非这么死板。

就比如理想,虽然一直称呼自己的辅助驾驶技术为 VLA 司机大模型,但在今年 3 月理想发布的下一代自动驾驶基础模型 MindVLA-o1 中,就引入了预测式隐空间模型,也就是在模拟的隐空间中去预测未来。

预测未来,是不是很熟悉?没错,这不就是世界模型的技术路线吗?所以理想下一代的 VLA 模型,也融入了世界模型的预测机制,即能够对当下如何执行进行思考,也能够对执行后的结果进行预测,理想官方称这种思考为 " 多模态思考 "。

而走世界模型路线的蔚来和华为,目前暂时没有将 VLA 的技术融入到世界模型之中,但随着技术不断迭代,或许在蔚来和华为的下一代自动驾驶中,就能看到一些 VLA 的能力?

再聊回小鹏。其实从去年小鹏科技日官宣第二代 VLA 时,我们就能看到小鹏的技术路线和常规的 VLA 的差异:去掉了 VLA 中的 "L",也就是语言转译这一层,直接实现由视觉信号到动作指令的端到端生成。

小鹏也表示,第二代 VLA 是 "既是动作生成模型,也是理解和推演的物理世界模型"。

2026 年上半年,小鹏公开的自动驾驶技术中,也都是围绕世界模型展开的。

3 月 31 日,小鹏发布了世界模型 X-World 技术报告,小鹏称,这份报告从数据、模型、训练、验证及应用等多层面详解了 X-World 的构建与使用。

根据小鹏官方介绍,X-World 可以被视为一个会思考的物理 AI 系统,可以根据当下的路况和驾驶操作,想象出数秒后路况的变化。而该技术也被用于第二代 VLA 的环境仿真和模型评估中。

4 月 29 日,小鹏发布了 X-Cache 技术报告,可以在世界模型生成未来画面时,做到减少约七成的重复计算,实现最高 2.7 倍的推理加速。

在 6 月 2 日发布的 X-Foresight 技术中,小鹏就直接表示:"X-Foresight 的核心,是把预测式世界模型直接融入 VLA,在统一的 token 空间内联合预测未来的多视角画面(video)与自车动作(action)"。

简单点来说,就是在 X-Foresight 技术的加持下,模型既能够去感知当下道路状况,决策车辆行驶,还能够在输出车辆动作的同时对决策后的未来画面进行推理。

对此小鹏也表示,X-Foresight 在驾驶决策层面全面超越传统反应式 VLA 基线模型。

X-Foresight 加上前面提到的 X-Cache 和 X-World,小鹏称三者形成了完整技术闭环,三者协同构建 " 知识学习 - 场景仿真 - 推理加速 " 全栈体系。

在此之后,就是小鹏在 CVPR 上,官宣的物理世界基座模型技术图谱。其中,第二代 VLA 和世界模型的结合,最终目标就是 "构建能够深度理解真实世界并在其中安全行动的物理 AI 基座模型 "。

此外,小鹏还官宣,即将发布有关 "X-mind" 的技术报告,将解析模型如何 " 主动思考 ",并可视化地呈现驾驶决策背后的中间推理过程。

目前,小鹏还没给出更新一代的自动驾驶技术,或者智能辅助驾驶技术的上车时间。但现在已经是 6 月了,距离惯例在 10 月举行的小鹏科技日并不远,可以期待一下到时候小鹏又会端上什么技术。

对于小鹏汽车,亦或是整个小鹏集团而言,给人的印象都是很重视技术,甚至重技术到有点 " 直男 "。

所以,小鹏之前用 " 臭搞技术的 " 来自嘲,倒也蛮合理的。

但玩笑归玩笑,实际落到小鹏本身的产品上,在智能化领域的技术实力是肉眼可见的强。

就举个最明显的例子:别家品牌要想证明自己的辅助驾驶好,至少车得有个激光雷达凸起,甚至有车企用了舱内的激光雷达,也要加个凸起的小蓝灯来起到造型作用。

对于小鹏而言,即使全系在售车均采用视觉方案、没有激光雷达,也不影响用户对其智能辅助驾驶的信任程度,这一点,就是技术方面的体现。

车子本身技术领先、靠谱,用户放心并选择,进而销量提升、研发资金更充裕,最终研发出更领先的技术,这本身就是一个正向的循环,小鹏这几年做到了,像小米、蔚来、理想、鸿蒙智行等品牌也都做到了。

这一次,小鹏又在 CVPR 上端上了最新的物理世界基座模型技术图谱,期待一下技术的落地、上车吧!

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容