何小鹏赌约背后，中美智驾只剩“一年之差” - 智能汽车

Just Quick Just Quality

热门话题

白天

搜索

资讯

何小鹏赌约背后，中美智驾只剩“一年之差”

2026-03-04 / 阅读约21分钟

来源：凤凰网

2025年大卫·摩斯凭智能驾驶横穿美国，自动驾驶行业陷入路线突围战，各方押注VLA。中美竞速下，VLA、世界模型、一段式强化学习端到端路线各有优劣，2026年行业较量激烈。

撰文 | 常笑

编辑 | 张南

设计 | 甄尤美

1903年，霍拉肖·杰克逊和苏厄尔·克罗克驾驶着简陋的汽车，在泥泞与荒野中挣扎了整整63天，终于从旧金山抵达纽约。彼时，这场驾车横穿美国的艰难跋涉，只为向世界证明汽车不是“昙花一现的消遣玩物”。

时隔122年后，相似的路线被赋予了全新的意义。2025年底，历时2天零20个小时，跨越2732.4英里（约4397公里），坐在特斯拉Model 3里的大卫·摩斯，在全程无接管的情况下，达成了首次凭借智能驾驶技术横穿美国的壮举。

这场看似科幻的现实演绎，不仅是汽车工业的百年进阶，更是自动驾驶行业经历的一场跨越式变革。

刚刚过去的2025年，自动驾驶行业没有迎来所谓“技术终局”的大一统，反而陷入了更激烈的路线突围战。当单纯的端到端大模型遭遇长尾场景的瓶颈，一场集体押注“认知智能”的竞速由此引爆，并一路烧至2026年。

在这场博弈中，各方角力的落点，都指向了同一个神秘代号——VLA（Vision-Language-Action，视觉－语言－动作模型）。

大洋彼岸，特斯拉在FSD V14版本引入类VLA多模态增强模块，通过增强逻辑泛化能力解决“直觉驾驶”的不可知性；而英伟达在美国CES 2026上更是连新卡都不发了，反手直接开源基于VLA的推理模型Alpamayo 1，其创始人黄仁勋更是称其为“世界上首款能思考、能推理的自动驾驶汽车AI”。

视线回到中国，产业回应更为迅猛。地平线、元戎启行等供应商纷纷亮出成熟方案，理想、吉利、奇瑞、长城等车企密集开启了VLA的量产竞速。

3月2日，小鹏汽车正式发布其所谓的第二代VLA，并将战火推向了新的维度。根据官方介绍，这是全球首个量产级物理世界大模型，核心是去掉了语言转译环节，实现视觉直出动作的端到端决策。

年初，小鹏汽车董事长、CEO何小鹏曾将2026年定义为中美自动驾驶元年。而在此次会上，何小鹏更是放话说：“小鹏第二代VLA将开启自动驾驶的DeepSeek时刻，最快1年就能实现完全自动驾驶。”

一片喧嚣之下，当VLA加速从实验室走向量产，自动驾驶行业的底层游戏规则正在被悄然改写。

中美竞速，VLA缘何大火

故事的起点，其实源于一场行业集体的“迷航”。

时间倒回到三年前，特斯拉FSD V12横空出世，用“端到端”的暴力美学震惊了世界，它彻底抛弃传统模块化与硬编码规则，代码量从30万行锐减至2000行。这种用统一神经网络直接将摄像头像素映射为方向盘转角的“直觉驾驶”，一度被视为行业的终极答案。

中国车企与供应商也迅速跟进，卷入这场名为“端到端”的军备竞赛。彼时的共识简单而粗暴：似乎只要把感知、规划、预测全部塞进一个巨大的神经网络，奇迹就会发生。

然而，随着2024年末特斯拉FSD V13的推送，行业遭遇了当头一棒。尽管特斯拉将算力堆到了极致，模型参数量相比V12提高了三倍，但那个“黑箱”依然会时不时出问题，不断出现的低级失误直接击碎了“端到端万能”的幻想。

这时候，行业开始意识到：端到端虽然在信息传递效率上做到了极致，规避了模块化端到端信息熵减的弊端，但它本质上还是一个巨大的概率拟合器。其展现出的强大直觉，也仿佛只得到了身体，却没能得到灵魂。当面对那些从未见过的长尾场景时，这个“黑箱”内部发生了什么、会产生什么决策，没有人知道。

这种缺乏可解释性、逻辑推演能力的特性，成为横亘在L2辅助驾驶与L4完全自动驾驶之间一道难以逾越的天堑。就在大家都在这个“直觉陷阱”中苦苦挣扎时，VLA多模态架构的出现，恰好踩中了这个痛点。

其实，早在2023年7月，谷歌DeepMind就推出了基于VLA架构的RT-2模型，让机器人具备了惊人的零样本学习能力。遗憾的是，由于聚焦低速封闭场景，它在当时并未引发自动驾驶圈的躁动。

但当纯端到端路线显露出瓶颈后，VLA的价值开始被重新发掘：自动驾驶行业迫切需要为车辆植入“认知”能力。

2025年10月，特斯拉自动驾驶副总裁阿肖克·埃卢斯瓦米（Ashok Elluswamy）的一张PPT，意外揭开了FSD V14的底牌：特斯拉正在“悄悄”引入类VLA的多模态模型，试图用“思维链”破解黑箱的低级错误。

这一信号，也瞬间被中国自动驾驶军团敏锐地捕捉到了。何小鹏在亲赴北美体验后，发出了那句著名的感慨：“FSD V14和特斯拉Robotaxi已经没有区别，L2和L4可以用同一套系统实现。”这不仅仅是感叹，更是一种“找对了”的释然。

前理想汽车自动驾驶研发高级副总裁郎咸朋更是直接定调：“如同端到端结合数据闭环取代了原来的规则算法研发范式一样，VLA结合强化学习将会成为智能驾驶新的护城河。”

为什么中国车企会有如此强烈的共鸣？因为在VLA架构的加持下，中美双方的前沿技术第一次站在了近乎同一起跑线上。

2025年初，小鹏与理想几乎在同一时间遭遇了端到端的天花板——系统泛化性增强，却始终无法触及真正的自动驾驶逻辑。“我们决定将盖了一大半的房子推倒，重搭地基。”何小鹏在测试了新一版系统后，决定直接转型VLA这样的端到端自动驾驶方案。

而理想汽车董事长兼CEO李想也在推出端到端1000万Clips版本后，决定加快交付VLA，不能继续在原有的路径上死磕。在他们看来，如果系统没有思考能力，无论堆多少数据，都无法抵达L4。

那么，特斯拉也好，小鹏、理想也罢，为何中美头部玩家会如此默契地集体转向VLA？

首先是技术底层逻辑的质变。

VLA的核心逻辑，是在传统的视觉和动作之间，插入了一个语言模型（L）。这个简单的插入，却质变了系统的处理方式：它让车辆开始学会像人类司机一样靠“预判与经验”开车，而不是单纯地靠肌肉记忆“背交规”。

在这个架构下，当摄像头看到路边一个穿着反光背心的人挥手，端到端模型可能还要靠海量数据去猜测该不该停，而VLA模型会将画面转译为“前方有施工员指挥交通”，结合内置的驾驶常识进行逻辑推演，再决定减速绕行。

简言之，传统端到端只有见过的场景才会；VLA这样的端到端，靠语言常识，没见过的场景也能推理。很显然，这种从“直觉”到“认知”的跃升，正是解决当下长尾问题的钥匙。

其次是商业落地的现实倒逼。

随着L2+辅助驾驶在量产车上的全面普及和下放，单纯的功能比拼已经到了尽头，头部企业原本引以为傲的差异化优势正被快速抹平。如今的用户不再满足于“能开”，而是苛刻地要求“好开”。

但在现有的端到端能力下，要解决那最后1%的长尾难题，所需的数据成本和算力成本正呈指数级上升，带来的边际效益却在递减。

对于车企而言，急需一种更具性价比、更泛化的技术方案来突破体验的天花板。而VLA通过引入常识推理，能够用逻辑能力弥补极端数据的不足，无疑是在当下算力与数据边界下，打通体验跃迁的捷径。

更为重要的是，VLA的出现正在重塑L2与L4的行业估值逻辑。过去，辅助驾驶（L2）与完全自动驾驶（L4）被视为两个割裂的市场：L2靠卖车赚钱，L4靠Robotaxi运营赚钱，两者的技术栈也完全不同。

但VLA架构的出现打破了这种割裂：一套具备认知能力的多模态模型，可以同时覆盖量产车和Robotaxi，甚至还能同步泛化到人形机器人等更多终端。这意味着，车企未来可以用同一套技术底座，“通吃”多个万亿级市场。

对于资本市场而言，这不仅极大降低了研发的沉没成本，更让L4的落地时间表从遥遥无期变得清晰可见。

同济大学汽车学院教授朱西产指出，智能驾驶行业已跨越早期认知与市场鸿沟，用户接受度发生了从“可选”到“必选”的转变，当前行业核心挑战已转变为：在用户基础确立后，如何向更高阶的自动驾驶演进并实现盈利。

基于此，《汽车商业评论》认为，VLA的意义，不仅在于它提升了端到端模型的“可解释性”，更在于它为行业找到了一个既能兼顾当下体验，又能通向未来L4的清晰商业闭环。

这才是过去一年，众多头部玩家都积极投身这场VLA竞速的根本原因。

几种路线，谁更接近“未来”

如果说三年前自动驾驶行业还处于Gartner技术曲线的“低谷期”，那么行至2026年，行业的水温已彻底改变。

一场前所未有的资本“回血”与上市潮，正在为此刻的冲刺加注燃料。2月2日，Waymo宣布获得高达160亿美元（约合人民币1110亿元）的战略投资，投后估值逼近万亿大关。

视线转回国内，2025年11月6日，文远知行和小马智行同日登陆港交所，分别成功募集23.9亿港元与77亿港元；随后，希迪自动驾驶也成功上市，成为首家专注商用车智能驾驶的港股公司。此外，滴滴自动驾驶、哈啰Robotaxi也相继完成大额融资。

资本市场的回暖，意味着行业已经熬过了最艰难的“死亡之谷”。

元璟资本管理合伙人刘毅然对此感触颇深：“经历过这一轮行业周期后，如今我们能看到，自动驾驶实际落地效果实现了从量变到质变，技术范式也迎来大幅升级，新的AI框架持续迭代，行业终于迎来了规模最大、爆发力最强、周期最长久的上行周期。”

这一次，不管是投资人、从业者还是普通消费者，都开始相信自动驾驶的落地已成定局，如今只剩时间问题。

但VLA的强势入场，也并不意味着自动驾驶行业就此形成单一技术路径的共识。恰恰相反，在AI大模型赋能下，自动驾驶圈的路线分野比任何时候都要更加激烈且微妙。

目前，行业在“端到端”的大共识下，逐步分化出三个派别：以元戎启行、理想、小鹏为代表的“VLA派”，以华为、蔚来为代表的“世界模型派”，以及Momenta、地平线等供应商的“一段式强化学习端到端”。

这三条路线，不仅是代码架构的不同，更是各家企业对“如何理解世界”的三种回答。

眼下风头最盛的，无疑是VLA路线。这一派别主张，VLA能解决纯端到端“死记硬背”视频片段、缺乏底层逻辑的短板，赋予车辆处理长尾场景的泛化能力。

以元戎启行为例，其能在2025年10月拿下第三方智驾市场近四成的份额，核心就在于这种方案的“可解释性”与“高拟人度”。

更为现实的诱惑在于数据飞轮效应。对于手握巨大用户基盘的主机厂而言，车卖得越多，真实语料和驾驶数据就越多。这种“先落地、再迭代”的战术，能让VLA模型以惊人的速度进化，远比“直指L4”更具现实意义。

然而，在风光的表象之下，VLA的“问题”同样不少。其核心症结就在于：将视觉感知转译为语言，再由语言转译为动作，这中间的“翻译损耗”究竟有多大？

要知道，语言天生存在模糊性，而这对于需要在毫米级空间中做精确运动的汽车而言，是致命的。

“放盐少许”在厨房是艺术，在自动驾驶系统里却是灾难。

在华为智能汽车解决方案BU CEO靳玉志看来，这不仅是画蛇添足，更是舍本逐末，“华为不会走向VLA的路径，这样看似取巧，其实并不是走向真正自动驾驶的路径。华为更看重WA（World Action），中间省掉language这个环节，通过信息输入直接控车”。

因此，面对VLA的“语感”流，华为和蔚来选择了他们认为更硬核的WA（世界模型）路径。在他们看来，VLA依然是基于经验的“概率预测”，而非真正的“因果推演”。

华为提出的“WEWA”架构，旨在构建一个可计算的物理引擎，让智驾系统通过云端模拟数据构建一个“数字孪生世界”，从而实现对真实世界的深度理解。

与VLA的“从数据到决策”不同，WA试图让系统“先理解世界，再作出决策”，这种思路被不少专家视为智驾的“终极答案”。

这种思路的优势在于“可验证性”。通过这种对物理世界的深度建模，车辆做出的决策不再是基于“常识”，而是基于“懂物理”。

但这无疑也是一场豪赌，构建一个高保真的物理世界模型，其训练代价是天文数字，这不是一般玩家玩得起的游戏。

就在VLA与WA激辩正酣之时，Momenta、地平线等供应商的“一段式强化学习端到端”路线，却在悄然攻城略地。

这条路没有那么多花哨的概念，不谈“思维链”，也不谈“物理引擎”，它追求的是极致的“黑盒”直觉。

它是通过海量的数据投喂和强化学习，让模型直接建立从感知到动作的映射，更像是在训练人类的“下意识反应”——老司机在紧急避让时，是不会先背诵物理定律的，肌肉记忆比逻辑推理更快。

Momenta之所以能在2025年拿下61.06%的第三方供应商份额，正是因为这种方案在覆盖多价位区间时，展现出了极高的泛化能力和成本优势。

在《汽车商业评论》看来，这三条路线的本质博弈，实际上是时间与空间的置换：VLA派追求短期未来下的体验极致，世界模型派追求通往L4级的终极安全，而一段式端到端则追求当下的“利益最大化”。

若以2026年为分水岭，局势依然充满变数。但变数之外，更有可能的是三者之间开始呈现“融合进化”的趋势。

有业内专家表示，现在行业仍处于模式的探索期，很多企业大概率不会“一条道走到黑”。

我们越来越多地看到，有的企业利用世界模型生成的高逼真虚拟数据，来反哺VLA的训练；有的尝试在端到端架构中嵌入世界模型模块，以补强长时预测能力。

比如，小鹏就在其最新的VLA 2.0架构中，尝试突破传统VLA依赖语言转译的路径，构建了以物理世界模型为核心的端到端架构，直接实现视觉信号到驾驶动作的生成，从而弥补了早期VLA因语言转译导致的信息损耗、延迟和数据使用效率低的短板。

据介绍，小鹏第二代VLA的突破并非单点能力升级，而是遵循L4能力等于“模型x算力x数据x本体”的规模法则。在保障安全与稳定性的基础上，该系统响应延迟率降低80%，推理效率提升12倍，综合行车效率提升23%。

对此，小鹏汽车通用智能中心负责人刘先明表示：“自动驾驶的本质是AI问题，AI的规模法则同样适用于物理世界模型。”

说白了，大家都在互相抄作业，取长补短。这更像是一场融合进化，而不是单纯的路线淘汰赛。

回看过去几年，从“重地图”到“无图”，从模块化到端到端，行业的风向从未停止过剧烈摇摆。

轻舟智航CEO于骞更是做出预判：“无论是VLA还是世界模型，都不会是自动驾驶的终极答案，未来必有新的技术诞生。”

在探索未来的过程中，技术的演进边界正在从算法层面向整车系统层面延伸。吉利联合千里科技在CES2026上发布的WAM（World Action Model）世界行为模型，便不再局限于单一派别的优劣之争，而是尝试构建一个统一的“整车大脑”。

WAM打破了自动驾驶、座舱、底盘等各个域之间的物理壁垒，试图把“世界模型”的理解力与“VLA”的执行力合二为一。

吉利将其比作“大脑+小脑”的协同：WAM像经验丰富的老教练利用世界模型宏观决策，而车端VLA则像敏捷的小脑负责精准执行。

这种从“算法融合”向“整车系统融合”的跨越，或许不失为一种新的解题思路。但要实现这一步，需要全栈自研的底气与对整车架构的掌控力，这注定并非所有玩家都能走通的路径。

对于大多数企业而言，当下的竞争依然务实且残酷。归根结底，不管技术名词怎么变，有一个硬指标是绕不开的。谁能率先在成本、安全与体验这个“不可能三角”中找到平衡点，谁就能率先定义真正的“未来”。

2026年，通往L4前的落地抢滩

当埃隆·马斯克抛出那句“实现安全无监督自动驾驶需要100亿英里训练数据”时，行业早已不是单纯的算法竞赛，而是一场拼算力、拼数据的“规模战”。

中汽协最新报告显示，2025年前11个月，全国配备城市NOA功能的乘用车销量达312.9万辆，占总上险量的15.1%，较2024年全年提升5.6个百分点。报告预计，到2030年城市NOA将成为辅助驾驶主流功能。2026年，智能驾驶行业将进入普及关键期，面临核心技术攻坚挑战。

很显然，在数据狂欢的背后，是一场关于生存资格的残酷洗牌。谁能更好地服务用户、解决实际问题，谁将在竞争中胜出。

有头部厂商预测，2026年中国具备高阶自动驾驶能力的车型，年销量有望冲击500万台量级。这意味着，无法提供可用城区NOA的车企，将直接失去这块巨大的增量市场。

因此，摆在很多主机厂面前的，是一道残酷的选择题：是死磕自研，还是寻求外供？

从目前来说，在AI大模型的“加持”下，自研的门槛正在被无限拔高。组建团队、训练泛化性强的模型、跑通数据闭环，这不仅是一个漫长的周期，更是一场金钱的马拉松。

有车企透露，仅训练VLA模型所需的算力卡采购，每年就高达数亿元，这还不包括人员薪资与运维开销。

因此，对于大多数腰部车企，甚至部分头部车企来说，与其在自研的无底洞里豪赌，不如拥抱成熟的供应商方案。

像华为、Momenta、地平线、元戎启行等厂商，之所以能在这个阶段拿下大量订单，核心就在于它们不仅能提供不输于自研的算法能力，更能通过极致的工程优化，把高阶自动驾驶打进15万甚至更低价位的车型中。

与此同时，在国际巨头的棋局里，一场关于生态控制权的争夺也悄然改变着战局。2026年CES上，英伟达开源了名为Alpamayo 1的思维链推理VLA模型。这款模型专为增强自动驾驶决策能力设计，可供汽车开发者调优、蒸馏，以成为其完整辅助驾驶技术栈的核心基础。

目前，包括Lucid、捷豹路虎、Uber和伯克利DeepDrive等企业，均展现出对Alpamayo的极高关注，希望开发基于推理的自动驾驶堆栈，以实现L4级自动驾驶。

英伟达的逻辑也十分清晰：通过开源基座模型，让车企能够快速搭建起一套具备“及格线”能力的自动驾驶系统，从而牢牢锁定Thor芯片的算力生态。

对于急于落地、渴望缩短研发周期的车企而言，这无疑是难以拒绝的诱惑，但也意味着在核心技术路径上被供应商深度绑定的风险。

很显然，对于车企而言，2026年的落地策略将不再是简单的技术比拼，而是资源整合与选择的艺术。

头部“新势力”与华为系车企，将继续通过全栈自研掌控数据闭环的每一个环节，以此构建差异化壁垒；而传统转型车企与新晋品牌，则会更多选择“强强联合”——在采购供应商高性价比方案的同时，保留自研团队进行联合调优与数据反哺。

毫无疑问，2026年，自动驾驶行业的较量将前所未有的激烈。这不仅是主机厂自研与供应商方案的PK，也是供应商之间的角逐，更是一场中国自动驾驶军团与特斯拉FSD之间关于速度与极限的全球竞赛。

2026年，这场竞速的“终局预演”，已随着特斯拉FSD的入华提速，从硅谷的测试场直接搬到了中国的城市道路上。

1月23日，马斯克在达沃斯世界经济论坛上公开表态，特斯拉满血版FSD最早将于2月份获得中国监管批准，正式进入中国市场。

尽管当下自动驾驶远未抵达终点，但必须承认，特斯拉依然是目前最接近那个“正确答案”的玩家。

当FSD的公测倒计时已经开启，这场全球竞赛也将从大洋两岸的隔空较量，变成中国城市街头的贴身肉搏，一个无法回避的问题摆在整个行业面前：我们与特斯拉的差距，究竟还有多远？

卓驭CEO沈劭劼在新近一次采访中给出了一个相对量化的行业基准：“我们现在与特斯拉的距离，已经从最初的三年缩短到一年时间。”这意味着，随着技术路线回归同一起跑线，竞争的核心已不再是底层的代差，而是工程落地的效率与数据闭环的转速。

更直观的对比来自2025年底的一场“赌约”。何小鹏在亲身体验了FSD V14之后，与自家自动驾驶负责人刘先明定下赌局：

如果在2026年8月30日，小鹏的VLA模型在国内能达到FSD V14.2在硅谷的运行效果，何小鹏将在硅谷研发中心筹建一座中国风味食堂，若未能实现，刘先明则需在金门大桥裸奔。

这看似是一场充满硅谷极客色彩的戏谑赌约，实则是中美头部玩家在技术认知上的一次正面“对表”。

至于赌约的输赢，何小鹏并没有多费口舌，而是直接在会上向全行业喊话：“车已到门店，欢迎来试，尽管对比！”刘先明也当场表态，称第二代VLA是小鹏在全球自动驾驶元年，给出的“中国答案”。

这并非盲目的乐观，而是基于架构同源后的理性预估。中国拥有全球最复杂、最稠密的交通场景，反而为训练VLA的语言推理能力提供了天然沃土。

在何小鹏看来，在这场科技变革中，中国在政策环境、硬件基础和软件能力等底层条件上都具备非常好的优势，这对走VLA路线的企业是一个巨大的机遇。

基于此，何小鹏给出了一个相当激进的预判：完全自动驾驶将在未来1-3年内完全到来，真正成为人们的日常出行习惯。

而这场竞速，也不再是谁先抵达终局，而是谁先在复杂场景中定义终局。

《汽车商业评论》期待在不久的将来，当一辆中国自动驾驶车能够从容应对全球最复杂的路况，完成一场无接管穿越中国的壮举时，那将不仅是一段物理距离的跨越，更是中国自动驾驶军团真正加冕的时刻。

上一篇：让财务官当CEO 利润全球第一的丰田也缺钱了

下一篇：【标杆】iCAR V27携手地平线HSD定义全场景智驾新标杆；

返回列表

相关新闻