何小鹏赌约背后,中美智驾只剩“一年之差”
6 小时前 / 阅读约21分钟
来源:凤凰网
2025年大卫·摩斯凭智能驾驶横穿美国,自动驾驶行业陷入路线突围战,各方押注VLA。中美竞速下,VLA、世界模型、一段式强化学习端到端路线各有优劣,2026年行业较量激烈。

撰文 | 常 笑

编辑 | 张 南

设计 | 甄尤美

1903年,霍拉肖·杰克逊和苏厄尔·克罗克驾驶着简陋的汽车,在泥泞与荒野中挣扎了整整63天,终于从旧金山抵达纽约。彼时,这场驾车横穿美国的艰难跋涉,只为向世界证明汽车不是“昙花一现的消遣玩物”。

时隔122年后,相似的路线被赋予了全新的意义。2025年底,历时2天零20个小时,跨越2732.4英里(约4397公里),坐在特斯拉Model 3里的大卫·摩斯,在全程无接管的情况下,达成了首次凭借智能驾驶技术横穿美国的壮举。

这场看似科幻的现实演绎,不仅是汽车工业的百年进阶,更是自动驾驶行业经历的一场跨越式变革。

刚刚过去的2025年,自动驾驶行业没有迎来所谓“技术终局”的大一统,反而陷入了更激烈的路线突围战。当单纯的端到端大模型遭遇长尾场景的瓶颈,一场集体押注“认知智能”的竞速由此引爆,并一路烧至2026年。

在这场博弈中,各方角力的落点,都指向了同一个神秘代号——VLA(Vision-Language-Action,视觉-语言-动作模型)。

大洋彼岸,特斯拉在FSD V14版本引入类VLA多模态增强模块,通过增强逻辑泛化能力解决“直觉驾驶”的不可知性;而英伟达在美国CES 2026上更是连新卡都不发了,反手直接开源基于VLA的推理模型Alpamayo 1,其创始人黄仁勋更是称其为“世界上首款能思考、能推理的自动驾驶汽车AI”。

视线回到中国,产业回应更为迅猛。地平线、元戎启行等供应商纷纷亮出成熟方案,理想、吉利、奇瑞、长城等车企密集开启了VLA的量产竞速。

3月2日,小鹏汽车正式发布其所谓的第二代VLA,并将战火推向了新的维度。根据官方介绍,这是全球首个量产级物理世界大模型,核心是去掉了语言转译环节,实现视觉直出动作的端到端决策。

年初,小鹏汽车董事长、CEO何小鹏曾将2026年定义为中美自动驾驶元年。而在此次会上,何小鹏更是放话说:“小鹏第二代VLA将开启自动驾驶的DeepSeek时刻,最快1年就能实现完全自动驾驶。”

一片喧嚣之下,当VLA加速从实验室走向量产,自动驾驶行业的底层游戏规则正在被悄然改写。

中美竞速,VLA缘何大火

故事的起点,其实源于一场行业集体的“迷航”。

时间倒回到三年前,特斯拉FSD V12横空出世,用“端到端”的暴力美学震惊了世界,它彻底抛弃传统模块化与硬编码规则,代码量从30万行锐减至2000行。这种用统一神经网络直接将摄像头像素映射为方向盘转角的“直觉驾驶”,一度被视为行业的终极答案。

中国车企与供应商也迅速跟进,卷入这场名为“端到端”的军备竞赛。彼时的共识简单而粗暴:似乎只要把感知、规划、预测全部塞进一个巨大的神经网络,奇迹就会发生。

然而,随着2024年末特斯拉FSD V13的推送,行业遭遇了当头一棒。尽管特斯拉将算力堆到了极致,模型参数量相比V12提高了三倍,但那个“黑箱”依然会时不时出问题,不断出现的低级失误直接击碎了“端到端万能”的幻想。

这时候,行业开始意识到:端到端虽然在信息传递效率上做到了极致,规避了模块化端到端信息熵减的弊端,但它本质上还是一个巨大的概率拟合器。其展现出的强大直觉,也仿佛只得到了身体,却没能得到灵魂。当面对那些从未见过的长尾场景时,这个“黑箱”内部发生了什么、会产生什么决策,没有人知道。

这种缺乏可解释性、逻辑推演能力的特性,成为横亘在L2辅助驾驶与L4完全自动驾驶之间一道难以逾越的天堑。就在大家都在这个“直觉陷阱”中苦苦挣扎时,VLA多模态架构的出现,恰好踩中了这个痛点。

其实,早在2023年7月,谷歌DeepMind就推出了基于VLA架构的RT-2模型,让机器人具备了惊人的零样本学习能力。遗憾的是,由于聚焦低速封闭场景,它在当时并未引发自动驾驶圈的躁动。

但当纯端到端路线显露出瓶颈后,VLA的价值开始被重新发掘:自动驾驶行业迫切需要为车辆植入“认知”能力。

2025年10月,特斯拉自动驾驶副总裁阿肖克·埃卢斯瓦米(Ashok Elluswamy)的一张PPT,意外揭开了FSD V14的底牌:特斯拉正在“悄悄”引入类VLA的多模态模型,试图用“思维链”破解黑箱的低级错误。

这一信号,也瞬间被中国自动驾驶军团敏锐地捕捉到了。何小鹏在亲赴北美体验后,发出了那句著名的感慨:“FSD V14和特斯拉Robotaxi已经没有区别,L2和L4可以用同一套系统实现。”这不仅仅是感叹,更是一种“找对了”的释然。

前理想汽车自动驾驶研发高级副总裁郎咸朋更是直接定调:“如同端到端结合数据闭环取代了原来的规则算法研发范式一样,VLA结合强化学习将会成为智能驾驶新的护城河。”

为什么中国车企会有如此强烈的共鸣?因为在VLA架构的加持下,中美双方的前沿技术第一次站在了近乎同一起跑线上。

2025年初,小鹏与理想几乎在同一时间遭遇了端到端的天花板——系统泛化性增强,却始终无法触及真正的自动驾驶逻辑。“我们决定将盖了一大半的房子推倒,重搭地基。”何小鹏在测试了新一版系统后,决定直接转型VLA这样的端到端自动驾驶方案。

而理想汽车董事长兼CEO李想也在推出端到端1000万Clips版本后,决定加快交付VLA,不能继续在原有的路径上死磕。在他们看来,如果系统没有思考能力,无论堆多少数据,都无法抵达L4。

那么,特斯拉也好,小鹏、理想也罢,为何中美头部玩家会如此默契地集体转向VLA?

首先是技术底层逻辑的质变。

VLA的核心逻辑,是在传统的视觉和动作之间,插入了一个语言模型(L)。这个简单的插入,却质变了系统的处理方式:它让车辆开始学会像人类司机一样靠“预判与经验”开车,而不是单纯地靠肌肉记忆“背交规”。

在这个架构下,当摄像头看到路边一个穿着反光背心的人挥手,端到端模型可能还要靠海量数据去猜测该不该停,而VLA模型会将画面转译为“前方有施工员指挥交通”,结合内置的驾驶常识进行逻辑推演,再决定减速绕行。

简言之,传统端到端只有见过的场景才会;VLA这样的端到端,靠语言常识,没见过的场景也能推理。很显然,这种从“直觉”到“认知”的跃升,正是解决当下长尾问题的钥匙。

其次是商业落地的现实倒逼。

随着L2+辅助驾驶在量产车上的全面普及和下放,单纯的功能比拼已经到了尽头,头部企业原本引以为傲的差异化优势正被快速抹平。如今的用户不再满足于“能开”,而是苛刻地要求“好开”。

但在现有的端到端能力下,要解决那最后1%的长尾难题,所需的数据成本和算力成本正呈指数级上升,带来的边际效益却在递减。

对于车企而言,急需一种更具性价比、更泛化的技术方案来突破体验的天花板。而VLA通过引入常识推理,能够用逻辑能力弥补极端数据的不足,无疑是在当下算力与数据边界下,打通体验跃迁的捷径。

更为重要的是,VLA的出现正在重塑L2与L4的行业估值逻辑。过去,辅助驾驶(L2)与完全自动驾驶(L4)被视为两个割裂的市场:L2靠卖车赚钱,L4靠Robotaxi运营赚钱,两者的技术栈也完全不同。

但VLA架构的出现打破了这种割裂:一套具备认知能力的多模态模型,可以同时覆盖量产车和Robotaxi,甚至还能同步泛化到人形机器人等更多终端。这意味着,车企未来可以用同一套技术底座,“通吃”多个万亿级市场。

对于资本市场而言,这不仅极大降低了研发的沉没成本,更让L4的落地时间表从遥遥无期变得清晰可见。

同济大学汽车学院教授朱西产指出,智能驾驶行业已跨越早期认知与市场鸿沟,用户接受度发生了从“可选”到“必选”的转变,当前行业核心挑战已转变为:在用户基础确立后,如何向更高阶的自动驾驶演进并实现盈利。

基于此,《汽车商业评论》认为,VLA的意义,不仅在于它提升了端到端模型的“可解释性”,更在于它为行业找到了一个既能兼顾当下体验,又能通向未来L4的清晰商业闭环。

这才是过去一年,众多头部玩家都积极投身这场VLA竞速的根本原因。

几种路线,谁更接近“未来”

如果说三年前自动驾驶行业还处于Gartner技术曲线的“低谷期”,那么行至2026年,行业的水温已彻底改变。

一场前所未有的资本“回血”与上市潮,正在为此刻的冲刺加注燃料。2月2日,Waymo宣布获得高达160亿美元(约合人民币1110亿元)的战略投资,投后估值逼近万亿大关。

视线转回国内,2025年11月6日,文远知行和小马智行同日登陆港交所,分别成功募集23.9亿港元与77亿港元;随后,希迪自动驾驶也成功上市,成为首家专注商用车智能驾驶的港股公司。此外,滴滴自动驾驶、哈啰Robotaxi也相继完成大额融资。

资本市场的回暖,意味着行业已经熬过了最艰难的“死亡之谷”。

元璟资本管理合伙人刘毅然对此感触颇深:“经历过这一轮行业周期后,如今我们能看到,自动驾驶实际落地效果实现了从量变到质变,技术范式也迎来大幅升级,新的AI框架持续迭代,行业终于迎来了规模最大、爆发力最强、周期最长久的上行周期。”

这一次,不管是投资人、从业者还是普通消费者,都开始相信自动驾驶的落地已成定局,如今只剩时间问题。

但VLA的强势入场,也并不意味着自动驾驶行业就此形成单一技术路径的共识。恰恰相反,在AI大模型赋能下,自动驾驶圈的路线分野比任何时候都要更加激烈且微妙。

目前,行业在“端到端”的大共识下,逐步分化出三个派别:以元戎启行、理想、小鹏为代表的“VLA派”,以华为、蔚来为代表的“世界模型派”,以及Momenta、地平线等供应商的“一段式强化学习端到端”。

这三条路线,不仅是代码架构的不同,更是各家企业对“如何理解世界”的三种回答。

眼下风头最盛的,无疑是VLA路线。这一派别主张,VLA能解决纯端到端“死记硬背”视频片段、缺乏底层逻辑的短板,赋予车辆处理长尾场景的泛化能力。

以元戎启行为例,其能在2025年10月拿下第三方智驾市场近四成的份额,核心就在于这种方案的“可解释性”与“高拟人度”。

更为现实的诱惑在于数据飞轮效应。对于手握巨大用户基盘的主机厂而言,车卖得越多,真实语料和驾驶数据就越多。这种“先落地、再迭代”的战术,能让VLA模型以惊人的速度进化,远比“直指L4”更具现实意义。

然而,在风光的表象之下,VLA的“问题”同样不少。其核心症结就在于:将视觉感知转译为语言,再由语言转译为动作,这中间的“翻译损耗”究竟有多大?

要知道,语言天生存在模糊性,而这对于需要在毫米级空间中做精确运动的汽车而言,是致命的。

“放盐少许”在厨房是艺术,在自动驾驶系统里却是灾难。

在华为智能汽车解决方案BU CEO靳玉志看来,这不仅是画蛇添足,更是舍本逐末,“华为不会走向VLA的路径,这样看似取巧,其实并不是走向真正自动驾驶的路径。华为更看重WA(World Action),中间省掉language这个环节,通过信息输入直接控车”。

因此,面对VLA的“语感”流,华为和蔚来选择了他们认为更硬核的WA(世界模型)路径。在他们看来,VLA依然是基于经验的“概率预测”,而非真正的“因果推演”。

华为提出的“WEWA”架构,旨在构建一个可计算的物理引擎,让智驾系统通过云端模拟数据构建一个“数字孪生世界”,从而实现对真实世界的深度理解。

与VLA的“从数据到决策”不同,WA试图让系统“先理解世界,再作出决策”,这种思路被不少专家视为智驾的“终极答案”。

这种思路的优势在于“可验证性”。通过这种对物理世界的深度建模,车辆做出的决策不再是基于“常识”,而是基于“懂物理”。

但这无疑也是一场豪赌,构建一个高保真的物理世界模型,其训练代价是天文数字,这不是一般玩家玩得起的游戏。

就在VLA与WA激辩正酣之时,Momenta、地平线等供应商的“一段式强化学习端到端”路线,却在悄然攻城略地。

这条路没有那么多花哨的概念,不谈“思维链”,也不谈“物理引擎”,它追求的是极致的“黑盒”直觉。

它是通过海量的数据投喂和强化学习,让模型直接建立从感知到动作的映射,更像是在训练人类的“下意识反应”——老司机在紧急避让时,是不会先背诵物理定律的,肌肉记忆比逻辑推理更快。

Momenta之所以能在2025年拿下61.06%的第三方供应商份额,正是因为这种方案在覆盖多价位区间时,展现出了极高的泛化能力和成本优势。

在《汽车商业评论》看来,这三条路线的本质博弈,实际上是时间与空间的置换:VLA派追求短期未来下的体验极致,世界模型派追求通往L4级的终极安全,而一段式端到端则追求当下的“利益最大化”。

若以2026年为分水岭,局势依然充满变数。但变数之外,更有可能的是三者之间开始呈现“融合进化”的趋势。

有业内专家表示,现在行业仍处于模式的探索期,很多企业大概率不会“一条道走到黑”。

我们越来越多地看到,有的企业利用世界模型生成的高逼真虚拟数据,来反哺VLA的训练;有的尝试在端到端架构中嵌入世界模型模块,以补强长时预测能力。

比如,小鹏就在其最新的VLA 2.0架构中,尝试突破传统VLA依赖语言转译的路径,构建了以物理世界模型为核心的端到端架构,直接实现视觉信号到驾驶动作的生成,从而弥补了早期VLA因语言转译导致的信息损耗、延迟和数据使用效率低的短板。

据介绍,小鹏第二代VLA的突破并非单点能力升级,而是遵循L4能力等于“模型x算力x数据x本体”的规模法则。在保障安全与稳定性的基础上,该系统响应延迟率降低80%,推理效率提升12倍,综合行车效率提升23%。

对此,小鹏汽车通用智能中心负责人刘先明表示:“自动驾驶的本质是AI问题,AI的规模法则同样适用于物理世界模型。”

说白了,大家都在互相抄作业,取长补短。这更像是一场融合进化,而不是单纯的路线淘汰赛。

回看过去几年,从“重地图”到“无图”,从模块化到端到端,行业的风向从未停止过剧烈摇摆。

轻舟智航CEO于骞更是做出预判:“无论是VLA还是世界模型,都不会是自动驾驶的终极答案,未来必有新的技术诞生。”

在探索未来的过程中,技术的演进边界正在从算法层面向整车系统层面延伸。吉利联合千里科技在CES2026上发布的WAM(World Action Model)世界行为模型,便不再局限于单一派别的优劣之争,而是尝试构建一个统一的“整车大脑”。

WAM打破了自动驾驶、座舱、底盘等各个域之间的物理壁垒,试图把“世界模型”的理解力与“VLA”的执行力合二为一。

吉利将其比作“大脑+小脑”的协同:WAM像经验丰富的老教练利用世界模型宏观决策,而车端VLA则像敏捷的小脑负责精准执行。

这种从“算法融合”向“整车系统融合”的跨越,或许不失为一种新的解题思路。但要实现这一步,需要全栈自研的底气与对整车架构的掌控力,这注定并非所有玩家都能走通的路径。

对于大多数企业而言,当下的竞争依然务实且残酷。归根结底,不管技术名词怎么变,有一个硬指标是绕不开的。谁能率先在成本、安全与体验这个“不可能三角”中找到平衡点,谁就能率先定义真正的“未来”。

2026年,通往L4前的落地抢滩

当埃隆·马斯克抛出那句“实现安全无监督自动驾驶需要100亿英里训练数据”时,行业早已不是单纯的算法竞赛,而是一场拼算力、拼数据的“规模战”。

中汽协最新报告显示,2025年前11个月,全国配备城市NOA功能的乘用车销量达312.9万辆,占总上险量的15.1%,较2024年全年提升5.6个百分点。报告预计,到2030年城市NOA将成为辅助驾驶主流功能。2026年,智能驾驶行业将进入普及关键期,面临核心技术攻坚挑战。

很显然,在数据狂欢的背后,是一场关于生存资格的残酷洗牌。谁能更好地服务用户、解决实际问题,谁将在竞争中胜出。

有头部厂商预测,2026年中国具备高阶自动驾驶能力的车型,年销量有望冲击500万台量级。这意味着,无法提供可用城区NOA的车企,将直接失去这块巨大的增量市场。

因此,摆在很多主机厂面前的,是一道残酷的选择题:是死磕自研,还是寻求外供?

从目前来说,在AI大模型的“加持”下,自研的门槛正在被无限拔高。组建团队、训练泛化性强的模型、跑通数据闭环,这不仅是一个漫长的周期,更是一场金钱的马拉松。

有车企透露,仅训练VLA模型所需的算力卡采购,每年就高达数亿元,这还不包括人员薪资与运维开销。

因此,对于大多数腰部车企,甚至部分头部车企来说,与其在自研的无底洞里豪赌,不如拥抱成熟的供应商方案。

像华为、Momenta、地平线、元戎启行等厂商,之所以能在这个阶段拿下大量订单,核心就在于它们不仅能提供不输于自研的算法能力,更能通过极致的工程优化,把高阶自动驾驶打进15万甚至更低价位的车型中。

与此同时,在国际巨头的棋局里,一场关于生态控制权的争夺也悄然改变着战局。2026年CES上,英伟达开源了名为Alpamayo 1的思维链推理VLA模型。这款模型专为增强自动驾驶决策能力设计,可供汽车开发者调优、蒸馏,以成为其完整辅助驾驶技术栈的核心基础。

目前,包括Lucid、捷豹路虎、Uber和伯克利DeepDrive等企业,均展现出对Alpamayo的极高关注,希望开发基于推理的自动驾驶堆栈,以实现L4级自动驾驶。

英伟达的逻辑也十分清晰:通过开源基座模型,让车企能够快速搭建起一套具备“及格线”能力的自动驾驶系统,从而牢牢锁定Thor芯片的算力生态。

对于急于落地、渴望缩短研发周期的车企而言,这无疑是难以拒绝的诱惑,但也意味着在核心技术路径上被供应商深度绑定的风险。

很显然,对于车企而言,2026年的落地策略将不再是简单的技术比拼,而是资源整合与选择的艺术。

头部“新势力”与华为系车企,将继续通过全栈自研掌控数据闭环的每一个环节,以此构建差异化壁垒;而传统转型车企与新晋品牌,则会更多选择“强强联合”——在采购供应商高性价比方案的同时,保留自研团队进行联合调优与数据反哺。

毫无疑问,2026年,自动驾驶行业的较量将前所未有的激烈。这不仅是主机厂自研与供应商方案的PK,也是供应商之间的角逐,更是一场中国自动驾驶军团与特斯拉FSD之间关于速度与极限的全球竞赛。

2026年,这场竞速的“终局预演”,已随着特斯拉FSD的入华提速,从硅谷的测试场直接搬到了中国的城市道路上。

1月23日,马斯克在达沃斯世界经济论坛上公开表态,特斯拉满血版FSD最早将于2月份获得中国监管批准,正式进入中国市场。

尽管当下自动驾驶远未抵达终点,但必须承认,特斯拉依然是目前最接近那个“正确答案”的玩家。

当FSD的公测倒计时已经开启,这场全球竞赛也将从大洋两岸的隔空较量,变成中国城市街头的贴身肉搏,一个无法回避的问题摆在整个行业面前:我们与特斯拉的差距,究竟还有多远?

卓驭CEO沈劭劼在新近一次采访中给出了一个相对量化的行业基准:“我们现在与特斯拉的距离,已经从最初的三年缩短到一年时间。”这意味着,随着技术路线回归同一起跑线,竞争的核心已不再是底层的代差,而是工程落地的效率与数据闭环的转速。

更直观的对比来自2025年底的一场“赌约”。何小鹏在亲身体验了FSD V14之后,与自家自动驾驶负责人刘先明定下赌局:

如果在2026年8月30日,小鹏的VLA模型在国内能达到FSD V14.2在硅谷的运行效果,何小鹏将在硅谷研发中心筹建一座中国风味食堂,若未能实现,刘先明则需在金门大桥裸奔。

这看似是一场充满硅谷极客色彩的戏谑赌约,实则是中美头部玩家在技术认知上的一次正面“对表”。

至于赌约的输赢,何小鹏并没有多费口舌,而是直接在会上向全行业喊话:“车已到门店,欢迎来试,尽管对比!”刘先明也当场表态,称第二代VLA是小鹏在全球自动驾驶元年,给出的“中国答案”。

这并非盲目的乐观,而是基于架构同源后的理性预估。中国拥有全球最复杂、最稠密的交通场景,反而为训练VLA的语言推理能力提供了天然沃土。

在何小鹏看来,在这场科技变革中,中国在政策环境、硬件基础和软件能力等底层条件上都具备非常好的优势,这对走VLA路线的企业是一个巨大的机遇。

基于此,何小鹏给出了一个相当激进的预判:完全自动驾驶将在未来1-3年内完全到来,真正成为人们的日常出行习惯。

而这场竞速,也不再是谁先抵达终局,而是谁先在复杂场景中定义终局。

《汽车商业评论》期待在不久的将来,当一辆中国自动驾驶车能够从容应对全球最复杂的路况,完成一场无接管穿越中国的壮举时,那将不仅是一段物理距离的跨越,更是中国自动驾驶军团真正加冕的时刻。