李飞飞的世界模型宣言
14 小时前 / 阅读约9分钟
来源:36kr
李飞飞博客探讨AI世界模型,指出其需理解物理规律。她拆解出渲染器、模拟器、规划器三大支柱,并认为模拟器是核心枢纽。未来模型将统一,实现视觉与物理无缝切换。

“世界即所发生的一切。”

1921年,路德维希·维特根斯坦在《逻辑哲学论》中写下了这句名言。一个世纪后,这句话被AI领军人物之一李飞飞引用,成为了最新一篇技术博客的开篇。

在深度学习的版图里,人们近三年已经习惯了AI对语言的降维打击,始于ChatGPT赋予了机器远超人类的表达、编程和推理能力。

然而,数字奇迹的背后,一个盲区往往会被忽视:机器能谈论世界,却对世界的物理本质一无所知。李飞飞发布的这篇博客,像是一次冷静的降温。

在生成式AI已经成为全球必不可少的工具的今天,行业内部对“世界模型”的定义正在变得越来越混乱。无论是视频生成还是具身智能,各家公司都在争夺这一概念的解释权。

在李飞飞发布这篇博客之后,不少人都认为她在试图重新抢回“世界模型”的定义权。但恰恰相反,我想,李飞飞真正想要做的,是借此向人们发出一次宣言:世界并非由语言构成,而是由严密的物理空间和时间规律构成。

机器要想真正踏入人类的物理世界,就必须摆脱文本统计的舒适区,转而理解光影的折射、物体的惯性和碰撞的逻辑。这不仅是技术上的范式转移,也是AI迈向具身智能的必经之路。

01

人们需要一套分类法

必须承认的是,在AI的词典里,“世界模型”已经沦为一个万能代词,任何涉及到生成图像和模拟环境的项目似乎都能与它联系起来。而这种模糊性,正是源自于人们对“世界”定义的多维需求。

在一项技术刚刚起步时,自然不会有统一的法条来将它束缚在一个明确的界限之内。“世界模型”定义的这种混乱,在历史上也并不罕见。古希腊哲学家在争论世界的本质是水、火亦或是不可分割的原子时,其实他们就是在为自己的推理找基石。

AI领域现在遇到的也是同样的问题:当一个视频生成模型产出的效果在视觉上极其逼真,但在物理法则上完全不可能存在时,人们该如何定义它?李飞飞的博客中提及了一个古老而稳健的定义基础:部分可观测马尔可夫决策过程(POMDP)。

这也是强化学习机制的核心公理,它揭示了一个智能体与物理世界交互的永恒闭环:智能体采取行动(Action),导致世界状态(State)发生改变。然而,智能体没有上帝视角,只能通过观测(Observation)来构建对现实的局部感知。

所谓世界模型,本质上就是机器为了在这个闭环中生存,而在其“大脑”中构建的关于世界的抽象模型。如果这个闭环的某一环没有被明确定义,那么所谓的世界模型就仍然是像素的盲目堆叠。

02

构建智能的三大支柱

这个闭环听起来很简单,每一环的功能都易于理解。然而,若是仔细分析,内部都有无数个定义模糊不清的细节。为了解释其中的混乱,李飞飞拆解出了世界模型的三个核心组件,它们既是技术上的分类,也是AI通往具身智能的三大支柱。

1.渲染器(Renderer)

渲染器的核心逻辑就是视觉上的合理性。它的输出即为像素,致力于让画面在人类眼中显得自然、连贯、美观。

这也是目前商业化最成熟的领域。像是我们熟知的视频生成模型OpenAI的Sora和字节跳动的Seedance 2.0、图像生成模型OpenAI的GPT-image-2和Google的Nano Banana 2,本质上都是目前最精密的视觉概率机器。它们通过学习数以亿计的互联网图片和视频,最终掌握了光影和形态的分布规律。

看似美好的现实,李飞飞却指出,这是有代价的。这些顶级模型虽然能生成华丽的建筑,但如果试图在其生成的物理结构中进行交互,建筑大概率会因为缺乏支撑结构而瞬间坍塌。换句话说,它们并不理解何为“支撑”,生成的也只是观众“看到”的样子,而不是世界“存在”的样子。

2.模拟器(Simulator)

模拟器追求的,正是渲染器缺乏的结构忠诚度。它对视频好不好看完全不关心,唯一在乎的只有世界是否遵循物理规律。当一个模拟器输出一个再常见不过的杯子时,也必须包含杯子的质量分布、材质摩擦系数、重力响应以及碰撞时的物理边界。

有了模拟器,视频中的内容才有真实性可言。然而,模拟器在如今的AI浪潮中不仅被严重低估,还经常被无视。

从上面这个杯子的案例来看,模拟器的存在让“讨论艺术”变成了“研究物理”。要构造一个严格符合物理规律的模拟器,需要的计算资源和标注成本都是难以想象的。但对于机器人来说,视觉美观几乎是一个无用属性,物理精度才能决定一切。

模拟器不够精确,在其中训练的机器人就永远无法进入现实世界。Sim-to-Real挑战是客观存在的,实验室里100%通过的测试动作,到了现实世界,微小的摩擦力就能让机器人彻底瘫痪,这就是我们常说的“莫拉维克悖论”。

3.规划器(Planner)

规划器负责的是行动输出。作为感知和反馈的连接点,它需要解决“下一步该做什么”这个永远没有标准答案的核心问题。在李飞飞的框架中,这也是整个“感知-行动”闭环的最后一个环节,同时也是最具前沿挑战的领域。

目前所有的视觉-语言-动作(VLA)模型,都在尝试让系统在非结构化的复杂世界中做出决策。规划器不仅仅是预测未来,更是在无数种可能性中选择出一条最能达成目标的路径。它是机器从“观察者”进化为“实践者”的关键。

03

千亿美金的枢纽

在李飞飞给出的三个分类中,渲染器和规划器对应的模型已经比较常见;剩下的模拟器,理所当然地成为了最难实现的环节。李飞飞也给出了一个极具洞察力的判断:模拟器是连接渲染与规划的纽带,也是整个体系的核心枢纽。

在模拟器这一领域上做的最出色的,不是OpenAI、Anthropic和Google,而是黄仁勋的NVIDIA。

英伟达的Omniverse宣称能够支撑起万亿级的数字孪生梦想,原因就是它掌握了模拟器的本质。在英伟达的平台上,工厂、供应链和仓库的运作都已经变成完整的数字镜像。对于工业界而言,这就不再是视觉上的demo演示,而是生产力的核心基础设施。

这并非夸大其词,而是摆在所有人眼前的万亿市场的机会。

从建筑工程的虚拟可视化,到制药行业的分子动力学模拟,再到自动驾驶的场景测试。这些行业缺乏的不是栩栩如生的生图生视频模型,而是一个极高保真的模拟器。不夸张地说,掌握了物理世界的模拟能力,就等于掌握了AI工业化的优先入场券。

但现实中的困难使得这个领域几乎没有技术乐观主义者。李飞飞也坦言,巨大的鸿沟始终存在。

首先就是我们此前反复提及过的具身智能数据问题。互联网上的视频数据数不胜数,但带有明确几何结构、材料属性和物理反馈标注的3D数据却极度稀缺。

其次,生成式AI的应用永远会伴随着隐形风险。AI生成的几何模型最多只能做到视觉上的完美,但在物理结构上往往是不合理的,比如杯子与桌面的相交、物体碰撞失去体积感。在人类口中,短短两个字“穿模”就可以概括这些诡异的现象,但在真实的工业应用中,这就意味着灾难。

04

通向统一世界模型

纵使困难重重,李飞飞还是给出了对行业趋势的积极预判:渲染、模拟与规划之间的界限正在变得模糊不清。

这不是美好的远景,而是已经在发生的现实。李飞飞的World Labs团队经过探索,认为人类已经在迈向一个统一的基础模型。在这个架构中,想象力和逻辑能够合二为一。

未来的模型不再是单一功能的叠加和拼凑,而是一个统一的神经网络基础。它能一边通过高斯溅射渲染出逼真的场景,一边实时生成物理引擎所需的碰撞网格。简单来说,统一基础模型将会在人类所需的视觉模式和物理引擎所需的状态模式之间实现无缝切换。

从另一个角度来看,传统的模型都是静态的,而未来的世界模型将具备更强大的可交互性。渲染器将不再是被动的视频生成器,逐渐开始接受行动指令;模拟器变得更加可编辑和可控;规划器也能进行逻辑思考,根据环境变化自动调整策略。

05

空间智能的漫长弧线

最后,回到宏观层面来看,有关“世界模型”的这一切为什么重要?

在李飞飞看来,人类过去几十年的AI研究,都一直在寻找那一把能让机器走入物理世界的钥匙。如今,我们已经拥有善于处理逻辑的语言模型,接下来需要的就是处理空间的模型。空间智能的核心,就在于机器如何与其所处的物理世界进行交互。

这场仗,比的不是谁拥有更多的算力,而是谁能定义物理世界的数字标准。

世界模型绝不是一场简单的算法优化,而是一次AI进化的壮举。

“语言赋予了机器谈论这个世界的能力,而世界模型则是机器最终理解、想象、推理并与物理世界交互的方式。”

这个时代的每一个人,都在从谈论世界的阶段,走向真正理解并重构世界的新纪元。

尽管如此,世界模型也只是通往AGI道路上的一个中间节点,而人类创造出的AI离真正意义上的“世界模型”也还有很长的距离。在这里,另一位世界模型的领军人物杨立昆略显偏激的观点值得分享:

乐观来看,至少还要五到十年,机器的智能才能勉强接近一只小狗。