刚刚谷歌 DeepMind 宣布推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多样化交互式环境,给出文本提示,Genie 3 可以生成动态世界,可以以每秒 24 帧的速度实时导航,并以 720p 的分辨率保持几分钟的一致性
Genie 3将首先以有限研究预览的形式,向一小部分学者和创作者开放 Genie 3,以收集关键反馈
Genie 3 的突破
DeepMind 在模拟环境领域已有十余年的深厚积累。从训练能玩转即时战略游戏的 AI,到为机器人开发开放式学习环境,这些研究都指向了一个共同的目标:构建强大的世界模型。
与前代模型(如 Genie 1/2)和视频生成模型(如 Veo 2,Veo 3对直觉物理学的深刻理解)相比,Genie 3 是第一个允许实时交互的世界模型,同时与 Genie 2 相比,其一致性和真实感也得到了提升
特性 |
Genie 2 |
Veo |
Genie 3 |
---|---|---|---|
分辨率 | 360p |
720p 至 4K |
720p |
领域 | 3D 环境 |
通用 |
通用 |
控制方式 | 有限键盘/鼠标 |
视频级描述 |
实时导航;可提示的世界事件 |
互动时长 | 10-20 秒 |
8 秒 |
数分钟 |
互动延迟 | 非实时 |
不适用 |
实时 |
核心能力