谷歌DeepMind深夜放核弹:世界模型Genie 3登场,重新定义“生成式AI”
4 天前 / 阅读约2分钟
来源:凤凰网

刚刚谷歌 DeepMind 宣布推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多样化交互式环境,给出文本提示,Genie 3 可以生成动态世界,可以以每秒 24 帧的速度实时导航,并以 720p 的分辨率保持几分钟的一致性

Genie 3将首先以有限研究预览的形式,向一小部分学者和创作者开放 Genie 3,以收集关键反馈

Genie 3 的突破

DeepMind 在模拟环境领域已有十余年的深厚积累。从训练能玩转即时战略游戏的 AI,到为机器人开发开放式学习环境,这些研究都指向了一个共同的目标:构建强大的世界模型。

与前代模型(如 Genie 1/2)和视频生成模型(如 Veo 2,Veo 3对直觉物理学的深刻理解)相比,Genie 3 是第一个允许实时交互的世界模型,同时与 Genie 2 相比,其一致性和真实感也得到了提升

特性

Genie 2

Veo

Genie 3
分辨率

360p

720p 至 4K

720p
领域

3D 环境

通用

通用
控制方式

有限键盘/鼠标

视频级描述

实时导航;可提示的世界事件
互动时长

10-20 秒

8 秒

数分钟
互动延迟

非实时

不适用

实时

核心能力