
编辑|泽南、杨文
AI 视频生成,卡在长视频这道坎上太久了。
过去一年,视频生成赛道动作频频。谷歌推出 Veo 系列,并在今年 I/O 大会发布新一代多模态视频生成与编辑模型 Gemini Omni Flash;字节的 Seedance2.0、快手可灵、阿里的欢乐马也一次又一次,打破了我们的预期。
各家模型生成的画面一个比一个好看,只可惜时长大多不超过 20 秒。一旦把视频拉长到分钟级,麻烦就来了,要么是同一角色跨镜头后面目全非,要么是说着说着声音变了或没了;想改一个镜头,整条视频还得重新生成……
正因如此,AI 长视频难以真正进入专业内容生产的工作流。
最近,一项开源的新技术却向我们展示了一幅完全不同的图景。
先来看个 case。
