苹果研究团队开发出适配版SlowFast-LLaVA模型,该模型采用双流架构优化视频处理,在长视频分析理解任务上表现超越更大规模模型。其10亿、30亿和70亿参数版本在长视频基准测试中均创佳绩,但输入帧长限制为128帧。团队计划探索内存优化技术以提升性能,并已开源该模型。