3 月 22 日,UT 奥斯丁等机构在 arXiv 上发表论文,提出了一种 AI 视频生成技术 StreamingT2V,可以生成高度一致、长度可扩展的视频。据介绍,StreamingT2V 能够生成 1200 帧、时长 120 秒的长视频,且理论上可以生成无限长的视频。该方法的核心架构有 3 个部分,包括一个短期记忆单元、一个长期记忆单元以及一种随机混合技术,分别用于保持视频连贯性、防止遗忘以及避免不协调。 论文地址: https://arxiv.org/abs/2403.14773