来源:ArXiv AI 2025-10-03 04:00

打包和强迫您的记忆:长形式和一致的视频生成

视频 强迫 生成 长期 上下文
ARXIV:2510.01784V1公告类型:交叉 摘要:长格式视频生成提出了双重挑战:模型必须捕获长期依赖性,同时防止自回旋解码中固有的误差积累。为了应对这些挑战,我们做出了两项贡献。首先,对于动态上下文建模,我们提出了MemoryPack,MemoryPack是一种可学习的上下文 - 回归机制,它利用文本和图像信息作为全局指导,以共同对短期和长期依赖性建模,实现分钟级的时间一致性。该设计以视频长度优雅地缩放,保留计算效率并保持线性复杂性。其次,为了减轻错误积累,我们引入了直接强迫,这是一种有效的单步近似策略,可改善训练 - 推导对齐方式,从而减少推理过程中的错误传播。 Memory Pack和Direct强迫共同提高了长期视频生成的上下文一致性和可靠性,从而提高了自动回归视频模型的实际可用性。

相关文章推荐

返回首页