project
StoryMem - 字节联合南洋理工推出的视频生成框架
StoryMem 是字节跳动与南洋理工大学联合发布的开源视频生成框架,解决 AI 视频生成中长期存在的跨镜头一致性问题。通过显式视觉记忆机制,将单镜头视频扩散模...
StoryMem是什么
StoryMem 是字节跳动与南洋理工大学联合发布的开源视频生成框架,解决 AI 视频生成中长期存在的跨镜头一致性问题。通过显式视觉记忆机制,将单镜头视频扩散模型转化为多镜头叙事工具。核心是 Memory-to-Video(M2V)模块,通过维护动态更新的关键帧记忆库,将记忆注入到单镜头模型中,确保跨镜头一致性。
StoryMem的主要功能
-
多镜头长视频生成:能生成连贯的多镜头长视频故事,支持跨多个场景的叙事,保持角色和场景元素的一致性。
-
动态记忆机制:通过维护关键帧记忆库,将记忆注入到单镜头视频扩散模型中,确保视频在长时间跨度内保持逻辑和视觉上的连贯性。
-
电影级画质与高美学质量:继承了单镜头视频生成模型的高画质和美学特性,保持对用户提示词的精准理解和遵循。
-
灵活的镜头控制与过渡:支持镜头级别的控制,能实现平滑的镜头过渡和定制化的叙事应用。
-
跨镜头一致性优化:在多镜头视频生成中,显著提升了跨镜头的一致性,相比其他方法有明显优势。
-
定制化故事生成:允许用户通过参考图像作为初始记忆,生成符合特定需求的定制化故事。
StoryMem的技术原理
-
记忆库维护:系统在生成首个镜头后,会提取关键帧信息存入动态记忆库,用于后续镜头生成时的参考。
-
Memory-to-Video(M2V)模块:将记忆库中的视觉特征注入到单镜头视频扩散模型中,通过潜在空间拼接和负RoPE偏移实现记忆与生成内容的融合。
-
语义关键帧选择策略:在生成每个镜头后,通过语义关键帧选择策略和美学偏好过滤,获取信息丰富且可靠的记忆帧,以实现长期跨镜头一致性。
-
迭代镜头合成:通过迭代生成镜头并动态更新记忆库,逐步构建出连贯的长视频故事。
-
轻量级LoRA微调:仅通过LoRA(Low-Rank Adaptation)微调,即可将预训练的单镜头视频扩散模型转化为多镜头叙事工具。
StoryMem的项目地址
- 项目官网:https://kevin-thu.github.io/StoryMem/
- Github仓库:https://github.com/Kevin-thu/StoryMem
- Huggingface模型库:https://huggingface.co/Kevin-thu/StoryMem
- arXiv技术论文:https://arxiv.org/pdf/2512.19539
StoryMem的应用场景
-
广告营销:快速生成连贯的广告视频,降低故事板可视化的成本,提升广告内容的创意和吸引力。
-
影视制作:为独立创作者和小型影视团队提供高效生成连贯叙事短片的技术支持,加速创作流程。
-
内容创作:帮助视频创作者在短时间内生成高质量的叙事视频,提升内容创作的效率和多样性。
-
教育与培训:生成具有教育意义的视频故事,用于教学和培训场景,增强学习的趣味性和互动性。
-
娱乐与游戏:为游戏开发者和娱乐行业提供定制化的故事生成工具,丰富游戏剧情和娱乐内容。
-
社交媒体:为社交媒体创作者提供快速生成吸引人的视频故事的工具,增加内容的传播力和用户参与度。