project
VerseCrafter - 复旦联合腾讯开源的动态真实视频世界模型
VerseCrafter 是复旦大学与腾讯 PCG ARC Lab 等机构推出的动态真实视频世界模型,具备 4D 几何控制能力。模型基于大规模真实世界数据集 VerseControl4D 训练...
VerseCrafter是什么
VerseCrafter 是复旦大学与腾讯 PCG ARC Lab 等机构推出的动态真实视频世界模型,具备 4D 几何控制能力。模型基于大规模真实世界数据集 VerseControl4D 训练,能处理复杂动态场景,保持强时空一致性。用户能指定相机轨迹和目标轨迹,生成高质量、几何一致的视频。模型能在视频生成、虚拟现实和游戏开发等领域具有广阔的应用前景。
VerseCrafter的主要功能
-
4D几何控制:用户能通过指定相机轨迹和多目标的3D高斯轨迹,实现对视频中视角和物体运动的精确控制。
-
灵活的控制模式:模型支持相机单独控制、目标单独控制及相机与目标的联合控制,满足不同场景需求。
-
高质量视频生成:在保持视频真实感的同时,确保生成视频的几何一致性,避免失真。
-
多视角一致性:模型能从不同视角生成一致的视频内容,适用多人交互场景。
-
大规模数据支持:基于VerseControl4D数据集训练,涵盖动态和静态场景,提升模型的泛化能力。
VerseCrafter的技术原理
- 冻结的Wan2.1主干网络:模型采用预训练的Wan2.1作为基础模型,保持强大的视频生成能力和泛化能力,同时在Wan2.1基础上注入几何控制信号。
- GeoAdapter:一个轻量级的几何适配器,将4D控制信号(相机轨迹和3D高斯轨迹)编码为多通道地图,注入到Wan2.1的扩散块中,实现精确控制。
- 4D控制信号渲染:将相机轨迹和目标轨迹渲染为背景RGB/深度图和3D高斯轨迹图,作为条件信号输入到生成模型中。
- VerseControl4D数据集:通过大规模真实世界视频数据,提取相机轨迹和目标轨迹,为模型训练提供丰富的几何监督,支持动态和静态场景的生成。
VerseCrafter的项目地址
- 项目官网:https://sixiaozheng.github.io/VerseCrafter_page/
- GitHub仓库:https://github.com/TencentARC/VerseCrafter
- HuggingFace模型库:https://huggingface.co/TencentARC/VerseCrafter
- arXiv技术论文:https://arxiv.org/pdf/2601.05138
VerseCrafter的应用场景
- 虚拟现实(VR)和增强现实(AR):VerseCrafter 可构建沉浸式虚拟世界,支持用户通过相机和物体运动控制实时探索场景,提升交互体验。
- 游戏开发:为游戏生成动态背景和物体运动,优化视角切换和渲染效果,降低开发成本。
- 视频内容创作:创作者用 VerseCrafter 快速生成高质量动态视频,满足广告、电影和动画制作中的创意需求。
- 教育与培训:VerseCrafter 能创建逼真的虚拟教学场景,如历史重现和科学实验模拟,提升学生的学习兴趣和参与度。
- 娱乐与媒体:用于开发互动式视频内容,如选择式剧情视频,观众可通过控制视角和物体运动改变故事走向。