project
Lyra 2.0 - 英伟达开源的可探索生成式 3D 世界框架
Lyra 2.0 是 NVIDIA 推出的可探索生成式 3D 世界框架。框架从单张图像出发,结合相机控制视频生成与前馈 3D 重建技术,通过'检索-生成-更新'迭代循环,构建可...
Lyra 2.0是什么
Lyra 2.0 是 NVIDIA 推出的可探索生成式 3D 世界框架。框架从单张图像出发,结合相机控制视频生成与前馈 3D 重建技术,通过”检索-生成-更新”迭代循环,构建可持久漫游的大规模 3D 场景。系统采用每帧独立 3D 几何缓存进行空间记忆检索,引入自增强训练策略抑制时间漂移,实现数百帧长程 3D 一致性生成。Lyra 2.0 生成结果可重建为高保真 3D Gaussian Splatting 与表面网格,直接导出至 NVIDIA Isaac Sim 等物理引擎,为具身智能训练提供可交互的仿真环境。
Lyra 2.0的主要功能
-
长程 3D 一致视频生成:沿用户自定义相机轨迹生成数百帧的漫游视频,支持大视角变化与区域重访。
-
空间记忆检索:基于每帧 3D 几何建立空间缓存,自动检索与目标视角最相关的历史帧作为条件。
-
抗时间漂移生成:通过自增强训练策略,使模型在自回归推理中主动纠正误差累积,保持长期视觉一致性。
-
交互式 3D 探索器:提供 GUI 可视化累积点云,用户可规划轨迹重访已探索区域或进入未观察区域。
-
前馈 3D 重建:将生成视频通过微调的前馈模型重建为高保真 3D Gaussian Splatting 与表面网格。
-
仿真资产导出:支持直接导出至 NVIDIA Isaac Sim 等物理引擎,用于机器人导航与交互训练。
-
加速推理版本:提供基于分布匹配蒸馏的 4 步去噪学生模型,推理速度提升约 13 倍。
Lyra 2.0的技术原理
-
生成式重建范式:结合相机控制视频扩散模型的视觉保真度与前馈 3D 重建技术,将单图+轨迹转化为可实时渲染的 3D 输出。
-
解耦几何路由与外观合成:维护每帧独立 3D 缓存(深度图+点云),仅用于检索历史帧和建立密集 3D 对应关系;实际像素合成仍由视频扩散模型的生成先验完成,避免渲染伪影传播。
-
规范坐标扭曲注入:将检索到的历史帧通过深度前向扭曲至目标视角,生成规范坐标图与深度图,经位置编码和 MLP 处理后注入 DiT 的自注意力层,提供精确几何对齐信号。
-
自增强抗漂移训练:用概率将训练中的历史隐变量加噪并通过单步去噪替换为近似重建,迫使模型在条件不完美时仍能恢复干净目标,缩小训练-推理分布差异。
-
FramePack 上下文压缩:采用可变核 patchification 对时间历史进行压缩,近帧细粒度、远帧粗粒度,在固定 token 预算内扩展有效上下文窗口。
-
微调前馈重建:基于 Depth Anything v3 改进高分辨率下的 Gaussian 预测密度,在 Lyra 2.0 生成数据上微调,提升对生成伪影的鲁棒性。
如何使用Lyra 2.0
-
克隆仓库:从GitHub仓库拉取代码按 README 配置环境依赖。
-
下载模型:从 Hugging Face 或项目页获取 Lyra 2.0 预训练权重。
-
准备输入:提供单张场景图像,可选配文本提示引导生成风格。
-
启动探索器:运行交互式 GUI 加载图像并规划相机漫游轨迹。
-
迭代生成:系统自动检索空间记忆中的相关历史帧并逐段生成长程视频。
-
重建 3D:调用微调的前馈模型将视频序列转为 3D Gaussian Splatting。
-
提取网格:运行脚本输出表面 Mesh,支持分层稀疏网格提取。
-
导出部署:将 3D 资产导入 NVIDIA Isaac Sim 等物理引擎进行具身智能训练。
Lyra 2.0的关键信息和使用要求
- 项目定位:NVIDIA 推出的开源可探索生成式 3D 世界框架,支持从单张图像迭代构建持久、可漫游的大规模 3D 场景。
- 核心技术:基于 Wan 2.1 VAE + DiT 的视频扩散模型,采用”检索-生成-更新”自回归循环;通过每帧独立 3D 几何缓存解决空间遗忘,通过自增强训练抑制时间漂移。
- 输入输出:输入为单张 RGB 图像 + 可选文本提示 + 相机轨迹;输出为长程相机控制视频,可进一步重建为 3D Gaussian Splatting 与表面网格,支持导出至物理引擎。
- 性能优化:提供基于分布匹配蒸馏的 4 步加速模型,推理速度提升约 13 倍。
- 硬件环境:需配备 NVIDIA GPU(推荐高显存显卡以支持长视频生成与 3D 重建),CUDA 环境必备。
- 软件依赖:PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB 等,具体版本以仓库
requirements.txt为准。
Lyra 2.0的核心优势
-
全局空间持久性:通过独立每帧几何缓存与可见性检索,解决长程生成中的空间遗忘问题,重访区域保持结构一致。
-
长期视觉稳定性:自增强训练有效抑制自回归误差累积,相比基线显著减少颜色漂移与几何畸变。
-
高质量 3D 输出:前馈重建模型针对生成数据微调,容忍轻微多视图不一致,产出干净连贯的 3DGS 与网格。
-
交互可控:用户可实时规划任意长相机轨迹,系统渐进式扩展场景,非一次性黑盒生成。
Lyra 2.0的项目地址
- 项目官网:https://research.nvidia.com/labs/sil/projects/lyra2/
- GitHub仓库:https://github.com/nv-tlabs/lyra
- HuggingFace模型库:https://huggingface.co/nvidia/Lyra-2.0
- arXiv技术论文:https://arxiv.org/pdf/2604.13036
Lyra 2.0的同类竞品对比
| 维度 | Lyra 2.0 | GEN3C | Wonderland |
|---|---|---|---|
| 技术路线 | 视频生成 + 前馈 3D 重建,解耦几何路由与外观合成 | 视频生成 + 全局 3D 表示条件生成,紧耦合设计 | 相机控制视频扩散 + 专用前馈网络预测 3DGS |
| 记忆机制 | 每帧独立 3D 缓存,仅用于信息路由与对应关系建立 | 累积全局点云/深度渲染图作为生成条件 | 无显式空间记忆,依赖视频模型自身时间上下文 |
| 长程一致性 | 支持数百帧大视角变化与区域重访,抗时间漂移 | 受限于全局 3D 表示质量,误差易放大 | 视角覆盖有限,长程一致性未重点解决 |
| 交互方式 | 显式相机轨迹规划 + 可选文本提示 | 显式相机轨迹 + 3D 条件 | 显式相机轨迹控制 |
| 输出格式 | 3D Gaussian Splatting + 表面网格,支持物理引擎导出 | 视频与 3D 输出 | 3D Gaussian Splatting |
| 训练数据 | DL3DV 真实场景长视频,自增强策略 | 未公开详细训练方案 | 未公开详细训练方案 |
| 推理效率 | 提供 4 步蒸馏模型,速度提升 13 倍 | 标准扩散采样 | 标准扩散采样 |
Lyra 2.0的应用场景
-
具身智能仿真:为机器人训练生成可交互的 3D 室内/室外环境,替代高成本真实场景采集。
-
虚拟世界构建:从单张概念图快速生成可漫游的游戏关卡或元宇宙场景原型。
-
建筑与室内设计:基于平面图或效果图生成 3D walkthrough,支持客户沉浸式预览空间布局。
-
影视预演制作:为导演提供从静态概念图到动态场景漫游的快速可视化方案。