project
Xiaomi Auto World Model - 小米推出的辅助驾驶世界模型
Xiaomi Auto World Model 是小米汽车推出的辅助驾驶世界模型,首次将三维重建(WorldRec)与视频生成(WorldGen)深度耦合。
Xiaomi Auto World Model是什么
Xiaomi Auto World Model 是小米汽车推出的辅助驾驶世界模型,首次将三维重建(WorldRec)与视频生成(WorldGen)深度耦合。WorldRec 用稀疏 3D 锚点实现 10 秒视频 10 秒快速重建,WorldGen 通过两阶段训练与 ODE 蒸馏实现 4 步去噪、0.19 秒/帧生成,支持最长 1 分钟视频。在 Waymo 重建精度(PSNR 28.48)与 nuScenes 生成质量(FVD 64.97)上均达 SOTA,已落地合成数据、仿真测试、辅助驾驶学堂三大业务场景。
Xiaomi Auto World Model的主要功能
-
WorldRec 三维重建模块:采用稀疏 3D 查询锚点替代传统稠密高斯,实现多视角多时刻特征聚合与可见性加权融合,10 秒视频重建仅需 10 秒,消除多视角冲突与鬼影问题。
-
WorldGen 视频生成模块:基于全双向时序注意力预训练+因果微调两阶段训练,通过 ODE 蒸馏将去噪步数从 50 步压缩至 4 步,0.19 秒/帧生成未来帧、未观测视角与遮挡区内容,支持最长 81 帧(约 1 分钟)连续生成。
-
重建-生成深度耦合:重建侧提供 3D 几何先验约束生成稳定性,生成侧扩展重建边界至未观测时空区域,两者互相校正抑制长时序漂移。
-
极端场景生成:支持暴雨、大雪、浓雾等极端天气及动物闯入等长尾危险场景的高质量合成,为感知模型训练提供稀缺数据。
-
三大业务落地:合成数据生成(已交付 10 万+ clips)、闭环仿真测试(复现真实事故定向优化)、辅助驾驶学堂(动态生成第一人称驾驶教学视频)。
Xiaomi Auto World Model的技术原理
-
WorldRec 稀疏锚点表征:摒弃逐像素预测高斯范式,改用稀疏三维查询点作为场景表征,每个锚点主动聚合多相机多时刻特征,通过可见性加权自动筛选可靠观测,从源头保证跨视角一致性。
-
4D Gaussian 全局表示:维护随观测增量扩展的 4D 高斯场景表示,投影到自车视角后作为渲染先验输入生成模型,为生成提供确定性几何约束。
-
WorldGen 两阶段训练:第一阶段全双向时序注意力预训练建立驾驶场景时空全局理解;第二阶段因果注意力微调+教师强制(Teacher Forcing),配合 ODE 蒸馏提速 12 倍,分布匹配蒸馏解决暴露偏差。
-
重建-生成闭环约束:重建的确定性几何先验持续校正生成过程,生成补全重建覆盖不到的时空区域,两者目标函数在结构上互相约束,实现高稳定性、高一致性、高真实性。
如何使用Xiaomi Auto World Model
-
上线平台:已上线小米全车型的「辅助驾驶学堂 – 实景模拟场景」。
-
使用条件:需拥有小米汽车(SU7 等车型),在车载系统中进入辅助驾驶学堂模块。
Xiaomi Auto World Model的核心优势
-
SOTA 性能:Waymo 重建 PSNR 28.48(超 DGGT 约 1 个点),nuScenes 零样本泛化 PSNR 26.54 同样领先;生成侧 FVD 64.97 超越所有双向与自回归基线模型。
-
极速推理:单视角生成 0.19 秒/帧,三视角 0.46 秒/帧,较同类自回归方法 Epona(1.06 秒/帧)快 5.6 倍。
-
超长时序:支持 81 帧连续生成(10Hz/30Hz,最长 1 分钟),远超公开基线模型的 8-16 帧限制。
-
零样本泛化:nuScenes 零样本测试仍保持领先,证明对新场景具备强适应能力。
-
已落地生产:已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务闭环。
Xiaomi Auto World Model的项目地址
- 项目官网:https://JointWM.github.io/
- arXiv技术论文:https://arxiv.org/pdf/2605.18137
Xiaomi Auto World Model的同类竞品对比
| 对比维度 | Xiaomi Auto World Model | Waymo World Model |
|---|---|---|
| 所属公司 | 小米汽车 | Waymo(Alphabet/Google) |
| 发布时间 | 2026年5月 | 2026年2月 |
| 技术路线 | 重建+生成深度耦合一体化架构(WorldRec + WorldGen 互相约束) | 基于 Genie 3 的生成式世界模型(纯生成路线,后训练适配驾驶场景) |
| 重建模块 | WorldRec:稀疏 3D 锚点表征,10秒视频10秒重建,PSNR 28.48(Waymo数据集) | 无独立重建模块,依赖 Genie 3 的预训练世界知识生成全场景 |
| 生成模块 | WorldGen:4步去噪,0.19秒/帧,支持81帧(~1分钟)连续生成 | 基于 Genie 3 生成,支持多传感器输出(相机+LiDAR),可模拟极端场景 |
| 架构特点 | 重建给生成”打地基”(几何约束),生成给重建”扩边界”(补全未观测区域) | 纯生成式,通过语言/动作/场景布局三种控制机制调整模拟 |
| 传感器支持 | 主要面向相机数据(多视角图像输入) | 相机 + LiDAR 多传感器输出,可将普通行车记录仪视频转为多传感器模拟数据 |
| 基准测试 | Waymo PSNR 28.48(超DGGT约1个点);nuScenes FVD 64.97,FID 7.04 | 未公开具体量化指标,强调可模拟”从未见过”的长尾场景 |
| 生成速度 | 单视角 0.19秒/帧,三视角 0.46秒/帧 | 未公开具体推理速度,强调”可扩展推理”与高效变体 |
| 最大生成时长 | 81帧(10Hz/30Hz,最长约1分钟) | 未明确公开,Genie 3 原生支持数分钟级别一致生成 |
| 极端场景能力 | 暴雨、大雪、浓雾、动物闯入等长尾场景生成 | 龙卷风、洪水、积雪金门大桥、大象/狮子等罕见物体、 reckless driver 等 |
| 业务落地 | 已落地三大场景:合成数据(10万+ clips)、仿真测试、辅助驾驶学堂 | 用于 Waymo Driver 训练与验证,支撑 robotaxi 扩张(2026年目标100万周订单) |
Xiaomi Auto World Model的应用场景
-
合成数据生成:为辅助驾驶感知模型训练提供高质量、高多样性、高危险性的长尾场景合成数据,解决真实世界中稀缺场景样本不足问题。
-
仿真测试:构建闭环仿真环境,复现真实事故场景进行定向优化,提升测试效率与完备性,降低实车测试成本与风险。
-
辅助驾驶学堂:在智能座舱中动态生成第一人称驾驶教学视频,针对复杂路况向用户展示正确操作,提升人机共驾安全性与用户体验。