Xiaomi Auto World Model - 小米推出的辅助驾驶世界模型 - AiBoss

Xiaomi Auto World Model是什么

Xiaomi Auto World Model 是小米汽车推出的辅助驾驶世界模型，首次将三维重建（WorldRec）与视频生成（WorldGen）深度耦合。WorldRec 用稀疏 3D 锚点实现 10 秒视频 10 秒快速重建，WorldGen 通过两阶段训练与 ODE 蒸馏实现 4 步去噪、0.19 秒/帧生成，支持最长 1 分钟视频。在 Waymo 重建精度（PSNR 28.48）与 nuScenes 生成质量（FVD 64.97）上均达 SOTA，已落地合成数据、仿真测试、辅助驾驶学堂三大业务场景。

Xiaomi Auto World Model的主要功能

WorldRec 三维重建模块：采用稀疏 3D 查询锚点替代传统稠密高斯，实现多视角多时刻特征聚合与可见性加权融合，10 秒视频重建仅需 10 秒，消除多视角冲突与鬼影问题。
WorldGen 视频生成模块：基于全双向时序注意力预训练+因果微调两阶段训练，通过 ODE 蒸馏将去噪步数从 50 步压缩至 4 步，0.19 秒/帧生成未来帧、未观测视角与遮挡区内容，支持最长 81 帧（约 1 分钟）连续生成。
重建-生成深度耦合：重建侧提供 3D 几何先验约束生成稳定性，生成侧扩展重建边界至未观测时空区域，两者互相校正抑制长时序漂移。
极端场景生成：支持暴雨、大雪、浓雾等极端天气及动物闯入等长尾危险场景的高质量合成，为感知模型训练提供稀缺数据。
三大业务落地：合成数据生成（已交付 10 万+ clips）、闭环仿真测试（复现真实事故定向优化）、辅助驾驶学堂（动态生成第一人称驾驶教学视频）。

Xiaomi Auto World Model的技术原理

WorldRec 稀疏锚点表征：摒弃逐像素预测高斯范式，改用稀疏三维查询点作为场景表征，每个锚点主动聚合多相机多时刻特征，通过可见性加权自动筛选可靠观测，从源头保证跨视角一致性。
4D Gaussian 全局表示：维护随观测增量扩展的 4D 高斯场景表示，投影到自车视角后作为渲染先验输入生成模型，为生成提供确定性几何约束。
WorldGen 两阶段训练：第一阶段全双向时序注意力预训练建立驾驶场景时空全局理解；第二阶段因果注意力微调+教师强制（Teacher Forcing），配合 ODE 蒸馏提速 12 倍，分布匹配蒸馏解决暴露偏差。
重建-生成闭环约束：重建的确定性几何先验持续校正生成过程，生成补全重建覆盖不到的时空区域，两者目标函数在结构上互相约束，实现高稳定性、高一致性、高真实性。

如何使用Xiaomi Auto World Model

上线平台：已上线小米全车型的「辅助驾驶学堂 – 实景模拟场景」。
使用条件：需拥有小米汽车（SU7 等车型），在车载系统中进入辅助驾驶学堂模块。

Xiaomi Auto World Model的核心优势

SOTA 性能：Waymo 重建 PSNR 28.48（超 DGGT 约 1 个点），nuScenes 零样本泛化 PSNR 26.54 同样领先；生成侧 FVD 64.97 超越所有双向与自回归基线模型。
极速推理：单视角生成 0.19 秒/帧，三视角 0.46 秒/帧，较同类自回归方法 Epona（1.06 秒/帧）快 5.6 倍。
超长时序：支持 81 帧连续生成（10Hz/30Hz，最长 1 分钟），远超公开基线模型的 8-16 帧限制。
零样本泛化：nuScenes 零样本测试仍保持领先，证明对新场景具备强适应能力。
已落地生产：已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务闭环。

Xiaomi Auto World Model的项目地址

项目官网：https://JointWM.github.io/
arXiv技术论文：https://arxiv.org/pdf/2605.18137

Xiaomi Auto World Model的同类竞品对比

对比维度	Xiaomi Auto World Model	Waymo World Model
所属公司	小米汽车	Waymo（Alphabet/Google）
发布时间	2026年5月	2026年2月
技术路线	重建+生成深度耦合一体化架构（WorldRec + WorldGen 互相约束）	基于 Genie 3 的生成式世界模型（纯生成路线，后训练适配驾驶场景）
重建模块	WorldRec：稀疏 3D 锚点表征，10秒视频10秒重建，PSNR 28.48（Waymo数据集）	无独立重建模块，依赖 Genie 3 的预训练世界知识生成全场景
生成模块	WorldGen：4步去噪，0.19秒/帧，支持81帧（~1分钟）连续生成	基于 Genie 3 生成，支持多传感器输出（相机+LiDAR），可模拟极端场景
架构特点	重建给生成”打地基”（几何约束），生成给重建”扩边界”（补全未观测区域）	纯生成式，通过语言/动作/场景布局三种控制机制调整模拟
传感器支持	主要面向相机数据（多视角图像输入）	相机 + LiDAR 多传感器输出，可将普通行车记录仪视频转为多传感器模拟数据
基准测试	Waymo PSNR 28.48（超DGGT约1个点）；nuScenes FVD 64.97，FID 7.04	未公开具体量化指标，强调可模拟”从未见过”的长尾场景
生成速度	单视角 0.19秒/帧，三视角 0.46秒/帧	未公开具体推理速度，强调”可扩展推理”与高效变体
最大生成时长	81帧（10Hz/30Hz，最长约1分钟）	未明确公开，Genie 3 原生支持数分钟级别一致生成
极端场景能力	暴雨、大雪、浓雾、动物闯入等长尾场景生成	龙卷风、洪水、积雪金门大桥、大象/狮子等罕见物体、 reckless driver 等
业务落地	已落地三大场景：合成数据（10万+ clips）、仿真测试、辅助驾驶学堂	用于 Waymo Driver 训练与验证，支撑 robotaxi 扩张（2026年目标100万周订单）

Xiaomi Auto World Model的应用场景

合成数据生成：为辅助驾驶感知模型训练提供高质量、高多样性、高危险性的长尾场景合成数据，解决真实世界中稀缺场景样本不足问题。
仿真测试：构建闭环仿真环境，复现真实事故场景进行定向优化，提升测试效率与完备性，降低实车测试成本与风险。
辅助驾驶学堂：在智能座舱中动态生成第一人称驾驶教学视频，针对复杂路况向用户展示正确操作，提升人机共驾安全性与用户体验。

Xiaomi Auto World Model是什么

Xiaomi Auto World Model的主要功能

WorldRec 三维重建模块：采用稀疏 3D 查询锚点替代传统稠密高斯，实现多视角多时刻特征聚合与可见性加权融合，10 秒视频重建仅需 10 秒，消除多视角冲突与鬼影问题。

WorldGen 视频生成模块：基于全双向时序注意力预训练+因果微调两阶段训练，通过 ODE 蒸馏将去噪步数从 50 步压缩至 4 步，0.19 秒/帧生成未来帧、未观测视角与遮挡区内容，支持最长 81 帧（约 1 分钟）连续生成。

重建-生成深度耦合：重建侧提供 3D 几何先验约束生成稳定性，生成侧扩展重建边界至未观测时空区域，两者互相校正抑制长时序漂移。

极端场景生成：支持暴雨、大雪、浓雾等极端天气及动物闯入等长尾危险场景的高质量合成，为感知模型训练提供稀缺数据。

三大业务落地：合成数据生成（已交付 10 万+ clips）、闭环仿真测试（复现真实事故定向优化）、辅助驾驶学堂（动态生成第一人称驾驶教学视频）。

Xiaomi Auto World Model的技术原理

WorldRec 稀疏锚点表征：摒弃逐像素预测高斯范式，改用稀疏三维查询点作为场景表征，每个锚点主动聚合多相机多时刻特征，通过可见性加权自动筛选可靠观测，从源头保证跨视角一致性。

4D Gaussian 全局表示：维护随观测增量扩展的 4D 高斯场景表示，投影到自车视角后作为渲染先验输入生成模型，为生成提供确定性几何约束。

WorldGen 两阶段训练：第一阶段全双向时序注意力预训练建立驾驶场景时空全局理解；第二阶段因果注意力微调+教师强制（Teacher Forcing），配合 ODE 蒸馏提速 12 倍，分布匹配蒸馏解决暴露偏差。

重建-生成闭环约束：重建的确定性几何先验持续校正生成过程，生成补全重建覆盖不到的时空区域，两者目标函数在结构上互相约束，实现高稳定性、高一致性、高真实性。

Xiaomi Auto World Model的核心优势

SOTA 性能：Waymo 重建 PSNR 28.48（超 DGGT 约 1 个点），nuScenes 零样本泛化 PSNR 26.54 同样领先；生成侧 FVD 64.97 超越所有双向与自回归基线模型。

极速推理：单视角生成 0.19 秒/帧，三视角 0.46 秒/帧，较同类自回归方法 Epona（1.06 秒/帧）快 5.6 倍。

超长时序：支持 81 帧连续生成（10Hz/30Hz，最长 1 分钟），远超公开基线模型的 8-16 帧限制。

零样本泛化：nuScenes 零样本测试仍保持领先，证明对新场景具备强适应能力。

已落地生产：已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务闭环。

Xiaomi Auto World Model的同类竞品对比

对比维度

Xiaomi Auto World Model

Waymo World Model

所属公司

小米汽车

Waymo（Alphabet/Google）

发布时间

2026年5月

2026年2月

技术路线

重建+生成深度耦合一体化架构（WorldRec + WorldGen 互相约束）

基于 Genie 3 的生成式世界模型（纯生成路线，后训练适配驾驶场景）

重建模块

WorldRec：稀疏 3D 锚点表征，10秒视频10秒重建，PSNR 28.48（Waymo数据集）

无独立重建模块，依赖 Genie 3 的预训练世界知识生成全场景

生成模块

WorldGen：4步去噪，0.19秒/帧，支持81帧（~1分钟）连续生成

基于 Genie 3 生成，支持多传感器输出（相机+LiDAR），可模拟极端场景

架构特点

重建给生成”打地基”（几何约束），生成给重建”扩边界”（补全未观测区域）

纯生成式，通过语言/动作/场景布局三种控制机制调整模拟

传感器支持

主要面向相机数据（多视角图像输入）

相机 + LiDAR 多传感器输出，可将普通行车记录仪视频转为多传感器模拟数据

基准测试

Waymo PSNR 28.48（超DGGT约1个点）；nuScenes FVD 64.97，FID 7.04

未公开具体量化指标，强调可模拟”从未见过”的长尾场景

生成速度

单视角 0.19秒/帧，三视角 0.46秒/帧

未公开具体推理速度，强调”可扩展推理”与高效变体

最大生成时长

81帧（10Hz/30Hz，最长约1分钟）

未明确公开，Genie 3 原生支持数分钟级别一致生成

极端场景能力

暴雨、大雪、浓雾、动物闯入等长尾场景生成

龙卷风、洪水、积雪金门大桥、大象/狮子等罕见物体、 reckless driver 等

业务落地

已落地三大场景：合成数据（10万+ clips）、仿真测试、辅助驾驶学堂

用于 Waymo Driver 训练与验证，支撑 robotaxi 扩张（2026年目标100万周订单）

Xiaomi Auto World Model的应用场景

合成数据生成：为辅助驾驶感知模型训练提供高质量、高多样性、高危险性的长尾场景合成数据，解决真实世界中稀缺场景样本不足问题。

仿真测试：构建闭环仿真环境，复现真实事故场景进行定向优化，提升测试效率与完备性，降低实车测试成本与风险。

辅助驾驶学堂：在智能座舱中动态生成第一人称驾驶教学视频，针对复杂路况向用户展示正确操作，提升人机共驾安全性与用户体验。

All Categories

Xiaomi Auto World Model是什么

Xiaomi Auto World Model的主要功能

Xiaomi Auto World Model的技术原理

如何使用Xiaomi Auto World Model

Xiaomi Auto World Model的核心优势

Xiaomi Auto World Model的项目地址

Xiaomi Auto World Model的同类竞品对比

Xiaomi Auto World Model的应用场景

Xiaomi Auto World Model是什么

Xiaomi Auto World Model的主要功能

Xiaomi Auto World Model的技术原理

如何使用Xiaomi Auto World Model

Xiaomi Auto World Model的核心优势

Xiaomi Auto World Model的项目地址

Xiaomi Auto World Model的同类竞品对比

Xiaomi Auto World Model的应用场景