project
Xiaomi OneVL - 小米具身智能团队开源的自动驾驶大模型
Xiaomi OneVL是小米具身智能团队推出的开源自动驾驶大模型,在业内首次将VLA视觉-语言-动作、世界模型与潜空间推理三大技术路线统一于单一框架。
Xiaomi OneVL是什么
Xiaomi OneVL是小米具身智能团队推出的开源自动驾驶大模型,在业内首次将VLA视觉-语言-动作、世界模型与潜空间推理三大技术路线统一于单一框架。模型通过双辅助解码器监督紧凑潜变量,实现思考速度与不思考一样快,效果比思考更好的突破,车端推理延迟仅0.24秒,在NAVSIM等四项基准上达到SOTA,模型权重与代码以Apache 2.0协议全面开源。
Xiaomi OneVL的主要功能
- 视觉-语言-动作(VLA)统一推理:将场景理解、语言推理与驾驶动作输出集成到单一框架,实现从感知到决策到执行的一步式端到端闭环。
- 世界模型未来预测:内置视觉世界模型解码器,可预测未来0.5秒和1.0秒的场景帧,强迫模型内化道路几何、车辆运动与环境变化的因果动力学。
- 潜空间思维链(Latent CoT)推理:在紧凑潜变量中完成深度推理,推理时丢弃辅助解码器,所有潜变量token通过单次并行预填完成,延迟仅0.24秒,与”直接预测”速度相当但精度更高。
- 双辅助解码器监督训练:训练阶段通过语言解码器重建文本思维链、视觉解码器预测未来帧,双维度监督确保潜变量同时编码语义推理与物理世界因果规律。
- 高精度轨迹预测:基于Qwen3-VL-4B-Instruct主干网络,顶部附加MLP头输出轨迹,在NAVSIM基准PDM-score达88.84,超越8B竞品。
Xiaomi OneVL的技术原理
- 三大技术路线统一:Xiaomi OneVL 首次将 VLA(视觉-语言-动作)、世界模型与潜空间推理三条独立技术路线融合到单一框架中,使模型在理解当前场景的同时,能基于物理因果规律预测未来环境演变,输出驾驶动作,实现从感知、推理到决策的端到端闭环。
- 双辅助解码器监督架构:模型在训练阶段引入两个辅助解码器:语言解码器负责重建文本思维链,确保潜变量编码语义推理能力;视觉世界模型解码器负责预测未来帧(T+0.5s、T+1.0s),强迫潜变量内化道路几何、车辆运动等物理动力学规律。推理时两个解码器被丢弃,仅保留紧凑潜变量进行预测。
- 三阶段渐进式训练:训练分为轨迹对齐、语言推理对齐、视觉世界模型对齐三个阶段,逐步将潜变量与轨迹输出、语言推理目标、视觉预测目标对齐。跳过任一阶段都会导致性能灾难性下降(最高达 21.71 分),证明三阶段联合优化对稳定训练至关重要。
- 一步式潜空间并行推理:推理阶段所有潜变量 token 通过单次并行预填完成,无需自回归逐 token 生成,车端延迟仅 0.24 秒(4.16Hz),与”直接输出答案”的速度相当,精度显著超越显式思维链方法,成为首个在性能上超过显式 CoT 的潜空间推理方案。
- 轻量化模型底座:主干网络采用 Qwen3-VL-4B-Instruct,顶部附加紧凑 MLP 头进行轨迹预测,视觉分词器使用 Emu3.5-VisionTokenizer(码本大小 131072)。4B 参数规模在 NAVSIM 基准上 PDM-score 达到 88.84,超越 8B 竞品 AdaThinkDrive 与 LaST-VLA。
Xiaomi OneVL的核心优势
- 速度与精度兼得:Xiaomi OneVL 是业内首个精度超越显式思维链的潜空间推理方法,车端推理延迟仅 0.24 秒,与直接预测速度相当但效果更优,比显式自回归 CoT 快 32%。
- 三大技术路线统一:Xiaomi OneVL 首次将 VLA、世界模型与潜空间推理三条独立技术路线融合到单一框架,使模型同时具备场景理解、物理因果推演和未来预测能力。
- 双维度可解释决策:Xiaomi OneVL 同时提供语言解释和视觉预测两种决策依据,能用文字说明驾驶逻辑,也能用生成画面展示未来场景,解决自动驾驶的”黑盒”不可解释问题。
- 轻量化与高性能并存:模型基于 4B 参数的 Qwen3-VL-4B-Instruct 主干网络,在 NAVSIM 基准 PDM-score 达 88.84,超越 8B 竞品,用更小模型规模实现更高性能。
- 全面开源可商用:模型的模型权重、训练与推理代码均以 Apache 2.0 协议全面开源,支持学术界与产业界自由二次开发与商业应用。
- 四项基准全面 SOTA:Xiaomi OneVL在 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 四项权威基准测试中均达到当前最优水平,其中 Alpamayo-R1 的 ADE 为所有方法中最佳。
Xiaomi OneVL的项目地址
- 项目官网:https://xiaomi-embodied-intelligence.github.io/OneVL/
- GitHub仓库:https://github.com/xiaomi-research/onevl
- arXiv技术论文:https://arxiv.org/pdf/2604.18486
Xiaomi OneVL的同类竞品对比
| 对比维度 | Xiaomi OneVL | EMMA (Waymo) |
|---|---|---|
| 所属机构 | 小米具身智能 | Waymo(Google) |
| 模型定位 | 端到端 VLA + 世界模型统一框架 | 端到端多模态通用ist 自动驾驶模型 |
| 基础模型 | Qwen3-VL-4B-Instruct(4B) | Gemini / PaLI-X(大规模,未公开具体参数) |
| 核心架构 | 潜空间推理 + 双辅助解码器(语言 + 视觉世界模型) | 纯文本 VQA 范式,所有输入输出表示为自然语言文本 |
| 推理方式 | 单次并行预填,0.24 秒延迟(4.16Hz) | 自回归 CoT 逐 token 生成,延迟高,计算昂贵 |
| 世界模型 | 内置视觉解码器,可预测未来 0.5s/1.0s 帧 | 无显式世界模型,不具备未来场景生成能力 |
| 动作输出 | 连续轨迹预测(MLP 头直接输出) | 文本形式的 BEV 坐标(waypoints),需文本到浮点转换 |
| 可解释性 | 语言 + 视觉双维度(文本解释 + 未来画面预测) | 文本 CoT 推理链(rationale)+ 视觉定位(3D/BEV 位置标注) |
| 多任务能力 | 专注运动规划,四项基准 SOTA | 通用ist 模型,联合训练规划、3D 检测、路图估计、场景理解 |
| 训练方式 | 三阶段渐进式对齐(轨迹→语言→视觉) | 端到端微调,多任务 co-training,利用 Gemini 预训练世界知识 |
| 传感器输入 | 视觉(相机) | 视觉(相机),不支持 LiDAR / radar |
Xiaomi OneVL的应用场景
-
高阶智驾量产部署:解决传统CoT推理延迟过高、无法实时部署的瓶颈。
-
复杂路况决策:预判行人意图、车辆并道等动态场景,规避”黑盒”风险。
-
模型决策可视化:为自动驾驶系统提供可审计、可解释的语言与视觉决策依据。
-
学术研究二次开发:开源代码与权重支持学术界与产业界基于Apache 2.0协议商用。