project
Qwen-VLA - 阿里通义推出的通用视觉-语言-动作模型
Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型,以 Qwen3.5-4B 为视觉语言主干,搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架,将...
Qwen-VLA是什么
Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型,以 Qwen3.5-4B 为视觉语言主干,搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架,将操作、导航、轨迹预测三大任务统一到同一模型;借助本体感知提示条件化,仅需修改文本描述即可适配 11 种机器人平台。模型在多项基准中超越专用模型,零样本动态操作成功率达 26.6%,推动具身智能从技能专家走向通用行动者。
Qwen-VLA的主要功能
-
跨任务统一控制:单一模型同时处理操作、导航、轨迹预测三大任务,打破传统专用模型割裂局面。
-
跨本体即插即用:支持 WidowX、Franka Panda、Mobile ALOHA、Galaxea R1 等 11种机器人平台,覆盖单臂/双臂/移动底座等配置,仅需修改文本提示可切换。
-
零样本开放世界泛化:在未见过的颜色、实例、位置、背景、指令五个分布外维度上保持高成功率,无需针对新环境重新训练。
-
动态物体操作:无需动态训练数据,零样本操作运动中的物体,DOMINO 基准成功率 26.6% 超越专用微调模型。
-
长时程导航:任务自适应 token 分配机制,为长指令保留更丰富的 episode 历史,VLN-CE 基准 R2R 57.5%、RxR 59.6% 超越专用导航模型。
Qwen-VLA的技术原理
- 统一动作轨迹预测框架:传统具身智能将操作、导航、轨迹预测拆分为独立模型,导致跨任务迁移受限。Qwen-VLA 发现三者计算结构同构——均为”观察场景 + 理解指令 → 预测未来动作序列”,因此统一建模。模型将 Qwen3.5-4B 视觉语言主干与 1.15B DiT 动作解码器结合,不同任务数据在同一训练中共同监督,视觉定位和空间推理能力跨任务迁移。
- 本体感知提示条件化:面对机器人硬件差异,传统方案为每种本体定制独立分支。Qwen-VLA 将硬件差异编码为结构化文本提示作为唯一平台接口,提示包含机器人型号、臂数、关节配置、控制频率等信息,交由 VLM 处理。骨干网络隐藏状态与噪声动作块拼接后送入 DiT 解码器,推理时仅替换提示可切换平台。
- 文本到动作 DiT 预训练(T2A):训练面临 VLM 已预训练而 DiT 从零初始化的问题。解决方案:冻结 VLM,单独训练 DiT,且不提供图像仅输入文本。让 DiT 先学会动作分布、文本-动作对齐、本体条件化。此阶段计算代价仅为多模态训练的 1/10。消融实验验证:20%合成+80%真实数据最佳(71.1%),无图像反而优于有图像,2,000步达峰值。
如何使用Qwen-VLA
- 环境准备:从 GitHub 克隆官方仓库并安装依赖,下载预训练权重。
- 模型推理:根据机器人硬件配置生成本体提示,将图像、指令和提示输入模型,获取动作序列并发送给机器人执行,循环迭代实现闭环控制。
- 模型训练(进阶):按 T2A → CPT → SFT → RL 四阶段流程训练,逐步提升动作生成、视觉感知、任务适配和闭环优化能力。
- 跨平台部署:切换机器人时仅需修改提示中的硬件描述字段,适配新本体时采集数据在 SFT 阶段微调即可。
Qwen-VLA的核心优势
-
通用性超越专用性:单一通用模型在 5 个仿真基准中的 3 个超越最佳专用模型。
-
轻量跨本体适配:仅需修改文本提示,无需为每种机器人重新训练模型。
-
高效预训练策略:T2A 阶段计算成本仅为多模态训练的 1/10,避免干扰 VLM 预训练成果。
-
强 OOD 泛化能力:真实世界平均 OOD 成功率 76.9%,超越 π₀.₅+35.4pp及无预训练变体+40.7pp。
-
动态场景零样本突破:DOMINO 基准零样本 26.6%,超越专用微调模型 PUMA 17.2%。
Qwen-VLA的项目地址
- 项目官网:https://qwen.ai/blog?id=qwenvla
- GitHub仓库:https://github.com/QwenLM/Qwen-VLA
- arXiv技术论文:https://arxiv.org/pdf/2605.30280
Qwen-VLA的同类竞品对比
| 维度 | Qwen-VLA | π₀.₅ (Physical Intelligence) |
|---|---|---|
| 架构底座 | Qwen3.5-4B VLM + 1.15B DiT 解码器 | 基于流匹配的 VLA 架构 |
| 任务统一性 | 操作+导航+轨迹预测三任务统一 | 专注操作任务 |
| 跨本体方式 | 文本提示条件化,无需改架构 | 需针对不同本体微调或适配 |
| 支持平台数 | 11 种(WidowX、ALOHA、Franka 等) | 主要支持少量主流平台 |
| 预训练策略 | T2A 无视觉预训练(计算成本 1/10) | 端到端多模态联合训练 |
| 动态操作 | 零样本 26.6%(DOMINO) | 零样本 7.5% |
| OOD 泛化 | 真实世界平均 76.9% | 41.5% |
| 导航能力 | VLN-CE R2R 57.5%,超越专用导航模型 | 不支持 |
| 开源程度 | 论文+代码+权重全开源 | 部分开源 |
| 训练效率 | T2A 阶段计算成本为多模态 1/10 | 标准多模态训练成本 |
Qwen-VLA的应用场景
-
多任务工业机器人:同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务,无需为每个任务单独部署模型。
-
服务机器人跨场景部署:家用机器人在厨房执行操作、客厅自主导航、走廊规划轨迹,无缝切换任务类型。
-
科研教育平台:研究人员无需为每种机器人重新训练模型,仅需修改文本提示即可在新硬件平台上快速验证算法。
-
动态环境操作:物流仓储中抓取传送带上的运动包裹,无需针对动态场景重新采集训练数据。
-
长时程复杂指令跟随:博物馆导览机器人执行”先去A展厅拍照,绕过人群去B展厅”等多步骤长指令任务。