Qwen-VLA - 阿里通义推出的通用视觉-语言-动作模型 - AiBoss

Qwen-VLA是什么

Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型，以 Qwen3.5-4B 为视觉语言主干，搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架，将操作、导航、轨迹预测三大任务统一到同一模型；借助本体感知提示条件化，仅需修改文本描述即可适配 11 种机器人平台。模型在多项基准中超越专用模型，零样本动态操作成功率达 26.6%，推动具身智能从技能专家走向通用行动者。

Qwen-VLA的主要功能

跨任务统一控制：单一模型同时处理操作、导航、轨迹预测三大任务，打破传统专用模型割裂局面。
跨本体即插即用：支持 WidowX、Franka Panda、Mobile ALOHA、Galaxea R1 等 11种机器人平台，覆盖单臂/双臂/移动底座等配置，仅需修改文本提示可切换。
零样本开放世界泛化：在未见过的颜色、实例、位置、背景、指令五个分布外维度上保持高成功率，无需针对新环境重新训练。
动态物体操作：无需动态训练数据，零样本操作运动中的物体，DOMINO 基准成功率 26.6% 超越专用微调模型。
长时程导航：任务自适应 token 分配机制，为长指令保留更丰富的 episode 历史，VLN-CE 基准 R2R 57.5%、RxR 59.6% 超越专用导航模型。

Qwen-VLA的技术原理

统一动作轨迹预测框架：传统具身智能将操作、导航、轨迹预测拆分为独立模型，导致跨任务迁移受限。Qwen-VLA 发现三者计算结构同构——均为”观察场景 + 理解指令 → 预测未来动作序列”，因此统一建模。模型将 Qwen3.5-4B 视觉语言主干与 1.15B DiT 动作解码器结合，不同任务数据在同一训练中共同监督，视觉定位和空间推理能力跨任务迁移。
本体感知提示条件化：面对机器人硬件差异，传统方案为每种本体定制独立分支。Qwen-VLA 将硬件差异编码为结构化文本提示作为唯一平台接口，提示包含机器人型号、臂数、关节配置、控制频率等信息，交由 VLM 处理。骨干网络隐藏状态与噪声动作块拼接后送入 DiT 解码器，推理时仅替换提示可切换平台。
文本到动作 DiT 预训练（T2A）：训练面临 VLM 已预训练而 DiT 从零初始化的问题。解决方案：冻结 VLM，单独训练 DiT，且不提供图像仅输入文本。让 DiT 先学会动作分布、文本-动作对齐、本体条件化。此阶段计算代价仅为多模态训练的 1/10。消融实验验证：20%合成+80%真实数据最佳（71.1%），无图像反而优于有图像，2,000步达峰值。

如何使用Qwen-VLA

环境准备：从 GitHub 克隆官方仓库并安装依赖，下载预训练权重。
模型推理：根据机器人硬件配置生成本体提示，将图像、指令和提示输入模型，获取动作序列并发送给机器人执行，循环迭代实现闭环控制。
模型训练（进阶）：按 T2A → CPT → SFT → RL 四阶段流程训练，逐步提升动作生成、视觉感知、任务适配和闭环优化能力。
跨平台部署：切换机器人时仅需修改提示中的硬件描述字段，适配新本体时采集数据在 SFT 阶段微调即可。

Qwen-VLA的核心优势

通用性超越专用性：单一通用模型在 5 个仿真基准中的 3 个超越最佳专用模型。
轻量跨本体适配：仅需修改文本提示，无需为每种机器人重新训练模型。
高效预训练策略：T2A 阶段计算成本仅为多模态训练的 1/10，避免干扰 VLM 预训练成果。
强 OOD 泛化能力：真实世界平均 OOD 成功率 76.9%，超越 π₀.₅+35.4pp及无预训练变体+40.7pp。
动态场景零样本突破：DOMINO 基准零样本 26.6%，超越专用微调模型 PUMA 17.2%。

Qwen-VLA的项目地址

项目官网：https://qwen.ai/blog?id=qwenvla
GitHub仓库：https://github.com/QwenLM/Qwen-VLA
arXiv技术论文：https://arxiv.org/pdf/2605.30280

Qwen-VLA的同类竞品对比

维度	Qwen-VLA	π₀.₅ (Physical Intelligence)
架构底座	Qwen3.5-4B VLM + 1.15B DiT 解码器	基于流匹配的 VLA 架构
任务统一性	操作+导航+轨迹预测三任务统一	专注操作任务
跨本体方式	文本提示条件化，无需改架构	需针对不同本体微调或适配
支持平台数	11 种（WidowX、ALOHA、Franka 等）	主要支持少量主流平台
预训练策略	T2A 无视觉预训练（计算成本 1/10）	端到端多模态联合训练
动态操作	零样本 26.6%（DOMINO）	零样本 7.5%
OOD 泛化	真实世界平均 76.9%	41.5%
导航能力	VLN-CE R2R 57.5%，超越专用导航模型	不支持
开源程度	论文+代码+权重全开源	部分开源
训练效率	T2A 阶段计算成本为多模态 1/10	标准多模态训练成本

Qwen-VLA的应用场景

多任务工业机器人：同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务，无需为每个任务单独部署模型。
服务机器人跨场景部署：家用机器人在厨房执行操作、客厅自主导航、走廊规划轨迹，无缝切换任务类型。
科研教育平台：研究人员无需为每种机器人重新训练模型，仅需修改文本提示即可在新硬件平台上快速验证算法。
动态环境操作：物流仓储中抓取传送带上的运动包裹，无需针对动态场景重新采集训练数据。
长时程复杂指令跟随：博物馆导览机器人执行”先去A展厅拍照，绕过人群去B展厅”等多步骤长指令任务。

Qwen-VLA是什么

Qwen-VLA的主要功能

跨任务统一控制：单一模型同时处理操作、导航、轨迹预测三大任务，打破传统专用模型割裂局面。

跨本体即插即用：支持 WidowX、Franka Panda、Mobile ALOHA、Galaxea R1 等 11种机器人平台，覆盖单臂/双臂/移动底座等配置，仅需修改文本提示可切换。

零样本开放世界泛化：在未见过的颜色、实例、位置、背景、指令五个分布外维度上保持高成功率，无需针对新环境重新训练。

动态物体操作：无需动态训练数据，零样本操作运动中的物体，DOMINO 基准成功率 26.6% 超越专用微调模型。

长时程导航：任务自适应 token 分配机制，为长指令保留更丰富的 episode 历史，VLN-CE 基准 R2R 57.5%、RxR 59.6% 超越专用导航模型。

Qwen-VLA的技术原理

统一动作轨迹预测框架：传统具身智能将操作、导航、轨迹预测拆分为独立模型，导致跨任务迁移受限。Qwen-VLA 发现三者计算结构同构——均为”观察场景 + 理解指令 → 预测未来动作序列”，因此统一建模。模型将 Qwen3.5-4B 视觉语言主干与 1.15B DiT 动作解码器结合，不同任务数据在同一训练中共同监督，视觉定位和空间推理能力跨任务迁移。

本体感知提示条件化：面对机器人硬件差异，传统方案为每种本体定制独立分支。Qwen-VLA 将硬件差异编码为结构化文本提示作为唯一平台接口，提示包含机器人型号、臂数、关节配置、控制频率等信息，交由 VLM 处理。骨干网络隐藏状态与噪声动作块拼接后送入 DiT 解码器，推理时仅替换提示可切换平台。

文本到动作 DiT 预训练（T2A）：训练面临 VLM 已预训练而 DiT 从零初始化的问题。解决方案：冻结 VLM，单独训练 DiT，且不提供图像仅输入文本。让 DiT 先学会动作分布、文本-动作对齐、本体条件化。此阶段计算代价仅为多模态训练的 1/10。消融实验验证：20%合成+80%真实数据最佳（71.1%），无图像反而优于有图像，2,000步达峰值。

如何使用Qwen-VLA

环境准备：从 GitHub 克隆官方仓库并安装依赖，下载预训练权重。

模型推理：根据机器人硬件配置生成本体提示，将图像、指令和提示输入模型，获取动作序列并发送给机器人执行，循环迭代实现闭环控制。

模型训练（进阶）：按 T2A → CPT → SFT → RL 四阶段流程训练，逐步提升动作生成、视觉感知、任务适配和闭环优化能力。

跨平台部署：切换机器人时仅需修改提示中的硬件描述字段，适配新本体时采集数据在 SFT 阶段微调即可。

Qwen-VLA的核心优势

通用性超越专用性：单一通用模型在 5 个仿真基准中的 3 个超越最佳专用模型。

轻量跨本体适配：仅需修改文本提示，无需为每种机器人重新训练模型。

高效预训练策略：T2A 阶段计算成本仅为多模态训练的 1/10，避免干扰 VLM 预训练成果。

强 OOD 泛化能力：真实世界平均 OOD 成功率 76.9%，超越 π₀.₅+35.4pp及无预训练变体+40.7pp。

动态场景零样本突破：DOMINO 基准零样本 26.6%，超越专用微调模型 PUMA 17.2%。

Qwen-VLA的同类竞品对比

维度

Qwen-VLA

π₀.₅ (Physical Intelligence)

架构底座

Qwen3.5-4B VLM + 1.15B DiT 解码器

基于流匹配的 VLA 架构

任务统一性

操作+导航+轨迹预测三任务统一

专注操作任务

跨本体方式

文本提示条件化，无需改架构

需针对不同本体微调或适配

支持平台数

11 种（WidowX、ALOHA、Franka 等）

主要支持少量主流平台

预训练策略

T2A 无视觉预训练（计算成本 1/10）

端到端多模态联合训练

动态操作

零样本 26.6%（DOMINO）

零样本 7.5%

OOD 泛化

真实世界平均 76.9%

41.5%

导航能力

VLN-CE R2R 57.5%，超越专用导航模型

不支持

开源程度

论文+代码+权重全开源

部分开源

训练效率

T2A 阶段计算成本为多模态 1/10

标准多模态训练成本

Qwen-VLA的应用场景

多任务工业机器人：同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务，无需为每个任务单独部署模型。

服务机器人跨场景部署：家用机器人在厨房执行操作、客厅自主导航、走廊规划轨迹，无缝切换任务类型。

科研教育平台：研究人员无需为每种机器人重新训练模型，仅需修改文本提示即可在新硬件平台上快速验证算法。

动态环境操作：物流仓储中抓取传送带上的运动包裹，无需针对动态场景重新采集训练数据。

长时程复杂指令跟随：博物馆导览机器人执行”先去A展厅拍照，绕过人群去B展厅”等多步骤长指令任务。

全部分类

Qwen-VLA是什么

Qwen-VLA的主要功能

Qwen-VLA的技术原理

如何使用Qwen-VLA

Qwen-VLA的核心优势

Qwen-VLA的项目地址

Qwen-VLA的同类竞品对比

Qwen-VLA的应用场景

Qwen-VLA是什么

Qwen-VLA的主要功能

Qwen-VLA的技术原理

如何使用Qwen-VLA

Qwen-VLA的核心优势

Qwen-VLA的项目地址

Qwen-VLA的同类竞品对比

Qwen-VLA的应用场景