project
Qwen3.5-Omni - 阿里通义推出的全模态大模型
Qwen3.5-Omni 是阿里通义实验室推出的全模态大模型,可同时理解文本、图像、音频及音视频输入。模型采用Thinker-Talker分工架构与Hybrid-MoE技术,在215项音...
Qwen3.5-Omni 是什么
Qwen3.5-Omni 是阿里通义实验室推出的全模态大模型,可同时理解文本、图像、音频及音视频输入。模型采用Thinker-Talker分工架构与Hybrid-MoE技术,在215项音频/音视频任务中取得SOTA成绩,超越Gemini-3.1 Pro。模型支持256K超长上下文、语义打断、音色克隆、语音控制,原生集成WebSearch与Function Call,具备自然涌现的Audio-Visual Vibe Coding能力,可根据音视频指令直接生成可运行代码。
Qwen3.5-Omni 的主要功能
-
全模态理解:模型原生无缝处理文本、图像、音频及音视频输入,支持带时间戳的细粒度描述生成。
-
视频智能分析:模型可生成结构化视频笔记,识别画面内容、对话、镜头切换及敏感信息。
-
Vibe Coding:无需专门训练即可根据音视频指令自然涌现代码生成能力。
-
真人级对话:支持语义打断与语音控制,能区分环境噪音和真实插话,实时调节情绪语速。
-
音色克隆:上传录音可定制专属AI音色,支持多语言自然生成。
-
智能任务执行:原生集成WebSearch与Function Call,自主判断和调用工具完成复杂任务。
Qwen3.5-Omni 的技术原理
- Thinker-Talker 分工架构:Thinker负责多模态理解,接收视觉与音频信号并通过TMRoPE编码位置信息;Talker负责语音生成,基于Thinker输出采用RVQ编码实现高效语音合成,两者协同实现理解与生成分离。
- Hybrid-Attention MoE:将听、看、理解等任务分配给不同专家网络,避免模态间干扰,在保持文本视觉能力不下降的同时实现215项SOTA性能。
- ARIA 动态对齐技术:模型自适应调节文本与语音单元速率,解决传统固定比例导致的漏字、数字念不清问题,支持实时语音控制响应。
如何使用Qwen3.5-Omni
- API 调用:访问阿里云百炼官网搜索 Qwen3.5-Omni 可调用 API,提供 Plus、Flash、Light 三种尺寸,满足不同场景的性能与成本需求。
- 在线体验:直接在 Qwen Chat 上体验 Qwen3.5-Omni 的全部能力,无需部署可快速上手。
Qwen3.5-Omni的关键信息和使用要求
-
发布方:阿里通义实验室
-
模型定位:全模态大模型(文本/图像/音频/音视频)
-
版本规格:提供Plus、Flash、Light 三种尺寸
-
性能成绩:215 项 SOTA,全面超越 Gemini-3.1 Pro
-
上下文长度:256K(支持 10 小时音频 / 1 小时视频)
-
语言支持:74 种语音识别 + 39 种方言
-
核心架构:Thinker-Talker 分工 + Hybrid-MoE
Qwen3.5-Omni的核心优势
-
全模态原生统一:真正无缝理解文本、图像、音频、音视频。
-
顶尖性能:215 项 SOTA 霸榜,音频/音视频能力全面超越 Gemini-3.1 Pro。
-
超长上下文:256K上下文长度,支持 10 小时音频或 1 小时视频处理。
-
自然交互:支持语义打断、语音控制、音色克隆,对话体验接近真人。
-
涌现能力:未经专门训练即具备 Audio-Visual Vibe Coding,可根据音视频生成代码。
-
智能执行:原生支持 WebSearch 与 Function Call,从聊天到办事无缝衔接。
-
多语言覆盖:74 种语音识别 + 39 种方言,打破语言壁垒。
Qwen3.5-Omni的同类竞品对比
| 对比维度 | Qwen3.5-Omni | Gemini-3.1 Pro | GPT-4o |
|---|---|---|---|
| 发布方 | 阿里通义实验室 | OpenAI | |
| 模态支持 | 文本/图像/音频/音视频 | 文本/图像/音频/音视频 | 文本/图像/音频/音视频 |
| 上下文长度 | 256K(10小时音频/1小时视频) | 未公开具体时长 | 128K |
| 音频理解 SOTA | 215 项领先 | 被超越 | 部分落后 |
| 音视频理解 | 全面领先 | 总体持平 | 未重点优化 |
| 语音识别语种 | 74 种 + 39 种方言 | 多语言支持 | 多语言支持 |
| 音色克隆 | 支持 | 支持 | 有限支持 |
| Vibe Coding | 自然涌现 | 需专门优化 | 需专门优化 |
| 语义打断 | 支持 | 支持 | 支持 |
| 语音控制 | 支持(音量/情绪/语速) | 有限 | 有限 |
Qwen3.5-Omni应用场景
-
视频创作与剪辑:自动生成带时间戳的结构化描述,识别画面、对话、镜头切换,检测敏感内容,将长视频转为可搜索笔记。
-
智能会议助手:实时转录会议内容,区分发言人,生成会议纪要,支持多语言识别与翻译。
-
代码辅助开发:根据设计稿或口述需求直接生成前端页面或 Python 代码,实现 Vibe Coding。
-
个性化语音助手:克隆专属音色打造数字分身,支持语音控制音量情绪,提供陪伴式交互。
-
多语言实时沟通:模型支持74 种语言识别+39 种方言,实现跨语言实时对话与翻译。
-
智能任务执行:结合 WebSearch 与工具调用,完成查天气、订酒店、搜资料等复杂任务。