project
ViiTorVoice - 云上曲率推出的 AI 语音合成模型
ViiTorVoice 是云上曲率推出的全球首个支持局部编辑的 AI 语音合成模型,登顶 Seed-TTS 权威评测榜首。它采用 NAR 非自回归架构,实现'像改 Word 一样修语音'...
ViiTorVoice是什么
ViiTorVoice 是云上曲率推出的全球首个支持局部编辑的 AI 语音合成模型,登顶 Seed-TTS 权威评测榜首。它采用 NAR 非自回归架构,实现”像改 Word 一样修语音”——可定向替换音频中的某个词或片段,其余音色、节奏、情感完全保持不变。支持无文本跨语种克隆、情绪精准控制及 60ms 超低延迟推理,1B 参数模型已开源。
ViiTorVoice的主要功能
-
片段级局部编辑:可指定替换音频中的某个词或片段,其余部分完全保持不变。
-
语音克隆:支持无参考文本(Zero-Shot)跨语种克隆,仅需上传纯音频即可提取音色。
-
情绪与副语言控制:通过插入特殊 Token 实现词级精准控制,引入 CFG 技术强化情绪表达。
-
低延迟推理:端到端首帧生成时间低于 60ms,支持首块推理。
-
多语种支持:中、英、日、韩等多语种内容生成。
微信关注回复“开源”,加入AI开源项目交流群
如何使用ViiTorVoice
-
访问 Demo 页面:打开 Hugging Face 在线体验地址(https://huggingface.co/spaces/ZzWater/ViiTorVoice)。
-
选择功能模式:在界面顶部切换「Voice Edit」(局部编辑)或「Voice Clone」(语音克隆)标签。
-
上传源音频:将需要编辑或克隆的原始音频文件拖入左侧「Source Audio」上传区域。
-
输入文本指令:在编辑框中填写原始转录文本与修改后的目标文本,系统将自动定位差异片段。
-
插入情绪标签:如需控制情感,在文本中插入特殊 Token(如
<laugh>、<sigh>)标记副语言信息。 -
调整生成参数:设置推理步数(4 步或 8 步)等配置,点击生成按钮等待模型处理。
-
预览与下载:在右侧「Edited Audio」区域播放效果,确认无误后下载保存到本地。
ViiTorVoice的核心优势
-
评测成绩全球第一:Seed-TTS 英文词错率 1.32、中文词错率 0.99,SIM-o 与 UTMOS 均领先。
-
独创局部编辑能力:行业唯一支持片段级定向编辑,解决传统 TTS 改词需整段重录的痛点。
-
无文本依赖克隆:无需准确转录文本即可实现跨语种音色迁移,适配小语种场景。
-
极速推理:首帧延迟 60ms 以内,远优于行业 150-200ms 水平。
ViiTorVoice的项目地址
- GitHub仓库:https://github.com/viitor-ai/viitor-voice-nar
- HuggingFace模型库:https://huggingface.co/ZzWater/ViiTorVoice-NAR
ViiTorVoice的同类竞品对比
| 对比维度 | ViiTorVoice | Qwen3-TTS |
|---|---|---|
| 研发方 | 云上曲率 | 阿里巴巴通义实验室 |
| 核心架构 | NAR 非自回归(完形填空式) | AR 自回归(逐帧链式生成) |
| 局部编辑 | 支持片段级定向修改,改词不改全段 | 不支持,修改一词需整段重生成 |
| Seed-TTS 英文 WER | 1.32(更低=更准) | 1.54 |
| Seed-TTS 中文 WER | 0.99(行业首个<1.0) | 1.15 |
| 首帧延迟 | <60ms | ~150-200ms |
| 无文本克隆 | 仅需纯音频即可跨语种克隆 | 需提供音频+准确转录文本 |
| 情绪控制 | 词级 Token 精准控制(笑声/叹气等) | 基础自然语言描述控制 |
ViiTorVoice的应用场景
- 影视后期制作:对白调整无需召集演员重进录音棚,导演可在非线性时间线上实时替换台词,音色与呼吸节奏无缝保持一致。
- 有声书与播客:录制中出现口误或专有名词错误时,只需定向修改一两秒音频,无需重录整章,后期修音时间从数天压缩至几十分钟。
- 短剧出海本地化:无需重新召集配音演员,直接在原始录音上替换特定用词,即可产出多语言版本,每版听感都像原生表演。
- 广告营销:文案临时调整产品名称或 Slogan 时,直接局部替换音频片段,保持原有品牌音色与情绪感染力。
- 游戏配音:跨语种角色语音快速克隆,仅需上传角色原声音频即可生成中、英、日、韩等多语种配音。