ViiTorVoice - 云上曲率推出的 AI 语音合成模型 - AiBoss

ViiTorVoice是什么

ViiTorVoice 是云上曲率推出的全球首个支持局部编辑的 AI 语音合成模型，登顶 Seed-TTS 权威评测榜首。它采用 NAR 非自回归架构，实现”像改 Word 一样修语音”——可定向替换音频中的某个词或片段，其余音色、节奏、情感完全保持不变。支持无文本跨语种克隆、情绪精准控制及 60ms 超低延迟推理，1B 参数模型已开源。

ViiTorVoice的主要功能

片段级局部编辑：可指定替换音频中的某个词或片段，其余部分完全保持不变。
语音克隆：支持无参考文本（Zero-Shot）跨语种克隆，仅需上传纯音频即可提取音色。
情绪与副语言控制：通过插入特殊 Token 实现词级精准控制，引入 CFG 技术强化情绪表达。
低延迟推理：端到端首帧生成时间低于 60ms，支持首块推理。
多语种支持：中、英、日、韩等多语种内容生成。

微信关注回复“开源”，加入AI开源项目交流群

如何使用ViiTorVoice

访问 Demo 页面：打开 Hugging Face 在线体验地址（https://huggingface.co/spaces/ZzWater/ViiTorVoice）。
选择功能模式：在界面顶部切换「Voice Edit」（局部编辑）或「Voice Clone」（语音克隆）标签。
上传源音频：将需要编辑或克隆的原始音频文件拖入左侧「Source Audio」上传区域。
输入文本指令：在编辑框中填写原始转录文本与修改后的目标文本，系统将自动定位差异片段。
插入情绪标签：如需控制情感，在文本中插入特殊 Token（如 <laugh>、<sigh>）标记副语言信息。
调整生成参数：设置推理步数（4 步或 8 步）等配置，点击生成按钮等待模型处理。
预览与下载：在右侧「Edited Audio」区域播放效果，确认无误后下载保存到本地。

ViiTorVoice的核心优势

评测成绩全球第一：Seed-TTS 英文词错率 1.32、中文词错率 0.99，SIM-o 与 UTMOS 均领先。
独创局部编辑能力：行业唯一支持片段级定向编辑，解决传统 TTS 改词需整段重录的痛点。
无文本依赖克隆：无需准确转录文本即可实现跨语种音色迁移，适配小语种场景。
极速推理：首帧延迟 60ms 以内，远优于行业 150-200ms 水平。

ViiTorVoice的项目地址

GitHub仓库：https://github.com/viitor-ai/viitor-voice-nar
HuggingFace模型库：https://huggingface.co/ZzWater/ViiTorVoice-NAR

ViiTorVoice的同类竞品对比

对比维度	ViiTorVoice	Qwen3-TTS
研发方	云上曲率	阿里巴巴通义实验室
核心架构	NAR 非自回归（完形填空式）	AR 自回归（逐帧链式生成）
局部编辑	支持片段级定向修改，改词不改全段	不支持，修改一词需整段重生成
Seed-TTS 英文 WER	1.32（更低=更准）	1.54
Seed-TTS 中文 WER	0.99（行业首个<1.0）	1.15
首帧延迟	<60ms	~150-200ms
无文本克隆	仅需纯音频即可跨语种克隆	需提供音频+准确转录文本
情绪控制	词级 Token 精准控制（笑声/叹气等）	基础自然语言描述控制

ViiTorVoice的应用场景

影视后期制作：对白调整无需召集演员重进录音棚，导演可在非线性时间线上实时替换台词，音色与呼吸节奏无缝保持一致。
有声书与播客：录制中出现口误或专有名词错误时，只需定向修改一两秒音频，无需重录整章，后期修音时间从数天压缩至几十分钟。
短剧出海本地化：无需重新召集配音演员，直接在原始录音上替换特定用词，即可产出多语言版本，每版听感都像原生表演。
广告营销：文案临时调整产品名称或 Slogan 时，直接局部替换音频片段，保持原有品牌音色与情绪感染力。
游戏配音：跨语种角色语音快速克隆，仅需上传角色原声音频即可生成中、英、日、韩等多语种配音。

ViiTorVoice是什么

ViiTorVoice的主要功能

片段级局部编辑：可指定替换音频中的某个词或片段，其余部分完全保持不变。

语音克隆：支持无参考文本（Zero-Shot）跨语种克隆，仅需上传纯音频即可提取音色。

情绪与副语言控制：通过插入特殊 Token 实现词级精准控制，引入 CFG 技术强化情绪表达。

低延迟推理：端到端首帧生成时间低于 60ms，支持首块推理。

多语种支持：中、英、日、韩等多语种内容生成。

微信关注回复“开源”，加入AI开源项目交流群

如何使用ViiTorVoice

访问 Demo 页面：打开 Hugging Face 在线体验地址（https://huggingface.co/spaces/ZzWater/ViiTorVoice）。

选择功能模式：在界面顶部切换「Voice Edit」（局部编辑）或「Voice Clone」（语音克隆）标签。

上传源音频：将需要编辑或克隆的原始音频文件拖入左侧「Source Audio」上传区域。

输入文本指令：在编辑框中填写原始转录文本与修改后的目标文本，系统将自动定位差异片段。

插入情绪标签：如需控制情感，在文本中插入特殊 Token（如 <laugh>、<sigh>）标记副语言信息。

调整生成参数：设置推理步数（4 步或 8 步）等配置，点击生成按钮等待模型处理。

预览与下载：在右侧「Edited Audio」区域播放效果，确认无误后下载保存到本地。

ViiTorVoice的核心优势

评测成绩全球第一：Seed-TTS 英文词错率 1.32、中文词错率 0.99，SIM-o 与 UTMOS 均领先。

独创局部编辑能力：行业唯一支持片段级定向编辑，解决传统 TTS 改词需整段重录的痛点。

无文本依赖克隆：无需准确转录文本即可实现跨语种音色迁移，适配小语种场景。

极速推理：首帧延迟 60ms 以内，远优于行业 150-200ms 水平。

ViiTorVoice的项目地址

GitHub仓库：https://github.com/viitor-ai/viitor-voice-nar

HuggingFace模型库：https://huggingface.co/ZzWater/ViiTorVoice-NAR

ViiTorVoice的同类竞品对比

对比维度	ViiTorVoice	Qwen3-TTS
研发方	云上曲率	阿里巴巴通义实验室
核心架构	NAR 非自回归（完形填空式）	AR 自回归（逐帧链式生成）
局部编辑	支持片段级定向修改，改词不改全段	不支持，修改一词需整段重生成
Seed-TTS 英文 WER	1.32（更低=更准）	1.54
Seed-TTS 中文 WER	0.99（行业首个<1.0）	1.15
首帧延迟	<60ms	~150-200ms
无文本克隆	仅需纯音频即可跨语种克隆	需提供音频+准确转录文本
情绪控制	词级 Token 精准控制（笑声/叹气等）	基础自然语言描述控制

ViiTorVoice的应用场景

影视后期制作：对白调整无需召集演员重进录音棚，导演可在非线性时间线上实时替换台词，音色与呼吸节奏无缝保持一致。
有声书与播客：录制中出现口误或专有名词错误时，只需定向修改一两秒音频，无需重录整章，后期修音时间从数天压缩至几十分钟。
短剧出海本地化：无需重新召集配音演员，直接在原始录音上替换特定用词，即可产出多语言版本，每版听感都像原生表演。
广告营销：文案临时调整产品名称或 Slogan 时，直接局部替换音频片段，保持原有品牌音色与情绪感染力。
游戏配音：跨语种角色语音快速克隆，仅需上传角色原声音频即可生成中、英、日、韩等多语种配音。

全部分类

ViiTorVoice是什么

ViiTorVoice的主要功能

如何使用ViiTorVoice

ViiTorVoice的核心优势

ViiTorVoice的项目地址

ViiTorVoice的同类竞品对比

ViiTorVoice的应用场景

ViiTorVoice是什么

ViiTorVoice的主要功能

如何使用ViiTorVoice

ViiTorVoice的核心优势

ViiTorVoice的项目地址

ViiTorVoice的同类竞品对比

ViiTorVoice的应用场景