News
美团 LongCat 团队推出语音合成模型LongCat-AudioDiT
美团LongCat团队推出LongCat-AudioDiT语音合成模型,实现零样本音色克隆SOTA性能。模型直接在波形潜空间进行扩散生成,摒弃传统梅尔频谱中间表示,避免信息损失。LongCat-AudioDiT提出双重约束对齐(DCA)和自适应投影引导(APG)两项关键技术,修复训练-推理不匹配问题并缓解过饱和。
美团LongCat团队推出LongCat-AudioDiT语音合成模型,实现零样本音色克隆SOTA性能。模型直接在波形潜空间进行扩散生成,摒弃传统梅尔频谱中间表示,避免信息损失。LongCat-AudioDiT提出双重约束对齐(DCA)和自适应投影引导(APG)两项关键技术,修复训练-推理不匹配问题并缓解过饱和。