NewsApril 1, 2026

美团 LongCat 团队推出语音合成模型LongCat-AudioDiT

美团LongCat团队推出LongCat-AudioDiT语音合成模型，实现零样本音色克隆SOTA性能。模型直接在波形潜空间进行扩散生成，摒弃传统梅尔频谱中间表示，避免信息损失。LongCat-AudioDiT提出双重约束对齐(DCA)和自适应投影引导(APG)两项关键技术，修复训练-推理不匹配问题并缓解过饱和。

Back

All Categories