快讯
智谱开源 GLM-TTS :基于多奖励强化学习的可控发音语音合成
智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式,支持仅3秒音色复刻与多方言克隆。字符错误率(CER)在强化学习优化后达0.89%,在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制(Phoneme-in)以及自研2D-Vocos声码器,显著提升了情感表达与发音准确性。
智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式,支持仅3秒音色复刻与多方言克隆。字符错误率(CER)在强化学习优化后达0.89%,在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制(Phoneme-in)以及自研2D-Vocos声码器,显著提升了情感表达与发音准确性。