News
通义推出Fun-CineForge,首个影视级配音多模态大模型
通义实验室开源首个支持影视级配音的多模态模型Fun-CineForge,配套开放高质量数据集构建方法CineDub。模型基于CosyVoice3底层能力,创新引入”时间模态”,融合视觉、文本、音频、时间四种模态,实现口型同步、情绪表达、音色一致和时间对齐四大功能,支持独白、旁白、双人及多人对话场景。
通义实验室开源首个支持影视级配音的多模态模型Fun-CineForge,配套开放高质量数据集构建方法CineDub。模型基于CosyVoice3底层能力,创新引入”时间模态”,融合视觉、文本、音频、时间四种模态,实现口型同步、情绪表达、音色一致和时间对齐四大功能,支持独白、旁白、双人及多人对话场景。