News
小米开源可控视频音效生成模型 ControlFoley
小米大模型应用团队开源可控视频音效生成模型 ControlFoley,统一支持文本引导视频配音、文本控制视频配音及参考音频控制视频配音三类任务。模型通过联合视觉编码、时间-音色解耦与模态鲁棒训练,解决现有方案文本控制弱、参考音频难同步等问题,在 VGGSound-Test 等多个 benchmark 上达到开源 SOTA 表现。
小米大模型应用团队开源可控视频音效生成模型 ControlFoley,统一支持文本引导视频配音、文本控制视频配音及参考音频控制视频配音三类任务。模型通过联合视觉编码、时间-音色解耦与模态鲁棒训练,解决现有方案文本控制弱、参考音频难同步等问题,在 VGGSound-Test 等多个 benchmark 上达到开源 SOTA 表现。