NewsJune 1, 2026

小米开源可控视频音效生成模型 ControlFoley

小米大模型应用团队开源可控视频音效生成模型 ControlFoley，统一支持文本引导视频配音、文本控制视频配音及参考音频控制视频配音三类任务。模型通过联合视觉编码、时间-音色解耦与模态鲁棒训练，解决现有方案文本控制弱、参考音频难同步等问题，在 VGGSound-Test 等多个 benchmark 上达到开源 SOTA 表现。

Back

All Categories