project
ControlFoley - 小米开源的可控视频音效生成模型
ControlFoley是小米开源的可控视频音效生成模型,能解决V2A领域可控性难题。模型统一支持文本引导、文本控制与参考音频控制三类视频配音任务,通过自研时空音...
ControlFoley是什么
ControlFoley是小米开源的可控视频音效生成模型,能解决V2A领域可控性难题。模型统一支持文本引导、文本控制与参考音频控制三类视频配音任务,通过自研时空音视频编码器CAV-MAE-ST、时间-音色解耦与模态鲁棒训练,实现语义对齐、时间同步与音质全面提升。模型在多个benchmark上达到开源SOTA,代码与模型权重已开放。
ControlFoley的主要功能
-
TV2A(文本引导视频配音):根据视频和文本提示生成同步音效,文本补充画面声音语义。
-
TC-V2A(文本控制视频配音):文本与视频语义冲突时,优先遵循文本意图,同时保持时间同步。
-
AC-V2A(参考音频控制视频配音):根据参考音频控制音色风格,不破坏视频节奏。
ControlFoley的技术原理
-
联合视觉编码:自研 CAV-MAE-ST 时空音视频编码器,专注音视频时空对应关系,增强动作节奏与时间同步理解,与 CLIP 结合兼顾语义与同步。
-
时间-音色解耦:抑制参考音频中的时间信息,保留全局音色特征,避免参考音频干扰视频同步。
-
模态鲁棒训练:随机模态 dropout + 统一多模态表示对齐,适配多种输入组合;通过 REPA 对齐目标提升语义一致性。
如何使用ControlFoley
- 获取开源资源:访问 GitHub 仓库下载代码与模型权重,或直接使用官方提供的在线 Demo 进行体验。
- 环境配置:根据仓库说明安装依赖环境,配置 Python 运行环境与必要的音视频处理库。
- 选择任务模式:根据创作需求选择三类任务之一:TV2A(文本引导)、TC-V2A(文本控制)或 AC-V2A(参考音频控制)。
- 准备输入条件:导入视频文件;如选 TV2A 附加文本提示,如选 TC-V2A 输入与画面冲突的文本指令,如选 AC-V2A 上传参考音频文件。
- 执行生成推理:运行模型推理脚本,ControlFoley 将基于联合视觉编码与时间-音色解耦机制生成与视频同步的音效。
- 导出与后处理:获取生成音频后,通过 VAE Decoder 与 Vocoder 输出最终音轨,与视频合成完成配音。
ControlFoley的核心优势
-
统一框架:单一模型覆盖文本引导、文本控制和参考音频控制三类任务,无需切换多个工具。
-
精准同步:自研 CAV-MAE-ST 时空编码器增强音视频时序理解,音画对齐精度领先开源竞品。
-
音色解耦:时间-音色解耦技术确保参考音频仅影响音色风格,不干扰视频原有节奏。
-
鲁棒控制:随机模态 dropout 与统一表示对齐训练,使模型在单模态或多模态输入下均稳定输出。
-
开源 SOTA:在 VGGSound-Test、Kling-Audio-Eval 等多个 benchmark 上语义对齐与声音质量全面领先。
ControlFoley的项目地址
- 项目官网:https://yjx-research.github.io/ControlFoley_web_page/
- GitHub仓库:https://github.com/xiaomi-research/controlfoley
- HuggingFace模型库:https://huggingface.co/YJX-Xiaomi/ControlFoley
- arXiv技术论文:https://arxiv.org/abs/2604.15086
ControlFoley的同类竞品对比
| 对比维度 | ControlFoley | MMAudio | HunyuanVideo-Foley |
|---|---|---|---|
| 任务覆盖 | 统一支持 TV2A / TC-V2A / AC-V2A 三类可控任务 | 主要支持 TV2A 基础视频配音 | 主要支持 TV2A 基础视频配音 |
| 文本冲突处理 | 强:冲突场景下 DeSync 仅 0.36-0.38,优先遵循文本意图 | 弱:文本易被视觉信息覆盖 | 弱:文本控制能力有限 |
| 参考音频控制 | 支持,时间-音色解耦不破坏同步 | 不支持 | 不支持 |
| 音画同步 | 优:CAV-MAE-ST 增强时空对应 | 良 | 良 |
| 开源状态 | 代码、权重、技术报告全开源 | 开源 | 开源 |
ControlFoley的应用场景
-
短视频创作:为无声素材添加符合创作者意图的定制化音效,避免模型自动猜测的偏差。
-
动画与游戏:为角色动作生成特定风格的打击声或环境音,如将普通敲门声替换为木槌击鼓声。
-
影视后期:根据参考音频素材统一全片音效音色风格,保持品牌或系列作品的声音一致性。
-
广告营销:按文本指令快速生成与品牌调性匹配的同步配音,强化节奏与情绪表达。
-
自媒体直播:为直播切片或二创视频补充多模态可控的沉浸式音频,提升内容完成度。