project
Stable Audio 3 - Stability AI 开源的音频生成模型系列
Stable Audio 3是Stability AI推出的新一代开源音频生成模型系列,基于流匹配潜空间扩散架构,支持文本转音乐与音效、音频编辑及续写。Stable Audio 3提供Sma...
Stable Audio 3是什么
Stable Audio 3是Stability AI推出的新一代开源音频生成模型系列,基于流匹配潜空间扩散架构,支持文本转音乐与音效、音频编辑及续写。Stable Audio 3提供Small、Medium、Large多规格模型,Small版本可在MacBook Pro本地运行并生成最长2分钟音频,Medium与Large支持超过6分钟的高质量生成。全系模型采用完全授权数据训练,开放Small与Medium权重,支持LoRA微调,实现不到2秒的快速推理。
Stable Audio 3的主要功能
-
文本转音频生成:用户输入英文文本提示词可生成器乐音乐或环境音效,精确控制输出时长至秒级。
-
可变长度音频合成:模型按请求时长比例分配潜空间序列长度,避免固定最大长度导致的计算与内存浪费。
-
音频局部编辑修复:通过单段或多段掩码实现音频的局部重绘(inpainting),在保留原始片段的同时替换目标区域。
-
音频智能续写扩展:用因果掩码机制对现有音频进行连贯延续,将短录音扩展为超过6分钟的完整作品。
-
LoRA风格微调:首次开放LoRA训练文档与Small、Medium权重,支持用户使用自有音频库进行高效的自定义风格适配。
-
全链路本地部署:3.0 Small支持在MacBook Pro等消费级设备上完全离线运行,实现无需网络的隐私化创作。
Stable Audio 3的技术原理
-
语义-声学自编码器:基于SAME架构通过4096倍下采样将44.1kHz立体声映射至256维潜空间,兼顾高保真重建与语义结构编码。
-
流匹配潜空间扩散:采用流匹配训练范式在紧凑潜空间中执行扩散生成,配合小批量最优传输耦合提升训练稳定性与效率。
-
对抗后训练加速:在预训练与ODE蒸馏预热后引入对抗后训练,将推理步数压缩至极低水平,实现H200上不到2秒生成长音频。
-
差分注意力Transformer:扩散Transformer集成差分注意力、自适应层归一化条件注入与记忆嵌入,增强长序列音频的建模精度。
-
可变长度推理机制:突破传统扩散模型固定序列长度限制,使潜空间长度与实际请求时长成正比,显著降低短音频生成成本。
如何使用Stable Audio 3
-
获取模型权重:访问Hugging Face的Stability-AI/stable-audio-3仓库,下载3.0 Small、Small SFX或Medium的权重文件。
-
配置运行环境:克隆stable-audio-tools代码仓库并安装依赖,确保PyTorch与CUDA或Apple Metal后端已正确配置。
-
加载模型与编码器:在脚本中实例化SAME自编码器与对应规模的扩散Transformer,加载预训练权重至显存。
-
编写生成提示:输入描述目标音频风格、乐器与情绪的英文提示词,并设置精确的输出时长(秒数)。
-
执行推理生成:调用模型生成接口,模型将根据时长参数执行可变长度推理并输出44.1kHz立体声WAV文件。
Stable Audio 3的核心优势
-
完全授权商用友好:全系模型基于 licensed 与 Creative Commons 数据训练,Community License允许用户自由拥有并商用生成内容。
-
消费级硬件原生支持:3.0 Small开放权重且可在MacBook Pro M4上离线运行,是首款支持本地全曲作曲的轻量级模型。
-
超长高质量生成:Medium与Large模型支持超过6分钟的高质量音频生成,较前代Stable Audio Open的47秒上限实现数量级突破。
-
极致推理效率:经对抗后训练优化,Large模型在H200 GPU上生成6分20秒音频耗时不到2秒,MacBook Pro上仅需数秒。
-
零标注灵活编辑:无需额外训练数据标注即可通过随机与因果掩码实现单段、多段编辑及续写,直接融入真实创作工作流。
Stable Audio 3的项目地址
- 项目官网:https://stability.ai/news-updates/meet-stable-audio-3-the-model-family-built-for-artistic-experimentation-with-open-weight-models
- GitHub仓库:https://github.com/Stability-AI/stable-audio-3
- HuggingFace模型库:https://huggingface.co/collections/stabilityai/stable-audio-3
- arXiv技术论文:https://arxiv.org/pdf/2605.17991
Stable Audio 3的同类竞品对比
| 对比维度 | Stable Audio 3 | Stable Audio Open | MusicGen |
|---|---|---|---|
| 开发团队 | Stability AI | Stability AI | Meta (FAIR) |
| 模型架构 | 流匹配潜空间扩散 | 潜空间扩散 | 自回归 + EnCodec |
| 最大生成时长 | 6分20秒 | 47秒 | 约2分钟 |
| 可变长度支持 | 原生秒级控制 | 不支持(固定长度) | 有限支持 |
| 消费级本地运行 | Small可在MacBook运行 | 需独立GPU | 需独立GPU |
| 开放权重范围 | Small / Medium / Small SFX | Small | Small / Medium / Large |
| 音频编辑能力 | 单段/多段/续写 | 不支持 | 不支持 |
| 推理速度 | <2秒(H200,6分20秒) | 较慢 | 中等 |
Stable Audio 3的应用场景
-
游戏与影视音效:快速生成交互音效、环境氛围音与背景音乐,通过局部编辑精确匹配画面节奏与情感需求。
-
短视频与广告配乐:按精确时长生成定制化器乐片段,避免手动裁剪,直接适配短视频、宣传片与播客转场。
-
音乐创作辅助:帮助音乐人生成动机灵感、扩展未完成草稿或替换歌曲局部段落,显著加速编曲迭代周期。
-
本地隐私敏感创作:3.0 Small支持完全离线运行,满足影视工作室、独立音乐人对数据隐私与网络隔离的严格要求。
-
个性化品牌声音:通过LoRA微调企业自有音频资产,打造一致的UI音效、品牌提示音与专属音乐风格。