SongGeneration 2 - 腾讯联合清华开源的音乐生成模型 - AiBoss

SongGeneration 2是什么

SongGeneration 2是腾讯与清华大学联合开源的4B参数音乐生成大模型，采用混合LLM-扩散架构与分层表征设计，实现商业级音乐生成质量。模型歌词准确率达8.55% PER，超越Suno v5等商业模型。SongGeneration 2支持中英文等多语种、复杂多轨编曲，可通过文本描述与音频提示精准控制风格。模型可在22GB显存消费级硬件本地运行，1分钟内可生成完整歌曲。

SongGeneration 2的主要功能

高质量歌曲生成：基于混合LLM-扩散架构生成长达4分30秒、旋律优美且编曲层次丰富的完整歌曲。
多语种歌词合成：支持中、英、西、日等多语种歌词，以8.55%的极低音素错误率实现清晰准确的发音。
多样化生成模式：可灵活输出完整歌曲、纯音乐、纯人声或分离的人声与伴奏双音轨。
精准风格控制：通过文本描述（性别、曲风、情绪、乐器）或10秒音频提示精确控制生成风格。
灵活部署选项：支持22GB显存本地运行及HuggingFace Space在线快速体验，提供低显存适配方案。

SongGeneration 2的技术原理

混合LLM-扩散架构：语言模型（LeLM）担任”作曲大脑”统筹全局音乐结构与演奏细节，扩散模型作为”高保真渲染器”在语言模型指导下合成复杂声学细节，二者分工协作平衡音乐性与音质。
分层表征建模：采用并行建模设计，混合表征（Mixed Tokens）捕捉高层级旋律与结构语义，多轨表征（Dual-Track Tokens）分别建模人声与伴奏轨道的细粒度声学变化。
自动化美学评估：基于11,717个专家标注样本构建细粒度评估框架，为模型训练注入音乐性先验知识，在推理阶段引入基于音乐性标签的CFG策略。
三阶段渐进式后训练：通过SFT收窄数据分布构建高质量底座，大规模离线DPO利用20万对严格正负样本消除歌词幻觉，半在线DPO周期性更新模型以极致突破音乐性上限。

SongGeneration 2的项目地址

GitHub仓库：https://github.com/tencent-ailab/songgeneration
HuggingFace模型库：https://huggingface.co/tencent/SongGeneration

SongGeneration 2的应用场景

音乐创作辅助：独立音乐人可快速生成demo验证灵感，降低编曲门槛与制作成本。
视频配乐制作：自媒体创作者能依据视频风格与情绪需求，即时生成定制化背景音乐。
游戏音频开发：游戏厂商可为不同场景、角色与剧情批量生成适配的主题音乐与音效。
广告与营销内容：品牌方可按 campaign 调性生成专属 jingle，实现音频资产的快速迭代。
教育与娱乐应用：音乐教学平台提供风格化伴奏生成，K歌与社交应用支持用户个性化歌曲创作。

SongGeneration 2是什么

SongGeneration 2的主要功能

高质量歌曲生成：基于混合LLM-扩散架构生成长达4分30秒、旋律优美且编曲层次丰富的完整歌曲。

多语种歌词合成：支持中、英、西、日等多语种歌词，以8.55%的极低音素错误率实现清晰准确的发音。

多样化生成模式：可灵活输出完整歌曲、纯音乐、纯人声或分离的人声与伴奏双音轨。

精准风格控制：通过文本描述（性别、曲风、情绪、乐器）或10秒音频提示精确控制生成风格。

灵活部署选项：支持22GB显存本地运行及HuggingFace Space在线快速体验，提供低显存适配方案。

SongGeneration 2的技术原理

混合LLM-扩散架构：语言模型（LeLM）担任”作曲大脑”统筹全局音乐结构与演奏细节，扩散模型作为”高保真渲染器”在语言模型指导下合成复杂声学细节，二者分工协作平衡音乐性与音质。

分层表征建模：采用并行建模设计，混合表征（Mixed Tokens）捕捉高层级旋律与结构语义，多轨表征（Dual-Track Tokens）分别建模人声与伴奏轨道的细粒度声学变化。

自动化美学评估：基于11,717个专家标注样本构建细粒度评估框架，为模型训练注入音乐性先验知识，在推理阶段引入基于音乐性标签的CFG策略。

三阶段渐进式后训练：通过SFT收窄数据分布构建高质量底座，大规模离线DPO利用20万对严格正负样本消除歌词幻觉，半在线DPO周期性更新模型以极致突破音乐性上限。

SongGeneration 2的应用场景

音乐创作辅助：独立音乐人可快速生成demo验证灵感，降低编曲门槛与制作成本。

视频配乐制作：自媒体创作者能依据视频风格与情绪需求，即时生成定制化背景音乐。

游戏音频开发：游戏厂商可为不同场景、角色与剧情批量生成适配的主题音乐与音效。

广告与营销内容：品牌方可按 campaign 调性生成专属 jingle，实现音频资产的快速迭代。

教育与娱乐应用：音乐教学平台提供风格化伴奏生成，K歌与社交应用支持用户个性化歌曲创作。

All Categories

SongGeneration 2是什么

SongGeneration 2的主要功能

SongGeneration 2的技术原理

SongGeneration 2的项目地址

SongGeneration 2的应用场景

SongGeneration 2是什么

SongGeneration 2的主要功能

SongGeneration 2的技术原理

SongGeneration 2的项目地址

SongGeneration 2的应用场景