project
SongGeneration 2 - 腾讯联合清华开源的音乐生成模型
SongGeneration 2是腾讯与清华大学联合开源的4B参数音乐生成大模型,采用混合LLM-扩散架构与分层表征设计,实现商业级音乐生成质量。模型歌词准确率达8.55% P...
SongGeneration 2是什么
SongGeneration 2是腾讯与清华大学联合开源的4B参数音乐生成大模型,采用混合LLM-扩散架构与分层表征设计,实现商业级音乐生成质量。模型歌词准确率达8.55% PER,超越Suno v5等商业模型。SongGeneration 2支持中英文等多语种、复杂多轨编曲,可通过文本描述与音频提示精准控制风格。模型可在22GB显存消费级硬件本地运行,1分钟内可生成完整歌曲。
SongGeneration 2的主要功能
- 高质量歌曲生成:基于混合LLM-扩散架构生成长达4分30秒、旋律优美且编曲层次丰富的完整歌曲。
- 多语种歌词合成:支持中、英、西、日等多语种歌词,以8.55%的极低音素错误率实现清晰准确的发音。
- 多样化生成模式:可灵活输出完整歌曲、纯音乐、纯人声或分离的人声与伴奏双音轨。
- 精准风格控制:通过文本描述(性别、曲风、情绪、乐器)或10秒音频提示精确控制生成风格。
- 灵活部署选项:支持22GB显存本地运行及HuggingFace Space在线快速体验,提供低显存适配方案。
SongGeneration 2的技术原理
- 混合LLM-扩散架构:语言模型(LeLM)担任”作曲大脑”统筹全局音乐结构与演奏细节,扩散模型作为”高保真渲染器”在语言模型指导下合成复杂声学细节,二者分工协作平衡音乐性与音质。
- 分层表征建模:采用并行建模设计,混合表征(Mixed Tokens)捕捉高层级旋律与结构语义,多轨表征(Dual-Track Tokens)分别建模人声与伴奏轨道的细粒度声学变化。
- 自动化美学评估:基于11,717个专家标注样本构建细粒度评估框架,为模型训练注入音乐性先验知识,在推理阶段引入基于音乐性标签的CFG策略。
- 三阶段渐进式后训练:通过SFT收窄数据分布构建高质量底座,大规模离线DPO利用20万对严格正负样本消除歌词幻觉,半在线DPO周期性更新模型以极致突破音乐性上限。
SongGeneration 2的项目地址
- GitHub仓库:https://github.com/tencent-ailab/songgeneration
- HuggingFace模型库:https://huggingface.co/tencent/SongGeneration
SongGeneration 2的应用场景
- 音乐创作辅助:独立音乐人可快速生成demo验证灵感,降低编曲门槛与制作成本。
- 视频配乐制作:自媒体创作者能依据视频风格与情绪需求,即时生成定制化背景音乐。
- 游戏音频开发:游戏厂商可为不同场景、角色与剧情批量生成适配的主题音乐与音效。
- 广告与营销内容:品牌方可按 campaign 调性生成专属 jingle,实现音频资产的快速迭代。
- 教育与娱乐应用:音乐教学平台提供风格化伴奏生成,K歌与社交应用支持用户个性化歌曲创作。