project
Nemotron-Labs-TwoTower - 英伟达开源的双塔架构扩散语言模型
NVIDIA Nemotron-Labs-TwoTower 是英伟达开源的双塔架构扩散语言模型,总参数约60B、活跃参数3B。模型将上下文理解与去噪生成解耦为两个独立塔,冻结的AR上下...
Nemotron-Labs-TwoTower是什么
NVIDIA Nemotron-Labs-TwoTower 是英伟达开源的双塔架构扩散语言模型,总参数约60B、活跃参数3B。模型将上下文理解与去噪生成解耦为两个独立塔,冻结的AR上下文塔处理干净token,可训练的扩散去噪塔通过交叉注意力精炼噪声块。模型基于Nemotron-3-Nano-30B-A3B构建,训练约2.1T tokens,保留自回归基线98.7%质量,生成吞吐量提升2.42倍,支持Mask Diffusion、Mock-AR与AR-only三种推理模式。
Nemotron-Labs-TwoTower的主要功能
-
双塔分离推理:将上下文编码与去噪生成分解为两个独立模块,避免单一网络”身兼两职”的性能瓶颈。
-
三种推理模式切换:单一检查点支持 Mask Diffusion、Mock-AR与 AR-only,灵活适配不同场景需求。
-
高质量文本生成:在保留自回归基线 98.7% 聚合基准质量的前提下,实现可并行的迭代生成。
-
高吞吐生成加速:2×H100 环境下生成吞吐量提升 2.42 倍,显著降低推理延迟与计算成本。
-
商用级开源部署:用NVIDIA Nemotron Open Model License 开源权重,支持企业商用与二次开发。
Nemotron-Labs-TwoTower的技术原理
- 核心思想:传统扩散语言模型使用单一网络同时承担”上下文理解”和”迭代去噪”两个角色,导致两者互相掣肘。TwoTower 将这两个职责解耦为双塔架构:
-
上下文塔(Context Tower):冻结的 Nemotron-3-Nano-30B-A3B,采用因果注意力因果处理干净 token,负责高质量的上下文表示编码。
-
去噪塔(Denoiser Tower):可训练模块,采用双向块注意力处理带噪声的 token 块,通过交叉注意力从上下文塔获取语义指导,逐步精炼去噪。
-
- 训练方式:基于 30B 混合 Mamba-Transformer MoE 骨架,在约 2.1T tokens 上训练,用 MoE 稀疏激活实现高效计算。
- 推理优势:扩散模型的并行迭代特性天然支持加速解码,双塔分离后去噪塔无需重复编码上下文,在保证质量的同时大幅提升 wall-clock 吞吐量。
微信关注回复“开源”,加入AI开源项目交流群
如何使用Nemotron-Labs-TwoTower
-
访问 HuggingFace 模型页:打开 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 官方仓库页面。
-
阅读模型卡与许可:确认 NVIDIA Nemotron Open Model License 商用条款,了解模型架构与硬件要求。
-
克隆/下载权重:用
git lfs或 HuggingFacetransformers库下载模型权重与配置文件。 -
配置运行环境:准备至少 2×H100 GPU 环境,安装 PyTorch 及依赖库(参考仓库
requirements.txt)。 -
加载模型与分词器:通过
AutoModelForCausalLM和AutoTokenizer加载模型,选择 Mask Diffusion / Mock-AR / AR-only 推理模式。 -
执行推理生成:输入 prompt,调用模型生成接口,利用双塔架构完成高效并行去噪生成。
-
微调适配:基于自有数据对可训练的去噪塔进行进一步微调,冻结上下文塔保持不变。
Nemotron-Labs-TwoTower的核心优势
- 双塔解耦,各司其职:将上下文编码与去噪生成分离为两个独立塔,避免单一网络角色冲突导致的性能瓶颈。
- 质量几乎无损:保留自回归基线 98.7% 的聚合基准质量,扩散生成不再以牺牲输出质量为代价。
- 推理速度翻倍:在 2×H100 环境下实现 2.42 倍 wall-clock 生成吞吐量,显著降低延迟与算力成本。
- 一模型三模式:单一检查点支持 Mask Diffusion、Mock-AR、AR-only 三种推理方式,灵活适配不同延迟与质量需求场景。
- 开源可商用:用 NVIDIA Nemotron Open Model License 发布权重,支持企业自由部署与商业二次开发。
Nemotron-Labs-TwoTower的项目地址
- HuggingFace模型库:https://huggingface.co/collections/nvidia/nemotron-labs-twotower
- arXiv技术论文:https://arxiv.org/pdf/2606.26493
Nemotron-Labs-TwoTower的同类竞品对比
| 对比维度 | Nemotron-Labs-TwoTower | LLaDA |
|---|---|---|
| 发布机构 | NVIDIA | MIT |
| 架构设计 | 双塔分离:冻结AR上下文塔 + 可训练扩散去噪塔(交叉注意力连接) | 单塔统一:单一Transformer同时承担上下文编码与掩码去噪 |
| 总参数量 | ~60B(活跃3B,MoE稀疏) | 8B(稠密) |
| 基座模型 | Nemotron-3-Nano-30B-A3B(Mamba-Transformer MoE) | 自研Transformer |
| 训练数据 | ~2.1T tokens | ~2T tokens |
| 基线质量保留 | 98.7%(相对自回归基线) | ~95%(相对同等规模AR模型) |
| 吞吐提升 | 2.42×(2×H100,wall-clock) | ~1.5×(标准GPU环境) |
| 推理模式 | 三种:Mask Diffusion / Mock-AR / AR-only | 单一:掩码扩散(随机/半自回归采样) |
| 注意力机制 | 上下文塔:因果注意力;去噪塔:双向块注意力 + 交叉注意力 | 统一双向注意力 + 位置编码处理 |
| 核心创新 | 角色解耦:避免单一网络”身兼两职”的性能瓶颈 | 简单 scalable:证明扩散模型可scale至8B并逼近GPT-4质量 |
Nemotron-Labs-TwoTower的应用场景
-
高并发在线服务:2.42倍吞吐提升使其适合搜索引擎、智能客服等需要低延迟、高并发的实时文本生成场景。
-
长文档生成:扩散模型的并行迭代特性适合长文本续写、报告生成、代码补全等需要多步 refine 的任务。
-
多模式灵活部署:三种推理模式切换让企业可根据成本/质量权衡,在边缘端用 AR-only、在云端用 Mask Diffusion。
-
商用产品开发:模型可商用许可支持企业将模型集成至写作助手、营销文案生成器、代码辅助工具等商业化产品。
-
科研与二次创新:开源权重与论文细节便于研究者探索扩散语言模型架构、训练策略及跨模态扩展方向。