快讯
英伟达开源双塔架构扩散语言模型 Nemotron-Labs-TwoTower
英伟达开源Nemotron-Labs-TwoTower,基于预训练自回归骨干的离散扩散语言模型,能解决大模型Token生成速度瓶颈。模型总参数60B,采用双塔架构——30B自回归上下文塔与30B扩散去噪塔,各塔激活3B参数。上下文塔保持冻结维护自回归上下文,去噪塔负责噪声块去噪,两者通过逐层交叉注意力协作。
英伟达开源Nemotron-Labs-TwoTower,基于预训练自回归骨干的离散扩散语言模型,能解决大模型Token生成速度瓶颈。模型总参数60B,采用双塔架构——30B自回归上下文塔与30B扩散去噪塔,各塔激活3B参数。上下文塔保持冻结维护自回归上下文,去噪塔负责噪声块去噪,两者通过逐层交叉注意力协作。