project
Nemotron 3 Super - 英伟达专为智能体推理的开源大模型
Nemotron 3 Super是英伟达推出的1200亿参数开源AI模型,采用Mamba-MoE混合架构,专为智能体应用优化。模型支持100万token超长上下文,推理速度提升3倍,吞吐...
Nemotron 3 Super是什么
Nemotron 3 Super是英伟达推出的1200亿参数开源AI模型,采用Mamba-MoE混合架构,专为智能体应用优化。模型支持100万token超长上下文,推理速度提升3倍,吞吐量提升5倍。在OpenClaw任务成功率表现优异,性能接近Claude Opus 4.6。英伟达同时开源了超10万亿token的训练数据、完整方法论及15个强化学习环境,是企业级多智能体系统的理想选择。
Nemotron 3 Super的主要功能
- 超长上下文记忆:支持100万token上下文窗口,让智能体在复杂多步任务中保持完整的工作流状态,防止目标偏移。
- 智能体任务执行: 在OpenClaw等智能体基准测试中达到85.6%任务成功率,性能直逼Claude Opus 4.6等顶尖闭源模型。
- 推理速度加速:通过多Token预测技术实现原生投机解码,让推理速度提升3倍,满足实时交互需求。
- 高吞吐量服务:模型相比前代模型吞吐量提升5倍,支持大规模并发智能体部署,降低多智能体应用成本。
- 高精度工具调用:可在庞大函数库中可靠导航操作,防止网络安全等高风险关键环境中的执行错误。
- 代码智能体开发:模型能一次性加载整个代码库到上下文,实现端到端代码生成、漏洞修复与自动化调试。
- 财务分析处理:可将数千页报告直接载入内存,省去冗长对话中反复重新推理的麻烦,大幅提升工作效率。
Nemotron 3 Super的技术原理
- Mamba-MoE混合架构:模型采用88层网络结构,周期性交替排列Mamba-2层与Transformer注意力层。Mamba-2层提供线性时间复杂度的序列建模效率,少量Transformer层作为全局锚点负责跨位置长距离信息路由和高精度推理,在保持强大建模能力的同时显著提升推理吞吐量。
- LatentMoE隐式混合专家架构:英伟达首创的新型MoE设计,在路由和专家计算前先将token从隐藏维度投影到更小的潜在维度。路由和专家计算在这个压缩空间中进行,使参数加载和通信量直接缩小数倍,节省的资源用于增加专家总数和激活专家数,实现”花1个专家成本激活4个专家”的效果,在几乎不变推理成本下提升模型准确率。
- 多Token预测加速:模型在每个位置同时预测未来多个token,这不仅迫使模型学习多步因果关系和长远文本结构提升质量,更关键的是实现了原生投机解码——辅助预测头作为内置草稿模型快速生成候选序列,主模型一次前向传播完成验证,大幅降低生成延迟且额外开销极小。
- NVFP4低精度预训练:全程在Blackwell平台上用NVFP4精度进行预训练,4位浮点格式大幅降低显存需求。在零准确率损失前提下,推理速度比Hopper架构FP8快4倍,证明大规模低精度训练的可行性和高效性。
Nemotron 3 Super的项目地址
- 项目官网:https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/
- HuggingFace模型库:https://huggingface.co/collections/nvidia/nvidia-nemotron-v3
- 技术论文:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf
Nemotron 3 Super的应用场景
- 智能体平台核心引擎:作为OpenClaw等智能体平台的”最强开源模型”,驱动多智能体协同完成复杂长周期任务,解决上下文爆炸和思考税两大瓶颈。
- 企业级软件开发:赋能CodeRabbit、Factory、Greptile等公司的软件开发智能体,实现代码库级端到端生成、调试与漏洞修复,SWE-Bench测试达60.47%。
- 深度研究分析: 驱动NVIDIA AI-Q研究型智能体,在DeepResearch Bench排行榜夺冠,支持跨海量文档的多步推理与信息整合。
- 网络安全运维:在自主安全编排等高风险环境中,通过高精度工具调用可靠导航庞大函数库,防止关键执行错误。
- 财务金融分析:一次性加载数千页财报进内存,直接进行深度分析,无需反复重新推理,大幅提升投研效率。