project
MAI-Thinking-1 - 微软推出的首款自研高级推理模型
MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构,完全基于干净、商业授权数据从头训练,未使用任...
MAI-Thinking-1是什么
MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构,完全基于干净、商业授权数据从头训练,未使用任何第三方模型蒸馏。在 SWE-Bench Pro、AIME 2025/2026 等关键基准上达到业界顶尖水平,与 Claude Opus 4.6 持平,在盲测中优于 Sonnet 4.6。
MAI-Thinking-1的主要功能
-
高级数学与科学推理:在 AIME 2025 上达到 97.0%,AIME 2026 上达到 94.5%,具备极强的 STEM 推理能力。
-
智能软件工程:在 SWE-Bench Pro 上获得 52.8%,在 LiveCodeBench v6 上获得 87.7%,支持多步骤代码阅读、编辑、测试与错误恢复。
-
超长上下文处理:支持最高 256K 的上下文窗口,可处理长文档与大规模代码库。
-
工具调用与 Agent 能力:可调用外部工具与环境交互,执行复杂的多步骤任务。
-
安全与有用性平衡:在 RL 训练中同时优化 helpfulness 和 safety,减少有害输出。
MAI-Thinking-1的技术原理
- 稀疏 MoE 架构:MAI-Thinking-1 采用 78 层 Decoder-only Transformer,交替使用 8/512 专家激活的稀疏 MoE 层与密集 FFN 层,配合 5:1 局部/全局注意力机制,在保持 35B 活跃参数的同时实现接近 1T 总参数的性能,显著降低推理时的 KV Cache 与计算开销。
- 数据与预训练:模型基于 30T tokens 的干净、商业授权数据从头预训练,严格排除 AI 生成内容与开源训练集,并对常见基准进行去污染处理;中期训练额外强化 STEM、数学与代码能力,最终支持 256K 超长上下文。
- 强化学习”爬坡”:微软提出”Hill-Climbing Machine”理念,通过自研 RL 框架从零开始学习推理链,不依赖先验 CoT 蒸馏,分别针对 STEM 推理、Agentic 编码和 Helpfulness & Safety 三个领域进行数千步的持续对数线性提升。
- 评估体系:内部建立近 40 个 NLL 基准覆盖代码、STEM、数学、通用知识和多语言五大类,优先采用负对数似然非多选题评估,避免格式偏差;同时构建私有基准防止数据污染,确保评估结果真实反映模型能力。
如何使用MAI-Thinking-1
MAI-Thinking-1 的具体使用方式和接入渠道尚未公布。
MAI-Thinking-1的核心优势
-
完全自研无蒸馏:不继承第三方模型的设计偏见,具备更强的可操控性和适应能力。
-
中等规模,顶尖性能:35B 活跃参数即可对标 Claude Opus 4.6 等更大模型,推理成本更低,部署更灵活。
-
数据纯净可追溯:排除 AI 生成内容,确保模型行为可解释、可改进。
-
全栈自主可控:从微软自研加速器到训练框架、RL 环境均为内部构建,可端到端优化。
-
持续进化能力:爬坡机器架构支持吸收更优数据、更强奖励和更多算力,实现能力的持续提升。
MAI-Thinking-1的项目地址
- 项目官网:https://microsoft.ai/news/introducing-mai-thinking-1/
- 技术论文:https://microsoft.ai/wp-content/uploads/2026/06/main_20260602_2.pdf
MAI-Thinking-1的同类竞品对比
| 维度 | MAI-Thinking-1 | Claude Opus 4.6 | DeepSeek-R1 |
|---|---|---|---|
| 架构 | 35B 活跃 / 1T 总参数 MoE | 未公开(大密集模型) | 37B 活跃 / 671B 总参数 MoE |
| 训练方式 | 从头训练,无蒸馏 | 未公开 | 基于 DeepSeek-V3 蒸馏 |
| SWE-Bench Pro | 52.8% | ~52.8%(持平) | 约 49-50% |
| AIME 2025 | 97.0% | 未明确 | 约 79.8% |
| 上下文长度 | 256K | 200K | 128K |
| 数据策略 | 纯净商业数据,无 AI 生成内容 | 未明确 | 开源+合成数据 |
| 全栈自主 | 是(微软自研硬件到框架) | 否(Anthropic) | 部分(依赖 NVIDIA 生态) |
MAI-Thinking-1的应用场景
-
企业级软件开发:辅助开发者进行代码审查、Bug 修复、功能实现和自动化测试。
-
科学研究与复杂计算:解决高等数学、物理、化学等复杂推理问题。
-
长文档分析与知识管理:处理法律合同、技术文档、论文等超长文本的深度理解与摘要。
-
AI Agent 工作流:作为核心推理引擎,驱动自动化办公、数据分析、系统运维等 Agent 任务。