project
MiniMax M3 - MiniMax 推出的新一代 AI 模型
MiniMax M3是MiniMax推出的全新AI模型,具备领先的编程、Agent与长文本处理能力。模型采用创新的MSA稀疏注意力架构,支持1M超长上下文,效率提升20倍。
MiniMax M3是什么
MiniMax M3是 MiniMax 推出的全新AI模型,具备领先的编程、Agent与长文本处理能力。模型采用创新的MSA稀疏注意力架构,支持1M超长上下文,效率提升20倍。同时原生支持图像、视频输入,可操控电脑桌面。在SWE-Bench等评测中超越GPT-5.5等模型,且已开源,可通过MiniMax Code、API等体验。
MiniMax M3的主要功能
- 编程与智能体 (Agent):在SWE-Bench Pro编码测试中超越GPT-5.5等主流模型。能自主进行任务拆解、工具调用和多步推理,代码目标是可直接交付。
- 1M超长上下文:基于自研MSA架构,API最高支持100万tokens上下文窗口(至少保障512K tokens可用)。
- 原生多模态支持:支持图像与视频输入,能看懂论文中的图表公式,并具备模拟操作电脑桌面的能力。
- 高效模型架构:采用稀疏MoE架构,总参数量196B,但每次推理仅激活约11B参数,保证运行效率。
MiniMax M3的技术原理
- MSA稀疏注意力架构:模型采用自研的MSA(MiniMax Sparse Attention)机制,通过轻量级索引模块快速筛选出关键的KV块,再对这些块进行稀疏计算,大幅降低长序列下的计算量。
- 两阶段计算流程:在索引阶段,模型用一个低成本的注意力模块评估所有token的重要性;在稀疏阶段,只对筛选出的高价值块执行完整注意力计算,使100万token上下文的计算量降至传统模型的1/20。
- MoE混合专家结构:模型总参数量为196B,每次推理只激活约11B参数(约6个专家),在保持大模型容量的同时,显著提升推理速度和部署效率。
如何使用MiniMax M3
- 在线体验(MiniMax Code):访问 MiniMax Code 官网 https://agent.minimaxi.com/download,无需部署可直接体验编程、长文本等能力。
- API 调用:访问 MiniMax 开放平台,获取 API 密钥,将 M3 集成到自己的应用或工作流中。支持图像/视频输入及 Agent 任务。
MiniMax M3的核心优势
- 顶尖编程与Agent能力:在 SWE-Bench Pro、Terminal Bench 等权威评测中达到国际领先水平,部分指标超越 GPT-5.5 和 Gemini 3.1 Pro,能完成端到端的代码交付与复杂任务自动化。
- 超长上下文 + 极致效率:支持 1M token 上下文,凭借自研 MSA 稀疏注意力架构,处理百万级 token 的计算量仅为传统模型的 1/20,预填充和解码阶段分别提速 9.7 倍和 15.6 倍。
- 原生多模态与桌面操作:直接支持图像、视频输入,可理解论文图表、公式等视觉信息,能模拟操作电脑桌面(如点击、输入),拓展 Agent 的应用边界。
MiniMax M3的同类竞品对比
| 对比项 | MiniMax M3 | GPT-5.5 |
|---|---|---|
| 编程能力 | SWE-Bench Pro 超越 GPT-5.5 | 优秀,但略低于M3 |
| 上下文效率 | 1M token,计算量仅1/20 | 支持1M但计算成本高 |
| 多模态 | 原生支持图像/视频/桌面操作 | 仅图像(需多模态版本) |
| 开源 | 完全开源 | 闭源 |
MiniMax M3的应用场景
- 智能软件开发:直接根据需求生成可交付的代码,完成自动化测试、代码重构与调试。Agent能力可自主调用工具、拆解任务,辅助完成完整项目开发。
- 超长文档分析:一次处理百万token(如数百页财报、整本技术手册或全部病历),进行摘要、问答、合同审查或多文档对比。
- 桌面自动化与数字员工:模型能“看懂”屏幕内容,模拟点击、输入等电脑操作,适用RPA流程自动化、软件测试、数据录入等场景。
- 多模态科研与教育:理解论文中的图表、公式、实验截图,辅助文献解读、实验复现;可用于教学课件分析与智能答疑。