project
VibeThinker-3B - 微博开源的 30 亿参数密集推理模型
VibeThinker-3B是新浪微博团队开源的 30 亿参数密集推理模型,基于 Qwen2.5-Coder-3B 构建,通过升级版 Spectrum-to-Signal 后训练流程,在数学、编程等可验...
VibeThinker-3B是什么
VibeThinker-3B是新浪微博团队开源的 30 亿参数密集推理模型,基于 Qwen2.5-Coder-3B 构建,通过升级版 Spectrum-to-Signal 后训练流程,在数学、编程等可验证推理任务上达到 Gemini 3 Pro、Claude Opus 4.5 等前沿大模型同级性能,探索小模型能力边界并与传统 Scaling Law 形成互补。
VibeThinker-3B的主要功能
-
高难度数学推理:在 AIME’26 达 94.3 分,HMMT’25 达 89.3 分,BruMO’25 达 93.8 分。
-
竞技编程:LiveCodeBench v6 达 80.2 Pass@1,LeetCode 最新周赛/双周赛通过率高达 96.1%。
-
STEM 推理:在 IMO-AnswerBench 达 76.4 分(+CLR 提升至 80.6),支持复杂科学问题求解。
-
指令遵循:IFBench 达 74.5 分,具备格式敏感和约束检查能力。
-
测试时缩放(CLR):引入 Claim-Level 可靠性评估策略,可在推理阶段进一步提升答案可靠性。
VibeThinker-3B的技术原理
-
基座模型:基于 Qwen2.5-Coder-3B 构建,30亿参数密集架构未做改动,全部性能提升来自后训练技术栈的极致优化。
-
Spectrum-to-Signal 范式:核心训练流程分为”频谱阶段”(SFT 扩展能力覆盖)与”信号阶段”(RLVR 精准优化可验证任务)。
-
两阶段课程 SFT:第一阶段广泛覆盖数学、编程、STEM 和对话能力,第二阶段聚焦高难度长推理样本,逐步递进提升深度。
-
多样性探索蒸馏:不追求单一最优解,而是保留多个有效推理路径,增强模型在复杂问题上的泛化能力。
-
MGPO 强化学习:在 GRPO 基础上增加额外权重,优先选择对当前策略”既不太易也不太难”的样本进行优化。
-
多领域顺序 RL:严格按 Math → Code → STEM 的顺序依次进行强化学习,实验发现此顺序对整体效果最优。
微信关注回复“开源”,加入AI开源项目交流群
如何使用VibeThinker-3B
-
下载模型:访问 HuggingFace 或 GitHub 仓库获取模型权重。
-
本地部署:基于 transformers 等框架加载 3B 参数模型,支持消费级硬件运行。
-
调用推理:输入数学、编程或 STEM 类问题,模型将输出带完整推理链(CoT)的答案。
-
启用 CLR(可选):对数学类任务可开启 Claim-Level 可靠性评估,进一步提升准确率。
VibeThinker-3B的核心优势
- 极小参数,前沿性能:仅 3B 参数即可对标千亿级前沿模型在可验证推理任务上的表现。
- 课程式两阶段 SFT:从广泛能力覆盖到高难度长推理样本,逐步提升推理深度。
- 多领域 RL 强化:按 Math → Code → STEM 顺序依次进行强化学习,保留完整 64K 长上下文推理轨迹。
- 离线自蒸馏:筛选高质量轨迹进行统一蒸馏,优先学习学生模型尚未掌握的正确路径。
VibeThinker-3B的项目地址
- GitHub仓库:https://github.com/WeiboAI/VibeThinker
- HuggingFace模型库:https://huggingface.co/WeiboAI/VibeThinker-3B
- arXiv技术论文:https://arxiv.org/pdf/2606.16140
VibeThinker-3B的同类竞品对比
| 维度 | VibeThinker-3B | Claude Opus 4.5 |
|---|---|---|
| 开发方 | 新浪微博 AI 团队 | Anthropic |
| 参数规模 | 3B(密集模型) | 未公开(推测数百B~千亿级) |
| 开源程度 | 完全开源(论文+代码+权重) | 闭源(仅 API/产品) |
| 部署方式 | 本地消费级 GPU 可运行 | 仅云端 API |
| 定位 | 可验证推理专用引擎 | 通用智能助手 |
VibeThinker-3B的应用场景
-
算法竞赛备赛:辅助解答 AIME、HMMT、IMO 等数学竞赛题目,提供多路径推理参考。
-
编程面试训练:刷 LeetCode、LiveCodeBench 等编程题,获取带详细解释的正确解法。
-
STEM 教育辅导:为物理、化学、生物等理科问题提供逐步推导的解题过程。
-
边缘端推理部署:因模型仅 3B 参数,适合手机、IoT 设备等低算力环境本地运行。
-
推理能力研究:作为小模型推理上限的探索基准,供学术界研究 Scaling Law 的替代路径。