project
EAPO - 阿里通义推出的全新强化学习框架
EAPO是阿里通义实验室推出的长文本推理强化学习框架,通过引入'证据奖励'机制,将监督信号从最终答案下沉到证据提取过程。
EAPO是什么
EAPO是阿里通义实验室推出的长文本推理强化学习框架,通过引入”证据奖励”机制,将监督信号从最终答案下沉到证据提取过程。框架已被ACL 2026录用,在8个权威长文本基准测试中,让30B模型反超120B的GPT-OSS及Claude-Sonnet-4等闭源大模型。
EAPO的主要功能
-
结构化证据推理:强制模型执行”任务分析→证据提取→推理执行→答案生成”四步工作流,通过特殊 token 分隔每一步,使中间证据状态可被直接监督。
-
多粒度过程奖励:构建复合奖励信号,包含格式遵循奖励、群组相对证据质量奖励和结果准确率奖励,从稀疏的结果监督转向密集的过程监督。
-
群组相对证据评估:对同一问题采样多条证据轨迹,由奖励模型统一评估并给出1-5分的整数质量评分,在组内归一化生成相对奖励,引导模型优先提取高质量证据。
-
奖励-策略协同进化:设计自适应闭环机制,将策略模型生成的高置信度、结果一致的优质证据链筛选后反哺奖励模型进行拒绝微调,使评判标准随模型能力提升而动态进化。
-
长文本推理增强:在SEAL、LongBench-V1/V2等8个权威长文本基准上显著提升性能,让30B模型在长文本推理上反超120B的GPT-OSS及Claude-Sonnet-4等闭源大模型。
EAPO的技术原理
- Evidence-Augmented Reasoning(EAR)范式:建立结构化推理范式,强制模型在生成答案前必须从原文中逐字摘录相关证据片段。通过特殊 token 将流程拆分为”任务分析→证据提取→推理执行→答案生成”四步,使中间证据状态暴露在外、可被直接监督,从根本上解决传统模型”蒙对答案但引用错误”的幻觉问题。
- Group-Relative Evidence Reward(群组相对证据奖励):EAPO将强化学习的优化目标从”结果正确”转向”证据正确”。训练时模型对同一问题采样多条不同的证据轨迹,奖励模型同时评估这些证据集,给出1-5分的效用评分,在采样组内归一化为[0,1]的相对奖励。密集的过程监督让模型明白”找对证据”比”蒙对答案”更重要,有效抑制参数化捷径。
- Adaptive Reward-Policy Co-Evolution(自适应奖励-策略协同进化):随着策略模型能力提升,固定奖励模型会逐渐无法区分证据的微妙质量差异。EAPO设计自我强化闭环:通过Outcome-Consistent Rejection Fine-Tuning,筛选出”高证据评分且答案正确”或”低评分且答案错误”的高置信度 rollout 数据,用这些实例对奖励模型进行监督微调。策略模型越强,生成的训练数据越好;奖励模型评判越精准,又能反过来指导策略模型提取更精确的证据,实现动态同步进化。
- 基于GRPO的复合奖励机制:EAPO以Group Relative Policy Optimization为基座算法,构建多粒度复合奖励:格式遵循奖励(α=0.1)确保输出符合EAR结构;群组相对证据质量奖励(β=0.3)提供过程监督;结果准确率奖励(γ=0.6)验证最终答案。三者加权组合,将稀疏的结果信号转化为密集的过程导向指导。
EAPO的关键信息和使用要求
-
研发团队:阿里通义实验室(Xin Guan、Zijian Li、Shen Huang等),论文已被ACL 2026录用。
-
基座模型:基于Qwen3-14B(Dense架构)、Qwen3-30B-A3B-Instruct(MoE架构)、Qwen3-30B-A3B-Thinking三种模型训练。
-
上下文长度:训练和评估样本统一限制在128K tokens以内。
-
训练数据:4,664条复合样本,涵盖32K-128K填充上下文的多跳QA(MuSiQue)及维基百科混合QA(结构化+非结构化)。
-
奖励模型:基于Qwen3-30B-A3B-Thinking初始化,每20个RL步骤更新一次。
-
奖励权重:格式遵循α=0.1,证据质量β=0.3,结果准确率γ=0.6。
-
核心算法:以GRPO(Group Relative Policy Optimization)为基座,引入群组相对证据奖励和协同进化机制。
-
模型基础:需基于支持长文本的Qwen3系列模型进行训练,推荐30B-A3B-Thinking以获得最佳效果。
EAPO的核心优势
- 过程监督革新:打破长文本RL稀疏奖励瓶颈,首次实现证据级密集过程监督,强制模型执行”分析→提取证据→推理→作答”四步工作流,让每一步推理都有迹可循。
- 效能突破:基于Qwen3-30B-Thinking训练的模型平均得分达63.1%,超越120B的GPT-OSS及Claude-Sonnet-4等闭源大模型,实现小模型反超大模型。
- 错误双降:证据错误率从17.7%降至13.5%,推理错误率从20.7%降至15.4%,无需显式监督推理步骤即可带动两类错误同步下降。
- 训练效率领先:相比仅依赖结果奖励的GRPO基线,EAPO收敛速度显著加快且准确率天花板更高,训练过程中的证据质量得分始终断崖式领先。
- 评判标准进化:奖励模型与策略模型通过高置信度 rollout 数据持续迭代协同进化,避免固定评判标准随模型能力提升。
EAPO的项目地址
- 技术论文:https://arxiv.org/pdf/2601.10306
EAPO的同类竞品对比
| 对比维度 | EAPO | GRPO | QwenLong-32B |
|---|---|---|---|
| 技术路线 | 证据增强RL训练框架 | 标准群组相对策略优化 | 长文本专用模型后训练 |
| 监督信号 | 证据级密集过程奖励 + 结果奖励 | 仅稀疏结果奖励 | 隐式长文本优化 |
| 证据显式提取 | 强制四步结构化输出 | 无 | 无 |
| 奖励模型进化 | 自适应协同进化闭环 | 无奖励模型 | 不涉及 |
| 长文本针对性 | 专为128K高噪上下文设计 | 通用 | 强 |
| 代表性能 | 63.1%(30B,8基准平均) | 59.2%(30B基线) | 57.8% |
| 核心局限 | 需独立维护奖励模型 | 无法抑制”蒙对”捷径 | 无显式证据监督机制 |
EAPO的应用场景
- AI搜索与问答:解决AI搜索引擎”搜对了但答错了”的核心痛点,强制模型在海量检索结果中精准定位并引用支撑证据,杜绝幻觉式作答。
- 专业领域文档分析:适用法律、金融、医疗等需要严格事实依据的场景,确保每一份报告、每一次分析都有明确的原文出处和证据链支撑。
- 科研文献综述:支持跨越多篇论文的交叉验证与综合推理,自动提取关键实验数据并准确引用,确保综述结论均有文献依据。
- 企业知识库问答:在超长内部文档、合同、手册中精准定位决策依据,帮助员工快速获取有明确出处支撑的业务答案。
- 教育辅导与自动批改:用于解题辅导时要求每一步推理都标注原文证据,自动批改时验证学生答案是否基于题目材料中的有效信息推导。