EAPO - 阿里通义推出的全新强化学习框架 - AiBoss

EAPO是什么

EAPO是阿里通义实验室推出的长文本推理强化学习框架，通过引入”证据奖励”机制，将监督信号从最终答案下沉到证据提取过程。框架已被ACL 2026录用，在8个权威长文本基准测试中，让30B模型反超120B的GPT-OSS及Claude-Sonnet-4等闭源大模型。

EAPO的主要功能

结构化证据推理：强制模型执行”任务分析→证据提取→推理执行→答案生成”四步工作流，通过特殊 token 分隔每一步，使中间证据状态可被直接监督。
多粒度过程奖励：构建复合奖励信号，包含格式遵循奖励、群组相对证据质量奖励和结果准确率奖励，从稀疏的结果监督转向密集的过程监督。
群组相对证据评估：对同一问题采样多条证据轨迹，由奖励模型统一评估并给出1-5分的整数质量评分，在组内归一化生成相对奖励，引导模型优先提取高质量证据。
奖励-策略协同进化：设计自适应闭环机制，将策略模型生成的高置信度、结果一致的优质证据链筛选后反哺奖励模型进行拒绝微调，使评判标准随模型能力提升而动态进化。
长文本推理增强：在SEAL、LongBench-V1/V2等8个权威长文本基准上显著提升性能，让30B模型在长文本推理上反超120B的GPT-OSS及Claude-Sonnet-4等闭源大模型。

EAPO的技术原理

Evidence-Augmented Reasoning（EAR）范式：建立结构化推理范式，强制模型在生成答案前必须从原文中逐字摘录相关证据片段。通过特殊 token 将流程拆分为”任务分析→证据提取→推理执行→答案生成”四步，使中间证据状态暴露在外、可被直接监督，从根本上解决传统模型”蒙对答案但引用错误”的幻觉问题。
Group-Relative Evidence Reward（群组相对证据奖励）：EAPO将强化学习的优化目标从”结果正确”转向”证据正确”。训练时模型对同一问题采样多条不同的证据轨迹，奖励模型同时评估这些证据集，给出1-5分的效用评分，在采样组内归一化为[0,1]的相对奖励。密集的过程监督让模型明白”找对证据”比”蒙对答案”更重要，有效抑制参数化捷径。
Adaptive Reward-Policy Co-Evolution（自适应奖励-策略协同进化）：随着策略模型能力提升，固定奖励模型会逐渐无法区分证据的微妙质量差异。EAPO设计自我强化闭环：通过Outcome-Consistent Rejection Fine-Tuning，筛选出”高证据评分且答案正确”或”低评分且答案错误”的高置信度 rollout 数据，用这些实例对奖励模型进行监督微调。策略模型越强，生成的训练数据越好；奖励模型评判越精准，又能反过来指导策略模型提取更精确的证据，实现动态同步进化。
基于GRPO的复合奖励机制：EAPO以Group Relative Policy Optimization为基座算法，构建多粒度复合奖励：格式遵循奖励（α=0.1）确保输出符合EAR结构；群组相对证据质量奖励（β=0.3）提供过程监督；结果准确率奖励（γ=0.6）验证最终答案。三者加权组合，将稀疏的结果信号转化为密集的过程导向指导。

EAPO的关键信息和使用要求

研发团队：阿里通义实验室（Xin Guan、Zijian Li、Shen Huang等），论文已被ACL 2026录用。
基座模型：基于Qwen3-14B（Dense架构）、Qwen3-30B-A3B-Instruct（MoE架构）、Qwen3-30B-A3B-Thinking三种模型训练。
上下文长度：训练和评估样本统一限制在128K tokens以内。
训练数据：4,664条复合样本，涵盖32K-128K填充上下文的多跳QA（MuSiQue）及维基百科混合QA（结构化+非结构化）。
奖励模型：基于Qwen3-30B-A3B-Thinking初始化，每20个RL步骤更新一次。
奖励权重：格式遵循α=0.1，证据质量β=0.3，结果准确率γ=0.6。
核心算法：以GRPO（Group Relative Policy Optimization）为基座，引入群组相对证据奖励和协同进化机制。
模型基础：需基于支持长文本的Qwen3系列模型进行训练，推荐30B-A3B-Thinking以获得最佳效果。

EAPO的核心优势

过程监督革新：打破长文本RL稀疏奖励瓶颈，首次实现证据级密集过程监督，强制模型执行”分析→提取证据→推理→作答”四步工作流，让每一步推理都有迹可循。
效能突破：基于Qwen3-30B-Thinking训练的模型平均得分达63.1%，超越120B的GPT-OSS及Claude-Sonnet-4等闭源大模型，实现小模型反超大模型。
错误双降：证据错误率从17.7%降至13.5%，推理错误率从20.7%降至15.4%，无需显式监督推理步骤即可带动两类错误同步下降。
训练效率领先：相比仅依赖结果奖励的GRPO基线，EAPO收敛速度显著加快且准确率天花板更高，训练过程中的证据质量得分始终断崖式领先。
评判标准进化：奖励模型与策略模型通过高置信度 rollout 数据持续迭代协同进化，避免固定评判标准随模型能力提升。

EAPO的项目地址

技术论文：https://arxiv.org/pdf/2601.10306

EAPO的同类竞品对比

对比维度	EAPO	GRPO	QwenLong-32B
技术路线	证据增强RL训练框架	标准群组相对策略优化	长文本专用模型后训练
监督信号	证据级密集过程奖励 + 结果奖励	仅稀疏结果奖励	隐式长文本优化
证据显式提取	强制四步结构化输出	无	无
奖励模型进化	自适应协同进化闭环	无奖励模型	不涉及
长文本针对性	专为128K高噪上下文设计	通用	强
代表性能	63.1%（30B，8基准平均）	59.2%（30B基线）	57.8%
核心局限	需独立维护奖励模型	无法抑制”蒙对”捷径	无显式证据监督机制

EAPO的应用场景

AI搜索与问答：解决AI搜索引擎”搜对了但答错了”的核心痛点，强制模型在海量检索结果中精准定位并引用支撑证据，杜绝幻觉式作答。
专业领域文档分析：适用法律、金融、医疗等需要严格事实依据的场景，确保每一份报告、每一次分析都有明确的原文出处和证据链支撑。
科研文献综述：支持跨越多篇论文的交叉验证与综合推理，自动提取关键实验数据并准确引用，确保综述结论均有文献依据。
企业知识库问答：在超长内部文档、合同、手册中精准定位决策依据，帮助员工快速获取有明确出处支撑的业务答案。
教育辅导与自动批改：用于解题辅导时要求每一步推理都标注原文证据，自动批改时验证学生答案是否基于题目材料中的有效信息推导。

EAPO是什么

EAPO的主要功能

结构化证据推理：强制模型执行”任务分析→证据提取→推理执行→答案生成”四步工作流，通过特殊 token 分隔每一步，使中间证据状态可被直接监督。

多粒度过程奖励：构建复合奖励信号，包含格式遵循奖励、群组相对证据质量奖励和结果准确率奖励，从稀疏的结果监督转向密集的过程监督。

群组相对证据评估：对同一问题采样多条证据轨迹，由奖励模型统一评估并给出1-5分的整数质量评分，在组内归一化生成相对奖励，引导模型优先提取高质量证据。

奖励-策略协同进化：设计自适应闭环机制，将策略模型生成的高置信度、结果一致的优质证据链筛选后反哺奖励模型进行拒绝微调，使评判标准随模型能力提升而动态进化。

长文本推理增强：在SEAL、LongBench-V1/V2等8个权威长文本基准上显著提升性能，让30B模型在长文本推理上反超120B的GPT-OSS及Claude-Sonnet-4等闭源大模型。

EAPO的技术原理

Evidence-Augmented Reasoning（EAR）范式：建立结构化推理范式，强制模型在生成答案前必须从原文中逐字摘录相关证据片段。通过特殊 token 将流程拆分为”任务分析→证据提取→推理执行→答案生成”四步，使中间证据状态暴露在外、可被直接监督，从根本上解决传统模型”蒙对答案但引用错误”的幻觉问题。

Group-Relative Evidence Reward（群组相对证据奖励）：EAPO将强化学习的优化目标从”结果正确”转向”证据正确”。训练时模型对同一问题采样多条不同的证据轨迹，奖励模型同时评估这些证据集，给出1-5分的效用评分，在采样组内归一化为[0,1]的相对奖励。密集的过程监督让模型明白”找对证据”比”蒙对答案”更重要，有效抑制参数化捷径。

Adaptive Reward-Policy Co-Evolution（自适应奖励-策略协同进化）：随着策略模型能力提升，固定奖励模型会逐渐无法区分证据的微妙质量差异。EAPO设计自我强化闭环：通过Outcome-Consistent Rejection Fine-Tuning，筛选出”高证据评分且答案正确”或”低评分且答案错误”的高置信度 rollout 数据，用这些实例对奖励模型进行监督微调。策略模型越强，生成的训练数据越好；奖励模型评判越精准，又能反过来指导策略模型提取更精确的证据，实现动态同步进化。

基于GRPO的复合奖励机制：EAPO以Group Relative Policy Optimization为基座算法，构建多粒度复合奖励：格式遵循奖励（α=0.1）确保输出符合EAR结构；群组相对证据质量奖励（β=0.3）提供过程监督；结果准确率奖励（γ=0.6）验证最终答案。三者加权组合，将稀疏的结果信号转化为密集的过程导向指导。

EAPO的关键信息和使用要求

研发团队：阿里通义实验室（Xin Guan、Zijian Li、Shen Huang等），论文已被ACL 2026录用。

基座模型：基于Qwen3-14B（Dense架构）、Qwen3-30B-A3B-Instruct（MoE架构）、Qwen3-30B-A3B-Thinking三种模型训练。

上下文长度：训练和评估样本统一限制在128K tokens以内。

训练数据：4,664条复合样本，涵盖32K-128K填充上下文的多跳QA（MuSiQue）及维基百科混合QA（结构化+非结构化）。

奖励模型：基于Qwen3-30B-A3B-Thinking初始化，每20个RL步骤更新一次。

奖励权重：格式遵循α=0.1，证据质量β=0.3，结果准确率γ=0.6。

核心算法：以GRPO（Group Relative Policy Optimization）为基座，引入群组相对证据奖励和协同进化机制。

模型基础：需基于支持长文本的Qwen3系列模型进行训练，推荐30B-A3B-Thinking以获得最佳效果。

EAPO的核心优势

过程监督革新：打破长文本RL稀疏奖励瓶颈，首次实现证据级密集过程监督，强制模型执行”分析→提取证据→推理→作答”四步工作流，让每一步推理都有迹可循。

效能突破：基于Qwen3-30B-Thinking训练的模型平均得分达63.1%，超越120B的GPT-OSS及Claude-Sonnet-4等闭源大模型，实现小模型反超大模型。

错误双降：证据错误率从17.7%降至13.5%，推理错误率从20.7%降至15.4%，无需显式监督推理步骤即可带动两类错误同步下降。

训练效率领先：相比仅依赖结果奖励的GRPO基线，EAPO收敛速度显著加快且准确率天花板更高，训练过程中的证据质量得分始终断崖式领先。

评判标准进化：奖励模型与策略模型通过高置信度 rollout 数据持续迭代协同进化，避免固定评判标准随模型能力提升。

EAPO的同类竞品对比

对比维度

EAPO

GRPO

QwenLong-32B

技术路线

证据增强RL训练框架

标准群组相对策略优化

长文本专用模型后训练

监督信号

证据级密集过程奖励 + 结果奖励

仅稀疏结果奖励

隐式长文本优化

证据显式提取

强制四步结构化输出

无

奖励模型进化

自适应协同进化闭环

无奖励模型

不涉及

长文本针对性

专为128K高噪上下文设计

通用

强

代表性能

63.1%（30B，8基准平均）

59.2%（30B基线）

57.8%

核心局限

需独立维护奖励模型

无法抑制”蒙对”捷径

无显式证据监督机制

EAPO的应用场景

AI搜索与问答：解决AI搜索引擎”搜对了但答错了”的核心痛点，强制模型在海量检索结果中精准定位并引用支撑证据，杜绝幻觉式作答。

专业领域文档分析：适用法律、金融、医疗等需要严格事实依据的场景，确保每一份报告、每一次分析都有明确的原文出处和证据链支撑。

科研文献综述：支持跨越多篇论文的交叉验证与综合推理，自动提取关键实验数据并准确引用，确保综述结论均有文献依据。

企业知识库问答：在超长内部文档、合同、手册中精准定位决策依据，帮助员工快速获取有明确出处支撑的业务答案。

教育辅导与自动批改：用于解题辅导时要求每一步推理都标注原文证据，自动批改时验证学生答案是否基于题目材料中的有效信息推导。

すべてのカテゴリ

EAPO是什么

EAPO的主要功能

EAPO的技术原理

EAPO的关键信息和使用要求

EAPO的核心优势

EAPO的项目地址

EAPO的同类竞品对比

EAPO的应用场景

EAPO是什么

EAPO的主要功能

EAPO的技术原理

EAPO的关键信息和使用要求

EAPO的核心优势

EAPO的项目地址

EAPO的同类竞品对比

EAPO的应用场景