ニュース
阿里通义推出全新强化学习框架EAPO
阿里通义实验室推出全新强化学习框架EAPO(Evidence-Augmented Policy Optimization),引入”证据奖励”机制,将监督从答案下沉到证据提取过程,解决大模型长文本推理中”搜对却答错”的幻觉问题。框架基于Qwen3-30B的模型在多个权威长文本基准测试中表现优异,反超120B参数的GPT-OSS和Claude-Sonnet-4等大模型。
阿里通义实验室推出全新强化学习框架EAPO(Evidence-Augmented Policy Optimization),引入”证据奖励”机制,将监督从答案下沉到证据提取过程,解决大模型长文本推理中”搜对却答错”的幻觉问题。框架基于Qwen3-30B的模型在多个权威长文本基准测试中表现优异,反超120B参数的GPT-OSS和Claude-Sonnet-4等大模型。