ニュース2026年4月28日

Alitongyi社が新たな強化学習フレームワークEAPOを発表

アリババ傘下のTongyi Labは、新たな強化学習フレームワークEAPO（Evidence-Augmented Policy Optimization）を発表しました。EAPOは「証拠報酬」メカニズムを導入しています。このメカニズムは、教師を解答そのものから証拠抽出プロセスへと移行させることで、大規模モデルを用いた長文推論における「正しい検索だが間違った解答」という錯覚問題を解決します。Qwen3-30Bモデルをベースとしたこのフレームワークは、複数の権威ある長文ベンチマークテストで優れた性能を発揮し、GPT-OSSや120個のパラメータを持つClaude-Sonnet-4といった大規模モデルを凌駕しています。

戻る

すべてのカテゴリ