ニュース2026年6月5日

アリババ傘下の同義通信が、インテリジェントエージェントを評価するための汎用ベンチマーク「PawBench」を発表した。

Tongyi Labsは、汎用インテリジェントエージェント評価ベンチマークであるPawBenchを発表しました。PawBenchは、ベースモデルとランタイムフレームワーク（Harness）を初めて統合した評価ツールです。PawBench v1.0には、150の実際のタスクと4050のテストユニットが含まれており、9つのモデルと3つのHarnessのクロスマトリックスをカバーしています。評価の結果、Harnessのパフォーマンス差は最大で6.4ポイントに達し、同じモデルでHarnessを変更すると、その差は最大で11.5ポイントに達することがわかりました。

戻る

すべてのカテゴリ