PawBench - アリババ同義が立ち上げた汎用インテリジェントエージェント評価ベンチマーク - AiBoss

PawBenchとは何ですか？

PawBenchは、Tongyi Labsが開発した汎用インテリジェントエージェント評価ベンチマークで、パーソナルアシスタントやエージェントのシナリオを対象としています。ベースモデルとランタイムフレームワーク（Harness）を同一の評価システムに統合しています。PawBench v1.0では、150の実際のタスクと4050のテストユニットからなる評価セットを構築しました。9つのモデル×3つのHarnessの相互評価を通じて、モデルとHarnessの最適な組み合わせを評価することができ、Harness開発者が問題点を正確に特定し、最適化を検証するのに役立ちます。

PawBenchの主な機能

共同評価基本モデルと運用フレームワーク（ハーネス）は、LLM×ハーネスの複合効果を評価するために、同じ評価システムに組み込まれています。
リアルミッションセット私たちは、6つの高品質なエージェント評価セットから抽出・集約した、150の実際のタスクと4050のテストユニットを構築しました。
5次元ラベリングシステム各質問は、その適用シナリオ、基本機能、複雑性（L1～L3）、入力方式、および実行環境に応じて構造化され、ラベル付けされています。
ハイブリッドスコアリングメカニズムこれは、自動採点システム（ルールの主張）とLLM（意味的品質評価）を組み合わせたもので、スコアは0から1の範囲です。
マルチスライスランキング全体表示（150問）、テキスト表示（124問）、マルチモーダル表示（26問）の3つの表示形式を自由に切り替えることができます。
完全な軌道保持すべてのタスクはDockerサンドボックス内で実行され、実行トレース、採点成果物、および環境スナップショットは完全に保持されます。
詳細な診断分析モデルサイズ、モダリティ、タスクタイプ、スキル領域などの次元でスライス分析を行うことで、Harnessにおける特定の動作上の欠陥を特定できます。

PawBenchの技術原則

相互評価マトリックス我々は、9つのモデル×3つのハーネス×150のタスクからなる3次元の評価空間を構築し、制御変数法を用いて、モデル機能とフレームワーク機能の貢献度を分離した。
5次元ラベリングシステムこのタスクは、アプリケーションシナリオ、アトミック機能、複雑性、入力方式、実行環境という5つの側面から構造化され、ラベル付けされており、多次元的なスライスドリルダウン分析をサポートしています。
ハイブリッドスコアリングメカニズムこれは、決定論的なルールの主張（ファイルの存在、フィールドの一致、終了コード）と、LLMを判定者として用いる意味論的評価を組み合わせることで、客観性と柔軟性のバランスを取っています。
Dockerサンドボックスによる隔離各テストユニットは独立したコンテナ内で実行され、実行トレース、ワークスペースの成果物、環境スナップショットをキャプチャすることで、再現可能な結果と追跡可能な問題を保証します。
製品レベルのハード検証ファイルがディスクに書き込まれたか、差分が生成されたか、テストが合格したかといった実質的な指標を確認することで、モデルが「誤って完了」してしまうことを回避できます。

PawBenchの使い方

ソースコードのクローン作成GitHubリポジトリにアクセスする agentscope-ai/PawBench クローン評価フレームワーク。
環境設定テスト対象モデルのAPIキーを書き込み、Harnessランタイム環境を設定します。
タスクを選択特定のスライス（テキスト/マルチモーダル）を選択するか、150個のタスクからタスク全体を開始します。
運用評価タスクがDockerサンドボックス内で実行されると、システムは実行パスと成果物を自動的に保存します。
評価を取得する最終スコアは、自動採点システムとLLM（審査員）による混合重み付けを用いて算出されます。
リストを送信：アクセス agentscope-ai.github.io/PawBench 結果を送信して、ランキングを確認してください。

PawBenchの主な利点

診断ハーネス 4050個のテストユニットを分析することで、スキル負荷、経路認識、ツール構成などの領域におけるフレームワークの動作上の欠陥を正確に特定しました。
真の再現性これはDockerサンドボックス上で動作し、完全な実行軌跡と環境スナップショットを保持するため、段階的な遡及と障害事例の検証が可能になります。
ゼロバリア開封レビュー: 開発者が最初にクローンを作成した後、デフォルトのエクスペリエンスを復元します。「すべての API キーを取得する理論上の上限」を追求することはありません。
連続回帰検証Harnessは、各修正後に再スライスと再スコアリングを行うことで、最適化が問題の次元に真に対応しているかどうかを検証することを可能にします。
差分量子化を活用するこれは、ハーネスの性能差（最大6.4ポイント）がメジャーモデルのアップグレードに匹敵することを初めて実証するものであり、小型モデルが競合他社を追い抜く道筋を示している。。

PawBenchプロジェクトの住所

プロジェクト公式サイト：https://agentscope-ai.github.io/PawBench/
GitHubリポジトリ：https://github.com/agentscope-ai/PawBench

PawBenchの競合比較

比較対象寸法	PawBench	SWE-bench	AgentBench
コアポジショニング	「モデル＋ハーネス」の複合効果の評価	評価モデルが現実世界のコード問題を解決する能力	この評価モデルは、複数の環境におけるエージェントの一般的な能力を示す指標として機能する。
ハーネス／フレームワーク評価	中核となる能力隔離フレームワークの貢献を明確に定義する	いいえ、モデル自体のみを評価してください。	いいえ、モデル自体のみを評価してください。
タスクソース	エージェント評価セット6セット（150問）のコレクション	実際のGitHubイシュー/プルリクエスト（2000件以上）	複数環境シミュレーションタスク（1000以上）
典型的な業務内容	オフィスでの共同作業、ソフトウェアエンジニアリング、自動化スクリプト、ウェブ検索、スキル活用	コードのバグ修正、機能実装、およびテスト合格。	OS操作、データベースクエリ、ウェブブラウジング、カードゲーム、家事の意思決定
評価メカニズム	自動ルールアサーション + LLM-as-ジャッジのハイブリッド	単体テストの合否判定（バイナリ）	環境ルール採点（正確性／成功率）
環境隔離	Dockerサンドボックス＋ワークスペース製品検証	コードサンドボックス + Gitリポジトリのスナップショット	マルチ環境コンテナ（OS/DB/Webなど）
タスクタグ付けシステム	5次元ラベル（シナリオ／能力／複雑性／様式／環境）	プログラミング言語/リポジトリ別に分割	環境タイプ別に分割
ランキングの次元	全体／テキスト／マルチモーダルな3つのセクション	ランキングは、検証済み／マルチモーダル／フルのカテゴリに分類されます。	環境別ランキング（OS/DB/KG/DCGなど）
故障診断機能	実行軌跡、成果物のスナップショット、および環境状態を保持し、レイヤーごとのバックトラッキングをサポートします。	コードパッチとテストログを保持する	環境とのやり取りログを保存する
ゼロコンフィギュレーションレビュー	最初のクローン作成後にデフォルトのエクスペリエンスを復元する	コードリポジトリ環境を設定する必要があります。	各環境コンテナは設定が必要です。
最適な適用	開発者最適化、モデル＋フレームワーク選択を活用する	コードモデル機能評価、プログラミングアシスタント開発	総合エージェント能力評価およびマルチモーダル意思決定研究

PawBenchの応用事例

ハーネス開発者の最適化スライスを分析することで、スキル負荷、パス認識、Webツールのデフォルト可用性といった分野におけるフレームワークの具体的な欠陥を特定できます。
モデル選択リファレンスこれは、プレーンテキスト、マルチモーダル、スキル、ウェブ検索などのタスクの種類に基づいて、ユーザーが最適なモデルとハーネスの組み合わせを選択するのに役立ちます。
ベンチマーク回帰テストHarnessが問題を繰り返し修正した後、ベンチマークを再実行して、最適化によって対応するスライスの問題が本当に解決されたかどうかを確認します。
学術研究これは、一般的なインテリジェントエージェント研究のための再現可能な相互評価ベンチマークを提供し、モデルとフレームワークの共進化を促進する。

すべてのカテゴリ