project
PawBench - 阿里通义推出的通用智能体评测基准
PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场景,将底座模型与运行框架(Harness)纳入同一评测体系。
PawBench是什么
PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场景,将底座模型与运行框架(Harness)纳入同一评测体系。PawBench v1.0 构建了 150 道真实任务、4050 个测试单元的评测集,通过 9 个模型 × 3 个 Harness 的交叉评测,能评估模型+Harness的最佳组合,帮 Harness 开发者精准定位问题并验证优化。
PawBench的主要功能
-
联合评测:将底座模型与运行框架(Harness)纳入同一评测体系,评估 LLM × Harness 的联合效果。
-
真实任务集:构建 150 道真实任务、4050 个测试单元,从 6 个高质量 Agent 评测集抽取并聚合。
-
五维标签体系:每道题按应用场景、原子能力、复杂度(L1-L3)、输入模态、运行环境进行结构化标注。
-
混合评分机制:结合自动评分器(规则断言)与 LLM-as-judge(语义质量评估),分数范围 0 到 1。
-
多切片榜单:支持 Overall(150 题)、Text(124 题)、Multimodal(26 题)三个维度自由切换查看。
-
全量轨迹保留:所有任务在 Docker 沙箱中运行,执行轨迹、grader 产物和环境快照完整保存。
-
深度诊断分析:支持按模型规模、模态、任务类型、技能领域等维度切片,定位 Harness 具体行为缺陷。
PawBench的技术原理
-
交叉评测矩阵:构建 9 个模型 × 3 个 Harness × 150 道任务的三维评测空间,通过控制变量法隔离模型能力与框架能力的贡献。
-
五维标签体系:从应用场景、原子能力、复杂度、输入模态、运行环境五个维度对任务进行结构化标注,支持多维度切片下钻分析。
-
混合评分机制:结合确定性规则断言(文件存在性、字段匹配、exit code)与 LLM-as-judge 语义评估,平衡客观性与灵活性。
-
Docker 沙箱隔离:每个测试单元在独立容器中运行,捕获执行轨迹、workspace 产物及环境快照,确保结果可复现与问题可追溯。
-
产物级硬校验:通过检查文件是否落盘、diff 是否生成、测试是否通过等实质性指标,避免模型”虚假完工”。
如何使用PawBench
-
克隆源码:访问 GitHub 仓库
agentscope-ai/PawBench克隆评测框架。 -
配置环境:写入待测模型的 API 密钥,并配置 Harness 运行环境。
-
选择任务:从 150 道任务中选择特定切片(Text/Multimodal)或全量任务启动。
-
运行评测:在 Docker 沙箱中执行任务,系统自动保留执行轨迹与产物。
-
获取评分:通过自动评分器与 LLM-as-judge 计算混合权重最终分数。
-
提交榜单:访问
agentscope-ai.github.io/PawBench提交结果并查看排名。
PawBench的核心优势
-
诊断 Harness :通过 4050 个测试单元的切片分析,精准定位框架在 Skill 加载、路径感知、工具配置等方面的行为缺陷。
-
真实复现性:基于 Docker 沙箱运行,执行轨迹与环境快照完整保留,失败案例可逐层回溯复盘。
-
零门槛开箱评测:还原开发者首次 clone 后的默认体验,不追求”配齐所有 API Key 的理论上限”。
-
持续回归验证:Harness 每次修复后可重新切片跑分,验证优化是否真实对应到问题维度。
-
Harness 分差量化:首次证明 Harness 差距(最高 6.4 分)堪比一次重大模型版本升级,为小模型反超提供路径。
PawBench的项目地址
- 项目官网:https://agentscope-ai.github.io/PawBench/
- GitHub仓库:https://github.com/agentscope-ai/PawBench
PawBench的同类竞品对比
| 对比维度 | PawBench | SWE-bench | AgentBench |
|---|---|---|---|
| 核心定位 | 评测”模型 + Harness”联合效果 | 评测模型解决真实代码问题的能力 | 评测模型作为 Agent 在多环境中的通用能力 |
| Harness/框架评估 | 核心能力,明确隔离框架贡献 | 否,仅评估模型本身 | 否,仅评估模型本身 |
| 任务来源 | 6 个 Agent 评测集聚合(150 道) | 真实 GitHub Issue/PR(2000+) | 多环境模拟任务(1000+) |
| 典型任务 | 办公协同、软件工程、自动化脚本、Web 搜索、Skill 调用 | 代码 Bug 修复、功能实现、测试通过 | OS 操作、数据库查询、网页浏览、卡牌游戏、家务决策 |
| 评分机制 | 自动规则断言 + LLM-as-judge 混合 | 单元测试通过/失败(二元) | 环境规则评分(准确率/成功率) |
| 环境隔离 | Docker 沙箱 + 工作区产物校验 | 代码沙箱 + Git 仓库快照 | 多环境容器(OS/DB/Web 等) |
| 任务标签体系 | 五维标签(场景/能力/复杂度/模态/环境) | 按编程语言/仓库切片 | 按环境类型切片 |
| 榜单维度 | Overall / Text / Multimodal 三切片 | 按 Verified/Multimodal/Full 分榜 | 按环境(OS/DB/KG/DCG 等)分榜 |
| 失败诊断能力 | 保留执行轨迹、产物快照、环境状态,支持逐层回溯 | 保留代码补丁与测试日志 | 保留环境交互日志 |
| 零配置评测 | 还原首次 clone 后的默认体验 | 需配置代码仓库环境 | 需配置各环境容器 |
| 最佳适用 | Harness 开发者优化、模型+框架选型 | 代码模型能力评估、编程助手研发 | 通用 Agent 能力评估、多模态决策研究 |
PawBench的应用场景
-
Harness 开发者优化:通过切片分析定位框架在 Skill 加载、路径感知、Web 工具默认可用性等方面的具体缺陷。
-
模型选型参考:帮助用户根据纯文本 / 多模态 / Skill / Web 搜索等任务类型选择最佳模型 + Harness 组合。
-
基准回归测试:Harness 迭代修复后重新跑分,验证优化是否真实解决对应切片问题。
-
学术研究:为通用智能体研究提供可复现的交叉评测基准,推动模型与框架协同进化。