ニュース
阿里通义推出通用智能体评测基准 PawBench
通义实验室推出通用智能体评测基准PawBench,首次将底座模型与运行框架(Harness)纳入联合评测。PawBench v1.0 包含 150 道真实任务、4050 个测试单元,覆盖 9 个模型与 3 个 Harness 的交叉矩阵。评测发现 Harness 性能差距最高达 6.4 分,同一模型换 Harness 分差可达 11.5 分。
通义实验室推出通用智能体评测基准PawBench,首次将底座模型与运行框架(Harness)纳入联合评测。PawBench v1.0 包含 150 道真实任务、4050 个测试单元,覆盖 9 个模型与 3 个 Harness 的交叉矩阵。评测发现 Harness 性能差距最高达 6.4 分,同一模型换 Harness 分差可达 11.5 分。