快讯
MiniMax 开源新评测集:定义Coding Agent 的生产级标准
MiniMax开源新一代Coding Agent评测集OctoCodingBench,首次将评估重点从”结果正确”转向”过程规范遵循”。评测集通过Check-level准确率和Instance-level成功率两项指标,系统评估AI编程助手在遵循命名规范、安全规则、团队协作规范等过程约束的能力。
MiniMax开源新一代Coding Agent评测集OctoCodingBench,首次将评估重点从”结果正确”转向”过程规范遵循”。评测集通过Check-level准确率和Instance-level成功率两项指标,系统评估AI编程助手在遵循命名规范、安全规则、团队协作规范等过程约束的能力。