project
SkillOpt - 微软开源的Agent技能文档优化工具
SkillOpt是微软开源的Agent技能文档优化工具。工具将深度学习训练逻辑引入文本空间,把skill.md视为可训练参数,通过轨迹分析生成编辑方向,用文本学习率约束...
SkillOpt是什么
SkillOpt是微软开源的Agent技能文档优化工具。工具将深度学习训练逻辑引入文本空间,把skill.md视为可训练参数,通过轨迹分析生成编辑方向,用文本学习率约束有界修改,经保留验证集门控筛选,迭代产出best_skill.md。SkillOpt支持跨模型、跨工具链迁移,部署零开销。在52个评估单元全部最佳,让Agent技能像神经网络一样可量化、可复现地持续进化。
SkillOpt的主要功能
- 技能文档训练:将 skill.md 像训练神经网络一样迭代优化,包含前向传播、反向传播、参数更新和验证门控。
- 有界编辑控制:通过文本学习率限制编辑幅度,避免语义跳变和覆盖有效规则。
- 拒绝编辑缓冲:记录被验证门拒绝的编辑方向,防止优化循环重复踩坑。
- 跨模型/跨工具迁移:在一个模型上训练的技能文档可直接迁移到同系列小模型、不同工具链(Codex ↔ Claude Code)或相近基准测试。
- 零部署开销:最终产物仅为一个 300–2000 token 的 Markdown 文件,部署时不增加额外推理调用。
微信关注回复 “开源”,加入AI开源项目交流群
如何使用SkillOpt
- 安装:通过 pip 安装 SkillOpt 及其依赖。
- 配置 API:复制环境变量模板文件并填入 OpenAI、Azure 或 Anthropic 等平台的 API 密钥。
- 准备数据:将原始任务数据按训练集、验证集和测试集划分好,或让 SkillOpt 自动完成划分。
- 启动训练:运行训练脚本并指定配置文件、教师模型与学生模型,开始迭代优化技能文档。
- 获取产物:训练完成后在输出目录中获取最终生成的 best_skill.md 技能文档及各轮迭代快照。
- 部署使用:将 best_skill.md 的内容直接嵌入目标 Agent 的系统提示词中可生效,无需额外推理开销。
SkillOpt的核心优势
-
系统性优化:告别写文档→运行→凭感觉改的试错循环,提供可量化、可复现的技能提升路径。
-
全场景领先:在 6 个基准、7 个目标模型、3 种执行工具链的 52 个评估单元中全部取得最佳或并列最佳。
-
显著性能提升:GPT-5.5 平均提升 +23.5 个百分点;ALFWorld 上 GPT-5.4-mini 从 70.9% 提升到 85.8%。
-
一次训练,到处部署:同一份
best_skill.md可跨模型规模、跨 Agent 工具链、跨相近任务复用。
SkillOpt的项目地址
- 项目官网:https://microsoft.github.io/SkillOpt/
- GitHub仓库:https://github.com/microsoft/SkillOpt
SkillOpt的同类竞品对比
| 维度 | SkillOpt | TextGrad | GEPA | Trace2Skill |
|---|---|---|---|---|
| 优化对象 | 单一 skill.md 文档 | 文本提示 | 文本提示 | 从轨迹提取规则 |
| 训练纪律 | 类深度学习(epoch、batch、lr、验证门) | 基于梯度的文本优化 | 进化算法 | 轨迹归纳 |
| 编辑控制 | 有界编辑预算 + 拒绝缓冲区 | 无显式预算控制 | 变异选择 | 无迭代优化 |
| 验证机制 | 严格 held-out 验证门 | 无显式验证门 | 无 | 无 |
| 跨模型迁移 | 原生支持 | 有限 | 有限 | 有限 |
| 部署开销 | 零(纯 Markdown) | 低 | 低 | 低 |
SkillOpt的应用场景
-
Agent 技能调优:为已有 Agent 系统化打磨 skill.md,替代凭经验反复试错的手动调优。
-
多模型技能复用:在强模型上训练技能文档,直接部署到弱模型或不同工具链,降低多模型适配成本。
-
基准测试突破:在 SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMath、ALFWorld 等任务上持续刷新性能上限。
-
本地编码 Agent 自进化:结合 SkillOpt-Sleep 预览版,在夜间自动回顾会话、复现高频任务并固化验证通过的技能。