Back to Blog PaperDog 论文解读

PaperDog 论文解读

Paper
Agent skill 不该是手写的静态 prompt。SkillOpt 把 skill 文档当成 frozen agent 的"外部权重",用训练的纪律来优化它——有学习率、验证集、rejected buffer、momentum。52/52 全胜。
52/52
全胜组合
+23.5
GPT-5.5 平均提升
11–44
被接受的编辑次数
<2K
最终 skill token 数
SkillOpt Overview
图 1:SkillOpt 整体架构。目标模型执行任务 → 优化器模型分析轨迹 → 提议结构化编辑 → 验证门控决定接受或拒绝

Skill 不该是手写的

Agent skill——自然语言写成的指令文档,告诉模型怎么做任务、用什么工具、怎么处理失败——目前几乎全是手写的或一次性生成的。不管写得多好,它本质上是个静态 prompt,不会从执行反馈中变好。

这篇来自 Microsoft Research 联合上交、同济、复旦的论文提出了一个根本性的转变:把 skill 当成 frozen agent 的"外部权重",用训练的纪律来优化它。不是让 LLM 随便改改 prompt,而是像训练神经网络一样——有学习率、有验证集、有梯度方向控制、有 momentum。

SkillOpt 的核心循环

SkillOpt 的架构分三层:

目标模型(Target Model):执行任务的模型,保持 frozen,不变。可以是 GPT-5.5、Qwen、Llama——什么都行。

优化器模型(Optimizer Model):一个额外的 frontier 模型,只负责看轨迹、分析成败、提议编辑。它操作的是 skill 文档本身——通过 add(添加规则)、delete(删除冗余)、replace(替换不准确表述)三种原子操作来修改一个 markdown 文件。

验证门控(Held-out Gate):这是整个设计最关键的部分。优化器提议的编辑不会直接生效,而是先在一个 held-out 验证集上跑一遍。只有当编辑严格提升了验证分数,才会被接受。被拒绝的编辑不是直接丢弃,而是存入 rejected-edit buffer,作为后续优化的负反馈。

Minibatch轨迹批次(Rollout batch)
学习率文本学习率(Textual learning rate)
验证集Held-out 验证门控
负样本Rejected-edit buffer
Momentum / EMAEpoch 级 slow/meta update

结果:52/52 全胜

六个月度 benchmark(QA、表格、文档、数学、具身决策),七个目标模型(GPT-5.5 到小模型 Qwen),三种执行模式(直接对话、Codex、Claude Code),共 52 个 (模型, benchmark, 执行环境) 组合。SkillOpt 在全部 52 个组合上是最佳或并列最佳。

GPT-5.5 直接对话模式下,平均提升 +23.5 个百分点。Codex 环境内 +24.8,Claude Code 环境内 +19.1。对比最强 baseline(从人类编写、一次性 LLM、Trace2Skill、TextGrad、GEPA、EvoSkill 中选最好的),平均还高 +5.4 个点。

Main Results
图 2:主实验结果。SkillOpt 在所有 benchmark 和模型上均为最佳或并列最佳

最有工程价值的发现:Skill 可迁移

优化的 skill 是一个 300-2000 token 的 markdown 文件,只经过 11-44 次被接受的编辑。但这个小小的文件在三个维度上可迁移:

跨模型:在 GPT-5.4 上优化的 spreadsheet skill,在所有更小的 GPT 变体上都有效。

跨执行环境:Codex 上优化的 spreadsheet skill 直接搬到 Claude Code,还带了 +59.7 个点的增益。

跨 benchmark:在 OlympiadBench 上优化的数学 skill,迁移到 Omni-MATH 上也有正向收益。

这意味着什么?你可以花一次优化成本生成一个 skill artifact,审计它的内容(它是可读的自然语言),然后在不同的模型、不同的执行框架、相近的任务上直接复用——不需要改模型权重,不需要重新训练。

Transfer Results
图 3:迁移实验。优化的 skill 在跨模型、跨执行环境、跨 benchmark 场景下均保持正向收益

消融实验:每个组件都有用

Ablation
图 4:消融实验。去掉任何一个组件(bounded edit、held-out gate、rejected buffer、slow update)性能都会下降

为什么这和你相关

如果你的 OpenClaw 或任何 agent 系统里有 skill 文档(告诉 agent 怎么做任务的 markdown),SkillOpt 提供的是一个系统化的优化框架。不是"看着不对就手动改",而是用反馈循环自动优化,同时保证每次改动都被验证,不会越改越差。

更深层的意义是:这篇论文把 agent 适应性问题从"模型内部"搬到了"模型外部"。当权重不可触(closed API)或代价太高时,skill 文档就是那个可训练的状态。这是一种新的"训练"范式——文本空间的、可审计的、零推理成本部署的。

Tags: #Paper