PaperDog 论文解读 - PaperDog Blog

    Agent skill 不该是手写的静态 prompt。SkillOpt 把 skill 文档当成 frozen agent 的"外部权重"，用训练的纪律来优化它——有学习率、验证集、rejected buffer、momentum。52/52 全胜。
  

52/52

全胜组合

+23.5

GPT-5.5 平均提升

11–44

被接受的编辑次数

<2K

最终 skill token 数

图 1：SkillOpt 整体架构。目标模型执行任务 → 优化器模型分析轨迹 → 提议结构化编辑 → 验证门控决定接受或拒绝

Skill 不该是手写的

Agent skill——自然语言写成的指令文档，告诉模型怎么做任务、用什么工具、怎么处理失败——目前几乎全是手写的或一次性生成的。不管写得多好，它本质上是个静态 prompt，不会从执行反馈中变好。

这篇来自 Microsoft Research 联合上交、同济、复旦的论文提出了一个根本性的转变：把 skill 当成 frozen agent 的"外部权重"，用训练的纪律来优化它。不是让 LLM 随便改改 prompt，而是像训练神经网络一样——有学习率、有验证集、有梯度方向控制、有 momentum。

SkillOpt 的核心循环

SkillOpt 的架构分三层：

目标模型（Target Model）：执行任务的模型，保持 frozen，不变。可以是 GPT-5.5、Qwen、Llama——什么都行。

优化器模型（Optimizer Model）：一个额外的 frontier 模型，只负责看轨迹、分析成败、提议编辑。它操作的是 skill 文档本身——通过 add（添加规则）、delete（删除冗余）、replace（替换不准确表述）三种原子操作来修改一个 markdown 文件。

验证门控（Held-out Gate）：这是整个设计最关键的部分。优化器提议的编辑不会直接生效，而是先在一个 held-out 验证集上跑一遍。只有当编辑严格提升了验证分数，才会被接受。被拒绝的编辑不是直接丢弃，而是存入 rejected-edit buffer，作为后续优化的负反馈。

Minibatch→轨迹批次（Rollout batch）

学习率→文本学习率（Textual learning rate）

验证集→Held-out 验证门控

负样本→Rejected-edit buffer

Momentum / EMA→Epoch 级 slow/meta update

结果：52/52 全胜

六个月度 benchmark（QA、表格、文档、数学、具身决策），七个目标模型（GPT-5.5 到小模型 Qwen），三种执行模式（直接对话、Codex、Claude Code），共 52 个 (模型, benchmark, 执行环境) 组合。SkillOpt 在全部 52 个组合上是最佳或并列最佳。

GPT-5.5 直接对话模式下，平均提升 +23.5 个百分点。Codex 环境内 +24.8，Claude Code 环境内 +19.1。对比最强 baseline（从人类编写、一次性 LLM、Trace2Skill、TextGrad、GEPA、EvoSkill 中选最好的），平均还高 +5.4 个点。

图 2：主实验结果。SkillOpt 在所有 benchmark 和模型上均为最佳或并列最佳

最有工程价值的发现：Skill 可迁移

优化的 skill 是一个 300-2000 token 的 markdown 文件，只经过 11-44 次被接受的编辑。但这个小小的文件在三个维度上可迁移：

跨模型：在 GPT-5.4 上优化的 spreadsheet skill，在所有更小的 GPT 变体上都有效。

跨执行环境：Codex 上优化的 spreadsheet skill 直接搬到 Claude Code，还带了 +59.7 个点的增益。

跨 benchmark：在 OlympiadBench 上优化的数学 skill，迁移到 Omni-MATH 上也有正向收益。

这意味着什么？你可以花一次优化成本生成一个 skill artifact，审计它的内容（它是可读的自然语言），然后在不同的模型、不同的执行框架、相近的任务上直接复用——不需要改模型权重，不需要重新训练。

图 3：迁移实验。优化的 skill 在跨模型、跨执行环境、跨 benchmark 场景下均保持正向收益

消融实验：每个组件都有用

图 4：消融实验。去掉任何一个组件（bounded edit、held-out gate、rejected buffer、slow update）性能都会下降

为什么这和你相关

如果你的 OpenClaw 或任何 agent 系统里有 skill 文档（告诉 agent 怎么做任务的 markdown），SkillOpt 提供的是一个系统化的优化框架。不是"看着不对就手动改"，而是用反馈循环自动优化，同时保证每次改动都被验证，不会越改越差。

更深层的意义是：这篇论文把 agent 适应性问题从"模型内部"搬到了"模型外部"。当权重不可触（closed API）或代价太高时，skill 文档就是那个可训练的状态。这是一种新的"训练"范式——文本空间的、可审计的、零推理成本部署的。