核心观点:自改进 AI 研究分为 harness 迭代和 test-time training 两座孤岛,SIA 是第一个在同一个闭环中同时更新 scaffold 和模型权重的系统。三个跨域实验一致证明:两根杠杆的增益不互相饱和——harness 塑造搜索方式,权重内化领域知识。
问题:两座孤岛
自改进 AI 研究分裂成了两个互不沟通的阵营:
- Silo 1 — Harness 迭代:Meta-Agent 重写 agent 的 scaffold(prompt、工具、重试逻辑),但模型权重冻结。
- Silo 2 — Test-time training:手工写好的 RL 流水线更新模型权重,但 scaffold 固定。
SIA 的核心观察:harness 塑造 agent 如何搜索,权重更新改变 agent 知道什么。两者操作的是完全不同的变化空间,不会互相饱和。
架构
SIA 由三个 LLM 组件驱动的闭环:
- Meta-Agent:从任务描述初始化第一个 scaffold
- Task-Specific Agent:在环境中执行任务(gpt-oss-120b + LoRA rank 32)
- Feedback-Agent(Claude Sonnet 4.6):分析轨迹后,每步动态选择两种动作之一:harness 更新或权重更新
关键设计:Feedback-Agent 不是硬编码选哪个 RL 算法,而是根据奖励分布、rollout 成本、过拟合风险运行时选择。方法池包括 PPO+GAE、GRPO、Entropic Advantage Weighting、REINFORCE+KL、Best-of-N BC、DPO。
三个域的实验结果
| 任务 | 初始 | SIA-H (harness) | SIA-W+H (全部) |
|---|---|---|---|
| LawBench 191类罪名分类 | 13.5% | 50.0% | 70.1% |
| TriMul CUDA核优化 | baseline | 12,483µs | 1,017µs |
| MAGIC scRNA去噪 | 0.048 | 0.241 | 0.289 |
LawBench:harness 建立 TF-IDF + LinearSVC 管线到 50% 后停滞;GRPO 直接作用于 191 类罪名间的细粒度区分,再涨 20pp。
TriMul CUDA:harness 只拿到 1.14× 加速;权重更新用 entropic utility 处理高右偏奖励,模型内化 H100 专属设计模式,达到 14× 加速。
MAGIC 去噪:权重更新第一次就发现了 harness 从未生成的变换——np.clip + np.rint 后处理,强制非负整数生物约束。
Harness vs 权重的互补性
- Harness 改变"基础设施":工具、解析器、重试策略。本质是软件工程改进。
- 权重 改变"模型先验":领域知识直接编码进参数。不是 prompt 能提供的。
两者不互相替代。harness 让 agent 更聪明地搜索,权重更新让 agent 真正学会搜索不到的东西。
限制
耦合 Goodhart——两根杠杆优化同一个 verifier,联合均衡是 Nash 均衡而非全局最优。Feedback-Agent 本身是冻结的,未来方向是让它自己的选择策略也变成可学习的——真正的递归自改进。