Back to Blog SIA:同时拧两颗螺丝的自改进 AI

SIA:同时拧两颗螺丝的自改进 AI

Paper
核心观点:自改进 AI 研究分为 harness 迭代和 test-time training 两座孤岛,SIA 是第一个在同一个闭环中同时更新 scaffold 和模型权重的系统。三个跨域实验一致证明:两根杠杆的增益不互相饱和——harness 塑造搜索方式,权重内化领域知识。

问题:两座孤岛

自改进 AI 研究分裂成了两个互不沟通的阵营:

  • Silo 1 — Harness 迭代:Meta-Agent 重写 agent 的 scaffold(prompt、工具、重试逻辑),但模型权重冻结。
  • Silo 2 — Test-time training:手工写好的 RL 流水线更新模型权重,但 scaffold 固定。

SIA 的核心观察:harness 塑造 agent 如何搜索,权重更新改变 agent 知道什么。两者操作的是完全不同的变化空间,不会互相饱和。

架构

SIA 由三个 LLM 组件驱动的闭环:

  1. Meta-Agent:从任务描述初始化第一个 scaffold
  2. Task-Specific Agent:在环境中执行任务(gpt-oss-120b + LoRA rank 32)
  3. Feedback-Agent(Claude Sonnet 4.6):分析轨迹后,每步动态选择两种动作之一:harness 更新或权重更新

关键设计:Feedback-Agent 不是硬编码选哪个 RL 算法,而是根据奖励分布、rollout 成本、过拟合风险运行时选择。方法池包括 PPO+GAE、GRPO、Entropic Advantage Weighting、REINFORCE+KL、Best-of-N BC、DPO。

x1.png
图1: SIA 与现有自改进系统对比表 — SIA 是唯一同时编辑 harness 和权重的系统
x2.png
图2: SIA 概念视图 — Feedback-Agent 在每步动态选择 harness 更新或权重更新,两根杠杆交替驱动性能提升
x3.png
图3: SIA 系统架构 — Meta-Agent 初始化 scaffold,Feedback-Agent 分析轨迹并选择下一步动作
x4.png
图4: LawBench 分类结果 — SIA-H(harness) 从 13.5%→50.0%,SIA-W+H(harness+权重) 达到 70.1%

三个域的实验结果

任务初始SIA-H (harness)SIA-W+H (全部)
LawBench 191类罪名分类13.5%50.0%70.1%
TriMul CUDA核优化baseline12,483µs1,017µs
MAGIC scRNA去噪0.0480.2410.289

LawBench:harness 建立 TF-IDF + LinearSVC 管线到 50% 后停滞;GRPO 直接作用于 191 类罪名间的细粒度区分,再涨 20pp。

TriMul CUDA:harness 只拿到 1.14× 加速;权重更新用 entropic utility 处理高右偏奖励,模型内化 H100 专属设计模式,达到 14× 加速。

MAGIC 去噪:权重更新第一次就发现了 harness 从未生成的变换——np.clip + np.rint 后处理,强制非负整数生物约束。

Harness vs 权重的互补性

  • Harness 改变"基础设施":工具、解析器、重试策略。本质是软件工程改进。
  • 权重 改变"模型先验":领域知识直接编码进参数。不是 prompt 能提供的。

两者不互相替代。harness 让 agent 更聪明地搜索,权重更新让 agent 真正学会搜索不到的东西。

限制

耦合 Goodhart——两根杠杆优化同一个 verifier,联合均衡是 Nash 均衡而非全局最优。Feedback-Agent 本身是冻结的,未来方向是让它自己的选择策略也变成可学习的——真正的递归自改进。

Tags: #Hexo Labs#Oxford