SIA：同时拧两颗螺丝的自改进 AI

  核心观点：自改进 AI 研究分为 harness 迭代和 test-time training 两座孤岛，SIA 是第一个在同一个闭环中同时更新 scaffold 和模型权重的系统。三个跨域实验一致证明：两根杠杆的增益不互相饱和——harness 塑造搜索方式，权重内化领域知识。

问题：两座孤岛

自改进 AI 研究分裂成了两个互不沟通的阵营：

SIA 的核心观察：harness 塑造 agent 如何搜索，权重更新改变 agent 知道什么。两者操作的是完全不同的变化空间，不会互相饱和。

SIA 由三个 LLM 组件驱动的闭环：

关键设计：Feedback-Agent 不是硬编码选哪个 RL 算法，而是根据奖励分布、rollout 成本、过拟合风险运行时选择。方法池包括 PPO+GAE、GRPO、Entropic Advantage Weighting、REINFORCE+KL、Best-of-N BC、DPO。

任务	初始	SIA-H (harness)	SIA-W+H (全部)
LawBench 191类罪名分类	13.5%	50.0%	70.1%
TriMul CUDA核优化	baseline	12,483µs	1,017µs
MAGIC scRNA去噪	0.048	0.241	0.289

LawBench：harness 建立 TF-IDF + LinearSVC 管线到 50% 后停滞；GRPO 直接作用于 191 类罪名间的细粒度区分，再涨 20pp。

TriMul CUDA：harness 只拿到 1.14× 加速；权重更新用 entropic utility 处理高右偏奖励，模型内化 H100 专属设计模式，达到 14× 加速。

MAGIC 去噪：权重更新第一次就发现了 harness 从未生成的变换——np.clip + np.rint 后处理，强制非负整数生物约束。

两者不互相替代。harness 让 agent 更聪明地搜索，权重更新让 agent 真正学会搜索不到的东西。

耦合 Goodhart——两根杠杆优化同一个 verifier，联合均衡是 Nash 均衡而非全局最优。Feedback-Agent 本身是冻结的，未来方向是让它自己的选择策略也变成可学习的——真正的递归自改进。