小模型困在局部最优怎么办?
Tiny Recursive Models (TRM) 是 Mila 团队去年提出的一个思路:用只有几百万参数的小网络,通过反复迭代一个隐状态来解复杂的推理问题。本质上是把"思考"做成了循环——不是靠 Transformer 堆层数,而是让一个小网络反复调用自己,逐步修正答案。
TRM 在数独、迷宫、ARC-AGI 等推理基准上已经表现出远超自身体量的能力,但它有一个根本性的弱点:确定性递归意味着没有逃逸机制。一旦隐状态落入一个"坏盆地"(latent space 中的局部吸引子),模型就会一直困在里面,反复产出错误答案,没有任何自纠能力。
先诊断:TRM 为什么失败?
作者用 PCA 投影了 TRM 在推理过程中的隐状态轨迹,发现了三种典型模式:
快速成功:隐状态在几步内就从起点跳到收敛区域,Q 值和准确率同步上升,稳稳停住。
延迟成功:隐状态先在一个区域反复震荡,Q 值一直是负的,然后在某一步突然逃逸到一个新区域,Q 值和准确率同时飙升。这就是"先困后逃"。
失败:隐状态始终在同一个区域震荡,Q 值永远是负的,准确率永远上不去——被死死锁在了坏盆地里。
关键观察是:延迟成功和失败在早期阶段行为完全相同。区别只在于,前者最终找到了逃逸路径,后者没有。
另一个重要发现是:Q 头(训练时用于早停的辅助输出)实际上是轨迹质量的可靠指标。在收敛时,正确轨迹的 Q 值约 +6(sigmoid ≈ 1),错误轨迹约 −6(sigmoid ≈ 0)。这个 Q 头,后来成了整个方法的基石。
PTRM:加噪声,并行跑,挑最好的
方法极其简洁,甚至有点粗暴:在每次递归步骤,给隐状态加高斯噪声,然后跑 K 条并行轨迹,用 Q 头选得分最高的那条。
不需要重新训练,不需要任务特定的数据增强,不需要验证器。纯推理时的改动。
直觉上,噪声给了隐状态"跳出坑"的机会。作者在一个原本确定性推理失败的谜题上跑了 100 条带噪声的轨迹,发现 92 条仍然困在坏盆地,但有 8 条成功逃逸到了好盆地并产出了正确答案。这个概率虽然不高,但只要你跑得够多(K 够大),总能撞上。而 Q 头的作用就是在不需要 ground truth 的情况下,把那条对的挑出来。
这就把"宽度"(K 条并行轨迹)变成了一条可扩展的推理时计算轴。而且宽度可以天然并行化,比深度扩展(增加递归步数)实用得多。
效果:碾压级
PPBench(铅笔谜题基准):TRM 确定性推理准确率 62.6%,PTRM(K=100)提升到 91.2%。同组对比,最强单模型 Claude Opus 4(直推策略)只有 34.7%,7 个最强 LLM 组成的集成(假设有完美验证器)才 55.1%。PTRM 用 7M 参数做到了接近翻倍的准确率,成本 $0.001 对比 LLM 集成的 $38.51。
| 方法 | 参数量 | PPBench 聚合 | 成本/次 |
|---|---|---|---|
| Claude Opus 4 (直推) | ~万亿 | 34.7% | $7.29 |
| 7个最强LLM集成 | ~万亿×7 | 55.1% | $38.51 |
| TRM 确定性 | 7M | 62.6% | ~$0 |
| PTRM (K=100) | 7M | 91.2% | $0.001 |
Sudoku-Extreme:从 87.4% 提升到 98.75%,达到 SOTA。
Maze-Hard:pass@K 从 83.8% 提升到 95.63%(best-Q@K 为 86.73%)。
ARC-AGI-2:提升相对温和,pass@1 从 7.36% 到 8.47%。作者指出这是 Q 头作为验证器在 ARC 上不够可靠的缘故。
核心洞察与工程意义
这篇论文最精彩的不是性能数字,而是它揭示的一个原理:小模型的推理瓶颈往往不在容量,而在探索能力。 TRM 的能力是够的,它只是被确定性的执行路径锁死了。给它一点随机性、一点并行的宽度,它就能自己找到正确的解。
这和 LLM 领域的"测试时计算缩放"(test-time compute scaling)是同一个大方向,但走了一条完全不同的技术路线。LLM 那边靠的是更多 token、更多采样、更强的验证器(如 process reward model),成本是指数级的。PTRM 靠的是隐空间噪声 + 已有的 Q 头,成本几乎可以忽略。
Q 头的作用值得特别注意——它本来只是训练时的辅助组件(用于早停),但在推理时意外地成为了强验证器。这说明在递归式架构中,训练时的辅助目标可能具有远超预期的泛化价值。
局限性也很明确:只在结构化推理谜题上验证过,对"更难验证"的任务(如 ARC-AGI-2)效果有限,Q 头的验证能力是瓶颈。如何构建更强的验证器,是后续工作的核心方向。