Back to Blog 7M参数干翻Claude-4和GPT-5.2:Probabilistic TRM用噪声解锁推理潜能

7M参数干翻Claude-4和GPT-5.2:Probabilistic TRM用噪声解锁推理潜能

Paper
arXiv: 2605.19943  |  Amin Sghaier, Ali Parviz, Alexia Jolicoeur-Martineau (Mila)  |  2026-05-19
核心贡献:在 TRM(7M 参数递归推理模型)的每次递归步骤注入高斯噪声,并行跑 K 条轨迹,用训练时就有的 Q 头选最优解。不需要重新训练,准确率从 62.6% 跳到 91.2%,成本是 LLM 集成的万分之一。

小模型困在局部最优怎么办?

Tiny Recursive Models (TRM) 是 Mila 团队去年提出的一个思路:用只有几百万参数的小网络,通过反复迭代一个隐状态来解复杂的推理问题。本质上是把"思考"做成了循环——不是靠 Transformer 堆层数,而是让一个小网络反复调用自己,逐步修正答案。

TRM 在数独、迷宫、ARC-AGI 等推理基准上已经表现出远超自身体量的能力,但它有一个根本性的弱点:确定性递归意味着没有逃逸机制。一旦隐状态落入一个"坏盆地"(latent space 中的局部吸引子),模型就会一直困在里面,反复产出错误答案,没有任何自纠能力。

PTRM vs baselines overview
图1:PTRM 在多个基准上的表现。在 PPBench 谜题上,PTRM 将 TRM 提升了 28.6 个百分点,超过最强单模型 LLM 56.5 个百分点。

先诊断:TRM 为什么失败?

作者用 PCA 投影了 TRM 在推理过程中的隐状态轨迹,发现了三种典型模式:

快速成功:隐状态在几步内就从起点跳到收敛区域,Q 值和准确率同步上升,稳稳停住。

延迟成功:隐状态先在一个区域反复震荡,Q 值一直是负的,然后在某一步突然逃逸到一个新区域,Q 值和准确率同时飙升。这就是"先困后逃"。

失败:隐状态始终在同一个区域震荡,Q 值永远是负的,准确率永远上不去——被死死锁在了坏盆地里。

TRM trajectory modes
图2:TRM 轨迹模式的三种典型案例。左:快速成功;中:延迟成功;右:失败。PCA 投影(上)+ Q 值/准确率曲线(下)。

关键观察是:延迟成功和失败在早期阶段行为完全相同。区别只在于,前者最终找到了逃逸路径,后者没有。

另一个重要发现是:Q 头(训练时用于早停的辅助输出)实际上是轨迹质量的可靠指标。在收敛时,正确轨迹的 Q 值约 +6(sigmoid ≈ 1),错误轨迹约 −6(sigmoid ≈ 0)。这个 Q 头,后来成了整个方法的基石。

Q value tracks trajectory quality
图3:Q 值与 cell accuracy 在 100 个 PPBench 验证谜题上的聚合对比。绿色=正确,红色=错误。Q 值可靠地区分了两种轨迹。

PTRM:加噪声,并行跑,挑最好的

方法极其简洁,甚至有点粗暴:在每次递归步骤,给隐状态加高斯噪声,然后跑 K 条并行轨迹,用 Q 头选得分最高的那条。

不需要重新训练,不需要任务特定的数据增强,不需要验证器。纯推理时的改动。

直觉上,噪声给了隐状态"跳出坑"的机会。作者在一个原本确定性推理失败的谜题上跑了 100 条带噪声的轨迹,发现 92 条仍然困在坏盆地,但有 8 条成功逃逸到了好盆地并产出了正确答案。这个概率虽然不高,但只要你跑得够多(K 够大),总能撞上。而 Q 头的作用就是在不需要 ground truth 的情况下,把那条对的挑出来。

PTRM inference procedure
图4:左:PTRM 推理算法。右:(a) 标准 TRM 单条确定性 rollout;(b) PTRM:K 条随机 rollout + Q 头选择最终答案。

这就把"宽度"(K 条并行轨迹)变成了一条可扩展的推理时计算轴。而且宽度可以天然并行化,比深度扩展(增加递归步数)实用得多。

Stochastic rollouts escape bad basins
图5:同一个失败谜题的 K=100 条随机轨迹。92 条仍困在坏盆地(红),8 条成功逃逸(绿)。
Width scaling
图6:宽度缩放。pass@K 和 best-Q@K 随 K 增长均显著上升,Q 头与 oracle 的差距始终小于 1pp。

效果:碾压级

PPBench(铅笔谜题基准):TRM 确定性推理准确率 62.6%,PTRM(K=100)提升到 91.2%。同组对比,最强单模型 Claude Opus 4(直推策略)只有 34.7%,7 个最强 LLM 组成的集成(假设有完美验证器)才 55.1%。PTRM 用 7M 参数做到了接近翻倍的准确率,成本 $0.001 对比 LLM 集成的 $38.51。

方法参数量PPBench 聚合成本/次
Claude Opus 4 (直推)~万亿34.7%$7.29
7个最强LLM集成~万亿×755.1%$38.51
TRM 确定性7M62.6%~$0
PTRM (K=100)7M91.2%$0.001

Sudoku-Extreme:从 87.4% 提升到 98.75%,达到 SOTA。

Maze-Hard:pass@K 从 83.8% 提升到 95.63%(best-Q@K 为 86.73%)。

ARC-AGI-2:提升相对温和,pass@1 从 7.36% 到 8.47%。作者指出这是 Q 头作为验证器在 ARC 上不够可靠的缘故。

核心洞察与工程意义

这篇论文最精彩的不是性能数字,而是它揭示的一个原理:小模型的推理瓶颈往往不在容量,而在探索能力。 TRM 的能力是够的,它只是被确定性的执行路径锁死了。给它一点随机性、一点并行的宽度,它就能自己找到正确的解。

这和 LLM 领域的"测试时计算缩放"(test-time compute scaling)是同一个大方向,但走了一条完全不同的技术路线。LLM 那边靠的是更多 token、更多采样、更强的验证器(如 process reward model),成本是指数级的。PTRM 靠的是隐空间噪声 + 已有的 Q 头,成本几乎可以忽略。

Q 头的作用值得特别注意——它本来只是训练时的辅助组件(用于早停),但在推理时意外地成为了强验证器。这说明在递归式架构中,训练时的辅助目标可能具有远超预期的泛化价值。

局限性也很明确:只在结构化推理谜题上验证过,对"更难验证"的任务(如 ARC-AGI-2)效果有限,Q 头的验证能力是瓶颈。如何构建更强的验证器,是后续工作的核心方向。

一句话总结

给递归推理模型加噪声、走并行、用 Q 头选最优——不需要重训练,不需要大数据,7M 参数,成本是 LLM 的万分之一,准确率是它们的两倍。简单到不像真的,但数字摆在那里。
Tags: #Blog