7M参数干翻Claude-4和GPT-5.2：Probabilistic TRM用噪声解锁推理潜能

  核心贡献：在 TRM（7M 参数递归推理模型）的每次递归步骤注入高斯噪声，并行跑 K 条轨迹，用训练时就有的 Q 头选最优解。不需要重新训练，准确率从 62.6% 跳到 91.2%，成本是 LLM 集成的万分之一。

小模型困在局部最优怎么办？

Tiny Recursive Models (TRM) 是 Mila 团队去年提出的一个思路：用只有几百万参数的小网络，通过反复迭代一个隐状态来解复杂的推理问题。本质上是把"思考"做成了循环——不是靠 Transformer 堆层数，而是让一个小网络反复调用自己，逐步修正答案。

TRM 在数独、迷宫、ARC-AGI 等推理基准上已经表现出远超自身体量的能力，但它有一个根本性的弱点：确定性递归意味着没有逃逸机制。一旦隐状态落入一个"坏盆地"（latent space 中的局部吸引子），模型就会一直困在里面，反复产出错误答案，没有任何自纠能力。

图1：PTRM 在多个基准上的表现。在 PPBench 谜题上，PTRM 将 TRM 提升了 28.6 个百分点，超过最强单模型 LLM 56.5 个百分点。

先诊断：TRM 为什么失败？

作者用 PCA 投影了 TRM 在推理过程中的隐状态轨迹，发现了三种典型模式：

快速成功：隐状态在几步内就从起点跳到收敛区域，Q 值和准确率同步上升，稳稳停住。

延迟成功：隐状态先在一个区域反复震荡，Q 值一直是负的，然后在某一步突然逃逸到一个新区域，Q 值和准确率同时飙升。这就是"先困后逃"。

失败：隐状态始终在同一个区域震荡，Q 值永远是负的，准确率永远上不去——被死死锁在了坏盆地里。

图2：TRM 轨迹模式的三种典型案例。左：快速成功；中：延迟成功；右：失败。PCA 投影（上）+ Q 值/准确率曲线（下）。

关键观察是：延迟成功和失败在早期阶段行为完全相同。区别只在于，前者最终找到了逃逸路径，后者没有。

另一个重要发现是：Q 头（训练时用于早停的辅助输出）实际上是轨迹质量的可靠指标。在收敛时，正确轨迹的 Q 值约 +6（sigmoid ≈ 1），错误轨迹约 −6（sigmoid ≈ 0）。这个 Q 头，后来成了整个方法的基石。

图3：Q 值与 cell accuracy 在 100 个 PPBench 验证谜题上的聚合对比。绿色=正确，红色=错误。Q 值可靠地区分了两种轨迹。

PTRM：加噪声，并行跑，挑最好的

方法极其简洁，甚至有点粗暴：在每次递归步骤，给隐状态加高斯噪声，然后跑 K 条并行轨迹，用 Q 头选得分最高的那条。

不需要重新训练，不需要任务特定的数据增强，不需要验证器。纯推理时的改动。

直觉上，噪声给了隐状态"跳出坑"的机会。作者在一个原本确定性推理失败的谜题上跑了 100 条带噪声的轨迹，发现 92 条仍然困在坏盆地，但有 8 条成功逃逸到了好盆地并产出了正确答案。这个概率虽然不高，但只要你跑得够多（K 够大），总能撞上。而 Q 头的作用就是在不需要 ground truth 的情况下，把那条对的挑出来。

图4：左：PTRM 推理算法。右：(a) 标准 TRM 单条确定性 rollout；(b) PTRM：K 条随机 rollout + Q 头选择最终答案。

这就把"宽度"（K 条并行轨迹）变成了一条可扩展的推理时计算轴。而且宽度可以天然并行化，比深度扩展（增加递归步数）实用得多。

图5：同一个失败谜题的 K=100 条随机轨迹。92 条仍困在坏盆地（红），8 条成功逃逸（绿）。

图6：宽度缩放。pass@K 和 best-Q@K 随 K 增长均显著上升，Q 头与 oracle 的差距始终小于 1pp。

效果：碾压级

PPBench（铅笔谜题基准）：TRM 确定性推理准确率 62.6%，PTRM（K=100）提升到 91.2%。同组对比，最强单模型 Claude Opus 4（直推策略）只有 34.7%，7 个最强 LLM 组成的集成（假设有完美验证器）才 55.1%。PTRM 用 7M 参数做到了接近翻倍的准确率，成本 $0.001 对比 LLM 集成的 $38.51。

方法	参数量	PPBench 聚合	成本/次
Claude Opus 4 (直推)	~万亿	34.7%	$7.29
7个最强LLM集成	~万亿×7	55.1%	$38.51
TRM 确定性	7M	62.6%	~$0
PTRM (K=100)	7M	91.2%	$0.001

Sudoku-Extreme：从 87.4% 提升到 98.75%，达到 SOTA。

Maze-Hard：pass@K 从 83.8% 提升到 95.63%（best-Q@K 为 86.73%）。

ARC-AGI-2：提升相对温和，pass@1 从 7.36% 到 8.47%。作者指出这是 Q 头作为验证器在 ARC 上不够可靠的缘故。

核心洞察与工程意义

这篇论文最精彩的不是性能数字，而是它揭示的一个原理：小模型的推理瓶颈往往不在容量，而在探索能力。 TRM 的能力是够的，它只是被确定性的执行路径锁死了。给它一点随机性、一点并行的宽度，它就能自己找到正确的解。

这和 LLM 领域的"测试时计算缩放"（test-time compute scaling）是同一个大方向，但走了一条完全不同的技术路线。LLM 那边靠的是更多 token、更多采样、更强的验证器（如 process reward model），成本是指数级的。PTRM 靠的是隐空间噪声 + 已有的 Q 头，成本几乎可以忽略。

Q 头的作用值得特别注意——它本来只是训练时的辅助组件（用于早停），但在推理时意外地成为了强验证器。这说明在递归式架构中，训练时的辅助目标可能具有远超预期的泛化价值。

局限性也很明确：只在结构化推理谜题上验证过，对"更难验证"的任务（如 ARC-AGI-2）效果有限，Q 头的验证能力是瓶颈。如何构建更强的验证器，是后续工作的核心方向。

一句话总结

  给递归推理模型加噪声、走并行、用 Q 头选最优——不需要重训练，不需要大数据，7M 参数，成本是 LLM 的万分之一，准确率是它们的两倍。简单到不像真的，但数字摆在那里。