递归推理的"单行道"困境
当前主流的神经网络推理方式可以粗分为两类:自回归式(Chain-of-Thought)和递归式(Recursive Reasoning Models, RRMs)。前者用 token 序列显式展开推理过程,后者在隐空间做迭代状态精炼。RRMs 的代表工作包括 Universal Transformers、HRM、TRM 等——它们共享一个核心设计:每一步隐状态转移都是确定性的。给定同样的输入,模型永远走同一条推理路径,收敛到同一个答案。
这个设计有明显的局限。第一,确定性轨迹意味着模型只能探索解空间的一条路径,遇到需要回溯或多假设推理的场景时会陷入局部最优。第二,推理时只能通过"加深度"(更多迭代步数)来提升性能,无法像 LLM 的 best-of-N 那样通过"加宽度"(并行采样多条路径)来 scale。第三,在存在多个合法解的问题上(如 N-Queens、图着色),确定性模型天然会坍缩到单一模式。
GRAM 要解决的问题很直接:把递归推理从确定性过程变成概率性的多轨迹计算。
核心设计:随机隐状态转移
GRAM 的关键改动可以用一句话概括——在每次隐状态转移时,加入一个可学习的随机扰动(stochastic guidance)。
具体来说,给定当前隐状态和输入嵌入,模型先计算一个确定性的更新 ut,然后从状态依赖的高斯分布中采样一个扰动 εt,最终状态 zt = ut + εt。这个高斯分布的均值 μ(ut) 和方差 σ²(ut) 都由网络学习,均值控制"往哪个方向探索",方差控制"探索幅度有多大"。
这个设计看似简单,但有几个精妙之处:
层级分离。 GRAM 将隐状态分为高层 h(抽象推理状态)和低层 l(细粒度中间计算)。低层做 K 次确定性精炼,高层每步做一次随机更新。随机性只作用于高层,低层保持完全确定性。这保证了"方向探索"发生在抽象层面,而"细节打磨"不受噪声干扰。
变分推理训练。 GRAM 被建模为一个潜变量生成模型,训练时用 ELBO 优化。变分后验在训练时可以"偷看"目标答案 y,学习如何引导轨迹走向正确方向;推理时切换到先验,仅依赖输入 x 生成轨迹。梯度通过截断反向传播来控制显存开销。
双层推理扩展。 推理时,GRAM 支持两条 scaling 轴线——深度(更多递归步数)和宽度(并行采样多条轨迹)。后者是 GRAM 独有的能力:采样 N 条独立轨迹,每条产生一个候选答案,再用多数投票或 Latent Process Reward Model(LPRM)选最优。这意味着你不需要把递归层数堆到天上去,而是可以通过并行采样来提升准确率。
实验结果:全方位碾压确定性基线
结构化推理任务
在 Sudoku-Extreme(极难数独)和 ARC-AGI 上,GRAM 一致优于所有确定性递归基线(Looped TF、HRM、TRM)。Sudoku 上 GRAM 达到 97.0%,超过 TRM 的 90.5%;ARC-AGI-2 上 GRAM 达到 11.1%,超过 HRM 的 7.8% 和 TRM 的 5.0%。
更值得注意的是 scaling 行为:GRAM 用 N=20 并行采样、仅 16 步迭代就超过了所有确定性模型 320 步迭代的性能。这意味着在相似的计算预算下,"加宽度"比"加深度"高效得多——而且不受延迟瓶颈限制。
多解任务
| 方法 | 递归 | 生成 | 参数量 | N-Queens 8×8 准确率 | 覆盖率 |
|---|---|---|---|---|---|
| Direct Pred | ✗ | ✗ | 27M | 40.4% | 13.7% |
| Looped TF | ✓ | ✗ | 7M | 68.4% | 23.6% |
| HRM | ✓ | ✗ | 27M | 78.7% | 26.7% |
| TRM | ✓ | ✗ | 7M | 66.8% | 36.1% |
| AR | ✗ | ✓ | 10.6M | 96.3% | 84.8% |
| MDLM | ✗ | ✓ | 12.6M | 96.1% | 87.2% |
| GRAM (Ours) | ✓ | ✓ | 10M | 99.7% | 90.3% |
在 N-Queens(8×8)上,确定性递归模型的覆盖率最高只有 36.1%,GRAM 达到 90.3%(20 次采样),准确率 99.7%。相比自回归模型(AR),GRAM 在覆盖率相当的情况下准确率更高。图着色任务上差距更夸张:GRAM 的冲突边数仅 2.7-3.3,而 AR 模型高达 19.0-61.3。递归精炼的约束能力远超纯生成式采样。
无条件生成:意外但合理的能力
当输入替换为空信号时,GRAM 的递归过程变成了无条件生成器。在二值 MNIST 上,GRAM 随推理步数增加单调提升生成质量(IS: 1.85→2.04, FID: 84.08→73.34,从 8 步到 256 步),训练时只用 16 步。甚至在数独生成上,GRAM 能从空棋盘生成满足所有行、列、宫约束的完整棋盘。
消融实验:不是"随机"就行
消融结果揭示了几个关键发现:第一,随机引导(stochastic guidance)在所有底层架构上都能带来一致提升,是一个通用即插即用组件。第二,"随机性"和"引导方向"缺一不可——去掉引导后 N-Queens 崩塌到 50.3%,去掉随机性后两个任务都归零。第三,简单地在 TRM 上加随机解码或随机初始化完全无效,说明增益来自变分框架而非纯粹的随机性。
工程意义与启发
GRAM 的核心启示是:推理不应该是确定性的单行道,而应该是概率性的多车道探索。
从工程角度看,这个框架有几个值得关注的点。首先,宽度式推理扩展对延迟敏感场景意义重大。深度式 scaling 意味着更长串行计算和更高延迟;宽度式 scaling 可以并行多条轨迹、利用 GPU 并行度,保持延迟基本不变。其次,层级分离(高层随机 + 低层确定)是一个很好的设计模式——在 agent 系统中,高层策略探索("做什么")和低层执行打磨("怎么做")天然适合这种分层。最后,同一个框架同时支持条件推理和无条件生成,这种统一性很优雅。
当然,GRAM 目前只在结构化任务上验证,距离通用推理还有距离。但作为一个把"递归 + 随机性 + 变分推理"组合起来的框架,它提供了一个比纯确定性递归模型更本质的推理范式。