生成式递归推理：让神经网络学会"发散思维"

GRAM — Generative Recursive reAsoning Models
Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Sungjin Ahn, Yoshua Bengio
KAIST · Mila · NYU · Université de Montréal
arxiv.org/abs/2605.19376

  🔑 核心思路：把确定性递归推理变成概率性多轨迹计算——通过可学习的随机引导（stochastic guidance），让模型在隐空间同时探索多条推理路径，并用宽度式推理扩展（parallel trajectory sampling）突破深度式扩展的延迟瓶颈。

递归推理的"单行道"困境

当前主流的神经网络推理方式可以粗分为两类：自回归式（Chain-of-Thought）和递归式（Recursive Reasoning Models, RRMs）。前者用 token 序列显式展开推理过程，后者在隐空间做迭代状态精炼。RRMs 的代表工作包括 Universal Transformers、HRM、TRM 等——它们共享一个核心设计：每一步隐状态转移都是确定性的。给定同样的输入，模型永远走同一条推理路径，收敛到同一个答案。

这个设计有明显的局限。第一，确定性轨迹意味着模型只能探索解空间的一条路径，遇到需要回溯或多假设推理的场景时会陷入局部最优。第二，推理时只能通过"加深度"（更多迭代步数）来提升性能，无法像 LLM 的 best-of-N 那样通过"加宽度"（并行采样多条路径）来 scale。第三，在存在多个合法解的问题上（如 N-Queens、图着色），确定性模型天然会坍缩到单一模式。

GRAM 要解决的问题很直接：把递归推理从确定性过程变成概率性的多轨迹计算。

图1：确定性递归模型 vs GRAM 的隐状态轨迹对比。左：N-Queens 示例，两个合法解但确定性模型只找到一条路径。右：GRAM 通过随机转移探索多条推理轨迹。

核心设计：随机隐状态转移

GRAM 的关键改动可以用一句话概括——在每次隐状态转移时，加入一个可学习的随机扰动（stochastic guidance）。

具体来说，给定当前隐状态和输入嵌入，模型先计算一个确定性的更新 u_t，然后从状态依赖的高斯分布中采样一个扰动 ε_t，最终状态 z_t = u_t + ε_t。这个高斯分布的均值 μ(u_t) 和方差 σ²(u_t) 都由网络学习，均值控制"往哪个方向探索"，方差控制"探索幅度有多大"。

图2：GRAM 架构示意。层级实例化 z=(h,l)：低层组件做 K 次确定性精炼（f_L），高层组件 f_H 产生确定性提案 u_t，加上随机引导 ε_t 后得到 h_t。

这个设计看似简单，但有几个精妙之处：

层级分离。 GRAM 将隐状态分为高层 h（抽象推理状态）和低层 l（细粒度中间计算）。低层做 K 次确定性精炼，高层每步做一次随机更新。随机性只作用于高层，低层保持完全确定性。这保证了"方向探索"发生在抽象层面，而"细节打磨"不受噪声干扰。

变分推理训练。 GRAM 被建模为一个潜变量生成模型，训练时用 ELBO 优化。变分后验在训练时可以"偷看"目标答案 y，学习如何引导轨迹走向正确方向；推理时切换到先验，仅依赖输入 x 生成轨迹。梯度通过截断反向传播来控制显存开销。

双层推理扩展。 推理时，GRAM 支持两条 scaling 轴线——深度（更多递归步数）和宽度（并行采样多条轨迹）。后者是 GRAM 独有的能力：采样 N 条独立轨迹，每条产生一个候选答案，再用多数投票或 Latent Process Reward Model（LPRM）选最优。这意味着你不需要把递归层数堆到天上去，而是可以通过并行采样来提升准确率。

实验结果：全方位碾压确定性基线

结构化推理任务

在 Sudoku-Extreme（极难数独）和 ARC-AGI 上，GRAM 一致优于所有确定性递归基线（Looped TF、HRM、TRM）。Sudoku 上 GRAM 达到 97.0%，超过 TRM 的 90.5%；ARC-AGI-2 上 GRAM 达到 11.1%，超过 HRM 的 7.8% 和 TRM 的 5.0%。

图3：数独和 ARC-AGI 基准测试结果。GRAM 在所有递归基线上一致领先。大型推理模型（o3-mini, GPT 5.2, Grok-4）仅作参考，训练和推理设置不可直接比较。

更值得注意的是 scaling 行为：GRAM 用 N=20 并行采样、仅 16 步迭代就超过了所有确定性模型 320 步迭代的性能。这意味着在相似的计算预算下，"加宽度"比"加深度"高效得多——而且不受延迟瓶颈限制。

图4（左）：Sudoku 上的推理时扩展。GRAM 同时受益于深度（x轴）和宽度（N=并行采样数）扩展。（右）：N-Queens 中随合法解数量增加的准确率变化——确定性模型急剧下降，GRAM 保持稳定。

多解任务

方法	递归	生成	参数量	N-Queens 8×8 准确率	覆盖率
Direct Pred	✗	✗	27M	40.4%	13.7%
Looped TF	✓	✗	7M	68.4%	23.6%
HRM	✓	✗	27M	78.7%	26.7%
TRM	✓	✗	7M	66.8%	36.1%
AR	✗	✓	10.6M	96.3%	84.8%
MDLM	✗	✓	12.6M	96.1%	87.2%
GRAM (Ours)	✓	✓	10M	99.7%	90.3%

在 N-Queens（8×8）上，确定性递归模型的覆盖率最高只有 36.1%，GRAM 达到 90.3%（20 次采样），准确率 99.7%。相比自回归模型（AR），GRAM 在覆盖率相当的情况下准确率更高。图着色任务上差距更夸张：GRAM 的冲突边数仅 2.7-3.3，而 AR 模型高达 19.0-61.3。递归精炼的约束能力远超纯生成式采样。

无条件生成：意外但合理的能力

当输入替换为空信号时，GRAM 的递归过程变成了无条件生成器。在二值 MNIST 上，GRAM 随推理步数增加单调提升生成质量（IS: 1.85→2.04, FID: 84.08→73.34，从 8 步到 256 步），训练时只用 16 步。甚至在数独生成上，GRAM 能从空棋盘生成满足所有行、列、宫约束的完整棋盘。

图6：GRAM 的无条件生成过程可视化。数独棋盘和二值 MNIST 数字随递归步数逐步精炼，满足约束能力作为生成过程的自然副产物出现。

图7：GRAM 从空棋盘无条件生成的数独示例。每个棋盘独立采样，满足行列宫约束，无需显式约束检查器。

消融实验：不是"随机"就行

消融结果揭示了几个关键发现：第一，随机引导（stochastic guidance）在所有底层架构上都能带来一致提升，是一个通用即插即用组件。第二，"随机性"和"引导方向"缺一不可——去掉引导后 N-Queens 崩塌到 50.3%，去掉随机性后两个任务都归零。第三，简单地在 TRM 上加随机解码或随机初始化完全无效，说明增益来自变分框架而非纯粹的随机性。

工程意义与启发

GRAM 的核心启示是：推理不应该是确定性的单行道，而应该是概率性的多车道探索。

从工程角度看，这个框架有几个值得关注的点。首先，宽度式推理扩展对延迟敏感场景意义重大。深度式 scaling 意味着更长串行计算和更高延迟；宽度式 scaling 可以并行多条轨迹、利用 GPU 并行度，保持延迟基本不变。其次，层级分离（高层随机 + 低层确定）是一个很好的设计模式——在 agent 系统中，高层策略探索（"做什么"）和低层执行打磨（"怎么做"）天然适合这种分层。最后，同一个框架同时支持条件推理和无条件生成，这种统一性很优雅。

当然，GRAM 目前只在结构化任务上验证，距离通用推理还有距离。但作为一个把"递归 + 随机性 + 变分推理"组合起来的框架，它提供了一个比纯确定性递归模型更本质的推理范式。

📄 论文原文: arxiv.org/abs/2605.19376 · 项目页: ahn-ml.github.io/gram-website