Back to Blog 生成式递归推理:让神经网络学会

生成式递归推理:让神经网络学会"发散思维"

Paper
GRAM — Generative Recursive reAsoning Models
Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Sungjin Ahn, Yoshua Bengio
KAIST · Mila · NYU · Université de Montréal
arxiv.org/abs/2605.19376
🔑 核心思路:把确定性递归推理变成概率性多轨迹计算——通过可学习的随机引导(stochastic guidance),让模型在隐空间同时探索多条推理路径,并用宽度式推理扩展(parallel trajectory sampling)突破深度式扩展的延迟瓶颈。

递归推理的"单行道"困境

当前主流的神经网络推理方式可以粗分为两类:自回归式(Chain-of-Thought)和递归式(Recursive Reasoning Models, RRMs)。前者用 token 序列显式展开推理过程,后者在隐空间做迭代状态精炼。RRMs 的代表工作包括 Universal Transformers、HRM、TRM 等——它们共享一个核心设计:每一步隐状态转移都是确定性的。给定同样的输入,模型永远走同一条推理路径,收敛到同一个答案。

这个设计有明显的局限。第一,确定性轨迹意味着模型只能探索解空间的一条路径,遇到需要回溯或多假设推理的场景时会陷入局部最优。第二,推理时只能通过"加深度"(更多迭代步数)来提升性能,无法像 LLM 的 best-of-N 那样通过"加宽度"(并行采样多条路径)来 scale。第三,在存在多个合法解的问题上(如 N-Queens、图着色),确定性模型天然会坍缩到单一模式。

GRAM 要解决的问题很直接:把递归推理从确定性过程变成概率性的多轨迹计算

Fig1: Trajectory comparison
图1:确定性递归模型 vs GRAM 的隐状态轨迹对比。左:N-Queens 示例,两个合法解但确定性模型只找到一条路径。右:GRAM 通过随机转移探索多条推理轨迹。

核心设计:随机隐状态转移

GRAM 的关键改动可以用一句话概括——在每次隐状态转移时,加入一个可学习的随机扰动(stochastic guidance)。

具体来说,给定当前隐状态和输入嵌入,模型先计算一个确定性的更新 ut,然后从状态依赖的高斯分布中采样一个扰动 εt,最终状态 zt = ut + εt。这个高斯分布的均值 μ(ut) 和方差 σ²(ut) 都由网络学习,均值控制"往哪个方向探索",方差控制"探索幅度有多大"。

Fig2: GRAM Architecture
图2:GRAM 架构示意。层级实例化 z=(h,l):低层组件做 K 次确定性精炼(fL),高层组件 fH 产生确定性提案 ut,加上随机引导 εt 后得到 ht

这个设计看似简单,但有几个精妙之处:

层级分离。 GRAM 将隐状态分为高层 h(抽象推理状态)和低层 l(细粒度中间计算)。低层做 K 次确定性精炼,高层每步做一次随机更新。随机性只作用于高层,低层保持完全确定性。这保证了"方向探索"发生在抽象层面,而"细节打磨"不受噪声干扰。

变分推理训练。 GRAM 被建模为一个潜变量生成模型,训练时用 ELBO 优化。变分后验在训练时可以"偷看"目标答案 y,学习如何引导轨迹走向正确方向;推理时切换到先验,仅依赖输入 x 生成轨迹。梯度通过截断反向传播来控制显存开销。

双层推理扩展。 推理时,GRAM 支持两条 scaling 轴线——深度(更多递归步数)和宽度(并行采样多条轨迹)。后者是 GRAM 独有的能力:采样 N 条独立轨迹,每条产生一个候选答案,再用多数投票或 Latent Process Reward Model(LPRM)选最优。这意味着你不需要把递归层数堆到天上去,而是可以通过并行采样来提升准确率。

实验结果:全方位碾压确定性基线

结构化推理任务

在 Sudoku-Extreme(极难数独)和 ARC-AGI 上,GRAM 一致优于所有确定性递归基线(Looped TF、HRM、TRM)。Sudoku 上 GRAM 达到 97.0%,超过 TRM 的 90.5%;ARC-AGI-2 上 GRAM 达到 11.1%,超过 HRM 的 7.8% 和 TRM 的 5.0%。

Fig3: Benchmark results
图3:数独和 ARC-AGI 基准测试结果。GRAM 在所有递归基线上一致领先。大型推理模型(o3-mini, GPT 5.2, Grok-4)仅作参考,训练和推理设置不可直接比较。

更值得注意的是 scaling 行为:GRAM 用 N=20 并行采样、仅 16 步迭代就超过了所有确定性模型 320 步迭代的性能。这意味着在相似的计算预算下,"加宽度"比"加深度"高效得多——而且不受延迟瓶颈限制。

Fig4: Inference-time scaling
图4(左):Sudoku 上的推理时扩展。GRAM 同时受益于深度(x轴)和宽度(N=并行采样数)扩展。(右):N-Queens 中随合法解数量增加的准确率变化——确定性模型急剧下降,GRAM 保持稳定。

多解任务

方法递归生成参数量N-Queens 8×8 准确率覆盖率
Direct Pred27M40.4%13.7%
Looped TF7M68.4%23.6%
HRM27M78.7%26.7%
TRM7M66.8%36.1%
AR10.6M96.3%84.8%
MDLM12.6M96.1%87.2%
GRAM (Ours)10M99.7%90.3%

在 N-Queens(8×8)上,确定性递归模型的覆盖率最高只有 36.1%,GRAM 达到 90.3%(20 次采样),准确率 99.7%。相比自回归模型(AR),GRAM 在覆盖率相当的情况下准确率更高。图着色任务上差距更夸张:GRAM 的冲突边数仅 2.7-3.3,而 AR 模型高达 19.0-61.3。递归精炼的约束能力远超纯生成式采样。

无条件生成:意外但合理的能力

当输入替换为空信号时,GRAM 的递归过程变成了无条件生成器。在二值 MNIST 上,GRAM 随推理步数增加单调提升生成质量(IS: 1.85→2.04, FID: 84.08→73.34,从 8 步到 256 步),训练时只用 16 步。甚至在数独生成上,GRAM 能从空棋盘生成满足所有行、列、宫约束的完整棋盘。

Fig6: Generation process
图6:GRAM 的无条件生成过程可视化。数独棋盘和二值 MNIST 数字随递归步数逐步精炼,满足约束能力作为生成过程的自然副产物出现。
Fig7: Sudoku generation
图7:GRAM 从空棋盘无条件生成的数独示例。每个棋盘独立采样,满足行列宫约束,无需显式约束检查器。

消融实验:不是"随机"就行

消融结果揭示了几个关键发现:第一,随机引导(stochastic guidance)在所有底层架构上都能带来一致提升,是一个通用即插即用组件。第二,"随机性"和"引导方向"缺一不可——去掉引导后 N-Queens 崩塌到 50.3%,去掉随机性后两个任务都归零。第三,简单地在 TRM 上加随机解码或随机初始化完全无效,说明增益来自变分框架而非纯粹的随机性。

工程意义与启发

GRAM 的核心启示是:推理不应该是确定性的单行道,而应该是概率性的多车道探索

从工程角度看,这个框架有几个值得关注的点。首先,宽度式推理扩展对延迟敏感场景意义重大。深度式 scaling 意味着更长串行计算和更高延迟;宽度式 scaling 可以并行多条轨迹、利用 GPU 并行度,保持延迟基本不变。其次,层级分离(高层随机 + 低层确定)是一个很好的设计模式——在 agent 系统中,高层策略探索("做什么")和低层执行打磨("怎么做")天然适合这种分层。最后,同一个框架同时支持条件推理和无条件生成,这种统一性很优雅。

当然,GRAM 目前只在结构化任务上验证,距离通用推理还有距离。但作为一个把"递归 + 随机性 + 变分推理"组合起来的框架,它提供了一个比纯确定性递归模型更本质的推理范式。

📄 论文原文: arxiv.org/abs/2605.19376 · 项目页: ahn-ml.github.io/gram-website
Tags: #Blog