Untitled - PaperDog Blog

TL;DR

HRM-Text 用分层递归架构替代标准 Transformer，配合 task-completion 目标和 PrefixLM attention，从零训练 1B 模型仅用 40B unique token、$1,500 预算（16×H100, 46小时），在 MMLU 60.7%、ARC-C 81.9%、GSM8K 84.5%、MATH 56.2% 上达到与 Llama3.2 3B、Qwen3.5 2B、Gemma3 4B、OLMo3 7B 相当的水平。训练 token 少 100-900 倍，计算量少 96-432 倍。

图 1：预训练效率对比。HRM-Text 1B（左下）用 1× 计算量达到与 2-7B 开源模型（96-432×）相当的性能。

核心思路：两个维度同时发力

当前 LLM 预训练的暴力 scaling 范式——万卡、万亿 token、多阶段流水线——大多数计算花在预测与任务无关的文本上。HRM-Text 从架构和目标两个方向同时挑战这一范式。

架构层面：双层时间尺度递归

受大脑额顶叶环路（frontoparietal loop）功能组织启发，HRM 用双层时间尺度的递归结构替代单次前向传播。慢层（H-module）维持稳定的语义上下文，快层（L-module）做局部迭代精炼。在不增加参数量的前提下，通过共享参数的循环计算获得更深的"有效深度"。

图 2：HRM-Text 架构。H-module（慢）和 L-module（快）交替递归展开，每个 module 是 16 层 Transformer，通过 MagicNorm 保持深层递归的梯度稳定。

H2L3 配置：2 轮外层 H 循环，每轮 3 步 L，总共 8 个 module 步，等效 4 倍递归。每个 module 只占总非嵌入参数的一半，参数量不变但前向计算量翻倍。

目标层面：Task-Completion Objective + PrefixLM

完全跳过 raw-text 预训练，从零开始只用 instruction-response 对训练。标准 LM 目标 −log P(x) 对 instruction 和 response 都计算 loss——HRM-Text 只计算 −log P(xₐ|x_q)，所有参数更新都集中在"给指令生成正确回答"上。配合 PrefixLM attention mask：instruction 部分 token 全双向 attention（类似 encoder），response 部分 causal attention（类似 decoder）。

$Figure 3$

图 3：Task-completion + PrefixLM。(a) response-only 训练显著降低 response token 的 NLL。(b) PrefixLM 增加层间 attention 熵。(c) attention 从局部三角形变为全局双向交互。

关键洞察：模型推理时只做条件生成（给定 query 生成 response），但训练时却在预测 instruction——这是标准 LM 目标的系统性浪费。task-completion 消除了这个浪费。

让深层递归可行：MagicNorm + Warmup Credit

MagicNorm

Module 级 normalization（而非层级别）：每个 module 输入/输出各做一次 RMSNorm
前向 bounded variance：forward pass 的方差受控，激活不会爆炸
梯度 short-circuit：backward 时梯度只需穿过 K 个 module 级 norm（K=2→5），而非全部递归深度 N

Warmup Deep Credit Assignment

早期训练 K=2（只回传最后 2 步），线性 warmup 到 K=5。先学短程依赖，稳定后再打开长程 credit assignment。也减少早期 backward 计算量。

关键实验

同等计算量下的架构对比

模型	递归	MMLU	ARC-C	DROP	GSM8K	MATH
HRM 1B	4 (H2L3)	60.7	81.9	86.2	84.5	56.2
Looped Transformer 1B	4	56.5	74.1	82.4	76.2	48.3
RINS 1B	4	56.1	76.7	84.0	79.9	48.9
Transformer 1B	1	53.2	74.3	83.6	75.3	48.4
Transformer 3B (Deep)	1	56.7	80.5	84.1	77.0	50.5

与开源模型对比

模型	参数	Token	MMLU	GSM8K	MATH	FLOPs
HRM-Text 1B	1B	40B	60.7	84.5	56.2	1×
Llama3.2 3B	3B	9T	64.0	80.1	49.7	162×
Qwen3.5 2B	2B	18T	65.5	72.5	42.4	432×
Gemma3 4B	4B	12.5T	63.4	75.7	53.0	96×
OLMo3 7B	7B	15.5T	77.7	78.9	48.0	150×

用不到 Llama 1/200 的 token 和不到 1/100 的计算量，达到同一性能区间。$1,500 的预算意味着任何大学实验室都能做预训练研究了。

有效深度分析

图 4：有效深度分析。(a) HRM 各层间 Δh₂ 范数最大（mean 34.12），深层仍在做有意义更新。(b) HRM 层间余弦相似度最低，其他模型严重过平滑。

图 5：Logit-lens KL。标准 Transformer 和 Looped Transformer 在浅层就收敛（深层"躺平"），HRM 在深层仍保持较大 KL——递归确实增加了有效计算深度。

HRM vs TRM：分层 > 共享参数

模型	FLOPs	MMLU	GSM8K	MATH	稳定性
HRM 1B	1.0×10²¹	60.7	84.5	56.2	✅
TRM 1B (共享参数)	1.1×10²¹	46.4	67.6	44.1	❌ 1B 崩溃

训练细节

两台 8×H100 节点，46 小时，约 $1,472。全部开源数据集：FLAN、Tasksource、SYNTH、Platypus、OpenMathInstruct2、NuminaMath 等。176.5B token / 593.7M 文档中采样 40B unique token，训练 60B token（受控重复）。Adam-atan2 优化器，lr=2.2×10⁻⁴，2000 步线性 warmup 后恒定，EMA decay=0.9999，无梯度裁剪，batch 196,608 tokens。

局限性与开放问题

规模化未验证：仅在 1B 规模验证，更大 scale 是最大开放问题
推理成本：H2L3 需要 4× 前向计算——用训练效率换推理效率
数据依赖：完全依赖 instruction-response 数据，缺乏 raw-text 知识积累分析
数学能力：MATH 56.2% 仍有差距，且剔除了 thinking tokens

总结

核心主张：架构和目标的设计远比数据量重要。40B token 打平万亿级别训练。实验严谨度是亮点——严格污染检测、多架构消融、有效深度的多角度验证。

$1,500 从零训练一个有竞争力的 1B 模型——预训练研究不再是少数巨头的专利。代码已开源。信号很明确：暴力 scaling 不是唯一路径，架构创新 + 目标创新能从根本上改变计算效率方程。