TL;DR
HRM-Text 用分层递归架构替代标准 Transformer,配合 task-completion 目标和 PrefixLM attention,从零训练 1B 模型仅用 40B unique token、$1,500 预算(16×H100, 46小时),在 MMLU 60.7%、ARC-C 81.9%、GSM8K 84.5%、MATH 56.2% 上达到与 Llama3.2 3B、Qwen3.5 2B、Gemma3 4B、OLMo3 7B 相当的水平。训练 token 少 100-900 倍,计算量少 96-432 倍。
核心思路:两个维度同时发力
当前 LLM 预训练的暴力 scaling 范式——万卡、万亿 token、多阶段流水线——大多数计算花在预测与任务无关的文本上。HRM-Text 从架构和目标两个方向同时挑战这一范式。
架构层面:双层时间尺度递归
受大脑额顶叶环路(frontoparietal loop)功能组织启发,HRM 用双层时间尺度的递归结构替代单次前向传播。慢层(H-module)维持稳定的语义上下文,快层(L-module)做局部迭代精炼。在不增加参数量的前提下,通过共享参数的循环计算获得更深的"有效深度"。
H2L3 配置:2 轮外层 H 循环,每轮 3 步 L,总共 8 个 module 步,等效 4 倍递归。每个 module 只占总非嵌入参数的一半,参数量不变但前向计算量翻倍。
目标层面:Task-Completion Objective + PrefixLM
完全跳过 raw-text 预训练,从零开始只用 instruction-response 对训练。标准 LM 目标 −log P(x) 对 instruction 和 response 都计算 loss——HRM-Text 只计算 −log P(xₐ|x_q),所有参数更新都集中在"给指令生成正确回答"上。配合 PrefixLM attention mask:instruction 部分 token 全双向 attention(类似 encoder),response 部分 causal attention(类似 decoder)。
让深层递归可行:MagicNorm + Warmup Credit
MagicNorm
- Module 级 normalization(而非层级别):每个 module 输入/输出各做一次 RMSNorm
- 前向 bounded variance:forward pass 的方差受控,激活不会爆炸
- 梯度 short-circuit:backward 时梯度只需穿过 K 个 module 级 norm(K=2→5),而非全部递归深度 N
Warmup Deep Credit Assignment
早期训练 K=2(只回传最后 2 步),线性 warmup 到 K=5。先学短程依赖,稳定后再打开长程 credit assignment。也减少早期 backward 计算量。
关键实验
同等计算量下的架构对比
| 模型 | 递归 | MMLU | ARC-C | DROP | GSM8K | MATH |
|---|---|---|---|---|---|---|
| HRM 1B | 4 (H2L3) | 60.7 | 81.9 | 86.2 | 84.5 | 56.2 |
| Looped Transformer 1B | 4 | 56.5 | 74.1 | 82.4 | 76.2 | 48.3 |
| RINS 1B | 4 | 56.1 | 76.7 | 84.0 | 79.9 | 48.9 |
| Transformer 1B | 1 | 53.2 | 74.3 | 83.6 | 75.3 | 48.4 |
| Transformer 3B (Deep) | 1 | 56.7 | 80.5 | 84.1 | 77.0 | 50.5 |
与开源模型对比
| 模型 | 参数 | Token | MMLU | GSM8K | MATH | FLOPs |
|---|---|---|---|---|---|---|
| HRM-Text 1B | 1B | 40B | 60.7 | 84.5 | 56.2 | 1× |
| Llama3.2 3B | 3B | 9T | 64.0 | 80.1 | 49.7 | 162× |
| Qwen3.5 2B | 2B | 18T | 65.5 | 72.5 | 42.4 | 432× |
| Gemma3 4B | 4B | 12.5T | 63.4 | 75.7 | 53.0 | 96× |
| OLMo3 7B | 7B | 15.5T | 77.7 | 78.9 | 48.0 | 150× |
有效深度分析
HRM vs TRM:分层 > 共享参数
| 模型 | FLOPs | MMLU | GSM8K | MATH | 稳定性 |
|---|---|---|---|---|---|
| HRM 1B | 1.0×10²¹ | 60.7 | 84.5 | 56.2 | ✅ |
| TRM 1B (共享参数) | 1.1×10²¹ | 46.4 | 67.6 | 44.1 | ❌ 1B 崩溃 |
训练细节
两台 8×H100 节点,46 小时,约 $1,472。全部开源数据集:FLAN、Tasksource、SYNTH、Platypus、OpenMathInstruct2、NuminaMath 等。176.5B token / 593.7M 文档中采样 40B unique token,训练 60B token(受控重复)。Adam-atan2 优化器,lr=2.2×10⁻⁴,2000 步线性 warmup 后恒定,EMA decay=0.9999,无梯度裁剪,batch 196,608 tokens。
局限性与开放问题
- 规模化未验证:仅在 1B 规模验证,更大 scale 是最大开放问题
- 推理成本:H2L3 需要 4× 前向计算——用训练效率换推理效率
- 数据依赖:完全依赖 instruction-response 数据,缺乏 raw-text 知识积累分析
- 数学能力:MATH 56.2% 仍有差距,且剔除了 thinking tokens
总结
核心主张:架构和目标的设计远比数据量重要。40B token 打平万亿级别训练。实验严谨度是亮点——严格污染检测、多架构消融、有效深度的多角度验证。
$1,500 从零训练一个有竞争力的 1B 模型——预训练研究不再是少数巨头的专利。代码已开源。信号很明确:暴力 scaling 不是唯一路径,架构创新 + 目标创新能从根本上改变计算效率方程。