Back to Blog Untitled

Untitled

Paper

TL;DR

HRM-Text 用分层递归架构替代标准 Transformer,配合 task-completion 目标和 PrefixLM attention,从零训练 1B 模型仅用 40B unique token、$1,500 预算(16×H100, 46小时),在 MMLU 60.7%、ARC-C 81.9%、GSM8K 84.5%、MATH 56.2% 上达到与 Llama3.2 3B、Qwen3.5 2B、Gemma3 4B、OLMo3 7B 相当的水平。训练 token 少 100-900 倍,计算量少 96-432 倍。

Figure 1
图 1:预训练效率对比。HRM-Text 1B(左下)用 1× 计算量达到与 2-7B 开源模型(96-432×)相当的性能。

核心思路:两个维度同时发力

当前 LLM 预训练的暴力 scaling 范式——万卡、万亿 token、多阶段流水线——大多数计算花在预测与任务无关的文本上。HRM-Text 从架构和目标两个方向同时挑战这一范式。

架构层面:双层时间尺度递归

受大脑额顶叶环路(frontoparietal loop)功能组织启发,HRM 用双层时间尺度的递归结构替代单次前向传播。慢层(H-module)维持稳定的语义上下文,快层(L-module)做局部迭代精炼。在不增加参数量的前提下,通过共享参数的循环计算获得更深的"有效深度"。

Figure 2
图 2:HRM-Text 架构。H-module(慢)和 L-module(快)交替递归展开,每个 module 是 16 层 Transformer,通过 MagicNorm 保持深层递归的梯度稳定。

H2L3 配置:2 轮外层 H 循环,每轮 3 步 L,总共 8 个 module 步,等效 4 倍递归。每个 module 只占总非嵌入参数的一半,参数量不变但前向计算量翻倍。

目标层面:Task-Completion Objective + PrefixLM

完全跳过 raw-text 预训练,从零开始只用 instruction-response 对训练。标准 LM 目标 −log P(x) 对 instruction 和 response 都计算 loss——HRM-Text 只计算 −log P(xₐ|x_q),所有参数更新都集中在"给指令生成正确回答"上。配合 PrefixLM attention mask:instruction 部分 token 全双向 attention(类似 encoder),response 部分 causal attention(类似 decoder)。

Figure 3
图 3:Task-completion + PrefixLM。(a) response-only 训练显著降低 response token 的 NLL。(b) PrefixLM 增加层间 attention 熵。(c) attention 从局部三角形变为全局双向交互。
关键洞察:模型推理时只做条件生成(给定 query 生成 response),但训练时却在预测 instruction——这是标准 LM 目标的系统性浪费。task-completion 消除了这个浪费。

让深层递归可行:MagicNorm + Warmup Credit

MagicNorm

  • Module 级 normalization(而非层级别):每个 module 输入/输出各做一次 RMSNorm
  • 前向 bounded variance:forward pass 的方差受控,激活不会爆炸
  • 梯度 short-circuit:backward 时梯度只需穿过 K 个 module 级 norm(K=2→5),而非全部递归深度 N

Warmup Deep Credit Assignment

早期训练 K=2(只回传最后 2 步),线性 warmup 到 K=5。先学短程依赖,稳定后再打开长程 credit assignment。也减少早期 backward 计算量。

关键实验

同等计算量下的架构对比

模型递归MMLUARC-CDROPGSM8KMATH
HRM 1B4 (H2L3)60.781.986.284.556.2
Looped Transformer 1B456.574.182.476.248.3
RINS 1B456.176.784.079.948.9
Transformer 1B153.274.383.675.348.4
Transformer 3B (Deep)156.780.584.177.050.5

与开源模型对比

模型参数TokenMMLUGSM8KMATHFLOPs
HRM-Text 1B1B40B60.784.556.2
Llama3.2 3B3B9T64.080.149.7162×
Qwen3.5 2B2B18T65.572.542.4432×
Gemma3 4B4B12.5T63.475.753.096×
OLMo3 7B7B15.5T77.778.948.0150×
用不到 Llama 1/200 的 token 和不到 1/100 的计算量,达到同一性能区间。$1,500 的预算意味着任何大学实验室都能做预训练研究了。

有效深度分析

Figure 4
图 4:有效深度分析。(a) HRM 各层间 Δh₂ 范数最大(mean 34.12),深层仍在做有意义更新。(b) HRM 层间余弦相似度最低,其他模型严重过平滑。
Figure 5
图 5:Logit-lens KL。标准 Transformer 和 Looped Transformer 在浅层就收敛(深层"躺平"),HRM 在深层仍保持较大 KL——递归确实增加了有效计算深度。

HRM vs TRM:分层 > 共享参数

模型FLOPsMMLUGSM8KMATH稳定性
HRM 1B1.0×10²¹60.784.556.2
TRM 1B (共享参数)1.1×10²¹46.467.644.1❌ 1B 崩溃

训练细节

两台 8×H100 节点,46 小时,约 $1,472。全部开源数据集:FLAN、Tasksource、SYNTH、Platypus、OpenMathInstruct2、NuminaMath 等。176.5B token / 593.7M 文档中采样 40B unique token,训练 60B token(受控重复)。Adam-atan2 优化器,lr=2.2×10⁻⁴,2000 步线性 warmup 后恒定,EMA decay=0.9999,无梯度裁剪,batch 196,608 tokens。

局限性与开放问题

  • 规模化未验证:仅在 1B 规模验证,更大 scale 是最大开放问题
  • 推理成本:H2L3 需要 4× 前向计算——用训练效率换推理效率
  • 数据依赖:完全依赖 instruction-response 数据,缺乏 raw-text 知识积累分析
  • 数学能力:MATH 56.2% 仍有差距,且剔除了 thinking tokens

总结

核心主张:架构和目标的设计远比数据量重要。40B token 打平万亿级别训练。实验严谨度是亮点——严格污染检测、多架构消融、有效深度的多角度验证。

$1,500 从零训练一个有竞争力的 1B 模型——预训练研究不再是少数巨头的专利。代码已开源。信号很明确:暴力 scaling 不是唯一路径,架构创新 + 目标创新能从根本上改变计算效率方程。

Tags: #Guan Wang, Changling Liu, Chenyu Wang, Cai Zhou 等#Sapient Intelligence & MIT#2026.05