Language Models Need Sleep

Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti | UMD / CMU
2026-05-25 | arXiv:2605.26099

SSM-Attention 混合模型在深度推理上失败的原因不是记忆容量不足，而是巩固已驱逐上下文的计算量不够。解决方案：让模型在清除 KV cache 之前"睡一觉"——用循环前向传播反复精炼快速权重。

问题：快速权重不只需要存，还需要算

Transformer 的注意力机制是 LLM 的核心记忆系统，但它有一个根本矛盾：上下文越长，计算量越大，缓存越高。近年来 Mamba、Jet、Griffin 等 SSM-Attention 混合模型用固定大小的快速权重存储注意力窗口外的信息——注意力处理近期高保真信息，SSM 层负责远距离压缩存储。

但很少有人认真追问：SSM 的快速权重到底能不能支持对已驱逐上下文的深层推理？这篇论文给出了一个令人警惕的答案——当推理深度增加时，即使存储的信息量不变，混合模型的性能也会急剧下降。瓶颈不是记忆容量，而是将已驱逐上下文转化为有用内部状态所需的计算量不足。

灵感：海马体重放与生物睡眠

哺乳动物的记忆系统是两阶段架构：海马体负责短期记忆，皮层负责长期存储。睡眠期间，海马体会反复"重放"白天的经历，将短期记忆逐步巩固到皮层突触权重中。作者从中提取了关键计算原理：

当模型上下文窗口填满时，不是简单驱逐 KV cache，而是先进入"睡眠"阶段——对累积的上下文执行 N 次循环前向传播，反复更新 SSM 层的快速权重，然后清空缓存继续处理。核心架构：

Embed → [Attn → SSM → Attn → SSM → ...] × N → OutProj

其中 × N 表示对整个 block 序列循环 N 次。N=1 退化为普通混合模型。关键约束：预测阶段仍是单次前向传播，所有额外计算被限制在巩固阶段，不增加推理延迟。

图 1：LLM Sleep 架构。上下文窗口填满后，模型进入睡眠阶段执行 N 次循环更新快速权重，然后清空 KV cache 继续处理。

实验：从元胞自动机到数学推理

元胞自动机（Rule 110）是最简测试。模型记住四个二进制字符串，预测经 t 步演化后的第一位。当 t=32 时，无循环模型准确率仅约 10%。增加睡眠循环：2 loops → 20%，3-4 loops → 30%+。

图 2：元胞自动机实验。左：t 越大任务越难，普通混合模型性能急剧下降。右：增加睡眠循环显著提升准确率。

Depo（多跳图检索）进一步加码——将被打乱的环状图编码到快速权重中，回答 k-hop 查询。1-loop 模型在 4-hop 以上几乎停滞，只有 4-loop 模型开始攻克 16-hop 任务。

GSM-Infinite是最贴近现实的测试，在预训练模型上微调。问题 2000-3300 tokens，窗口 2000。Ouro 1.4B 在 6 步运算难题上从 41.9% → 61.5%，Jet-Nemotron 2B 从 74.2% → 81.2%。

图 4a：Jet-Nemotron 2B 在 GSM-Infinite 上的结果。需要更多运算步骤的难题上，增加睡眠循环的收益更显著。

图 4b：Ouro 1.4B 的结果。4 loops 在 6 步运算难题上提升近 20 个百分点。

滑动窗口驱逐策略同样有效，说明方法不依赖硬性清空缓存的假设。

图 5：滑动窗口驱逐策略（L=512）下，增加 N 同样持续提升准确率。

为什么重要

这篇论文的核心贡献不是新架构，而是精准指出一个认知盲区：我们把快速权重当成了"压缩存储"，但忘了它也需要"加工处理"。简单地把信息倒进快速权重是不够的，模型需要足够多的计算来将原始信息转化为支持后续推理的表示。

从工程角度看，方法的魅力在于推理延迟不变——仍然是单次前向传播。额外计算完全被限制在巩固阶段。问题只是：驱逐之前花多少时间巩固？答案：睡得越久，推理越深。

注意力窗口之外的记忆不只需要存储空间，更需要处理时间。未来的 LLM 架构需要像设计芯片流水线一样，仔细平衡"存储容量"和"巩固算力"。