Back to Blog Language Models Need Sleep

Language Models Need Sleep

Paper
Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti  |  UMD / CMU
2026-05-25  |  arXiv:2605.26099
SSM-Attention 混合模型在深度推理上失败的原因不是记忆容量不足,而是巩固已驱逐上下文的计算量不够。解决方案:让模型在清除 KV cache 之前"睡一觉"——用循环前向传播反复精炼快速权重。

问题:快速权重不只需要存,还需要算

Transformer 的注意力机制是 LLM 的核心记忆系统,但它有一个根本矛盾:上下文越长,计算量越大,缓存越高。近年来 Mamba、Jet、Griffin 等 SSM-Attention 混合模型用固定大小的快速权重存储注意力窗口外的信息——注意力处理近期高保真信息,SSM 层负责远距离压缩存储。

但很少有人认真追问:SSM 的快速权重到底能不能支持对已驱逐上下文的深层推理?这篇论文给出了一个令人警惕的答案——当推理深度增加时,即使存储的信息量不变,混合模型的性能也会急剧下降。瓶颈不是记忆容量,而是将已驱逐上下文转化为有用内部状态所需的计算量不足。

灵感:海马体重放与生物睡眠

哺乳动物的记忆系统是两阶段架构:海马体负责短期记忆,皮层负责长期存储。睡眠期间,海马体会反复"重放"白天的经历,将短期记忆逐步巩固到皮层突触权重中。作者从中提取了关键计算原理:

当模型上下文窗口填满时,不是简单驱逐 KV cache,而是先进入"睡眠"阶段——对累积的上下文执行 N 次循环前向传播,反复更新 SSM 层的快速权重,然后清空缓存继续处理。核心架构:

Embed → [Attn → SSM → Attn → SSM → ...] × N → OutProj

其中 × N 表示对整个 block 序列循环 N 次。N=1 退化为普通混合模型。关键约束:预测阶段仍是单次前向传播,所有额外计算被限制在巩固阶段,不增加推理延迟。

Architecture
图 1:LLM Sleep 架构。上下文窗口填满后,模型进入睡眠阶段执行 N 次循环更新快速权重,然后清空 KV cache 继续处理。

实验:从元胞自动机到数学推理

元胞自动机(Rule 110)是最简测试。模型记住四个二进制字符串,预测经 t 步演化后的第一位。当 t=32 时,无循环模型准确率仅约 10%。增加睡眠循环:2 loops → 20%,3-4 loops → 30%+。

Automaton results
图 2:元胞自动机实验。左:t 越大任务越难,普通混合模型性能急剧下降。右:增加睡眠循环显著提升准确率。

Depo(多跳图检索)进一步加码——将被打乱的环状图编码到快速权重中,回答 k-hop 查询。1-loop 模型在 4-hop 以上几乎停滞,只有 4-loop 模型开始攻克 16-hop 任务。

GSM-Infinite是最贴近现实的测试,在预训练模型上微调。问题 2000-3300 tokens,窗口 2000。Ouro 1.4B 在 6 步运算难题上从 41.9% → 61.5%,Jet-Nemotron 2B 从 74.2% → 81.2%。

GSM-Infinite Jet
图 4a:Jet-Nemotron 2B 在 GSM-Infinite 上的结果。需要更多运算步骤的难题上,增加睡眠循环的收益更显著。
GSM-Infinite Ouro
图 4b:Ouro 1.4B 的结果。4 loops 在 6 步运算难题上提升近 20 个百分点。

滑动窗口驱逐策略同样有效,说明方法不依赖硬性清空缓存的假设。

Sliding window
图 5:滑动窗口驱逐策略(L=512)下,增加 N 同样持续提升准确率。

为什么重要

这篇论文的核心贡献不是新架构,而是精准指出一个认知盲区:我们把快速权重当成了"压缩存储",但忘了它也需要"加工处理"。简单地把信息倒进快速权重是不够的,模型需要足够多的计算来将原始信息转化为支持后续推理的表示。

从工程角度看,方法的魅力在于推理延迟不变——仍然是单次前向传播。额外计算完全被限制在巩固阶段。问题只是:驱逐之前花多少时间巩固?答案:睡得越久,推理越深

注意力窗口之外的记忆不只需要存储空间,更需要处理时间。未来的 LLM 架构需要像设计芯片流水线一样,仔细平衡"存储容量"和"巩固算力"。
Tags: #Blog