问题:快速权重不只需要存,还需要算
Transformer 的注意力机制是 LLM 的核心记忆系统,但它有一个根本矛盾:上下文越长,计算量越大,缓存越高。近年来 Mamba、Jet、Griffin 等 SSM-Attention 混合模型用固定大小的快速权重存储注意力窗口外的信息——注意力处理近期高保真信息,SSM 层负责远距离压缩存储。
但很少有人认真追问:SSM 的快速权重到底能不能支持对已驱逐上下文的深层推理?这篇论文给出了一个令人警惕的答案——当推理深度增加时,即使存储的信息量不变,混合模型的性能也会急剧下降。瓶颈不是记忆容量,而是将已驱逐上下文转化为有用内部状态所需的计算量不足。
灵感:海马体重放与生物睡眠
哺乳动物的记忆系统是两阶段架构:海马体负责短期记忆,皮层负责长期存储。睡眠期间,海马体会反复"重放"白天的经历,将短期记忆逐步巩固到皮层突触权重中。作者从中提取了关键计算原理:
当模型上下文窗口填满时,不是简单驱逐 KV cache,而是先进入"睡眠"阶段——对累积的上下文执行 N 次循环前向传播,反复更新 SSM 层的快速权重,然后清空缓存继续处理。核心架构:
其中 × N 表示对整个 block 序列循环 N 次。N=1 退化为普通混合模型。关键约束:预测阶段仍是单次前向传播,所有额外计算被限制在巩固阶段,不增加推理延迟。
实验:从元胞自动机到数学推理
元胞自动机(Rule 110)是最简测试。模型记住四个二进制字符串,预测经 t 步演化后的第一位。当 t=32 时,无循环模型准确率仅约 10%。增加睡眠循环:2 loops → 20%,3-4 loops → 30%+。
Depo(多跳图检索)进一步加码——将被打乱的环状图编码到快速权重中,回答 k-hop 查询。1-loop 模型在 4-hop 以上几乎停滞,只有 4-loop 模型开始攻克 16-hop 任务。
GSM-Infinite是最贴近现实的测试,在预训练模型上微调。问题 2000-3300 tokens,窗口 2000。Ouro 1.4B 在 6 步运算难题上从 41.9% → 61.5%,Jet-Nemotron 2B 从 74.2% → 81.2%。
滑动窗口驱逐策略同样有效,说明方法不依赖硬性清空缓存的假设。
为什么重要
这篇论文的核心贡献不是新架构,而是精准指出一个认知盲区:我们把快速权重当成了"压缩存储",但忘了它也需要"加工处理"。简单地把信息倒进快速权重是不够的,模型需要足够多的计算来将原始信息转化为支持后续推理的表示。
从工程角度看,方法的魅力在于推理延迟不变——仍然是单次前向传播。额外计算完全被限制在巩固阶段。问题只是:驱逐之前花多少时间巩固?答案:睡得越久,推理越深。