背景与动机
大语言模型正越来越多地部署在需要持续交互的"记忆密集"场景中:长期个人助手、多轮 agent 系统、跨会话任务追踪。这些场景的共同需求是模型必须在线积累、动态更新、有效复用历史信息,而非每次从零开始。
直觉上最直接的方案是延长上下文窗口。但这条路有两个根本缺陷:
计算成本:标准 attention 的复杂度随序列长度呈二次增长,百万 token 的上下文在推理时开销巨大。
利用效率:研究表明,即便提供了超长上下文,模型也未必能有效利用。当上下文过长时,模型反而会出现"上下文退化"(context rot),在中间位置的信息上表现显著下降。百万 token 的上下文窗口并没有从根本上解决记忆问题。
论文从统一视角审视了现有记忆机制的两个关键维度:记忆状态(如何存储历史信息)和记忆引导(如何让存储的信息影响骨干推理)。在此框架下,现有方法分为三类:
文本记忆机制(TMM)
以 RAG、MemoryBank 为代表。将记忆存储为文本,通过输入上下文注入。灵活但受限于 token 预算,检索有噪声,压缩有损失。
外部通道记忆机制(OMM)
以 Memorizing Transformers 为代表。在外部模块维护隐层记忆,通过检索或编码与骨干交互。模块化但引入额外开销和融合复杂度。
参数化记忆机制(PMM)
以 LoRA、Context2LoRA 为代表。将记忆编码进前缀或适配器参数。高效但不适合在线演化——训练完成后记忆即固定。
δ-mem 的目标是填补一个空白:维持紧凑且动态演化的记忆状态,同时通过一条与骨干内部 attention 计算紧密对齐的路径来引导推理。
核心方法详解
δ-mem 的整体设计遵循"先读、后用、再写"的顺序:在每个 token 位置,先从旧状态读取关联记忆信号,用信号引导 attention 计算,最后将当前信息写入状态更新。
记忆投影
给定当前位置的隐状态 x_t,δ-mem 将其投影到低维关联记忆空间,生成三个向量:记忆查询 q_t^m、记忆键 k_t^m、记忆值 v_t^m(均 ∈ R^r,r=8)。查询和键经过 L2 归一化以减少长序列递推中的尺度漂移。
从在线状态读取
读取公式 r_t = S_{t-1} · q_t^m,其中 S_{t-1} 是 r×r 的在线状态矩阵。关键点:这个读取与标准 attention 互补——attention 比较 query 与上下文中所有 key,而 δ-mem 直接从压缩状态获取连续的记忆信号。它不返回文本片段,不添加 context token,而是在 attention 计算之前提供历史依赖的引导信号。
低秩修正引导 attention
读取向量 r_t 通过两个轻量线性映射生成 query 端修正 Δq_t 和 output 端修正 Δo_t。修正后的 query 与冻结骨干的 K、V 计算 attention,output 端修正加在 attention 输出之后。这意味着 W^Δ_q 和 W^Δ_o 训练后固定不变,但输入 r_t 来自动态演化的在线状态——同一组参数在不同历史下产生不同的引导效果。这使 δ-mem 本质上不同于静态 LoRA。
写入在线状态
写入使用带维度级门控的 delta-rule:S_t = Diag(λ_t) · S_{t-1} + Diag(β_t) · (v_t^m - S_{t-1} · k_t^m) · (k_t^m)^⊤。展开后包含三项:保留旧状态、沿当前 key 方向移除旧预测、写入新值。每个记忆维度独立控制保留与写入强度,使状态可以在保持稳定历史信息的同时适应新输入。
三种写入粒度
TSW(Token-State Write):每个 token 更新一次。最细粒度但易受噪声干扰。
SSW(Sequence-State Write):按消息段落为单位,先对段落内 token 取平均再写入。减少冗余,平滑演化。
MSW(Multi-State Write):维护多个并行子状态,各自独立更新,读取时拼接。不同子状态积累不同类型信息,减少相互干扰。
关键实验结果
主要基准对比(Table 1)
所有方法基于 Qwen3-4B-Instruct 骨干。δ-mem 在所有方法中表现最强,TSW 变体达到最佳平均分 51.66%。
| 模型 | IFEval | HotpotQA EM | HotpotQA F1 | MAB Avg | LoCoMo Avg | Overall Avg |
|---|---|---|---|---|---|---|
| Qwen3-4B-Instruct(冻结) | 81.89 | 42.35 | 56.00 | 29.54 | 40.79 | 46.79 |
| + BM25 RAG | — | 40.35 | 52.83 | — | 48.05 | — |
| + LLMLingua-2 | — | 36.93 | 50.03 | — | 46.79 | — |
| + MemoryBank | — | — | — | 24.49 | 32.20 | — |
| + Context2LoRA | 76.71 | 39.37 | 37.85 | 5.36 | 50.88 | 44.90 |
| + MemGen | — | — | — | 16.27 | — | — |
| + MLP Memory | 24.95 | 10.94 | 25.83 | — | — | — |
| + δ-mem (SSW) | 81.70 | 49.22 | 63.43 | 37.84 | 48.11 | 51.44 |
| + δ-mem (TSW) ⭐ | 82.99 | 49.41 | 63.66 | 36.48 | 47.05 | 51.66 |
| + δ-mem (MSW) | 81.52 | 46.86 | 60.47 | 38.85 | 49.12 | 50.74 |
记忆密集型任务提升
在 MemoryAgentBench 上,δ-mem 将平均分从 29.54% 提升至 38.85%(MSW 最优,+31%)。TTL(Time-To-Live)子任务几乎翻倍:26.14 → 50.50。在 LoCoMo 上,MSW 达到最高平均 49.12%(+20%),在 Multi、Temporal、Open 子集上均表现最佳。
无上下文恢复实验
这是论文最惊人的实验。完全移除历史上下文,只保留 8×8 的记忆状态注入:
- HotpotQA EM:0.08% → 6.48%(+80 倍)
- HotpotQA F1:8.27% → 15.20%
- LoCoMo 平均:3.49% → 8.05%
- Bridge EM:0.08% → 3.97%
一个仅含 64 个元素的矩阵,编码了足以复现历史多跳推理链的信息。
跨骨干模型一致性
δ-mem 在三种不同骨干上一致提升:
| 骨干模型 | 冻结基线 | + δ-mem 最优 | 最优策略 | 提升 |
|---|---|---|---|---|
| Qwen3-4B-Instruct | 46.79% | 51.66% | TSW | +4.87 |
| Qwen3-8B | 47.20% | 50.86% | SSW | +3.66 |
| SmolLM3-3B | 26.08% | 36.96% | MSW | +10.88 |
有趣的发现:更强的骨干偏好 SSW(段级写入平滑噪声),更小的骨干偏好 MSW(多状态减少干扰)。
消融实验要点
Attention 注入位置:query + output 端修正(qo 配置)已经是效果与效率的最优平衡点。完整的 qkvo 四端注入虽然平均分最高(48.05% vs 47.05%),但边际收益不值得额外参数开销。Key 端注入单独效果最差。
插入深度:全层插入效果最好。中间层单独插入优于前端和后端——中间层在语义抽象与任务特定计算之间取得了最佳平衡。
局限性与评价
记忆容量天花板:8×8 = 64 个记忆单元虽然惊人地有效,但对于需要同时维护大量事实或长期复杂任务的场景可能不足。论文未系统测试更大记忆维度(如 64×64)的收益递减曲线。
训练数据依赖:δ-mem 需要 SFT 训练来学习投影矩阵和门控参数,虽然不修改骨干,但训练过程本身需要精心设计的记忆密集数据。如何在真实 agent 场景中高效在线学习(而不仅仅是 SFT)仍需探索。
与 RAG 的互补性:论文主要将 δ-mem 与各类记忆机制独立比较,未充分探索 δ-mem + RAG 的组合。在实际系统中,文本检索与隐层记忆的互补可能比各自单独使用更强。
论文自身的判断是准确的:δ-mem 展示了一个紧凑在线状态可以直接耦合 attention 计算的有效性,为冻结 Transformer 的测试时记忆提供了一条可扩展、高效的路径。
工程意义与适用场景
对构建 agent 系统而言,δ-mem 提供了一个非常有吸引力的技术路径:
零骨干修改:所有记忆能力通过旁路模块注入,任何预训练 LLM 可直接使用。
参数极少:8×8 矩阵加上两个投影矩阵,参数量可忽略不计。
推理零额外上下文:记忆信号直接进入 attention,不消耗 token 预算,不影响生成速度。
天然适合持续交互:在线学习范式,不需要离线重训练即可适应新信息。
可插拔架构:不同骨干只需训练对应的 δ-mem 模块,迁移成本低。
当前 agent 系统的记忆方案大多停留在 RAG + prompt engineering 的变体上。δ-mem 提出的"将记忆直接嵌入推理计算"的范式,如果将记忆维度适度放宽(如 64×64 或 128×128),在复杂 agent 场景中的潜力值得期待。