Back to Blog Untitled

Untitled

Paper
TL;DR:δ-mem 在冻结的 LLM 骨干网络旁维护一个 8×8 在线关联记忆矩阵,通过 delta-rule 学习持续更新。记忆读取向量直接注入 attention 计算,生成低秩修正。在 MemoryAgentBench 上提升 1.31×,LoCoMo 上 1.20×,且在完全移除历史上下文后仍能恢复关键信息——全部来自一个 64 元素的矩阵。

背景与动机

大语言模型正越来越多地部署在需要持续交互的"记忆密集"场景中:长期个人助手、多轮 agent 系统、跨会话任务追踪。这些场景的共同需求是模型必须在线积累、动态更新、有效复用历史信息,而非每次从零开始。

直觉上最直接的方案是延长上下文窗口。但这条路有两个根本缺陷:

计算成本:标准 attention 的复杂度随序列长度呈二次增长,百万 token 的上下文在推理时开销巨大。

利用效率:研究表明,即便提供了超长上下文,模型也未必能有效利用。当上下文过长时,模型反而会出现"上下文退化"(context rot),在中间位置的信息上表现显著下降。百万 token 的上下文窗口并没有从根本上解决记忆问题。

论文从统一视角审视了现有记忆机制的两个关键维度:记忆状态(如何存储历史信息)和记忆引导(如何让存储的信息影响骨干推理)。在此框架下,现有方法分为三类:

文本记忆机制(TMM)

以 RAG、MemoryBank 为代表。将记忆存储为文本,通过输入上下文注入。灵活但受限于 token 预算,检索有噪声,压缩有损失。

外部通道记忆机制(OMM)

以 Memorizing Transformers 为代表。在外部模块维护隐层记忆,通过检索或编码与骨干交互。模块化但引入额外开销和融合复杂度。

参数化记忆机制(PMM)

以 LoRA、Context2LoRA 为代表。将记忆编码进前缀或适配器参数。高效但不适合在线演化——训练完成后记忆即固定。

δ-mem 的目标是填补一个空白:维持紧凑且动态演化的记忆状态,同时通过一条与骨干内部 attention 计算紧密对齐的路径来引导推理。

核心方法详解

δ-mem 的整体设计遵循"先读、后用、再写"的顺序:在每个 token 位置,先从旧状态读取关联记忆信号,用信号引导 attention 计算,最后将当前信息写入状态更新。

Figure 1: δ-mem 架构总览
Figure 1:δ-mem 架构总览。冻结的 Transformer 骨干执行标准 attention,δ-mem 从前一个状态读取信号,生成 query 端和 output 端的 attention 修正,并通过 delta-rule 学习更新在线记忆状态。右侧展示了三种写入策略。

记忆投影

给定当前位置的隐状态 x_t,δ-mem 将其投影到低维关联记忆空间,生成三个向量:记忆查询 q_t^m、记忆键 k_t^m、记忆值 v_t^m(均 ∈ R^r,r=8)。查询和键经过 L2 归一化以减少长序列递推中的尺度漂移。

从在线状态读取

读取公式 r_t = S_{t-1} · q_t^m,其中 S_{t-1} 是 r×r 的在线状态矩阵。关键点:这个读取与标准 attention 互补——attention 比较 query 与上下文中所有 key,而 δ-mem 直接从压缩状态获取连续的记忆信号。它不返回文本片段,不添加 context token,而是在 attention 计算之前提供历史依赖的引导信号。

低秩修正引导 attention

读取向量 r_t 通过两个轻量线性映射生成 query 端修正 Δq_t 和 output 端修正 Δo_t。修正后的 query 与冻结骨干的 K、V 计算 attention,output 端修正加在 attention 输出之后。这意味着 W^Δ_q 和 W^Δ_o 训练后固定不变,但输入 r_t 来自动态演化的在线状态——同一组参数在不同历史下产生不同的引导效果。这使 δ-mem 本质上不同于静态 LoRA。

写入在线状态

写入使用带维度级门控的 delta-rule:S_t = Diag(λ_t) · S_{t-1} + Diag(β_t) · (v_t^m - S_{t-1} · k_t^m) · (k_t^m)^⊤。展开后包含三项:保留旧状态、沿当前 key 方向移除旧预测、写入新值。每个记忆维度独立控制保留与写入强度,使状态可以在保持稳定历史信息的同时适应新输入。

三种写入粒度

TSW(Token-State Write):每个 token 更新一次。最细粒度但易受噪声干扰。

SSW(Sequence-State Write):按消息段落为单位,先对段落内 token 取平均再写入。减少冗余,平滑演化。

MSW(Multi-State Write):维护多个并行子状态,各自独立更新,读取时拼接。不同子状态积累不同类型信息,减少相互干扰。

关键实验结果

主要基准对比(Table 1)

所有方法基于 Qwen3-4B-Instruct 骨干。δ-mem 在所有方法中表现最强,TSW 变体达到最佳平均分 51.66%。

模型 IFEval HotpotQA EM HotpotQA F1 MAB Avg LoCoMo Avg Overall Avg
Qwen3-4B-Instruct(冻结) 81.8942.3556.0029.5440.7946.79
+ BM25 RAG 40.3552.8348.05
+ LLMLingua-2 36.9350.0346.79
+ MemoryBank 24.4932.20
+ Context2LoRA 76.7139.3737.855.3650.8844.90
+ MemGen 16.27
+ MLP Memory 24.9510.9425.83
+ δ-mem (SSW) 81.7049.2263.4337.8448.1151.44
+ δ-mem (TSW) ⭐ 82.9949.4163.6636.4847.0551.66
+ δ-mem (MSW) 81.5246.8660.4738.8549.1250.74

记忆密集型任务提升

在 MemoryAgentBench 上,δ-mem 将平均分从 29.54% 提升至 38.85%(MSW 最优,+31%)。TTL(Time-To-Live)子任务几乎翻倍:26.14 → 50.50。在 LoCoMo 上,MSW 达到最高平均 49.12%(+20%),在 Multi、Temporal、Open 子集上均表现最佳。

Figure 2: 上下文恢复实验
Figure 2:上下文恢复实验。移除原始历史上下文后,仅凭 8×8 记忆状态,δ-mem 在 HotpotQA 和 LoCoMo 上均显著恢复性能。

无上下文恢复实验

这是论文最惊人的实验。完全移除历史上下文,只保留 8×8 的记忆状态注入:

  • HotpotQA EM:0.08% → 6.48%(+80 倍
  • HotpotQA F1:8.27% → 15.20%
  • LoCoMo 平均:3.49% → 8.05%
  • Bridge EM:0.08% → 3.97%

一个仅含 64 个元素的矩阵,编码了足以复现历史多跳推理链的信息。

跨骨干模型一致性

δ-mem 在三种不同骨干上一致提升:

骨干模型冻结基线+ δ-mem 最优最优策略提升
Qwen3-4B-Instruct46.79%51.66%TSW+4.87
Qwen3-8B47.20%50.86%SSW+3.66
SmolLM3-3B26.08%36.96%MSW+10.88

有趣的发现:更强的骨干偏好 SSW(段级写入平滑噪声),更小的骨干偏好 MSW(多状态减少干扰)。

消融实验要点

Attention 注入位置:query + output 端修正(qo 配置)已经是效果与效率的最优平衡点。完整的 qkvo 四端注入虽然平均分最高(48.05% vs 47.05%),但边际收益不值得额外参数开销。Key 端注入单独效果最差。

插入深度:全层插入效果最好。中间层单独插入优于前端和后端——中间层在语义抽象与任务特定计算之间取得了最佳平衡。

局限性与评价

记忆容量天花板:8×8 = 64 个记忆单元虽然惊人地有效,但对于需要同时维护大量事实或长期复杂任务的场景可能不足。论文未系统测试更大记忆维度(如 64×64)的收益递减曲线。

训练数据依赖:δ-mem 需要 SFT 训练来学习投影矩阵和门控参数,虽然不修改骨干,但训练过程本身需要精心设计的记忆密集数据。如何在真实 agent 场景中高效在线学习(而不仅仅是 SFT)仍需探索。

与 RAG 的互补性:论文主要将 δ-mem 与各类记忆机制独立比较,未充分探索 δ-mem + RAG 的组合。在实际系统中,文本检索与隐层记忆的互补可能比各自单独使用更强。

论文自身的判断是准确的:δ-mem 展示了一个紧凑在线状态可以直接耦合 attention 计算的有效性,为冻结 Transformer 的测试时记忆提供了一条可扩展、高效的路径。

工程意义与适用场景

对构建 agent 系统而言,δ-mem 提供了一个非常有吸引力的技术路径:

零骨干修改:所有记忆能力通过旁路模块注入,任何预训练 LLM 可直接使用。

参数极少:8×8 矩阵加上两个投影矩阵,参数量可忽略不计。

推理零额外上下文:记忆信号直接进入 attention,不消耗 token 预算,不影响生成速度。

天然适合持续交互:在线学习范式,不需要离线重训练即可适应新信息。

可插拔架构:不同骨干只需训练对应的 δ-mem 模块,迁移成本低。

当前 agent 系统的记忆方案大多停留在 RAG + prompt engineering 的变体上。δ-mem 提出的"将记忆直接嵌入推理计算"的范式,如果将记忆维度适度放宽(如 64×64 或 128×128),在复杂 agent 场景中的潜力值得期待。

Tags: #Paper