Untitled - PaperDog Blog

  TL;DR：δ-mem 在冻结的 LLM 骨干网络旁维护一个 8×8 在线关联记忆矩阵，通过 delta-rule 学习持续更新。记忆读取向量直接注入 attention 计算，生成低秩修正。在 MemoryAgentBench 上提升 1.31×，LoCoMo 上 1.20×，且在完全移除历史上下文后仍能恢复关键信息——全部来自一个 64 元素的矩阵。

背景与动机

大语言模型正越来越多地部署在需要持续交互的"记忆密集"场景中：长期个人助手、多轮 agent 系统、跨会话任务追踪。这些场景的共同需求是模型必须在线积累、动态更新、有效复用历史信息，而非每次从零开始。

直觉上最直接的方案是延长上下文窗口。但这条路有两个根本缺陷：

计算成本：标准 attention 的复杂度随序列长度呈二次增长，百万 token 的上下文在推理时开销巨大。

利用效率：研究表明，即便提供了超长上下文，模型也未必能有效利用。当上下文过长时，模型反而会出现"上下文退化"（context rot），在中间位置的信息上表现显著下降。百万 token 的上下文窗口并没有从根本上解决记忆问题。

论文从统一视角审视了现有记忆机制的两个关键维度：记忆状态（如何存储历史信息）和记忆引导（如何让存储的信息影响骨干推理）。在此框架下，现有方法分为三类：

文本记忆机制（TMM）

以 RAG、MemoryBank 为代表。将记忆存储为文本，通过输入上下文注入。灵活但受限于 token 预算，检索有噪声，压缩有损失。

外部通道记忆机制（OMM）

以 Memorizing Transformers 为代表。在外部模块维护隐层记忆，通过检索或编码与骨干交互。模块化但引入额外开销和融合复杂度。

参数化记忆机制（PMM）

以 LoRA、Context2LoRA 为代表。将记忆编码进前缀或适配器参数。高效但不适合在线演化——训练完成后记忆即固定。

δ-mem 的目标是填补一个空白：维持紧凑且动态演化的记忆状态，同时通过一条与骨干内部 attention 计算紧密对齐的路径来引导推理。

核心方法详解

δ-mem 的整体设计遵循"先读、后用、再写"的顺序：在每个 token 位置，先从旧状态读取关联记忆信号，用信号引导 attention 计算，最后将当前信息写入状态更新。

Figure 1：δ-mem 架构总览。冻结的 Transformer 骨干执行标准 attention，δ-mem 从前一个状态读取信号，生成 query 端和 output 端的 attention 修正，并通过 delta-rule 学习更新在线记忆状态。右侧展示了三种写入策略。

记忆投影

给定当前位置的隐状态 x_t，δ-mem 将其投影到低维关联记忆空间，生成三个向量：记忆查询 q_t^m、记忆键 k_t^m、记忆值 v_t^m（均 ∈ R^r，r=8）。查询和键经过 L2 归一化以减少长序列递推中的尺度漂移。

从在线状态读取

读取公式 r_t = S_{t-1} · q_t^m，其中 S_{t-1} 是 r×r 的在线状态矩阵。关键点：这个读取与标准 attention 互补——attention 比较 query 与上下文中所有 key，而 δ-mem 直接从压缩状态获取连续的记忆信号。它不返回文本片段，不添加 context token，而是在 attention 计算之前提供历史依赖的引导信号。

低秩修正引导 attention

读取向量 r_t 通过两个轻量线性映射生成 query 端修正 Δq_t 和 output 端修正 Δo_t。修正后的 query 与冻结骨干的 K、V 计算 attention，output 端修正加在 attention 输出之后。这意味着 W^Δ_q 和 W^Δ_o 训练后固定不变，但输入 r_t 来自动态演化的在线状态——同一组参数在不同历史下产生不同的引导效果。这使 δ-mem 本质上不同于静态 LoRA。

写入在线状态

写入使用带维度级门控的 delta-rule：S_t = Diag(λ_t) · S_{t-1} + Diag(β_t) · (v_t^m - S_{t-1} · k_t^m) · (k_t^m)^⊤。展开后包含三项：保留旧状态、沿当前 key 方向移除旧预测、写入新值。每个记忆维度独立控制保留与写入强度，使状态可以在保持稳定历史信息的同时适应新输入。

三种写入粒度

TSW（Token-State Write）：每个 token 更新一次。最细粒度但易受噪声干扰。

SSW（Sequence-State Write）：按消息段落为单位，先对段落内 token 取平均再写入。减少冗余，平滑演化。

MSW（Multi-State Write）：维护多个并行子状态，各自独立更新，读取时拼接。不同子状态积累不同类型信息，减少相互干扰。

关键实验结果

主要基准对比（Table 1）

所有方法基于 Qwen3-4B-Instruct 骨干。δ-mem 在所有方法中表现最强，TSW 变体达到最佳平均分 51.66%。

模型	IFEval	HotpotQA EM	HotpotQA F1	MAB Avg	LoCoMo Avg	Overall Avg
Qwen3-4B-Instruct（冻结）	81.89	42.35	56.00	29.54	40.79	46.79
+ BM25 RAG	—	40.35	52.83	—	48.05	—
+ LLMLingua-2	—	36.93	50.03	—	46.79	—
+ MemoryBank	—	—	—	24.49	32.20	—
+ Context2LoRA	76.71	39.37	37.85	5.36	50.88	44.90
+ MemGen	—	—	—	16.27	—	—
+ MLP Memory	24.95	10.94	25.83	—	—	—
+ δ-mem (SSW)	81.70	49.22	63.43	37.84	48.11	51.44
+ δ-mem (TSW) ⭐	82.99	49.41	63.66	36.48	47.05	51.66
+ δ-mem (MSW)	81.52	46.86	60.47	38.85	49.12	50.74

记忆密集型任务提升

在 MemoryAgentBench 上，δ-mem 将平均分从 29.54% 提升至 38.85%（MSW 最优，+31%）。TTL（Time-To-Live）子任务几乎翻倍：26.14 → 50.50。在 LoCoMo 上，MSW 达到最高平均 49.12%（+20%），在 Multi、Temporal、Open 子集上均表现最佳。

Figure 2：上下文恢复实验。移除原始历史上下文后，仅凭 8×8 记忆状态，δ-mem 在 HotpotQA 和 LoCoMo 上均显著恢复性能。

无上下文恢复实验

这是论文最惊人的实验。完全移除历史上下文，只保留 8×8 的记忆状态注入：

HotpotQA EM：0.08% → 6.48%（+80 倍）
HotpotQA F1：8.27% → 15.20%
LoCoMo 平均：3.49% → 8.05%
Bridge EM：0.08% → 3.97%

一个仅含 64 个元素的矩阵，编码了足以复现历史多跳推理链的信息。

跨骨干模型一致性

δ-mem 在三种不同骨干上一致提升：

骨干模型	冻结基线	+ δ-mem 最优	最优策略	提升
Qwen3-4B-Instruct	46.79%	51.66%	TSW	+4.87
Qwen3-8B	47.20%	50.86%	SSW	+3.66
SmolLM3-3B	26.08%	36.96%	MSW	+10.88

有趣的发现：更强的骨干偏好 SSW（段级写入平滑噪声），更小的骨干偏好 MSW（多状态减少干扰）。

消融实验要点

Attention 注入位置：query + output 端修正（qo 配置）已经是效果与效率的最优平衡点。完整的 qkvo 四端注入虽然平均分最高（48.05% vs 47.05%），但边际收益不值得额外参数开销。Key 端注入单独效果最差。

插入深度：全层插入效果最好。中间层单独插入优于前端和后端——中间层在语义抽象与任务特定计算之间取得了最佳平衡。

局限性与评价

记忆容量天花板：8×8 = 64 个记忆单元虽然惊人地有效，但对于需要同时维护大量事实或长期复杂任务的场景可能不足。论文未系统测试更大记忆维度（如 64×64）的收益递减曲线。

训练数据依赖：δ-mem 需要 SFT 训练来学习投影矩阵和门控参数，虽然不修改骨干，但训练过程本身需要精心设计的记忆密集数据。如何在真实 agent 场景中高效在线学习（而不仅仅是 SFT）仍需探索。

与 RAG 的互补性：论文主要将 δ-mem 与各类记忆机制独立比较，未充分探索 δ-mem + RAG 的组合。在实际系统中，文本检索与隐层记忆的互补可能比各自单独使用更强。

论文自身的判断是准确的：δ-mem 展示了一个紧凑在线状态可以直接耦合 attention 计算的有效性，为冻结 Transformer 的测试时记忆提供了一条可扩展、高效的路径。

工程意义与适用场景

对构建 agent 系统而言，δ-mem 提供了一个非常有吸引力的技术路径：

零骨干修改：所有记忆能力通过旁路模块注入，任何预训练 LLM 可直接使用。

参数极少：8×8 矩阵加上两个投影矩阵，参数量可忽略不计。

推理零额外上下文：记忆信号直接进入 attention，不消耗 token 预算，不影响生成速度。

天然适合持续交互：在线学习范式，不需要离线重训练即可适应新信息。

可插拔架构：不同骨干只需训练对应的 δ-mem 模块，迁移成本低。

当前 agent 系统的记忆方案大多停留在 RAG + prompt engineering 的变体上。δ-mem 提出的"将记忆直接嵌入推理计算"的范式，如果将记忆维度适度放宽（如 64×64 或 128×128），在复杂 agent 场景中的潜力值得期待。