PaperDog 论文解读 - PaperDog Blog

    现有记忆系统都在优化"存什么"，但"怎么取"这件事从头到尾是固定的。EvolveMem 提出让检索基础设施本身也能自我进化——系统用自己的失败日志做燃料，自动迭代优化检索配置。
  

问题：记忆在变，检索不变

LLM Agent 的长期记忆系统有个被忽视的盲区：知识图谱、遗忘曲线、记忆压缩……所有优化都集中在存储层面，但 BM25 权重、语义融合策略、上下文窗口预算、答案生成风格这些检索基础设施，在部署那一刻就冻住了。

随着记忆库从几十条膨胀到几百条异构记录，一个为小规模设计的检索策略会越来越力不从心。不同类型的问题天然需要不同的检索策略：事实查询要精确关键词匹配，时序推理要时间感知过滤，多跳推理要查询分解。一套固定配置不可能同时服务好所有需求。

EvolveMem 的观察很直接——真正自适应的记忆系统必须在两个层面同时进化：存储的知识要维护和整合，检索机制本身也要随记忆格局和查询分布的变化而自我调整。

具体做法是把整个检索配置暴露为一个结构化的动作空间，包括 BM25 权重、语义相似度阈值、结构化元数据权重、融合模式（线性/RRF）、上下文预算、答案生成风格等十几个维度。然后用一个 LLM 驱动的诊断模块来自主优化这些参数。

图 1：EvolveMem 的四步进化循环（Evaluate–Diagnose–Propose–Guard），右图为 F1 提升轨迹

EvolveMem 的自我进化本质上是一个 AutoResearch 过程——系统在自己的架构上做研究。每一轮包含四个步骤：

Evaluate：用当前配置跑完整评估，生成逐题的失败日志，记录查询、预测答案、正确答案、得分和检索结果。

Diagnose：LLM 读取失败日志，对每个错误进行根因分类——是检索召回不足、语义噪声干扰、上下文窗口不够、还是答案生成风格不匹配。

Propose：基于诊断结果提出针对性配置调整，比如"对时序类问题增加 recency 权重"或"对多跳类问题启用查询分解"。每个提案包含维度、调整方向和理由。

Guard：守卫元分析器执行提案，同时携带两个安全机制——回退（revert-on-regression）：新配置导致整体下降时自动回滚；探索（explore-on-stagnation）：连续两轮无提升时随机探索新方向避免局部最优。

最有趣的是，系统在进化过程中发现了原始动作空间里根本不存在的新维度，比如"对抗性实体替换"——先把问题中的人名去掉再检索，避免名字混淆带来的误导。

底层检索覆盖三个视图：词法视图（BM25）、语义视图（embedding cosine）、结构化元数据视图（人物/地点/实体匹配）。三个视图各自返回 top-k，然后通过可配置的融合策略合并。

额外支持查询分解（把多跳问题拆成子查询分别检索再 RRF 合并）和答案验证（低置信度时让第二个 LLM pass 审查并修正答案）。这些开关在进化过程中都可以被自动开启或关闭。

图 2：EvolveMem 与各基线在 LoCoMo 和 MemBench 上的表现对比

在 LoCoMo 基准上，EvolveMem 从最小基线（F1 30.5%）出发，经过 7 轮自主进化达到 F1 54.3%，相比最强基线提升 25.7%，相比起点提升 78.0%。在 MemBench 上，相比最强基线提升 18.9%。

更重要的是跨基准迁移性：在一个 benchmark 上进化出的配置，迁移到另一个上不仅没有灾难性遗忘，反而带来正向迁移。说明自我进化过程学到的是通用检索原则，而非特定数据集的过拟合。

问题意识：检索基础设施不该是静态的。这个洞察对任何生产环境的 RAG 系统都适用——你的检索配置多久没调过了？

解决范式：AutoResearch 让系统用失败日志做燃料自动迭代。不是 RL（不需要在线交互和奖励信号），而是离线的、结构化的自我诊断循环。成本可控，过程可解释。

实际落地：动作空间设计得很务实——都是生产系统中可调的旋钮，不是只能在论文里存在的理论参数。代码已开源（SimpleMem 仓库）。

对做 Agent 记忆系统的人来说，这篇值得仔细看。它把"self-improving agent"从行为策略层面推进到了基础设施层面——Agent 不只是学会更好的行为，还在学会更好的记忆方式。