Back to Blog PaperDog 论文解读

PaperDog 论文解读

Paper
现有记忆系统都在优化"存什么",但"怎么取"这件事从头到尾是固定的。EvolveMem 提出让检索基础设施本身也能自我进化——系统用自己的失败日志做燃料,自动迭代优化检索配置。

问题:记忆在变,检索不变

LLM Agent 的长期记忆系统有个被忽视的盲区:知识图谱、遗忘曲线、记忆压缩……所有优化都集中在存储层面,但 BM25 权重、语义融合策略、上下文窗口预算、答案生成风格这些检索基础设施,在部署那一刻就冻住了。

随着记忆库从几十条膨胀到几百条异构记录,一个为小规模设计的检索策略会越来越力不从心。不同类型的问题天然需要不同的检索策略:事实查询要精确关键词匹配,时序推理要时间感知过滤,多跳推理要查询分解。一套固定配置不可能同时服务好所有需求。

核心思路:双层共同进化

EvolveMem 的观察很直接——真正自适应的记忆系统必须在两个层面同时进化:存储的知识要维护和整合,检索机制本身也要随记忆格局和查询分布的变化而自我调整

具体做法是把整个检索配置暴露为一个结构化的动作空间,包括 BM25 权重、语义相似度阈值、结构化元数据权重、融合模式(线性/RRF)、上下文预算、答案生成风格等十几个维度。然后用一个 LLM 驱动的诊断模块来自主优化这些参数。

EvolveMem Framework
图 1:EvolveMem 的四步进化循环(Evaluate–Diagnose–Propose–Guard),右图为 F1 提升轨迹

AutoResearch:四步进化循环

EvolveMem 的自我进化本质上是一个 AutoResearch 过程——系统在自己的架构上做研究。每一轮包含四个步骤:

Evaluate:用当前配置跑完整评估,生成逐题的失败日志,记录查询、预测答案、正确答案、得分和检索结果。

Diagnose:LLM 读取失败日志,对每个错误进行根因分类——是检索召回不足、语义噪声干扰、上下文窗口不够、还是答案生成风格不匹配。

Propose:基于诊断结果提出针对性配置调整,比如"对时序类问题增加 recency 权重"或"对多跳类问题启用查询分解"。每个提案包含维度、调整方向和理由。

Guard:守卫元分析器执行提案,同时携带两个安全机制——回退(revert-on-regression):新配置导致整体下降时自动回滚;探索(explore-on-stagnation):连续两轮无提升时随机探索新方向避免局部最优。

最有趣的是,系统在进化过程中发现了原始动作空间里根本不存在的新维度,比如"对抗性实体替换"——先把问题中的人名去掉再检索,避免名字混淆带来的误导。

检索架构:多视图融合

底层检索覆盖三个视图:词法视图(BM25)、语义视图(embedding cosine)、结构化元数据视图(人物/地点/实体匹配)。三个视图各自返回 top-k,然后通过可配置的融合策略合并。

额外支持查询分解(把多跳问题拆成子查询分别检索再 RRF 合并)和答案验证(低置信度时让第二个 LLM pass 审查并修正答案)。这些开关在进化过程中都可以被自动开启或关闭。

EvolveMem Results
图 2:EvolveMem 与各基线在 LoCoMo 和 MemBench 上的表现对比

实验结果

在 LoCoMo 基准上,EvolveMem 从最小基线(F1 30.5%)出发,经过 7 轮自主进化达到 F1 54.3%,相比最强基线提升 25.7%,相比起点提升 78.0%。在 MemBench 上,相比最强基线提升 18.9%。

更重要的是跨基准迁移性:在一个 benchmark 上进化出的配置,迁移到另一个上不仅没有灾难性遗忘,反而带来正向迁移。说明自我进化过程学到的是通用检索原则,而非特定数据集的过拟合。

工程意义

问题意识:检索基础设施不该是静态的。这个洞察对任何生产环境的 RAG 系统都适用——你的检索配置多久没调过了?

解决范式:AutoResearch 让系统用失败日志做燃料自动迭代。不是 RL(不需要在线交互和奖励信号),而是离线的、结构化的自我诊断循环。成本可控,过程可解释。

实际落地:动作空间设计得很务实——都是生产系统中可调的旋钮,不是只能在论文里存在的理论参数。代码已开源(SimpleMem 仓库)。

对做 Agent 记忆系统的人来说,这篇值得仔细看。它把"self-improving agent"从行为策略层面推进到了基础设施层面——Agent 不只是学会更好的行为,还在学会更好的记忆方式。

Tags: #Paper