MeMo：把记忆本身变成一个模型

LLM知识集成的第三条路——用独立小模型当「记忆」，主模型完全不动参数

图1：MeMo的训练与推理流程。左侧为数据合成与Memory训练，右侧为推理时Executive与Memory的多轮对话协议。

LLM的知识是冻结的——预训练结束后就停了，直到下一次更新。这是一个根本性的架构限制。现有的解决方案要么往prompt里塞文档（RAG），要么改模型参数（微调），要么压缩成soft token（latent memory）。三者各有致命缺陷：RAG受限于上下文窗口和检索噪声；微调代价高且灾难性遗忘；latent memory跟编码器强耦合，换不了模型。

MeMo提了一个极其干净的想法：用一个独立的小模型来当「记忆」。主模型（Executive）完全不动参数，只在推理时通过多轮对话向这个记忆模型提问。记忆模型在训练阶段把整个文档语料「内化」成自己的参数。

六项全能：性质对比

论文给出了知识集成的「应该是什么样」的定义，然后证明MeMo能同时满足所有六个理想属性：

方法	冻结基础模型	无需检索索引	兼容黑盒	无灾难性遗忘	常数大小记忆	跨LLM可迁移
非参数 (RAG/ICL)	✓	✗	✓	✓	✗	✓
参数方法 (CPT/SFT)	✗	✓	✗	✗	✗	✗
潜隐记忆 (AutoCompressor/Gist)	✓	✓	✗	✓	✓	✗
MeMo (本文)	✓	✓	✓	✓	✓	✓

架构：三个角色，训练一次，推理自由

MeMo把系统拆成三个角色：

Generator（数据生成器）：冻结的LLM，负责从目标语料里提炼知识。它执行五步流水线——事实提取、信息合并、验证改写、实体surfaced、跨文档综合——最终产出一份「反思QA数据集」。

Memory（记忆模型）：一个1.5B-14B的小模型，用Generator产出的QA数据集做SFT训练。语料里的知识被压缩进它的参数里。训练完之后，语料本身就不需要了——推理时不再做检索。

Executive（执行模型）：冻结的任意LLM，负责接收用户查询、分解成子问题、向Memory提问、综合答案。它可以是开源模型，也可以是GPT、Gemini这样的闭源模型。

关键设计点：训练Memory和推理用的是不同的模型。你用Qwen2.5-14B训练Memory，推理时可以无缝换成Gemini-3-Flash，性能反而更好。

五步数据合成流水线

图2：Generator对语料执行五步处理，产出高质量的反思QA数据集。

事实提取：对文档分段后执行直接提取（显式陈述的事实）和间接提取（推断的信息），双路并行确保事实和推理都有覆盖。
信息合并：识别共享同一上下文的QA对（如同一实体、时间、关系类型），合并成需要整合多事实的综合QA对。
验证改写：评估每对QA的自包含性（答案不依赖外部文档），不通过的重写或丢弃。
实体surfaced：显式生成以实体为中心的QA对，确保关键实体被显式表示。
跨文档综合：将同一文档组的QA聚合，生成跨文档推理的QA对——这是处理需要多跳推理的查询的关键。

关键设计：不嵌入任何文档标识符或水印，防止Memory模型在评测中利用捷径信号。

噪声鲁棒性：杀手锏

MeMo在三个基准上全面超过了RAG基线。更值得注意的是噪声实验：当语料中混入与正样本等量的干扰文档时，NV-Embed-V2准确率暴跌6.22pp，HippoRAG2跌6.22pp，而MeMo仅波动0.55pp——几乎不受影响。

原因很直观：RAG在推理时才做检索，检索质量直接决定输出质量。而MeMo在训练阶段就已经把噪声「消化」了——Memory模型学会了区分信号和噪声，因为训练数据本身就是从含噪声语料中提炼出来的。

BrowseComp-Plus：各方法随训练轮次的准确率变化。

NarrativeQA：各方法随训练轮次的准确率变化。

MuSiQue：各方法随训练轮次的准确率变化。

Plug-and-Play：训练用弱模型，推理用强模型

用Qwen2.5-14B训练的Memory，换成Gemini-3-Flash作为Executive后，BrowseComp-Plus提升12.45pp，NarrativeQA提升26.73pp，MuSiQue提升11.90pp。这意味着Memory训练一次，可以跟任何闭源模型无缝配合。

检索成本与语料大小无关

RAG的推理成本随语料规模线性增长——文档越多，检索越慢。MeMo的推理成本完全独立于语料大小。一旦Memory模型训练完成，语料就可以扔掉。推理时只是Executive和Memory之间的对话，开销恒定。

这是一个被低估的优势。在实际系统中，语料可能达到百万级文档。RAG在这种规模下的延迟和成本会变得不可接受。

局限与思考

Memory模型的容量是瓶颈。14B的Memory在NarrativeQA上明显优于1.5B，但在BrowseComp-Plus上差距不大——说明效果高度依赖任务类型和Executive模型的推理能力。

更关键的问题是知识更新：当语料发生变化时，需要重新训练Memory。论文没有讨论增量更新的机制。这跟RAG天然支持增量索引形成了对比。

核心洞见：与其在推理时检索，不如在训练时消化。这种「参数化记忆 + 黑盒推理」的范式，对agent系统的设计有直接的启发——agent的长期记忆不应该是向量数据库，而应该是一个训练过的模型。

原文：arxiv.org/abs/2605.15156 · PaperDog解读