LLM知识集成的第三条路——用独立小模型当「记忆」,主模型完全不动参数
LLM的知识是冻结的——预训练结束后就停了,直到下一次更新。这是一个根本性的架构限制。现有的解决方案要么往prompt里塞文档(RAG),要么改模型参数(微调),要么压缩成soft token(latent memory)。三者各有致命缺陷:RAG受限于上下文窗口和检索噪声;微调代价高且灾难性遗忘;latent memory跟编码器强耦合,换不了模型。
MeMo提了一个极其干净的想法:用一个独立的小模型来当「记忆」。主模型(Executive)完全不动参数,只在推理时通过多轮对话向这个记忆模型提问。记忆模型在训练阶段把整个文档语料「内化」成自己的参数。
六项全能:性质对比
论文给出了知识集成的「应该是什么样」的定义,然后证明MeMo能同时满足所有六个理想属性:
| 方法 | 冻结基础模型 | 无需检索索引 | 兼容黑盒 | 无灾难性遗忘 | 常数大小记忆 | 跨LLM可迁移 |
|---|---|---|---|---|---|---|
| 非参数 (RAG/ICL) | ✓ | ✗ | ✓ | ✓ | ✗ | ✓ |
| 参数方法 (CPT/SFT) | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ |
| 潜隐记忆 (AutoCompressor/Gist) | ✓ | ✓ | ✗ | ✓ | ✓ | ✗ |
| MeMo (本文) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
架构:三个角色,训练一次,推理自由
MeMo把系统拆成三个角色:
Generator(数据生成器):冻结的LLM,负责从目标语料里提炼知识。它执行五步流水线——事实提取、信息合并、验证改写、实体surfaced、跨文档综合——最终产出一份「反思QA数据集」。
Memory(记忆模型):一个1.5B-14B的小模型,用Generator产出的QA数据集做SFT训练。语料里的知识被压缩进它的参数里。训练完之后,语料本身就不需要了——推理时不再做检索。
Executive(执行模型):冻结的任意LLM,负责接收用户查询、分解成子问题、向Memory提问、综合答案。它可以是开源模型,也可以是GPT、Gemini这样的闭源模型。
关键设计点:训练Memory和推理用的是不同的模型。你用Qwen2.5-14B训练Memory,推理时可以无缝换成Gemini-3-Flash,性能反而更好。
五步数据合成流水线
- 事实提取:对文档分段后执行直接提取(显式陈述的事实)和间接提取(推断的信息),双路并行确保事实和推理都有覆盖。
- 信息合并:识别共享同一上下文的QA对(如同一实体、时间、关系类型),合并成需要整合多事实的综合QA对。
- 验证改写:评估每对QA的自包含性(答案不依赖外部文档),不通过的重写或丢弃。
- 实体surfaced:显式生成以实体为中心的QA对,确保关键实体被显式表示。
- 跨文档综合:将同一文档组的QA聚合,生成跨文档推理的QA对——这是处理需要多跳推理的查询的关键。
关键设计:不嵌入任何文档标识符或水印,防止Memory模型在评测中利用捷径信号。
噪声鲁棒性:杀手锏
MeMo在三个基准上全面超过了RAG基线。更值得注意的是噪声实验:当语料中混入与正样本等量的干扰文档时,NV-Embed-V2准确率暴跌6.22pp,HippoRAG2跌6.22pp,而MeMo仅波动0.55pp——几乎不受影响。
原因很直观:RAG在推理时才做检索,检索质量直接决定输出质量。而MeMo在训练阶段就已经把噪声「消化」了——Memory模型学会了区分信号和噪声,因为训练数据本身就是从含噪声语料中提炼出来的。
Plug-and-Play:训练用弱模型,推理用强模型
用Qwen2.5-14B训练的Memory,换成Gemini-3-Flash作为Executive后,BrowseComp-Plus提升12.45pp,NarrativeQA提升26.73pp,MuSiQue提升11.90pp。这意味着Memory训练一次,可以跟任何闭源模型无缝配合。
检索成本与语料大小无关
RAG的推理成本随语料规模线性增长——文档越多,检索越慢。MeMo的推理成本完全独立于语料大小。一旦Memory模型训练完成,语料就可以扔掉。推理时只是Executive和Memory之间的对话,开销恒定。
这是一个被低估的优势。在实际系统中,语料可能达到百万级文档。RAG在这种规模下的延迟和成本会变得不可接受。
局限与思考
Memory模型的容量是瓶颈。14B的Memory在NarrativeQA上明显优于1.5B,但在BrowseComp-Plus上差距不大——说明效果高度依赖任务类型和Executive模型的推理能力。
更关键的问题是知识更新:当语料发生变化时,需要重新训练Memory。论文没有讨论增量更新的机制。这跟RAG天然支持增量索引形成了对比。
核心洞见:与其在推理时检索,不如在训练时消化。这种「参数化记忆 + 黑盒推理」的范式,对agent系统的设计有直接的启发——agent的长期记忆不应该是向量数据库,而应该是一个训练过的模型。