Back to Blog BES:双向进化搜索,让 LLM 自己找到更好的自己

BES:双向进化搜索,让 LLM 自己找到更好的自己

Paper
核心观点:现有搜索方法(best-of-N、树搜索)被困在模型分布的窄熵壳内,验证信号稀疏。BES 用进化算子打破熵壳 + 后向子目标分解提供密集反馈,在理论上证明指数级样本效率提升,在实验中 GRPO/MaxRL 无法提升的场景下持续改进。

问题:现有搜索方法碰壁

Best-of-N 和树搜索是目前 LLM self-improvement 和推理阶段的主流采样方法。它们有两个根本性缺陷:

  1. 验证信号稀疏:在 RLVR 等场景中,verifier 通常只能给一个二元或粗粒度的反馈
  2. 候选生成受限:所有候选都通过自回归展开构造,被困在模型概率质量集中的一小块区域里

BES 同时解决了这两个问题。

核心思想:前向进化 + 后向分解

BES 做了两件事,并且让它们耦合在一起:

前向搜索:不只是展开(expansion),还引入了四种进化算子——组合(combination)、删除(deletion)、转位(translocation)、交叉(crossover)——可以从不同候选轨迹中重组出全新的解。这突破了自回归展开的分布限制。

后向搜索:把原始任务递归分解成可验证的子目标树。前向搜索中每个候选节点都按它满足了多少子目标来打分,提供了密集的中间反馈信号,而不是等到最后才有一个二元结果。

x1.png
图1: Tree Search vs BES — 树搜索局限于自回归展开的窄熵壳,BES 通过进化算子逃逸并用后向分解提供密集反馈
x2.png
图2: BES 前向搜索的五种算子 — 展开、组合、删除、转位、交叉
x3.png
图3: 逻辑推理(骑士与无赖)训练曲线 — GRPO/MaxRL 无法改进,BES 持续提升
x4.png
图4: 消融实验 — 移除进化算子或答案重加权均降低性能
x5.png
图5: BES 搜索过程可视化

理论关键结论

  • 熵壳逃逸:自回归展开生成的所有轨迹都被限制在一个窄熵壳内,而进化算子可以打破块间依赖,把候选推到壳外
  • 指数加速:后向子目标分解可以把找到正确答案所需的样本数降低指数级。m 个对称子目标,样本需求从 O(p-m) 降到 O(p-1 · log(m/δ))

实验结果

后训练(逻辑推理):Knights-and-Knaves 数据集上,Gemma-3-1B + BES 在 GRPO 和 MaxRL 完全无法提升的情况下持续改进验证准确率。

后训练(多跳推理):MuSiQue 数据集:

方法3B 准确率8B 准确率
GRPO2.1%5.6%
Tree-GRPO3.9%7.4%
BES7.0%10.4%

推理(开放问题求解):三个开放问题基准上,BES 在所有开源框架中均值和最佳值均最优,方差更低。圆形装箱方形均值 2.623 vs ShinkaEvolve 的 2.464。

成本:相比 ShinkaEvolve,API 成本增加约 30-40%,但性能提升显著。

工程意义

BES 的思想对 agent self-improvement 有直接启发:不要只在单条轨迹上做树搜索,而是维护一个候选种群,用进化式的重组来探索模型分布之外的空间。后向子目标分解也是通用策略——任何复杂任务都可以递归分解为可验证的子任务,提供密集的学习信号。

Tags: #Harvard#MIT