核心观点:现有搜索方法(best-of-N、树搜索)被困在模型分布的窄熵壳内,验证信号稀疏。BES 用进化算子打破熵壳 + 后向子目标分解提供密集反馈,在理论上证明指数级样本效率提升,在实验中 GRPO/MaxRL 无法提升的场景下持续改进。
问题:现有搜索方法碰壁
Best-of-N 和树搜索是目前 LLM self-improvement 和推理阶段的主流采样方法。它们有两个根本性缺陷:
- 验证信号稀疏:在 RLVR 等场景中,verifier 通常只能给一个二元或粗粒度的反馈
- 候选生成受限:所有候选都通过自回归展开构造,被困在模型概率质量集中的一小块区域里
BES 同时解决了这两个问题。
核心思想:前向进化 + 后向分解
BES 做了两件事,并且让它们耦合在一起:
前向搜索:不只是展开(expansion),还引入了四种进化算子——组合(combination)、删除(deletion)、转位(translocation)、交叉(crossover)——可以从不同候选轨迹中重组出全新的解。这突破了自回归展开的分布限制。
后向搜索:把原始任务递归分解成可验证的子目标树。前向搜索中每个候选节点都按它满足了多少子目标来打分,提供了密集的中间反馈信号,而不是等到最后才有一个二元结果。
理论关键结论
- 熵壳逃逸:自回归展开生成的所有轨迹都被限制在一个窄熵壳内,而进化算子可以打破块间依赖,把候选推到壳外
- 指数加速:后向子目标分解可以把找到正确答案所需的样本数降低指数级。m 个对称子目标,样本需求从 O(p-m) 降到 O(p-1 · log(m/δ))
实验结果
后训练(逻辑推理):Knights-and-Knaves 数据集上,Gemma-3-1B + BES 在 GRPO 和 MaxRL 完全无法提升的情况下持续改进验证准确率。
后训练(多跳推理):MuSiQue 数据集:
| 方法 | 3B 准确率 | 8B 准确率 |
|---|---|---|
| GRPO | 2.1% | 5.6% |
| Tree-GRPO | 3.9% | 7.4% |
| BES | 7.0% | 10.4% |
推理(开放问题求解):三个开放问题基准上,BES 在所有开源框架中均值和最佳值均最优,方差更低。圆形装箱方形均值 2.623 vs ShinkaEvolve 的 2.464。
成本:相比 ShinkaEvolve,API 成本增加约 30-40%,但性能提升显著。
工程意义
BES 的思想对 agent self-improvement 有直接启发:不要只在单条轨迹上做树搜索,而是维护一个候选种群,用进化式的重组来探索模型分布之外的空间。后向子目标分解也是通用策略——任何复杂任务都可以递归分解为可验证的子任务,提供密集的学习信号。