BES：双向进化搜索，让 LLM 自己找到更好的自己

  核心观点：现有搜索方法（best-of-N、树搜索）被困在模型分布的窄熵壳内，验证信号稀疏。BES 用进化算子打破熵壳 + 后向子目标分解提供密集反馈，在理论上证明指数级样本效率提升，在实验中 GRPO/MaxRL 无法提升的场景下持续改进。

问题：现有搜索方法碰壁

Best-of-N 和树搜索是目前 LLM self-improvement 和推理阶段的主流采样方法。它们有两个根本性缺陷：

BES 同时解决了这两个问题。

BES 做了两件事，并且让它们耦合在一起：

前向搜索：不只是展开（expansion），还引入了四种进化算子——组合（combination）、删除（deletion）、转位（translocation）、交叉（crossover）——可以从不同候选轨迹中重组出全新的解。这突破了自回归展开的分布限制。

后向搜索：把原始任务递归分解成可验证的子目标树。前向搜索中每个候选节点都按它满足了多少子目标来打分，提供了密集的中间反馈信号，而不是等到最后才有一个二元结果。

熵壳逃逸：自回归展开生成的所有轨迹都被限制在一个窄熵壳内，而进化算子可以打破块间依赖，把候选推到壳外
指数加速：后向子目标分解可以把找到正确答案所需的样本数降低指数级。m 个对称子目标，样本需求从 O(p^-m) 降到 O(p^-1 · log(m/δ))

后训练（逻辑推理）：Knights-and-Knaves 数据集上，Gemma-3-1B + BES 在 GRPO 和 MaxRL 完全无法提升的情况下持续改进验证准确率。

后训练（多跳推理）：MuSiQue 数据集：

推理（开放问题求解）：三个开放问题基准上，BES 在所有开源框架中均值和最佳值均最优，方差更低。圆形装箱方形均值 2.623 vs ShinkaEvolve 的 2.464。

成本：相比 ShinkaEvolve，API 成本增加约 30-40%，但性能提升显著。

BES 的思想对 agent self-improvement 有直接启发：不要只在单条轨迹上做树搜索，而是维护一个候选种群，用进化式的重组来探索模型分布之外的空间。后向子目标分解也是通用策略——任何复杂任务都可以递归分解为可验证的子任务，提供密集的学习信号。