OPD 为什么比 RL 快？"预见性"是答案

  核心发现：OPD 的效率源于"预见性"——在训练极早期就锁定了通往最终模型的有效更新方向。体现在两个层面：模块分配上回避功能冗余（低效用模块更新被抑制），更新方向上早期低秩锁定（主导子空间与最终子空间高度对齐）。基于此提出 EffOPD，即插即用实现 3 倍训练加速。

Figure 1: OPD 的"预见性"图示。RL 像在错误的山和方向上浪费步数探索，OPD 则一开始就锁定了正确的山和方向。EffOPD 沿着早期正确方向外推以加速。

模块分配层：功能冗余回避

论文做了精巧的缩放实验：固定 RL 和 OPD 的最终更新方向 ΔW，用因子 α 缩放幅度。结果：同等更新范数下，OPD 的推理增益远高于 RL。这说明 RL 的更新中包含大量与任务性能弱相关的冗余分量——贡献了范数但不贡献性能。

Figure 2: (a) 同等范数缩放下，OPD 的推理增益显著高于 RL。(b) 整个训练过程中，OPD 始终以更小的参数更新达到同等推理精度。

逐层分析揭示了具体机制：OPD 和 RL 对中间层 MLP 的敏感度分布一致（中间层 > 底层和顶层），但 RL 在低敏感度的底层和顶层累积了更大的更新范数——这些更新几乎不带来性能增益。OPD 则早期识别出低边际效用模块，抑制了它们的参数变化，把更新集中在对推理更关键的中间层 MLP。

$Figure 3$

Figure 3: (a) 替换 embedding 层对推理几乎无影响。(b) 逐层滑动窗口干预：中间层 MLP 对推理最敏感，RL 在底层/顶层的冗余更新远大于 OPD。

这是论文更有趣的发现。OPD 展现出更强的低秩集中性——它的主导更新子空间在训练早期就和最终更新子空间高度对齐，并在此后保持稳定。RL 的更新更分散，对齐来得更晚且更波动。

训练进度 10% 的 OPD checkpoint

80%

经范数缩放后恢复的最终推理性能

EffOPD 平均加速

3×

1.5B → 32B 参数规模

Figure 4: 低秩子空间分析。OPD 的 Top-k 子空间在早期就达到高性能，且与最终子空间高度对齐。

Figure 5: t-SNE 可视化 token embedding 演化。OPD 早期就形成与最终状态相似的聚类结构。

既然 OPD 在早期就建立了有效的更新方向，沿这个方向做更大的步长（线性外推），就能用更少的训练迭代到达相同的最终性能。EffOPD 在每步更新后做轻量级验证，自适应选择外推步长。

⚡ EffOPD 不需要额外可训练模块、不需要复杂超参数调优，与现有加速方法正交互补。验证集难度不关键——验证主要确认方向有效性而非提供精确监督。外推的收益远超验证成本。

Figure 6: EffOPD 在 code 和 math 数据集上的性能对比，1.5B 到 32B 模型规模均实现显著加速。

Figure 7: 消融实验。(a) 学习率对 vanilla OPD 稳定性的影响，EffOPD 通过自适应外推维持稳定。(b) 验证集难度不关键。(c) 实际训练时间对比。

1. OPD ≠ 更密集的 RL

在参数动力学层面有本质不同——更早锁定方向，更少冗余更新。这是结构性的效率优势，不只是监督信号密度的问题。

2. 训练早期是关键窗口

10% 进度时能恢复 80% 性能。方向对齐度和谱集中度可以作为训练健康度指标，帮助判断后续训练是否有效。

3. EffOPD 的 3 倍加速是实打实的

尤其在 32B 级别模型上，显著降低后训练计算成本。即插即用，正交互补。

  和 AlphaRL 的关系：本文作者之前发现 RL 更新的 Rank-1 主导特性（AlphaRL 框架），本文则解释了 OPD 为什么比 RL 更高效——模块冗余抑制 + 早期方向锁定。两者共同构成对 LLM 后训练参数动力学的完整理解。