TL;DR:对每一步 loss 下降做二阶 Taylor 展开,发现 Muon 和 Adam 在一阶(梯度对齐)上持平,真正的差距在二阶曲率惩罚。Muon 的谱归一化更新方向有更低的 Normalized Directional Sharpness (NDS),因此每步的曲率代价更小。数据越不平衡、训练越到后期,这个优势越明显。
背景:Adam 的十年垄断与 Muon 的异军突起
Adam 过去十年是 LLM 训练的默认优化器。它通过坐标级的自适应学习率(除以梯度二阶动量),让每个参数维度按自己的"历史波动"调整步长。简单、稳定、好用。
2024 年,Muon 横空出世。它利用矩阵参数的结构信息,对梯度动量矩阵做谱归一化——将非零奇异值拉到同一尺度。在多个规模的 LLM 预训练中,Muon 实现了接近 2 倍的训练加速。
但 2 倍加速的原因一直众说纷纭。有人说是关联记忆机制,有人说是长尾数据的特殊适配。这篇论文首次从优化景观的理论视角,给出了一个干净且可验证的答案。
核心分析框架:二阶 Taylor 展开
作者的核心方法论是对每一步的 loss 下降做二阶 Taylor 展开:
一阶项衡量"沿梯度方向走了多少",二阶项衡量"走完之后 loss landscape 变多陡"。作者发现,二阶展开的预测值和实际 loss 下降高度吻合,说明这个分解是可靠的。
然后他们分别计算 Adam 和 Muon 的一阶项和二阶项,结果出乎很多人的意料:
(a) 预测 vs 实际 loss 下降
(b) 一阶项:几乎持平
(c) 二阶曲率惩罚:Muon 显著更小
Figure 1:一阶项(梯度对齐度)两者几乎一样。拉开差距的完全是二阶曲率惩罚——Muon 的曲率代价只有 Adam 的一小部分。这是整篇论文最核心的发现。
NDS:真正的胜负手
接下来,作者把曲率惩罚进一步分解为两部分:
NDS 衡量的是"沿某个方向走单位距离,loss 会上升多少"。它只取决于方向,不取决于步长。值得注意的是,Muon 的更新步长并不比 Adam 小(甚至更大),真正拉开差距的是 NDS——Muon 的更新方向天然更"平坦"。
(a) NDS 对比:Muon 显著低于 Adam
(b) 更新步长:Muon 并不小
(c) NDS 差距分解:方向是主因
Figure 2:为什么 Adam 的 NDS 更高?Adam 做的是坐标级归一化——每个参数维度除以自己的二阶动量,高/低曲率方向步长不一致,整体方向偏"尖锐"。Muon 做的是谱归一化——将梯度动量矩阵的奇异值拉平,更新方向在高/低曲率维度间更均匀,NDS 自然更低。可以这样理解:Adam 是逐个坐标"量体裁衣",Muon 是全局"统一尺码"。在曲率异质性强的场景下(LLM 训练正是如此),后者更稳健。
什么条件放大 Muon 的优势?
数据不平衡
作者用 Zipf-PCFG 合成数据控制不平衡程度,训练相同模型。实验清晰地表明:数据越不平衡,Muon 的 NDS 优势越大。
数据不平衡程度与 NDS 优势的关系
不同不平衡度下的表现对比
Figure 7-8:这解释了为什么 Muon 在真实语言数据上表现特别好——自然语言的数据分布天然长尾,低频词/模式贡献了大量高曲率区域,Muon 的方向归一化在这里优势最大化。
层内 vs 层间:训练阶段的演变
作者将 NDS 分解为层内(within-layer)和层间(cross-layer)两部分。这是一个很巧妙的分解,因为矩阵参数可以按层切分,也可以跨层拼接。
NDS 层内与层间分量随训练变化
层内 NDS 贡献占比
Figure 4:Muon 的层间 NDS 优势在训练早期后快速衰减,但层内 NDS 优势贯穿始终。也就是说,Muon 的加速在训练中后期更稳定,持续保持着层内方向的"平坦性"优势。
NDS 景观可视化
下图展示了 NDS 在不同优化步长缩放因子 s 下的空间分布,直观呈现 Muon 和 Adam 的更新方向差异。
(a) NDS 景观可视化
(b) Δ(s) NDS 差距空间分布
Figure 3:Muon 的更新方向在 loss landscape 上探索的区域更平坦(红色/暖色区域更少),而 Adam 的方向更容易进入高曲率区域。
理论解释:二次优化上的证明
为从理论上理解这些经验发现,作者设计了风格化的二次优化问题,模拟 LLM 训练中的景观特征:异构曲率(高/低曲率维度共存)和梯度与高曲率方向的对齐。
(a) 同时对角化示意
(b) 异构曲率示意
(c) 收缩因子对比
Figure 6:作者证明了两个关键结论:第一,当曲率异质性足够强时,Muon 在相同步数后的 loss 低于 GD。第二,Muon 的收敛因子 Γ² 严格小于 GD 的收敛因子 √R。也就是说 Muon 不仅第一步更好,而且每一步都比 GD 收缩得更快,差距随步数指数放大。
局限性与未来方向
1. 二阶展开的适用范围:Taylor 展开假设 loss landscape 局部光滑,在训练早期或 loss 震荡剧烈时,高阶项不可忽略。作者验证了展开的准确性,但没有理论保证。
2. 理论模型的简化:二次优化问题忽略了非凸性、动量等现实因素。Adam 和 GD 在这些问题上表现相似是经验观察,缺乏严格证明。
3. 大规模验证不足:最大实验仅到 1.4B 参数。在 7B、70B 等更大规模上,层间/层内 NDS 的动态可能不同。
总结与工程意义
1. 训练 LLM 时应该认真考虑 Muon。2 倍加速不是玄学,有清晰的理论支撑和实验验证。特别是数据分布长尾的场景(中文 NLP、代码训练等)。
2. NDS 是可监控的诊断指标。你可以在训练中计算 Adam 和 Muon 的 NDS,预判加速效果,而不是盲目换优化器。
3. 谱归一化思路可推广。MuSGD 等变体也受益于类似的机制。对于优化器研究者来说,"方向级归一化优于坐标级归一化"是一个有普遍意义的设计原则。
4. 对优化器设计的启示:Adam 的坐标级归一化在异构曲率场景下次优。下一代优化器应该更关注更新方向的全局几何性质,而非逐坐标的统计量。
参考资源
论文:https://arxiv.org/abs/2606.04662