Today: 116 | Total: 20.5K

20.5K total visitors

Home Archive Blog About

Untitled

Untitled

Paper

July 26, 2026

PaperDog

TL;DR：对每一步 loss 下降做二阶 Taylor 展开，发现 Muon 和 Adam 在一阶（梯度对齐）上持平，真正的差距在二阶曲率惩罚。Muon 的谱归一化更新方向有更低的 Normalized Directional Sharpness (NDS)，因此每步的曲率代价更小。数据越不平衡、训练越到后期，这个优势越明显。

背景：Adam 的十年垄断与 Muon 的异军突起

Adam 过去十年是 LLM 训练的默认优化器。它通过坐标级的自适应学习率（除以梯度二阶动量），让每个参数维度按自己的"历史波动"调整步长。简单、稳定、好用。

2024 年，Muon 横空出世。它利用矩阵参数的结构信息，对梯度动量矩阵做谱归一化——将非零奇异值拉到同一尺度。在多个规模的 LLM 预训练中，Muon 实现了接近 2 倍的训练加速。

但 2 倍加速的原因一直众说纷纭。有人说是关联记忆机制，有人说是长尾数据的特殊适配。这篇论文首次从优化景观的理论视角，给出了一个干净且可验证的答案。

核心分析框架：二阶 Taylor 展开

作者的核心方法论是对每一步的 loss 下降做二阶 Taylor 展开：

单步 loss 下降 = 一阶梯度对齐项 − 二阶曲率惩罚项

一阶项衡量"沿梯度方向走了多少"，二阶项衡量"走完之后 loss landscape 变多陡"。作者发现，二阶展开的预测值和实际 loss 下降高度吻合，说明这个分解是可靠的。

然后他们分别计算 Adam 和 Muon 的一阶项和二阶项，结果出乎很多人的意料：

Predicted vs. realized

(a) 预测 vs 实际 loss 下降

First-order decrease

(b) 一阶项：几乎持平

Curvature penalty

(c) 二阶曲率惩罚：Muon 显著更小

Figure 1：一阶项（梯度对齐度）两者几乎一样。拉开差距的完全是二阶曲率惩罚——Muon 的曲率代价只有 Adam 的一小部分。这是整篇论文最核心的发现。

NDS：真正的胜负手

接下来，作者把曲率惩罚进一步分解为两部分：

曲率惩罚 = 更新步长 × NDS（Normalized Directional Sharpness）

NDS 衡量的是"沿某个方向走单位距离，loss 会上升多少"。它只取决于方向，不取决于步长。值得注意的是，Muon 的更新步长并不比 Adam 小（甚至更大），真正拉开差距的是 NDS——Muon 的更新方向天然更"平坦"。

Sharpness comparison

(a) NDS 对比：Muon 显著低于 Adam

Update norm

(b) 更新步长：Muon 并不小

NDS gap decomposition

(c) NDS 差距分解：方向是主因

Figure 2：为什么 Adam 的 NDS 更高？Adam 做的是坐标级归一化——每个参数维度除以自己的二阶动量，高/低曲率方向步长不一致，整体方向偏"尖锐"。Muon 做的是谱归一化——将梯度动量矩阵的奇异值拉平，更新方向在高/低曲率维度间更均匀，NDS 自然更低。可以这样理解：Adam 是逐个坐标"量体裁衣"，Muon 是全局"统一尺码"。在曲率异质性强的场景下（LLM 训练正是如此），后者更稳健。

什么条件放大 Muon 的优势？

数据不平衡

作者用 Zipf-PCFG 合成数据控制不平衡程度，训练相同模型。实验清晰地表明：数据越不平衡，Muon 的 NDS 优势越大。

Data imbalance NDS

数据不平衡程度与 NDS 优势的关系

Data imbalance comparison

不同不平衡度下的表现对比

Figure 7-8：这解释了为什么 Muon 在真实语言数据上表现特别好——自然语言的数据分布天然长尾，低频词/模式贡献了大量高曲率区域，Muon 的方向归一化在这里优势最大化。

层内 vs 层间：训练阶段的演变

作者将 NDS 分解为层内（within-layer）和层间（cross-layer）两部分。这是一个很巧妙的分解，因为矩阵参数可以按层切分，也可以跨层拼接。

NDS within vs cross layer

NDS 层内与层间分量随训练变化

$Within-layer fraction$

层内 NDS 贡献占比

Figure 4：Muon 的层间 NDS 优势在训练早期后快速衰减，但层内 NDS 优势贯穿始终。也就是说，Muon 的加速在训练中后期更稳定，持续保持着层内方向的"平坦性"优势。

NDS 景观可视化

下图展示了 NDS 在不同优化步长缩放因子 s 下的空间分布，直观呈现 Muon 和 Adam 的更新方向差异。

NDS landscape

(a) NDS 景观可视化

Delta visualization

(b) Δ(s) NDS 差距空间分布

Figure 3：Muon 的更新方向在 loss landscape 上探索的区域更平坦（红色/暖色区域更少），而 Adam 的方向更容易进入高曲率区域。

理论解释：二次优化上的证明

为从理论上理解这些经验发现，作者设计了风格化的二次优化问题，模拟 LLM 训练中的景观特征：异构曲率（高/低曲率维度共存）和梯度与高曲率方向的对齐。

Simultaneous diagonalization

(a) 同时对角化示意

Heterogeneous curvatures

(b) 异构曲率示意

Contraction

(c) 收缩因子对比

Figure 6：作者证明了两个关键结论：第一，当曲率异质性足够强时，Muon 在相同步数后的 loss 低于 GD。第二，Muon 的收敛因子 Γ² 严格小于 GD 的收敛因子 √R。也就是说 Muon 不仅第一步更好，而且每一步都比 GD 收缩得更快，差距随步数指数放大。

核心直觉：Muon 的谱归一化让更新方向在高/低曲率维度间更均匀分配，而 GD（以及 Adam）的更新被高曲率方向主导。当曲率异质性强时，这种均匀分配的效果更显著。

局限性与未来方向

1. 二阶展开的适用范围：Taylor 展开假设 loss landscape 局部光滑，在训练早期或 loss 震荡剧烈时，高阶项不可忽略。作者验证了展开的准确性，但没有理论保证。

2. 理论模型的简化：二次优化问题忽略了非凸性、动量等现实因素。Adam 和 GD 在这些问题上表现相似是经验观察，缺乏严格证明。

3. 大规模验证不足：最大实验仅到 1.4B 参数。在 7B、70B 等更大规模上，层间/层内 NDS 的动态可能不同。

总结与工程意义

核心结论：Muon 比 Adam 快 2 倍的机制是——谱归一化更新方向有更低的 NDS，每步曲率代价更小，积累下来形成显著的训练加速。

1. 训练 LLM 时应该认真考虑 Muon。2 倍加速不是玄学，有清晰的理论支撑和实验验证。特别是数据分布长尾的场景（中文 NLP、代码训练等）。

2. NDS 是可监控的诊断指标。你可以在训练中计算 Adam 和 Muon 的 NDS，预判加速效果，而不是盲目换优化器。

3. 谱归一化思路可推广。MuSGD 等变体也受益于类似的机制。对于优化器研究者来说，"方向级归一化优于坐标级归一化"是一个有普遍意义的设计原则。

4. 对优化器设计的启示：Adam 的坐标级归一化在异构曲率场景下次优。下一代优化器应该更关注更新方向的全局几何性质，而非逐坐标的统计量。

参考资源

论文：https://arxiv.org/abs/2606.04662

Tags: #Paper