为什么大模型能学会小模型学不会的东西？梯度干扰与稀有任务的留存

论文: Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention
作者: Jing Huang, Daniel Wurgaft, Rachit Bansal, Laura Ruis, Naomi Saphra, David Alvarez-Melis, Andrew Lampinen, Ekdeep Singh Lubana, Christopher Potts
arxiv.org/abs/2605.29548

一个被忽视的基础问题

Scaling law 告诉我们模型越大效果越好，但一个更本质的问题很少有人认真回答：大模型到底多学会了什么？

不是"大模型收敛更快"——这叫样本效率，给小模型更多数据理论上也能追上。问题是：有些任务，小模型即使看无限多数据也学不会，只有大模型能学会。这不是表达力的问题（小模型理论上能表示这些任务），而是从数据中学习的能力的问题。

    这篇论文从 Scaling Law 出发，用一个简洁的现象学论证指出：确实存在一部分数据分布，只有大模型能学会。然后用合成实验和 OLMo 预训练双重验证，给出了一个数据中心化的解释——梯度干扰与稀有任务特征留存。
  

从 Scaling Law 出发的关键洞察

Power-law scaling 有两个关键指数：γ ≈ 0.34（compute-optimal scaling 指数）和 α ≈ 0.46（渐进 scaling 指数）。因为 α > γ，存在一个区域：即使给小模型无限数据，它的损失也达不到大模型在有限资源下的水平。

论文将这个区域定义为"Learned via model scaling"——大模型凭借参数量优势解释了数据的这一部分。

Figure 1: Scaling diagram showing model scaling vs data scaling

Figure 1：紫色区域是只有大模型能学会的那部分数据分布——即使小模型看无限多数据也到不了。

机制一：特征按"效用"排序学习

论文用一组回归任务构造了可控实验。关键定理指出：模型的 N 维特征空间会保留效用值最高的 N 个特征，效用定义为 u(k,j) = πk × λk,j（频率 × 特征重要性）。

小模型优先把神经元分配给高频、低复杂度的任务。那些低频但重要的任务的特征被挤出了特征空间——不是因为学不会，而是因为"名额"不够了。

Figure 2: Feature utility predicts learning order

Figure 2：增大模型宽度优先改善低频任务——因为多出来的"名额"可以留给低效用特征。左：相图；右：解析预测 vs 实验结果。

机制二：大模型通过减少梯度干扰"保护"稀有任务

这是论文最精彩的部分。高频任务的梯度更新会覆盖稀有任务的特征——这是一个"学完就忘"的循环。大模型如何打破这个循环？

关键在于：当模型足够大时，它能分配足够的参数给高频任务，使得这些任务的梯度更新变得非常微弱（因为特征已经被很好地学习，残差信号很小）。微弱到不会覆盖稀有任务缓慢积累的特征。

直觉类比：大模型就像一块足够大的黑板，常用知识写在固定区域且已经写好，不再反复擦写；稀有知识的笔记虽然写得慢，但不会被别人擦掉。小模型则是块小黑板，大家抢着写，稀有知识永远写不满就被擦了。

Figure 4: Matched-frequency injection shows retention gap

Figure 4：控制频率注入实验——每 G 步注入一批稀有任务样本。大模型在注入间能保留信号并逐步积累，小模型在两次注入之间衰减回零。

OLMo 验证：从合成到真实

论文用 OLMo 模型（4M 到 4B 参数）做扎实验证：向 Dolma v1.7 语料注入频率可控的"特殊任务"（比较任务 TCMP 和模运算 TADD），频率从 7.8×10⁻³ 到 2.4×10⁻⁸。

Figure 5: Only larger OLMo models learn rare tasks

Figure 5：只有更大的 OLMo 模型学会了低频任务。橙色 = 更低损失/更高准确率。TADD 只有在大模型高频训练下才出现 grokking 现象。

表征与梯度：内部证据

用分布式对齐搜索（DAS）定位任务特征后，发现大模型表征中包含更多任务相关特征。梯度层面，大模型中非任务 token 的梯度与任务方向的余弦相似度几乎为零（1B 模型：7.58×10⁻⁵），而小模型（20M）高达 0.10。

Figure 7：更大模型 + 更高频率 → 更丰富的任务特征表征。TCMP 的全局序特征和 TADD 的傅里叶模态特征在大模型中更显著。

Figure 9：梯度干扰分析。大模型中非任务 token 的梯度（底部）几乎与任务方向正交——没有干扰。小模型中则是随机碰撞。

对实践的启示

数据混合比模型规模更可控：如果某个目标能力很重要，直接提高它在训练数据中的频率，可能比盲目扩大模型更有效。

记忆是抽象学习的基础：模型通过保留任务实例的"记忆"，才能跨批次积累信号，最终学习到可泛化的任务结构。这挑战了"记忆 vs 泛化"的简单二分法。

蒸馏的理论支撑：小模型学不会的稀有任务，可以通过大模型的蒸馏来传授——论文的"表达力不是瓶颈"论断正是蒸馏可行的前提。

一句话总结：大模型能学会小模型学不会的东西，不是因为"更聪明"，而是因为参数足够多，能把高频任务的梯度"稀释"掉，给稀有任务特征留出不被覆盖的生存空间。这是学习动力学层面的优势，不是表达能力层面的优势。