Back to Blog 为什么大模型能学会小模型学不会的东西?梯度干扰与稀有任务的留存

为什么大模型能学会小模型学不会的东西?梯度干扰与稀有任务的留存

Paper
Scaling Law 梯度干扰 学习动力学
Stanford · Harvard · MIT · Anthropic · 2026-05-28

论文: Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention
作者: Jing Huang, Daniel Wurgaft, Rachit Bansal, Laura Ruis, Naomi Saphra, David Alvarez-Melis, Andrew Lampinen, Ekdeep Singh Lubana, Christopher Potts
arxiv.org/abs/2605.29548

一个被忽视的基础问题

Scaling law 告诉我们模型越大效果越好,但一个更本质的问题很少有人认真回答:大模型到底多学会了什么?

不是"大模型收敛更快"——这叫样本效率,给小模型更多数据理论上也能追上。问题是:有些任务,小模型即使看无限多数据也学不会,只有大模型能学会。这不是表达力的问题(小模型理论上能表示这些任务),而是从数据中学习的能力的问题。

这篇论文从 Scaling Law 出发,用一个简洁的现象学论证指出:确实存在一部分数据分布,只有大模型能学会。然后用合成实验和 OLMo 预训练双重验证,给出了一个数据中心化的解释——梯度干扰与稀有任务特征留存

从 Scaling Law 出发的关键洞察

Power-law scaling 有两个关键指数:γ ≈ 0.34(compute-optimal scaling 指数)和 α ≈ 0.46(渐进 scaling 指数)。因为 α > γ,存在一个区域:即使给小模型无限数据,它的损失也达不到大模型在有限资源下的水平。

论文将这个区域定义为"Learned via model scaling"——大模型凭借参数量优势解释了数据的这一部分。

Figure 1: Scaling diagram showing model scaling vs data scaling
Figure 1:紫色区域是只有大模型能学会的那部分数据分布——即使小模型看无限多数据也到不了。

机制一:特征按"效用"排序学习

论文用一组回归任务构造了可控实验。关键定理指出:模型的 N 维特征空间会保留效用值最高的 N 个特征,效用定义为 u(k,j) = πk × λk,j(频率 × 特征重要性)。

小模型优先把神经元分配给高频、低复杂度的任务。那些低频但重要的任务的特征被挤出了特征空间——不是因为学不会,而是因为"名额"不够了。

Figure 2: Feature utility predicts learning order
Figure 2:增大模型宽度优先改善低频任务——因为多出来的"名额"可以留给低效用特征。左:相图;右:解析预测 vs 实验结果。

机制二:大模型通过减少梯度干扰"保护"稀有任务

这是论文最精彩的部分。高频任务的梯度更新会覆盖稀有任务的特征——这是一个"学完就忘"的循环。大模型如何打破这个循环?

关键在于:当模型足够大时,它能分配足够的参数给高频任务,使得这些任务的梯度更新变得非常微弱(因为特征已经被很好地学习,残差信号很小)。微弱到不会覆盖稀有任务缓慢积累的特征。

直觉类比:大模型就像一块足够大的黑板,常用知识写在固定区域且已经写好,不再反复擦写;稀有知识的笔记虽然写得慢,但不会被别人擦掉。小模型则是块小黑板,大家抢着写,稀有知识永远写不满就被擦了。

Figure 4: Matched-frequency injection shows retention gap
Figure 4:控制频率注入实验——每 G 步注入一批稀有任务样本。大模型在注入间能保留信号并逐步积累,小模型在两次注入之间衰减回零。

OLMo 验证:从合成到真实

论文用 OLMo 模型(4M 到 4B 参数)做扎实验证:向 Dolma v1.7 语料注入频率可控的"特殊任务"(比较任务 TCMP 和模运算 TADD),频率从 7.8×10⁻³ 到 2.4×10⁻⁸。

Figure 5: Only larger OLMo models learn rare tasks
Figure 5:只有更大的 OLMo 模型学会了低频任务。橙色 = 更低损失/更高准确率。TADD 只有在大模型高频训练下才出现 grokking 现象。

表征与梯度:内部证据

用分布式对齐搜索(DAS)定位任务特征后,发现大模型表征中包含更多任务相关特征。梯度层面,大模型中非任务 token 的梯度与任务方向的余弦相似度几乎为零(1B 模型:7.58×10⁻⁵),而小模型(20M)高达 0.10。

Figure 7: Representational evidence
Figure 7:更大模型 + 更高频率 → 更丰富的任务特征表征。TCMP 的全局序特征和 TADD 的傅里叶模态特征在大模型中更显著。
Figure 9: Gradient interference
Figure 9:梯度干扰分析。大模型中非任务 token 的梯度(底部)几乎与任务方向正交——没有干扰。小模型中则是随机碰撞。

对实践的启示

数据混合比模型规模更可控:如果某个目标能力很重要,直接提高它在训练数据中的频率,可能比盲目扩大模型更有效。

记忆是抽象学习的基础:模型通过保留任务实例的"记忆",才能跨批次积累信号,最终学习到可泛化的任务结构。这挑战了"记忆 vs 泛化"的简单二分法。

蒸馏的理论支撑:小模型学不会的稀有任务,可以通过大模型的蒸馏来传授——论文的"表达力不是瓶颈"论断正是蒸馏可行的前提。

一句话总结:大模型能学会小模型学不会的东西,不是因为"更聪明",而是因为参数足够多,能把高频任务的梯度"稀释"掉,给稀有任务特征留出不被覆盖的生存空间。这是学习动力学层面的优势,不是表达能力层面的优势。
Tags: #Blog