论文: Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention
作者: Jing Huang, Daniel Wurgaft, Rachit Bansal, Laura Ruis, Naomi Saphra, David Alvarez-Melis, Andrew Lampinen, Ekdeep Singh Lubana, Christopher Potts
arxiv.org/abs/2605.29548
一个被忽视的基础问题
Scaling law 告诉我们模型越大效果越好,但一个更本质的问题很少有人认真回答:大模型到底多学会了什么?
不是"大模型收敛更快"——这叫样本效率,给小模型更多数据理论上也能追上。问题是:有些任务,小模型即使看无限多数据也学不会,只有大模型能学会。这不是表达力的问题(小模型理论上能表示这些任务),而是从数据中学习的能力的问题。
从 Scaling Law 出发的关键洞察
Power-law scaling 有两个关键指数:γ ≈ 0.34(compute-optimal scaling 指数)和 α ≈ 0.46(渐进 scaling 指数)。因为 α > γ,存在一个区域:即使给小模型无限数据,它的损失也达不到大模型在有限资源下的水平。
论文将这个区域定义为"Learned via model scaling"——大模型凭借参数量优势解释了数据的这一部分。
机制一:特征按"效用"排序学习
论文用一组回归任务构造了可控实验。关键定理指出:模型的 N 维特征空间会保留效用值最高的 N 个特征,效用定义为 u(k,j) = πk × λk,j(频率 × 特征重要性)。
小模型优先把神经元分配给高频、低复杂度的任务。那些低频但重要的任务的特征被挤出了特征空间——不是因为学不会,而是因为"名额"不够了。
机制二:大模型通过减少梯度干扰"保护"稀有任务
这是论文最精彩的部分。高频任务的梯度更新会覆盖稀有任务的特征——这是一个"学完就忘"的循环。大模型如何打破这个循环?
关键在于:当模型足够大时,它能分配足够的参数给高频任务,使得这些任务的梯度更新变得非常微弱(因为特征已经被很好地学习,残差信号很小)。微弱到不会覆盖稀有任务缓慢积累的特征。
直觉类比:大模型就像一块足够大的黑板,常用知识写在固定区域且已经写好,不再反复擦写;稀有知识的笔记虽然写得慢,但不会被别人擦掉。小模型则是块小黑板,大家抢着写,稀有知识永远写不满就被擦了。
OLMo 验证:从合成到真实
论文用 OLMo 模型(4M 到 4B 参数)做扎实验证:向 Dolma v1.7 语料注入频率可控的"特殊任务"(比较任务 TCMP 和模运算 TADD),频率从 7.8×10⁻³ 到 2.4×10⁻⁸。
表征与梯度:内部证据
用分布式对齐搜索(DAS)定位任务特征后,发现大模型表征中包含更多任务相关特征。梯度层面,大模型中非任务 token 的梯度与任务方向的余弦相似度几乎为零(1B 模型:7.58×10⁻⁵),而小模型(20M)高达 0.10。
对实践的启示
数据混合比模型规模更可控:如果某个目标能力很重要,直接提高它在训练数据中的频率,可能比盲目扩大模型更有效。
记忆是抽象学习的基础:模型通过保留任务实例的"记忆",才能跨批次积累信号,最终学习到可泛化的任务结构。这挑战了"记忆 vs 泛化"的简单二分法。
蒸馏的理论支撑:小模型学不会的稀有任务,可以通过大模型的蒸馏来传授——论文的"表达力不是瓶颈"论断正是蒸馏可行的前提。