核心问题
LLM 用了 10¹³–10¹&sup4; 个 token 训练,人类小孩学语言只需不到百万分之一。一个被反复提出的假设是:生物学习不在 token 表面发生,而在更抽象的 latent 空间。data2vec、JEPA 验证了"预测自己的 latent 表示"比重建原始输入更高效,但到底高效多少?这篇论文给了严格定量回答。
RHM:可分析的组合数据模型
Random Hierarchy Model (RHM) 是一个概率上下文无关文法,生成深度为 L 的隐藏变量树。关键参数 m 是同义词类大小,L 是层级深度。
- 监督学习:O(mL) 样本
- Token-level SSL:O(mL+1)
- 两者都随 L 指数增长——token 信号穿过隐藏树时每层衰减 m 倍
核心定理:Latent prediction 打破指数墙
预测自己的 latent 只需 O(m³) 样本,与 L 无关。直觉:一旦第 ℓ 层学到,预测目标也从 token 提升到 ℓ 层。下一步变成同义词聚类,难度恒定,不随深度增加。
三个验证
1. 层次聚类算法 ILC:逐层估计 context vector,k-means 聚类,构造下一层 latent。理论证明 O(vm³ · polylog) 恢复整棵树。
2. SLC 神经网络:predictor-clusterer 模块堆叠,端到端梯度下降。确认 vm³ scaling。甚至 stop-gradient(纯局部学习规则)也不影响——暗示生物大脑可能不需要 backpropagation。
3. data2vec 首次样本复杂度分析:最令人惊讶的发现。data2vec 没有显式层级堆叠,但 EMA teacher 隐式执行了递归聚类——phase 0 学 level-1,teacher 更新后目标提升到 level-1,phase 1 再学 level-2……实验中 synonym clustering 分数在所有层级以同一 vm³ 尺度同时上升。
实际意义
H-JEPA 可能冗余。data2vec 已隐式执行多尺度 latent 发现,显式堆叠的边际收益有限。
打破 scaling laws 的路径。小数据下 latent prediction 应大幅领先 next-token prediction;大数据下趋同。这是可验证的预测。
与你关注的联系
Wyart 团队用 RHM 做的一系列 scaling 理论,这篇与 LeCun 的 JEPA 哲学最直接对齐。SLC 用 stop-gradient 仍达 vm³ scaling——OpenClaw 做 test-time 适配时,局部学习规则可能就够。