从自己的 latent 学，而不是从 token 学

  核心定理：在组合数据模型 RHM 上，预测自己的 latent 表示需要 O(m³) 样本即可恢复完整的隐藏层级树，与树深度 L 无关——而 token-level SSL 需要 O(mL+1)，指数增长。三层验证：层次聚类算法、端到端 SLC 网络、以及首次对 data2vec 的样本复杂度分析。

核心问题

LLM 用了 10¹³–10¹&sup4; 个 token 训练，人类小孩学语言只需不到百万分之一。一个被反复提出的假设是：生物学习不在 token 表面发生，而在更抽象的 latent 空间。data2vec、JEPA 验证了"预测自己的 latent 表示"比重建原始输入更高效，但到底高效多少？这篇论文给了严格定量回答。

RHM：可分析的组合数据模型

Random Hierarchy Model (RHM) 是一个概率上下文无关文法，生成深度为 L 的隐藏变量树。关键参数 m 是同义词类大小，L 是层级深度。

监督学习：O(m^L) 样本
Token-level SSL：O(m^L+1)
两者都随 L 指数增长——token 信号穿过隐藏树时每层衰减 m 倍

核心定理：Latent prediction 打破指数墙

预测自己的 latent 只需 O(m³) 样本，与 L 无关。直觉：一旦第 ℓ 层学到，预测目标也从 token 提升到 ℓ 层。下一步变成同义词聚类，难度恒定，不随深度增加。

图1: RHM 上的三种训练目标与样本复杂度 — 监督 O(m^L)、token-level SSL O(m^{L+1})、latent prediction O(m³)

图2: ILC 算法的预测器-聚类器结构 — predictor 估计 context vector，clusterer 将同义词分到同一组

图3: ILC（左）和 SLC 网络（右）在 RHM 上的 scaling collapse — 重采样量 P/vm³ 后曲线重合

图4: data2vec 在 RHM 上的结果（左）和 synonym clustering 分数（右）— 同样 vm³ scaling

图5: data2vec 在 RHM 上的 synonym clustering 分数 — 所有层级在同一 vm³ 尺度上同时上升

三个验证

1. 层次聚类算法 ILC：逐层估计 context vector，k-means 聚类，构造下一层 latent。理论证明 O(vm³ · polylog) 恢复整棵树。

2. SLC 神经网络：predictor-clusterer 模块堆叠，端到端梯度下降。确认 vm³ scaling。甚至 stop-gradient（纯局部学习规则）也不影响——暗示生物大脑可能不需要 backpropagation。

3. data2vec 首次样本复杂度分析：最令人惊讶的发现。data2vec 没有显式层级堆叠，但 EMA teacher 隐式执行了递归聚类——phase 0 学 level-1，teacher 更新后目标提升到 level-1，phase 1 再学 level-2……实验中 synonym clustering 分数在所有层级以同一 vm³ 尺度同时上升。

实际意义

H-JEPA 可能冗余。data2vec 已隐式执行多尺度 latent 发现，显式堆叠的边际收益有限。

打破 scaling laws 的路径。小数据下 latent prediction 应大幅领先 next-token prediction；大数据下趋同。这是可验证的预测。

与你关注的联系

Wyart 团队用 RHM 做的一系列 scaling 理论，这篇与 LeCun 的 JEPA 哲学最直接对齐。SLC 用 stop-gradient 仍达 vm³ scaling——OpenClaw 做 test-time 适配时，局部学习规则可能就够。