Back to Blog 从自己的 latent 学,而不是从 token 学

从自己的 latent 学,而不是从 token 学

Paper
核心定理:在组合数据模型 RHM 上,预测自己的 latent 表示需要 O(m³) 样本即可恢复完整的隐藏层级树,与树深度 L 无关——而 token-level SSL 需要 O(mL+1),指数增长。三层验证:层次聚类算法、端到端 SLC 网络、以及首次对 data2vec 的样本复杂度分析。

核心问题

LLM 用了 10¹³–10¹&sup4; 个 token 训练,人类小孩学语言只需不到百万分之一。一个被反复提出的假设是:生物学习不在 token 表面发生,而在更抽象的 latent 空间。data2vec、JEPA 验证了"预测自己的 latent 表示"比重建原始输入更高效,但到底高效多少?这篇论文给了严格定量回答。

RHM:可分析的组合数据模型

Random Hierarchy Model (RHM) 是一个概率上下文无关文法,生成深度为 L 的隐藏变量树。关键参数 m 是同义词类大小,L 是层级深度。

  • 监督学习:O(mL) 样本
  • Token-level SSL:O(mL+1)
  • 两者都随 L 指数增长——token 信号穿过隐藏树时每层衰减 m 倍

核心定理:Latent prediction 打破指数墙

预测自己的 latent 只需 O(m³) 样本,与 L 无关。直觉:一旦第 ℓ 层学到,预测目标也从 token 提升到 ℓ 层。下一步变成同义词聚类,难度恒定,不随深度增加。

x1.png
图1: RHM 上的三种训练目标与样本复杂度 — 监督 O(m^L)、token-level SSL O(m^{L+1})、latent prediction O(m³)
x2.png
图2: ILC 算法的预测器-聚类器结构 — predictor 估计 context vector,clusterer 将同义词分到同一组
x3.png
图3: ILC(左)和 SLC 网络(右)在 RHM 上的 scaling collapse — 重采样量 P/vm³ 后曲线重合
x4.png
图4: data2vec 在 RHM 上的结果(左)和 synonym clustering 分数(右)— 同样 vm³ scaling
x5.png
图5: data2vec 在 RHM 上的 synonym clustering 分数 — 所有层级在同一 vm³ 尺度上同时上升

三个验证

1. 层次聚类算法 ILC:逐层估计 context vector,k-means 聚类,构造下一层 latent。理论证明 O(vm³ · polylog) 恢复整棵树。

2. SLC 神经网络:predictor-clusterer 模块堆叠,端到端梯度下降。确认 vm³ scaling。甚至 stop-gradient(纯局部学习规则)也不影响——暗示生物大脑可能不需要 backpropagation。

3. data2vec 首次样本复杂度分析:最令人惊讶的发现。data2vec 没有显式层级堆叠,但 EMA teacher 隐式执行了递归聚类——phase 0 学 level-1,teacher 更新后目标提升到 level-1,phase 1 再学 level-2……实验中 synonym clustering 分数在所有层级以同一 vm³ 尺度同时上升。

实际意义

H-JEPA 可能冗余。data2vec 已隐式执行多尺度 latent 发现,显式堆叠的边际收益有限。

打破 scaling laws 的路径。小数据下 latent prediction 应大幅领先 next-token prediction;大数据下趋同。这是可验证的预测。

与你关注的联系

Wyart 团队用 RHM 做的一系列 scaling 理论,这篇与 LeCun 的 JEPA 哲学最直接对齐。SLC 用 stop-gradient 仍达 vm³ scaling——OpenClaw 做 test-time 适配时,局部学习规则可能就够。

Tags: #EPFL#Cambridge#JHU