LeJEPA 何时学到 World Model？JEPAs 的首个可辨识性理论

核心结论：LeJEPA（alignment + SIGReg 高斯正则化）在潜变量服从高斯分布时，必然线性恢复世界潜变量的旋转——即 h(z) = Qz。且高斯是唯一满足此条件的分布。World Model 从经验配方升级为数学定理。

World Model 的数学定义

自监督学习的终极问题：模型学到的表征，究竟是忠实的世界结构映射，还是碰巧在某些 benchmark 上表现好的巧合？

这篇论文给出了精确回答。核心概念是线性可辨识性（Linear Identifiability）——如果学到的表征 h(z) 能恢复真实潜变量 z 的旋转，即 h(z) = Qz，Q 是正交矩阵，那这个表征就是一个可用的 World Model。这不是什么新发明，而是线性探针（linear probing）背后的隐含假设：每次你用线性探针评估表征质量，本质上就是在问"这个表征是否线性可辨识"。

图 1：LeJEPA 学到 World Model。世界有独立高斯潜变量（左），未知非线性过程搅混为观测数据（中），LeJEPA 恢复潜变量至旋转等价（右）。

四个定理，层层递进

论文在"独立、平稳、加性噪声"的广泛世界类上，证明了四个结果：

定理 1（正向）：Gaussian 世界 → 线性可辨识。当潜变量服从 N(0, I)，LeJEPA 的全局最优解必然是真实潜变量的旋转。不是近似，不是渐近，而是精确的。

证明的关键是一个优雅的谱分解。对于高斯潜变量，转移算子的特征函数是 Hermite 多项式。任何非线性函数 h 的相关性恰好是 w1·ρ + w2·ρ² + w3·ρ³ + …，其中 ρ∈(0,1) 是视图间相关性。由于 ρ < 1，高次项被指数衰减严格惩罚。最优解只能让 w1 = 1，即 h 必须是线性的。

图 2：LeJEPA 理论图示。alignment 拉近正样本对，SIGReg 保持高斯分布防止坍缩，迫使表征学到正确的 World Model。

定理 2（反向）：只有 Gaussian 能做到。在同样的世界类中，Gaussian 是唯一满足线性可辨识性的分布。换成 Laplace、均匀分布或其他分布，保证就不成立。实验中 R² 在 Gaussian 处出现尖锐峰值，两侧断崖式下降。

有趣反转：经典 ICA 中 Gaussian 是唯一无法分离源的分布（旋转不变性）；非线性设定下，Gaussian 恰恰是唯一能被恢复的分布。旋转不变性从 bug 变成了 feature。

定理 3（近似）：当 objectives 未完美满足时，恢复误差有上界 D + (ε+D)²，训练 loss 是可辨识性的可靠代理指标。

定理 4（规划）：线性可辨识 → 最优潜在空间规划。在学到的潜空间中做的任何规划，解码回真实空间后数学上等价于真实潜空间中的规划。

实验验证

从 2D 螺旋到 1024 维 RealNVP 混合：SIGReg 和 VICReg 在 1024 维上保持 R² > 0.999；InfoNCE 在高维因固定核宽退化。

DMC Reacher 上 LeJEPA 线性可辨识性：Gaussian OU 采样 vs RL 策略轨迹。目标导向策略让潜变量坍缩到低熵区域。

OU 采样与 RL 轨迹对比。RL 轨迹受非高斯边际和各向异性影响，R² 显著下降。

工程意义与局限

数据侧：探索策略越接近各向同性随机游走，越容易满足理论假设。目标导向策略会破坏 Gaussian 假设——数据采集方式直接影响表征质量。

目标侧：SIGReg、VICReg、InfoNCE 各有利弊——pair-based 估计器在大规模下对核选择敏感，moment-based 估计器对非 Gaussian 潜变量敏感。

关键局限：编码器维度 = 潜维度假设。m < n 时系统 resort to superposition；m > n 时多余维度需坍缩。所有证明经 Lean 4 形式化验证。

一句话：LeCun 团队把 LeJEPA 从"经验上有效"升级为"数学上有保证"。World Model 不再是玄学，而是定理。