Back to Blog LeJEPA 何时学到 World Model?JEPAs 的首个可辨识性理论

LeJEPA 何时学到 World Model?JEPAs 的首个可辨识性理论

Paper
arXiv:2605.26379 · David Klindt, Yann LeCun, Randall Balestriero · 2026-05-25
论文原文 → · 代码与 Lean 4 证明 →
核心结论:LeJEPA(alignment + SIGReg 高斯正则化)在潜变量服从高斯分布时,必然线性恢复世界潜变量的旋转——即 h(z) = Qz。且高斯是唯一满足此条件的分布。World Model 从经验配方升级为数学定理。

World Model 的数学定义

自监督学习的终极问题:模型学到的表征,究竟是忠实的世界结构映射,还是碰巧在某些 benchmark 上表现好的巧合?

这篇论文给出了精确回答。核心概念是线性可辨识性(Linear Identifiability)——如果学到的表征 h(z) 能恢复真实潜变量 z 的旋转,即 h(z) = Qz,Q 是正交矩阵,那这个表征就是一个可用的 World Model。这不是什么新发明,而是线性探针(linear probing)背后的隐含假设:每次你用线性探针评估表征质量,本质上就是在问"这个表征是否线性可辨识"。

LeJEPA learns the World Model
图 1:LeJEPA 学到 World Model。世界有独立高斯潜变量(左),未知非线性过程搅混为观测数据(中),LeJEPA 恢复潜变量至旋转等价(右)。

四个定理,层层递进

论文在"独立、平稳、加性噪声"的广泛世界类上,证明了四个结果:

定理 1(正向):Gaussian 世界 → 线性可辨识。当潜变量服从 N(0, I),LeJEPA 的全局最优解必然是真实潜变量的旋转。不是近似,不是渐近,而是精确的。

证明的关键是一个优雅的谱分解。对于高斯潜变量,转移算子的特征函数是 Hermite 多项式。任何非线性函数 h 的相关性恰好是 w1·ρ + w2·ρ² + w3·ρ³ + …,其中 ρ∈(0,1) 是视图间相关性。由于 ρ < 1,高次项被指数衰减严格惩罚。最优解只能让 w1 = 1,即 h 必须是线性的。

LeJEPA Theory Illustration
图 2:LeJEPA 理论图示。alignment 拉近正样本对,SIGReg 保持高斯分布防止坍缩,迫使表征学到正确的 World Model。

定理 2(反向):只有 Gaussian 能做到。在同样的世界类中,Gaussian 是唯一满足线性可辨识性的分布。换成 Laplace、均匀分布或其他分布,保证就不成立。实验中 R² 在 Gaussian 处出现尖锐峰值,两侧断崖式下降。

有趣反转:经典 ICA 中 Gaussian 是唯一无法分离源的分布(旋转不变性);非线性设定下,Gaussian 恰恰是唯一能被恢复的分布。旋转不变性从 bug 变成了 feature。

定理 3(近似):当 objectives 未完美满足时,恢复误差有上界 D + (ε+D)²,训练 loss 是可辨识性的可靠代理指标。

定理 4(规划):线性可辨识 → 最优潜在空间规划。在学到的潜空间中做的任何规划,解码回真实空间后数学上等价于真实潜空间中的规划。

实验验证

从 2D 螺旋到 1024 维 RealNVP 混合:SIGReg 和 VICReg 在 1024 维上保持 R² > 0.999;InfoNCE 在高维因固定核宽退化。

Reacher R2 vs rho
DMC Reacher 上 LeJEPA 线性可辨识性:Gaussian OU 采样 vs RL 策略轨迹。目标导向策略让潜变量坍缩到低熵区域。
OU vs Trajectory
OU 采样与 RL 轨迹对比。RL 轨迹受非高斯边际和各向异性影响,R² 显著下降。

工程意义与局限

数据侧:探索策略越接近各向同性随机游走,越容易满足理论假设。目标导向策略会破坏 Gaussian 假设——数据采集方式直接影响表征质量。

目标侧:SIGReg、VICReg、InfoNCE 各有利弊——pair-based 估计器在大规模下对核选择敏感,moment-based 估计器对非 Gaussian 潜变量敏感。

关键局限:编码器维度 = 潜维度假设。m < n 时系统 resort to superposition;m > n 时多余维度需坍缩。所有证明经 Lean 4 形式化验证。

一句话:LeCun 团队把 LeJEPA 从"经验上有效"升级为"数学上有保证"。World Model 不再是玄学,而是定理。
Tags: #Blog