World Model 的数学定义
自监督学习的终极问题:模型学到的表征,究竟是忠实的世界结构映射,还是碰巧在某些 benchmark 上表现好的巧合?
这篇论文给出了精确回答。核心概念是线性可辨识性(Linear Identifiability)——如果学到的表征 h(z) 能恢复真实潜变量 z 的旋转,即 h(z) = Qz,Q 是正交矩阵,那这个表征就是一个可用的 World Model。这不是什么新发明,而是线性探针(linear probing)背后的隐含假设:每次你用线性探针评估表征质量,本质上就是在问"这个表征是否线性可辨识"。
四个定理,层层递进
论文在"独立、平稳、加性噪声"的广泛世界类上,证明了四个结果:
定理 1(正向):Gaussian 世界 → 线性可辨识。当潜变量服从 N(0, I),LeJEPA 的全局最优解必然是真实潜变量的旋转。不是近似,不是渐近,而是精确的。
证明的关键是一个优雅的谱分解。对于高斯潜变量,转移算子的特征函数是 Hermite 多项式。任何非线性函数 h 的相关性恰好是 w1·ρ + w2·ρ² + w3·ρ³ + …,其中 ρ∈(0,1) 是视图间相关性。由于 ρ < 1,高次项被指数衰减严格惩罚。最优解只能让 w1 = 1,即 h 必须是线性的。
定理 2(反向):只有 Gaussian 能做到。在同样的世界类中,Gaussian 是唯一满足线性可辨识性的分布。换成 Laplace、均匀分布或其他分布,保证就不成立。实验中 R² 在 Gaussian 处出现尖锐峰值,两侧断崖式下降。
有趣反转:经典 ICA 中 Gaussian 是唯一无法分离源的分布(旋转不变性);非线性设定下,Gaussian 恰恰是唯一能被恢复的分布。旋转不变性从 bug 变成了 feature。
定理 3(近似):当 objectives 未完美满足时,恢复误差有上界 D + (ε+D)²,训练 loss 是可辨识性的可靠代理指标。
定理 4(规划):线性可辨识 → 最优潜在空间规划。在学到的潜空间中做的任何规划,解码回真实空间后数学上等价于真实潜空间中的规划。
实验验证
从 2D 螺旋到 1024 维 RealNVP 混合:SIGReg 和 VICReg 在 1024 维上保持 R² > 0.999;InfoNCE 在高维因固定核宽退化。
工程意义与局限
数据侧:探索策略越接近各向同性随机游走,越容易满足理论假设。目标导向策略会破坏 Gaussian 假设——数据采集方式直接影响表征质量。
目标侧:SIGReg、VICReg、InfoNCE 各有利弊——pair-based 估计器在大规模下对核选择敏感,moment-based 估计器对非 Gaussian 潜变量敏感。
关键局限:编码器维度 = 潜维度假设。m < n 时系统 resort to superposition;m > n 时多余维度需坍缩。所有证明经 Lean 4 形式化验证。