Untitled - PaperDog Blog

TL;DR

RAE（Representation Autoencoder）用预训练视觉编码器替代传统 VAE 做扩散模型的潜空间编码。本文提出 RAEv2，通过三个简洁改进——多层特征聚合、保留 REPA、REPA head 免费提供 guidance——实现了比原版 RAE 快 10 倍的收敛速度，80 epoch 在 ImageNet-256 达到 gFID 1.06（此前最好 800 epoch 才到 3.26），并在文生图和导航世界模型上一致验证有效。

背景与动机

扩散模型的训练管线中，VAE 是一个不可或缺的组件：它将高分辨率图像压缩到低维潜空间，使扩散训练变得可行。但 VAE 需要单独训练，而且它的重建质量直接决定了生成质量的上限——VAE 丢失的信息，扩散模型永远找不回来。

一个自然的想法：既然我们已经有了强大的预训练视觉编码器（DINOv2、DINOv3、SigLIP 等），能不能直接用它们的特征空间作为扩散模型的潜空间？这就是 RAE 的核心思路。好处显而易见——不需要单独训练 VAE，编码器的语义理解能力天然保证潜空间质量。

但原始 RAE 有几个未解决的问题：只用最后一层特征会损失空间细节导致重建质量差；与 REPA（representation alignment）的关系不明确；没法用常规的 classifier-free guidance。RAEv2 系统性地解决了这些问题。

三个核心改进

改进一：广义表示编码器——多层特征聚合

原始 RAE 只取编码器最后一层的输出。但不同层的特征是互补的：浅层保留精细的空间结构，深层捕获全局语义，中间层两者兼顾。

图 15：编码器不同层捕获的特征高度互补。浅层保留空间细节，深层强调全局语义。聚合多层能获得更丰富的表示。

RAEv2 的做法极其简洁：将最后 K 层的特征直接相加。这保持潜空间形状完全不变（N × d），不增加任何可训练参数，也不增加计算开销。作者还尝试了随机矩阵投影（Random-matrix projection）方案——将多层特征在通道维度拼接后用固定随机矩阵投影回原始维度——利用 Johnson-Lindenstrauss 引理保证距离关系的近似保持。

关键发现：冻结的视觉编码器本身就包含了足够的低层细节用于高质量重建，不需要额外的文本数据或人脸数据来训练解码器。K=7（取最后 7 层）时效果最佳，重建和生成同时达到最优。

改进二：RAE 与 REPA 是互补机制，不是替代关系

此前社区的普遍认知是：RAE 已经用了预训练表示做编码器，再用 REPA 把同样的表示蒸馏到扩散模型中间层等于加了一条冗余的 skip connection。但作者的大规模实验给出了相反的结论。

图 4：RAE 并没有消除对 REPA 的需求。将两者结合后，在所有预训练编码器上一致提升了生成质量。

通过在 27 个视觉编码器上的相关性分析，作者发现：

REPA 单独使用时：与生成质量（gFID）的相关性主要由空间结构指标 LDS 驱动（r = -0.89），而全局语义指标 LP 反而负相关（r = +0.34）
RAE 单独使用时：情况完全反转，LP 主导（r = -0.81），LDS 几乎不相关（r = -0.13）
RAE + REPA 联合使用时：LP 和 LDS 的平均值达到最高相关性（r = -0.83），说明两者缺一不可

图 6：相关性分析揭示 RAE 和 REPA 的工作机制互补。RAE 利用全局语义（LP），REPA 正则化空间结构（LDS）。

图 5：REPA 对 RAE 的全局语义几乎没有影响，但显著改善了扩散特征的空间自相似性结构。

这也解释了一个重要现象：为什么 DINOv3-L 这种在全局语义（LP）和空间结构（LDS）两方面都强的编码器，配合 RAEv2 能达到最好的生成效果。

改进三：REPA head 就是 x-prediction，免费获得 guidance

原始 RAE 有个尴尬的问题：没法用常规的 classifier-free guidance（CFG）。实验表明 CFG 甚至会损害性能（Table 1：gFID 从 3.75 涨到 3.86）。因此 RAE 只能用 AutoGuidance——额外训练一个更弱的扩散模型来提供 guidance baseline——增加了计算和工程复杂度。

Guidance 方案	gFID ↓	IS ↑
无 Guidance	3.75	198.7
CFG	3.86	276.4
AutoGuidance (AG)	3.31	219.1

作者的洞察是：在 RAE 中，clean latent 就是编码器的输出 z₀。而 REPA 的预测头做的事，恰好是把扩散模型中间层的特征映射回 z₀——这不就是 x-prediction 吗？因此只需对 DiT 的输出做一个简单的参数重排，REPA head 就能直接提供 guidance，不需要额外的模型或额外的前向传播。

关键实验

ImageNet-256 生成与收敛

图 1：RAEv2 在重建-生成权衡上达到 Pareto 最优（左），收敛速度比原版 RAE 快 10 倍以上（右）。

RAEv2 的核心数据一览：

方法	训练 Epoch	τ (达到 gFID=4)	最终 gFID ↓	FDr ↓
SiT-XL/2	800	800	8.44	17.69
DDT-XL	800	—	5.70	13.86
LightningDiT	800	800	4.57	10.21
REPA-E	800	480	3.04	6.28
RAE-XL	800	177	3.26	7.87
RAEv2 (ours)	80	35	2.17	5.21

训练效率新指标 τ：作者提出用 τ（达到无 guidance gFID=4 所需的 epoch 数）衡量训练效率。RAEv2 的 τ=35，而原版 RAE τ=177——训练效率提升 5 倍。在绝对 gFID 差距越来越小的今天，τ 是更有区分度的指标。

消融实验

图 7：K 值消融实验。K=7 时生成（有 guidance）和重建同时达到最优。

多层聚合的 K 值消融显示：重建质量随 K 单调提升，而生成质量在有 guidance 时在 K=7 达到最优。使用 DINOv3-L（K=7, 23 层中的最后 7 层），仅 80 epoch 训练，RAEv2 在 PSNR、SSIM、LPIPS 上与需要 800 epoch 训练的方法持平甚至更优。

图 8：收敛速度对比。在 DINOv2-B、DINOv3-B/L、EUPE-B 等多个编码器上，RAEv2 一致更快收敛。

重建-生成权衡

图 9：重建-生成权衡曲线。RAEv2 达到 Pareto 最优，不需要 encoder finetuning 或额外的训练数据。

泛化到其他任务

RAEv2 在文生图和导航世界模型上同样展现了改进效果：

任务	指标	基线方法	RAE	RAEv2
文生图 (预训练)	GenEval ↑	Flux-VAE: 41.7	58.4	62.4
文生图 (微调)	GenEval ↑	Flux-VAE: 78.3	81.5	82.7
导航世界模型	FVD ↓	NWM: 200.97	312.01	105.61

值得注意的是，在导航世界模型（action-conditioned future-frame prediction）中，RAEv2 的 FVD=105.61 比 NWM 的 200.97 低了近一半，而且收敛速度也快 3 倍——30K 迭代就匹配了 RAE 的最终 FID，收敛到更低的 7.5（vs 18.0）。

局限性与讨论

RAEv2 目前主要在 256×256 分辨率上验证，高分辨率的 scaling 行为尚未探索。此外，虽然多层特征聚合效果好，但理论上对层的选取策略还缺乏更深层的解释——为什么 K=7 最优而非其他值？此外 REPA head 做 guidance 虽然免费，但在不同编码器和模型规模下的鲁棒性还需要进一步验证。

作者在附录中提到使用了 LLM 辅助代码编写，这在当前 AI 辅助科研的趋势下越来越常见，值得注意但不是方法论的核心。

总结与评价

RAEv2 是那种"事后看很自然，但需要系统性实验才能发现"的工作。三个改进——多层特征相加、保留 REPA、REPA head 做 guidance——每一个都不复杂，但组合起来效果惊人：10 倍收敛加速 + SOTA 生成质量 + 更好的重建。

对于正在用预训练视觉编码器做扩散模型潜空间的工程实践来说，RAEv2 提供了一个强到离谱的基线。特别是训练效率指标 τ 的提出，在 gFID 差距越来越小的今天，确实比绝对指标更有实际参考价值。

这篇论文的核心价值不在于提出了什么全新范式，而在于：用扎实的实验澄清了社区中的错误假设（RAE 替代 REPA），并用最简洁的方式（加法！）解锁了冻结编码器中被忽视的多层信息。