TL;DR
RAE(Representation Autoencoder)用预训练视觉编码器替代传统 VAE 做扩散模型的潜空间编码。本文提出 RAEv2,通过三个简洁改进——多层特征聚合、保留 REPA、REPA head 免费提供 guidance——实现了比原版 RAE 快 10 倍的收敛速度,80 epoch 在 ImageNet-256 达到 gFID 1.06(此前最好 800 epoch 才到 3.26),并在文生图和导航世界模型上一致验证有效。
背景与动机
扩散模型的训练管线中,VAE 是一个不可或缺的组件:它将高分辨率图像压缩到低维潜空间,使扩散训练变得可行。但 VAE 需要单独训练,而且它的重建质量直接决定了生成质量的上限——VAE 丢失的信息,扩散模型永远找不回来。
一个自然的想法:既然我们已经有了强大的预训练视觉编码器(DINOv2、DINOv3、SigLIP 等),能不能直接用它们的特征空间作为扩散模型的潜空间?这就是 RAE 的核心思路。好处显而易见——不需要单独训练 VAE,编码器的语义理解能力天然保证潜空间质量。
但原始 RAE 有几个未解决的问题:只用最后一层特征会损失空间细节导致重建质量差;与 REPA(representation alignment)的关系不明确;没法用常规的 classifier-free guidance。RAEv2 系统性地解决了这些问题。
三个核心改进
改进一:广义表示编码器——多层特征聚合
原始 RAE 只取编码器最后一层的输出。但不同层的特征是互补的:浅层保留精细的空间结构,深层捕获全局语义,中间层两者兼顾。
RAEv2 的做法极其简洁:将最后 K 层的特征直接相加。这保持潜空间形状完全不变(N × d),不增加任何可训练参数,也不增加计算开销。作者还尝试了随机矩阵投影(Random-matrix projection)方案——将多层特征在通道维度拼接后用固定随机矩阵投影回原始维度——利用 Johnson-Lindenstrauss 引理保证距离关系的近似保持。
改进二:RAE 与 REPA 是互补机制,不是替代关系
此前社区的普遍认知是:RAE 已经用了预训练表示做编码器,再用 REPA 把同样的表示蒸馏到扩散模型中间层等于加了一条冗余的 skip connection。但作者的大规模实验给出了相反的结论。
通过在 27 个视觉编码器上的相关性分析,作者发现:
- REPA 单独使用时:与生成质量(gFID)的相关性主要由空间结构指标 LDS 驱动(r = -0.89),而全局语义指标 LP 反而负相关(r = +0.34)
- RAE 单独使用时:情况完全反转,LP 主导(r = -0.81),LDS 几乎不相关(r = -0.13)
- RAE + REPA 联合使用时:LP 和 LDS 的平均值达到最高相关性(r = -0.83),说明两者缺一不可
这也解释了一个重要现象:为什么 DINOv3-L 这种在全局语义(LP)和空间结构(LDS)两方面都强的编码器,配合 RAEv2 能达到最好的生成效果。
改进三:REPA head 就是 x-prediction,免费获得 guidance
原始 RAE 有个尴尬的问题:没法用常规的 classifier-free guidance(CFG)。实验表明 CFG 甚至会损害性能(Table 1:gFID 从 3.75 涨到 3.86)。因此 RAE 只能用 AutoGuidance——额外训练一个更弱的扩散模型来提供 guidance baseline——增加了计算和工程复杂度。
| Guidance 方案 | gFID ↓ | IS ↑ |
|---|---|---|
| 无 Guidance | 3.75 | 198.7 |
| CFG | 3.86 | 276.4 |
| AutoGuidance (AG) | 3.31 | 219.1 |
作者的洞察是:在 RAE 中,clean latent 就是编码器的输出 z₀。而 REPA 的预测头做的事,恰好是把扩散模型中间层的特征映射回 z₀——这不就是 x-prediction 吗?因此只需对 DiT 的输出做一个简单的参数重排,REPA head 就能直接提供 guidance,不需要额外的模型或额外的前向传播。
关键实验
ImageNet-256 生成与收敛
RAEv2 的核心数据一览:
| 方法 | 训练 Epoch | τ (达到 gFID=4) | 最终 gFID ↓ | FDr ↓ |
|---|---|---|---|---|
| SiT-XL/2 | 800 | 800 | 8.44 | 17.69 |
| DDT-XL | 800 | — | 5.70 | 13.86 |
| LightningDiT | 800 | 800 | 4.57 | 10.21 |
| REPA-E | 800 | 480 | 3.04 | 6.28 |
| RAE-XL | 800 | 177 | 3.26 | 7.87 |
| RAEv2 (ours) | 80 | 35 | 2.17 | 5.21 |
消融实验
多层聚合的 K 值消融显示:重建质量随 K 单调提升,而生成质量在有 guidance 时在 K=7 达到最优。使用 DINOv3-L(K=7, 23 层中的最后 7 层),仅 80 epoch 训练,RAEv2 在 PSNR、SSIM、LPIPS 上与需要 800 epoch 训练的方法持平甚至更优。
重建-生成权衡
泛化到其他任务
RAEv2 在文生图和导航世界模型上同样展现了改进效果:
| 任务 | 指标 | 基线方法 | RAE | RAEv2 |
|---|---|---|---|---|
| 文生图 (预训练) | GenEval ↑ | Flux-VAE: 41.7 | 58.4 | 62.4 |
| 文生图 (微调) | GenEval ↑ | Flux-VAE: 78.3 | 81.5 | 82.7 |
| 导航世界模型 | FVD ↓ | NWM: 200.97 | 312.01 | 105.61 |
值得注意的是,在导航世界模型(action-conditioned future-frame prediction)中,RAEv2 的 FVD=105.61 比 NWM 的 200.97 低了近一半,而且收敛速度也快 3 倍——30K 迭代就匹配了 RAE 的最终 FID,收敛到更低的 7.5(vs 18.0)。
局限性与讨论
RAEv2 目前主要在 256×256 分辨率上验证,高分辨率的 scaling 行为尚未探索。此外,虽然多层特征聚合效果好,但理论上对层的选取策略还缺乏更深层的解释——为什么 K=7 最优而非其他值?此外 REPA head 做 guidance 虽然免费,但在不同编码器和模型规模下的鲁棒性还需要进一步验证。
作者在附录中提到使用了 LLM 辅助代码编写,这在当前 AI 辅助科研的趋势下越来越常见,值得注意但不是方法论的核心。
总结与评价
RAEv2 是那种"事后看很自然,但需要系统性实验才能发现"的工作。三个改进——多层特征相加、保留 REPA、REPA head 做 guidance——每一个都不复杂,但组合起来效果惊人:10 倍收敛加速 + SOTA 生成质量 + 更好的重建。
对于正在用预训练视觉编码器做扩散模型潜空间的工程实践来说,RAEv2 提供了一个强到离谱的基线。特别是训练效率指标 τ 的提出,在 gFID 差距越来越小的今天,确实比绝对指标更有实际参考价值。
这篇论文的核心价值不在于提出了什么全新范式,而在于:用扎实的实验澄清了社区中的错误假设(RAE 替代 REPA),并用最简洁的方式(加法!)解锁了冻结编码器中被忽视的多层信息。