Back to Blog Untitled

Untitled

Paper

TL;DR

RAE(Representation Autoencoder)用预训练视觉编码器替代传统 VAE 做扩散模型的潜空间编码。本文提出 RAEv2,通过三个简洁改进——多层特征聚合、保留 REPA、REPA head 免费提供 guidance——实现了比原版 RAE 快 10 倍的收敛速度,80 epoch 在 ImageNet-256 达到 gFID 1.06(此前最好 800 epoch 才到 3.26),并在文生图和导航世界模型上一致验证有效。

背景与动机

扩散模型的训练管线中,VAE 是一个不可或缺的组件:它将高分辨率图像压缩到低维潜空间,使扩散训练变得可行。但 VAE 需要单独训练,而且它的重建质量直接决定了生成质量的上限——VAE 丢失的信息,扩散模型永远找不回来。

一个自然的想法:既然我们已经有了强大的预训练视觉编码器(DINOv2、DINOv3、SigLIP 等),能不能直接用它们的特征空间作为扩散模型的潜空间?这就是 RAE 的核心思路。好处显而易见——不需要单独训练 VAE,编码器的语义理解能力天然保证潜空间质量。

但原始 RAE 有几个未解决的问题:只用最后一层特征会损失空间细节导致重建质量差;与 REPA(representation alignment)的关系不明确;没法用常规的 classifier-free guidance。RAEv2 系统性地解决了这些问题。

三个核心改进

改进一:广义表示编码器——多层特征聚合

原始 RAE 只取编码器最后一层的输出。但不同层的特征是互补的:浅层保留精细的空间结构,深层捕获全局语义,中间层两者兼顾。

Figure 15
图 15:编码器不同层捕获的特征高度互补。浅层保留空间细节,深层强调全局语义。聚合多层能获得更丰富的表示。

RAEv2 的做法极其简洁:将最后 K 层的特征直接相加。这保持潜空间形状完全不变(N × d),不增加任何可训练参数,也不增加计算开销。作者还尝试了随机矩阵投影(Random-matrix projection)方案——将多层特征在通道维度拼接后用固定随机矩阵投影回原始维度——利用 Johnson-Lindenstrauss 引理保证距离关系的近似保持。

关键发现:冻结的视觉编码器本身就包含了足够的低层细节用于高质量重建,不需要额外的文本数据或人脸数据来训练解码器。K=7(取最后 7 层)时效果最佳,重建和生成同时达到最优。

改进二:RAE 与 REPA 是互补机制,不是替代关系

此前社区的普遍认知是:RAE 已经用了预训练表示做编码器,再用 REPA 把同样的表示蒸馏到扩散模型中间层等于加了一条冗余的 skip connection。但作者的大规模实验给出了相反的结论。

Figure 4
图 4:RAE 并没有消除对 REPA 的需求。将两者结合后,在所有预训练编码器上一致提升了生成质量。

通过在 27 个视觉编码器上的相关性分析,作者发现:

  • REPA 单独使用时:与生成质量(gFID)的相关性主要由空间结构指标 LDS 驱动(r = -0.89),而全局语义指标 LP 反而负相关(r = +0.34)
  • RAE 单独使用时:情况完全反转,LP 主导(r = -0.81),LDS 几乎不相关(r = -0.13)
  • RAE + REPA 联合使用时:LP 和 LDS 的平均值达到最高相关性(r = -0.83),说明两者缺一不可
Figure 6
图 6:相关性分析揭示 RAE 和 REPA 的工作机制互补。RAE 利用全局语义(LP),REPA 正则化空间结构(LDS)。
Figure 5
图 5:REPA 对 RAE 的全局语义几乎没有影响,但显著改善了扩散特征的空间自相似性结构。

这也解释了一个重要现象:为什么 DINOv3-L 这种在全局语义(LP)和空间结构(LDS)两方面都强的编码器,配合 RAEv2 能达到最好的生成效果。

改进三:REPA head 就是 x-prediction,免费获得 guidance

原始 RAE 有个尴尬的问题:没法用常规的 classifier-free guidance(CFG)。实验表明 CFG 甚至会损害性能(Table 1:gFID 从 3.75 涨到 3.86)。因此 RAE 只能用 AutoGuidance——额外训练一个更弱的扩散模型来提供 guidance baseline——增加了计算和工程复杂度。

Guidance 方案gFID ↓IS ↑
无 Guidance3.75198.7
CFG3.86276.4
AutoGuidance (AG)3.31219.1

作者的洞察是:在 RAE 中,clean latent 就是编码器的输出 z₀。而 REPA 的预测头做的事,恰好是把扩散模型中间层的特征映射回 z₀——这不就是 x-prediction 吗?因此只需对 DiT 的输出做一个简单的参数重排,REPA head 就能直接提供 guidance,不需要额外的模型或额外的前向传播。

关键实验

ImageNet-256 生成与收敛

Figure 1
图 1:RAEv2 在重建-生成权衡上达到 Pareto 最优(左),收敛速度比原版 RAE 快 10 倍以上(右)。

RAEv2 的核心数据一览:

方法训练 Epochτ (达到 gFID=4)最终 gFID ↓FDr ↓
SiT-XL/28008008.4417.69
DDT-XL8005.7013.86
LightningDiT8008004.5710.21
REPA-E8004803.046.28
RAE-XL8001773.267.87
RAEv2 (ours)80352.175.21
训练效率新指标 τ:作者提出用 τ(达到无 guidance gFID=4 所需的 epoch 数)衡量训练效率。RAEv2 的 τ=35,而原版 RAE τ=177——训练效率提升 5 倍。在绝对 gFID 差距越来越小的今天,τ 是更有区分度的指标。

消融实验

Figure 7
图 7:K 值消融实验。K=7 时生成(有 guidance)和重建同时达到最优。

多层聚合的 K 值消融显示:重建质量随 K 单调提升,而生成质量在有 guidance 时在 K=7 达到最优。使用 DINOv3-L(K=7, 23 层中的最后 7 层),仅 80 epoch 训练,RAEv2 在 PSNR、SSIM、LPIPS 上与需要 800 epoch 训练的方法持平甚至更优。

Figure 8
图 8:收敛速度对比。在 DINOv2-B、DINOv3-B/L、EUPE-B 等多个编码器上,RAEv2 一致更快收敛。

重建-生成权衡

Figure 9
图 9:重建-生成权衡曲线。RAEv2 达到 Pareto 最优,不需要 encoder finetuning 或额外的训练数据。

泛化到其他任务

RAEv2 在文生图和导航世界模型上同样展现了改进效果:

任务指标基线方法RAERAEv2
文生图 (预训练)GenEval ↑Flux-VAE: 41.758.462.4
文生图 (微调)GenEval ↑Flux-VAE: 78.381.582.7
导航世界模型FVD ↓NWM: 200.97312.01105.61

值得注意的是,在导航世界模型(action-conditioned future-frame prediction)中,RAEv2 的 FVD=105.61 比 NWM 的 200.97 低了近一半,而且收敛速度也快 3 倍——30K 迭代就匹配了 RAE 的最终 FID,收敛到更低的 7.5(vs 18.0)。

局限性与讨论

RAEv2 目前主要在 256×256 分辨率上验证,高分辨率的 scaling 行为尚未探索。此外,虽然多层特征聚合效果好,但理论上对层的选取策略还缺乏更深层的解释——为什么 K=7 最优而非其他值?此外 REPA head 做 guidance 虽然免费,但在不同编码器和模型规模下的鲁棒性还需要进一步验证。

作者在附录中提到使用了 LLM 辅助代码编写,这在当前 AI 辅助科研的趋势下越来越常见,值得注意但不是方法论的核心。

总结与评价

RAEv2 是那种"事后看很自然,但需要系统性实验才能发现"的工作。三个改进——多层特征相加、保留 REPA、REPA head 做 guidance——每一个都不复杂,但组合起来效果惊人:10 倍收敛加速 + SOTA 生成质量 + 更好的重建。

对于正在用预训练视觉编码器做扩散模型潜空间的工程实践来说,RAEv2 提供了一个强到离谱的基线。特别是训练效率指标 τ 的提出,在 gFID 差距越来越小的今天,确实比绝对指标更有实际参考价值。

这篇论文的核心价值不在于提出了什么全新范式,而在于:用扎实的实验澄清了社区中的错误假设(RAE 替代 REPA),并用最简洁的方式(加法!)解锁了冻结编码器中被忽视的多层信息。

Tags: #Jaskirat Singh, Boyang Zheng, Zongze Wu, Richard Zhang, Eli Shechtman, Saining Xie#Adobe Research & ANU & NYU#2026.05