Visual Planning: Let's Think Only with Images

  核心论点：对于空间/几何类任务，语言不是推理的最佳媒介。将视觉信息压缩为文字会引入不可逆的信息损失。直接在视觉模态内生成规划轨迹，可以大幅超越传统文本推理方法。

三种推理范式对比

图：Direct Prompting → Multimodal CoT → Visual Planning，推理从语言逐步走向纯视觉

语言 CoT

72% → 38.8%

Gemini 2.5 Pro，3×3→6×6 网格，性能暴跌

Visual Planning (VPRL)

97.6% → 82.4%

同条件下性能下降平缓，鲁棒性强

VPRL：两阶段强化学习

图：VPRL 框架——用 GRPO 在视觉 token 空间做策略优化

Stage 1：随机轨迹监督初始化

在环境中随机行走收集轨迹。关键：给一个历史前缀时，从所有合法下一步中随机采样（非 teacher-forcing），保证 exploration 能力。Entropy 维持高位，无效动作比例低。

Stage 2：GRPO 强化学习

基于 Stage 1 初始化的模型，采样 G 个候选下一帧，用 progress reward 打分。通过组内相对优势（GRPO）更新策略，不依赖 learned critic。

Progress Reward 设计

最优动作

缩短到目标距离

非最优但合法

未缩短距离

非法动作

-5

穿墙/进入禁区

实验结果

方法	输入→输出	FrozenLake EM	Maze EM	MiniBehavior EM
Gemini 2.5 Pro (think)	图+文→文	72.0%	8.3%	0.7%
Gemini 2.0 Flash CoT	图+文→文	27.6%	6.9%	4.0%
Qwen 2.5-VL CoT	图+文→文	8.2%	2.3%	0.5%
Qwen 2.5-VL SFT	图+文→文	68.6%	60.9%	14.7%
VPFT (视觉 SFT)	图→图	75.4%	59.0%	33.8%
VPRL (视觉 RL)	图→图	91.6%	74.5%	75.8%

🔑 关键发现

模态差距是核心瓶颈：文本 SFT 在 MiniBehavior 上仅 14.7%，纯视觉 SFT 就达 33.8%。文本 grounding 的信息损失（25.7% 坐标错误、22.3% ASCII 错误）严重制约了推理质量。

RL 在视觉模态有效，在文本模态无效：文本规划做 GRPO 无法超越 SFT baseline，视觉规划做 GRPO 则大幅提升（+20%）。

极端案例：Gemini 2.5 Pro 在有解的 5×7 FrozenLake 上生成 7000+ thinking tokens 后得出"无解"——语言推理在空间问题上的脆弱性暴露无遗。

视觉规划轨迹示例

图：三个任务的视觉规划轨迹——最优动作（绿）、非最优动作（橙）、非法动作（红）

图：5×7 FrozenLake 对比——VPRL 能绕路避开障碍，VPFT 则容易卡住

复杂度鲁棒性

图：FrozenLake 网格尺寸增大时，语言方法性能暴跌，视觉规划保持平缓下降

图：VPFT 的 entropy 迅速归零（探索崩溃），Stage 1 保持高 entropy 低无效率

为什么 Stage 1 不能用 SFT 模型？
SFT 通过 teacher-forcing 训练，会反复生成相似的动作序列 → 候选帧奖励相同 → 相对优势为零 → GRPO 无法更新策略。Stage 1 的随机轨迹采样让模型保持探索性，entropy 接近均匀分布。

  深层启示：语言不是推理的唯一通道。对于空间、几何、拓扑等"视觉原生"问题，纯视觉规划可以规避模态转换带来的信息损失，开辟 AI 推理的新路径。局限性在于当前仅验证了网格化环境，dynamics interpreter 依赖规则系统，但核心论点极具启发性。