Back to Blog Visual Planning: Let's Think Only with Images

Visual Planning: Let's Think Only with Images

Paper

不用语言推理,直接用图像序列做规划——ICLR 2026

2505.11409v3  |  ICLR 2026  |  Yi Xu, Xunyu Zhu, Zhuo Qiu 等
arxiv.org/abs/2505.11409
核心论点:对于空间/几何类任务,语言不是推理的最佳媒介。将视觉信息压缩为文字会引入不可逆的信息损失。直接在视觉模态内生成规划轨迹,可以大幅超越传统文本推理方法。

三种推理范式对比

Paradigm comparison
图:Direct Prompting → Multimodal CoT → Visual Planning,推理从语言逐步走向纯视觉
语言 CoT
72% → 38.8%
Gemini 2.5 Pro,3×3→6×6 网格,性能暴跌
Visual Planning (VPRL)
97.6% → 82.4%
同条件下性能下降平缓,鲁棒性强

VPRL:两阶段强化学习

VPRL framework
图:VPRL 框架——用 GRPO 在视觉 token 空间做策略优化
Stage 1:随机轨迹监督初始化
在环境中随机行走收集轨迹。关键:给一个历史前缀时,从所有合法下一步中随机采样(非 teacher-forcing),保证 exploration 能力。Entropy 维持高位,无效动作比例低。
Stage 2:GRPO 强化学习
基于 Stage 1 初始化的模型,采样 G 个候选下一帧,用 progress reward 打分。通过组内相对优势(GRPO)更新策略,不依赖 learned critic。

Progress Reward 设计

最优动作
+1
缩短到目标距离
非最优但合法
0
未缩短距离
非法动作
-5
穿墙/进入禁区

实验结果

方法输入→输出FrozenLake EMMaze EMMiniBehavior EM
Gemini 2.5 Pro (think)图+文→文72.0%8.3%0.7%
Gemini 2.0 Flash CoT图+文→文27.6%6.9%4.0%
Qwen 2.5-VL CoT图+文→文8.2%2.3%0.5%
Qwen 2.5-VL SFT图+文→文68.6%60.9%14.7%
VPFT (视觉 SFT)图→图75.4%59.0%33.8%
VPRL (视觉 RL)图→图91.6%74.5%75.8%
🔑 关键发现
模态差距是核心瓶颈:文本 SFT 在 MiniBehavior 上仅 14.7%,纯视觉 SFT 就达 33.8%。文本 grounding 的信息损失(25.7% 坐标错误、22.3% ASCII 错误)严重制约了推理质量。

RL 在视觉模态有效,在文本模态无效:文本规划做 GRPO 无法超越 SFT baseline,视觉规划做 GRPO 则大幅提升(+20%)。

极端案例:Gemini 2.5 Pro 在有解的 5×7 FrozenLake 上生成 7000+ thinking tokens 后得出"无解"——语言推理在空间问题上的脆弱性暴露无遗。

视觉规划轨迹示例

Visual planning traces
图:三个任务的视觉规划轨迹——最优动作(绿)、非最优动作(橙)、非法动作(红)
Case study
图:5×7 FrozenLake 对比——VPRL 能绕路避开障碍,VPFT 则容易卡住

复杂度鲁棒性

Scaling comparison
图:FrozenLake 网格尺寸增大时,语言方法性能暴跌,视觉规划保持平缓下降
Entropy analysis
图:VPFT 的 entropy 迅速归零(探索崩溃),Stage 1 保持高 entropy 低无效率
为什么 Stage 1 不能用 SFT 模型?
SFT 通过 teacher-forcing 训练,会反复生成相似的动作序列 → 候选帧奖励相同 → 相对优势为零 → GRPO 无法更新策略。Stage 1 的随机轨迹采样让模型保持探索性,entropy 接近均匀分布。
深层启示:语言不是推理的唯一通道。对于空间、几何、拓扑等"视觉原生"问题,纯视觉规划可以规避模态转换带来的信息损失,开辟 AI 推理的新路径。局限性在于当前仅验证了网格化环境,dynamics interpreter 依赖规则系统,但核心论点极具启发性。
Tags: #Blog