不用语言推理,直接用图像序列做规划——ICLR 2026
核心论点:对于空间/几何类任务,语言不是推理的最佳媒介。将视觉信息压缩为文字会引入不可逆的信息损失。直接在视觉模态内生成规划轨迹,可以大幅超越传统文本推理方法。
三种推理范式对比
图:Direct Prompting → Multimodal CoT → Visual Planning,推理从语言逐步走向纯视觉
语言 CoT
72% → 38.8%
Gemini 2.5 Pro,3×3→6×6 网格,性能暴跌
Visual Planning (VPRL)
97.6% → 82.4%
同条件下性能下降平缓,鲁棒性强
VPRL:两阶段强化学习
图:VPRL 框架——用 GRPO 在视觉 token 空间做策略优化
Stage 1:随机轨迹监督初始化
在环境中随机行走收集轨迹。关键:给一个历史前缀时,从所有合法下一步中随机采样(非 teacher-forcing),保证 exploration 能力。Entropy 维持高位,无效动作比例低。
Stage 2:GRPO 强化学习
基于 Stage 1 初始化的模型,采样 G 个候选下一帧,用 progress reward 打分。通过组内相对优势(GRPO)更新策略,不依赖 learned critic。
Progress Reward 设计
最优动作
+1
缩短到目标距离
非最优但合法
0
未缩短距离
非法动作
-5
穿墙/进入禁区
实验结果
| 方法 | 输入→输出 | FrozenLake EM | Maze EM | MiniBehavior EM |
|---|---|---|---|---|
| Gemini 2.5 Pro (think) | 图+文→文 | 72.0% | 8.3% | 0.7% |
| Gemini 2.0 Flash CoT | 图+文→文 | 27.6% | 6.9% | 4.0% |
| Qwen 2.5-VL CoT | 图+文→文 | 8.2% | 2.3% | 0.5% |
| Qwen 2.5-VL SFT | 图+文→文 | 68.6% | 60.9% | 14.7% |
| VPFT (视觉 SFT) | 图→图 | 75.4% | 59.0% | 33.8% |
| VPRL (视觉 RL) | 图→图 | 91.6% | 74.5% | 75.8% |
🔑 关键发现
模态差距是核心瓶颈:文本 SFT 在 MiniBehavior 上仅 14.7%,纯视觉 SFT 就达 33.8%。文本 grounding 的信息损失(25.7% 坐标错误、22.3% ASCII 错误)严重制约了推理质量。
RL 在视觉模态有效,在文本模态无效:文本规划做 GRPO 无法超越 SFT baseline,视觉规划做 GRPO 则大幅提升(+20%)。
极端案例:Gemini 2.5 Pro 在有解的 5×7 FrozenLake 上生成 7000+ thinking tokens 后得出"无解"——语言推理在空间问题上的脆弱性暴露无遗。
RL 在视觉模态有效,在文本模态无效:文本规划做 GRPO 无法超越 SFT baseline,视觉规划做 GRPO 则大幅提升(+20%)。
极端案例:Gemini 2.5 Pro 在有解的 5×7 FrozenLake 上生成 7000+ thinking tokens 后得出"无解"——语言推理在空间问题上的脆弱性暴露无遗。
视觉规划轨迹示例
图:三个任务的视觉规划轨迹——最优动作(绿)、非最优动作(橙)、非法动作(红)
图:5×7 FrozenLake 对比——VPRL 能绕路避开障碍,VPFT 则容易卡住
复杂度鲁棒性
图:FrozenLake 网格尺寸增大时,语言方法性能暴跌,视觉规划保持平缓下降
图:VPFT 的 entropy 迅速归零(探索崩溃),Stage 1 保持高 entropy 低无效率
为什么 Stage 1 不能用 SFT 模型?
SFT 通过 teacher-forcing 训练,会反复生成相似的动作序列 → 候选帧奖励相同 → 相对优势为零 → GRPO 无法更新策略。Stage 1 的随机轨迹采样让模型保持探索性,entropy 接近均匀分布。
SFT 通过 teacher-forcing 训练,会反复生成相似的动作序列 → 候选帧奖励相同 → 相对优势为零 → GRPO 无法更新策略。Stage 1 的随机轨迹采样让模型保持探索性,entropy 接近均匀分布。
深层启示:语言不是推理的唯一通道。对于空间、几何、拓扑等"视觉原生"问题,纯视觉规划可以规避模态转换带来的信息损失,开辟 AI 推理的新路径。局限性在于当前仅验证了网格化环境,dynamics interpreter 依赖规则系统,但核心论点极具启发性。