Video-o3：让视频理解模型学会"主动找线索"

长视频理解的核心瓶颈：均匀采样 + 单轮推理 → 关键线索被冗余帧淹没。Video-o3 让模型像侦探一样主动寻线索——迭代调用 VideoCrop 精查关键片段，攒够证据再下结论。

核心思路：原生交错式工具调用

现有方法要么单轮推理（看一遍回答），要么解耦迭代（每轮独立，上下文不共享）。Video-o3 在一次统一推理中自然交替 Think → Tool → Answer，所有轮次共享 attention 上下文。

图2：三种推理范式对比。Video-o3 的原生交错式工具调用允许跨轮次共享视觉特征和推理历史。

模型收到问题 + 全局视频后，判断是否需要更多证据。若需要，生成结构化指令（时间窗口 + token 配额），调用 VideoCrop 裁剪目标片段。裁剪结果注入对话，触发下一轮推理。循环直到证据充分，输出最终答案。

图1：Video-o3 总览。给定"哪个没出现"的多选题，模型逐个调用工具验证选项，确认 Spider-kangaroo 未出现后选择 A。

图3：Video-o3 架构细节。动态控制每轮的 token 配额和采样策略，自适应调整时空分辨率。

共享上下文带来注意力弥散：规划工具调用时被已裁剪片段干扰，回答时忽略精细证据产生"假装思考"。TDAM 在 SFT 阶段对 10% 数据施加掩码约束——找线索时屏蔽局部片段，回答时屏蔽全局概览。既训练专业能力，又保留联合推理灵活性。

图4：Task-Decoupled Attention Masking 热力图。Answer 阶段屏蔽全局概览，Tool Call 阶段屏蔽局部裁剪结果。

RL 阶段用 VTGR 平衡探索覆盖与推理效率。奖励 = 答案正确 × (1 + 轨迹奖励) + 格式奖励。轨迹奖励包含 Hybrid Clue Score（定位精度）和 Turn Decay Factor（冗余轮次惩罚），激励模型精确定位并及时收手。

四步自动化管线：线索定位 → 有效性验证 → 轨迹生成 → 逻辑一致性检查。产出 173K 高质量工具交互轨迹，按证据基数和视觉显著性分为四个象限。

图5：数据合成管线。VideoQA 三元组 → 线索定位 → 有效性验证 → 轨迹生成 → 逻辑检查。

方法	VideoMME	MLVU	LVBench	Video-Holmes
Qwen2.5-VL	65.1	70.2	45.3	38.6
VideoChat-R1	63.6	68.7	37.0	36.3
LOVE-R1	65.6	69.9*	44.0*	43.9*
Video-Zoomer	64.6*	69.9*	47.5	45.3*
Video-o3 (SFT+RL)	66.5	72.1	47.6	46.5

推理效率：相比解耦方法，推理时间减少 46%（10.2s vs 18.9s），因为共享上下文复用 KV cache。

🔗 与视频语义检索的关联："主动线索搜索"范式直接呼应"softmax attention 全局竞争稀释关键信号"的问题。对于从监控视频找特定人车物，agent 式多步检索-推理循环（粗定位 → zoom in 确认）比 CLIP 全局特征匹配更有前途。

ICML 2026 7B 模型 SOTA 原生工具调用 RL 训练多跳推理