Back to Blog Video-o3:让视频理解模型学会

Video-o3:让视频理解模型学会"主动找线索"

Paper
ICML 2026 · 南京大学 & 上海 AI Lab · 王利民团队
长视频理解的核心瓶颈:均匀采样 + 单轮推理 → 关键线索被冗余帧淹没。Video-o3 让模型像侦探一样主动寻线索——迭代调用 VideoCrop 精查关键片段,攒够证据再下结论。

核心思路:原生交错式工具调用

现有方法要么单轮推理(看一遍回答),要么解耦迭代(每轮独立,上下文不共享)。Video-o3 在一次统一推理中自然交替 Think → Tool → Answer,所有轮次共享 attention 上下文。

Paradigm comparison
图2:三种推理范式对比。Video-o3 的原生交错式工具调用允许跨轮次共享视觉特征和推理历史。

架构总览

模型收到问题 + 全局视频后,判断是否需要更多证据。若需要,生成结构化指令(时间窗口 + token 配额),调用 VideoCrop 裁剪目标片段。裁剪结果注入对话,触发下一轮推理。循环直到证据充分,输出最终答案。

Video-o3 Overview
图1:Video-o3 总览。给定"哪个没出现"的多选题,模型逐个调用工具验证选项,确认 Spider-kangaroo 未出现后选择 A。
Architecture detail
图3:Video-o3 架构细节。动态控制每轮的 token 配额和采样策略,自适应调整时空分辨率。

关键技术 1:Task-Decoupled Attention Masking

共享上下文带来注意力弥散:规划工具调用时被已裁剪片段干扰,回答时忽略精细证据产生"假装思考"。TDAM 在 SFT 阶段对 10% 数据施加掩码约束——找线索时屏蔽局部片段,回答时屏蔽全局概览。既训练专业能力,又保留联合推理灵活性。

TDAM
图4:Task-Decoupled Attention Masking 热力图。Answer 阶段屏蔽全局概览,Tool Call 阶段屏蔽局部裁剪结果。

关键技术 2:Verifiable Trajectory-Guided Reward

RL 阶段用 VTGR 平衡探索覆盖与推理效率。奖励 = 答案正确 × (1 + 轨迹奖励) + 格式奖励。轨迹奖励包含 Hybrid Clue Score(定位精度)和 Turn Decay Factor(冗余轮次惩罚),激励模型精确定位并及时收手。

Seeker-173K 数据集

四步自动化管线:线索定位 → 有效性验证 → 轨迹生成 → 逻辑一致性检查。产出 173K 高质量工具交互轨迹,按证据基数和视觉显著性分为四个象限。

Data pipeline
图5:数据合成管线。VideoQA 三元组 → 线索定位 → 有效性验证 → 轨迹生成 → 逻辑检查。

实验结果(Qwen2.5-VL-7B)

方法VideoMMEMLVULVBenchVideo-Holmes
Qwen2.5-VL65.170.245.338.6
VideoChat-R163.668.737.036.3
LOVE-R165.669.9*44.0*43.9*
Video-Zoomer64.6*69.9*47.545.3*
Video-o3 (SFT+RL)66.572.147.646.5

推理效率:相比解耦方法,推理时间减少 46%(10.2s vs 18.9s),因为共享上下文复用 KV cache。

🔗 与视频语义检索的关联:"主动线索搜索"范式直接呼应"softmax attention 全局竞争稀释关键信号"的问题。对于从监控视频找特定人车物,agent 式多步检索-推理循环(粗定位 → zoom in 确认)比 CLIP 全局特征匹配更有前途。

关键指标

ICML 2026 7B 模型 SOTA 原生工具调用 RL 训练 多跳推理

Tags: #Blog