AI看视频也能划重点了!
不仅能回答“是什么”、“发生了什么”,还能指出是在“何时何地”发生。

来自北大和字节的联合团队,推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video,让AI不仅能答对问题,也能在思维过程中同步直观标出具体位置,真正实现有迹可循的视频推理。

△
同时,模型采用non-agent架构,避免了复杂的工具调用和多轮推理,一次回复中直接完成“看—想—证—答”的闭环。
在多个视频推理测试中,关键指标可提升至24.2%,性能表现超越GPT-4o和Gemini-2-Flash等一众闭源模型。

下面是更多详细内容。
视频理解是多模态大模型(MLLM)中最复杂的任务之一。
不同于静态图像,视频同时承载着时间维度的动态变化与空间维度的场景交互。
这意味着,模型不仅要识别画面中的物体与动作(What),还必须判断它们在什么时间(When) 出现、什么位置(Where) 发生。
近期,Video-R1、VideoRFT等模型通过强化学习显著提升了视频理解的逻辑一致性,但它们的思维链仍是纯文本的,模型可能正确回答问题,却无法指出支撑答案的具体画面。
这种“黑箱式推理”让模型的判断既难以解释,也难以验证。
另外,OpenAI的o3模型首次提出 “Thinking with Images(图像思考)” 的理念,通过在推理中嵌入图像(如框选区域、局部放大、缩放查看),让模型能在推理链中自然地引用视觉线索,从而实现“有依据的推理”。
然而,将这种理念扩展到视频领域,即让模型在推理中提供时间和空间两方面的证据,更具有困难:
1、在推理中,文本、时间戳和物体目标框的一致性难以保持。
模型需在几十上百帧中精确对齐事件发生的时间点,任何漂移都会导致推理逻辑错误,训练难度大。
且同一物体在不同帧位置变化剧烈,需在时序动态中持续追踪空间位置。
2、 时空耦合监督严重缺失。
现有数据要么只提供时间段标注(Temporal Grounding),要么仅有单帧的空间框(Spatial Grounding),缺乏统一的时空标注与相应的思维链。
因此基于时空定位的线索来做视频推理,最根本的瓶颈在于数据。
现有的视频理解数据集往往只具备时间或空间维度的标注,没有时空耦合的思维链数据,模态间存在割裂。
于是团队构建了首个面向显式时空推理的统一语料体系——STGR(Spatio-Temporal Grounded Reasoning),包括:STGR-CoT-30k与STGR-RL-36k两部分。
前者用于监督微调(SFT),帮助模型学习带时空标注的推理格式与输出结构;后者用于强化学习阶段(RL),提供高质量奖励信号,以持续优化模型的时空对齐与证据生成能力。

△
两个数据集均包含四类任务:时序定位;空间定位;时空定位数据和视频问答数据,数据的分布。
其中,5.9k的高质量spatio-temporal数据是团队按照图中的数据管线进行标注的,具体流程如下:
1、针对两种数据源(temporal grounding和plm-rdcap) 利用Gemini 2.5 Pro进行初始标注,生成问题-答案对,初始的关键帧、目标检测框和推理过程;显示的时空定位的格式如下:
"
2、由于大模型标注的检测框的质量有限,团队通过两种方式进行过滤:
剔除覆盖面积过大 (超过画面80%) 的无效框;
通过 Qwen2.5-VL-7B 验证目标类别是否匹配,例如用查询“Is this a dog?”来确认检测框内容。
3、一致性检查:改写推理链以确保问题-答案、时间戳、物体名称、边框和推理链一一对应,删除冗余或不一致的样本。

△
在高质量时空语料奠定基础之后,如何让模型真正学会“在视频中思考”成为关键问题。
团队发现,仅靠监督微调并不能达到满意效果。因为在监督阶段,模型更多地是在模仿人类标注者的语言模式,而非真正理解视觉线索与推理结构之间的逻辑关系。
因此,要让模型能够主动发现并引用关键证据,必须通过一种可自我纠偏的强化学习机制,让奖励信号直接约束其“看哪帧、注意哪个区域、想什么”。
这一理念构成了Open-o3 Video的训练核心:双阶段学习机制——冷启动预训练与基于GSPO的强化学习。
在冷启动阶段,模型首先通过STGR-CoT-30k数据进行监督微调。
此阶段的目标是让模型掌握推理格式与输出规范,即如何在回答中同时生成、、等结构化标记,并学会将推理链与视频内容对应起来。
这一阶段相当于“教模型说话”:它学习了如何用语言描述视觉证据,但尚未形成自发的证据选择策略。
换言之,冷启动阶段让模型具备了“生成有迹可循答案的能力”,而下一个阶段要做的,是让这种能力变得准确、稳定、可推广。
在第二阶段,团队引入强化学习框架GSPO。
比起广泛应用的GRPO,GSPO基于序列进行优化,更有利于长期训练的稳定,避免思维链的崩溃。
这一阶段,模型被要求在开放视频场景中生成完整的时空推理序列,然后通过奖励函数进行自我校正。奖励函数由三部分组成:

r_acc衡量答案的正确性;r_thk则反映推理链的合理性和完整性,鼓励模型在生成思考文本时对视觉证据进行充分利用,如计算时序IoU和空间IoU等指标, r_fmt评估推理格式是否符合规范。
团队特别强调,单一的准确率奖励无法支撑多模态可解释推理,因为模型可能“蒙对”答案却忽略关键画面;只有当推理的过程本身被纳入优化目标,模型才会真正学会如何在视觉世界中进行思考。
然而,利用强化学习同时优化时序和空间两个维度的定位能力是具有很大挑战的,尤其注意到,空间奖励(IoU)必须依赖于时间预测的准确性。
具体而言,如果时间预测错误,即使空间框位置正确,也无法和真值对应,即时间预测是训练稳定性的前提。
但是,如果在时序奖励预测中直接使用严格的时间约束,则在训练初期模型往往得不到奖励,导致学习停滞;如果始终使用宽松的约束,模型虽能得到奖励,但时序上奖励容易饱和,预测无法逐渐收敛到精确位置,这样空间奖励的计算还是不准确。
因此,团队提出自适应时间临近性机制,即在训练过程中逐步调整时间奖励的容忍范围,具体公式如下:

随着训练进行,标准差从大逐渐调小,以实现这种从“粗定位”到“精定位”的收敛。
同时,本团队提出时间门控机制,即在计算空间奖励之前,首先检查预测时间戳是否落在真实时间戳附近,只有在时间预测接近真值时(小于设定的阈值),才会计算对应帧上预测框与真值框的 IoU,否则空间奖励为0。
通过这样的训练方式和奖励设计,模型能够以更稳定高效的方式训练。

△
团队提出的时空证据可以作为一种可验证的信号,应用于测试时扩展。
具体而言,在推理阶段,模型生成多个独立推理链,每个链包含时空证据。
从推理链中裁剪出对应的关键帧区域,并再次输入模型进行与问题的相关性评分(0、1、2分,分别表示与问题不相关,可能对答题有帮助,对答题非常有帮助)。
每个回答根据其得分进行加权投票,最终输出置信度最高的答案。
该机制有效避免投票被低质量思维链误导,提高推理的准确性和鲁棒性。

△
Open-o3 Video在多个视频推理与理解基准上均取得显著性能。
首先,团队在时空推理的基准 V-STAR上测试,该基准综合考察了模型在 “何物(what)—何时(When)—何地(Where)” 三个维度上的性能。
可以看到,Open-o3 Video在Temporal IoU(时间对齐)与Visual IoU(空间对齐)两项上都取得显著提升,整体mAM提升+14.4%、 mLGM提升+24.2%,超越GPT-4o与Gemini-2-Flash等大型闭源模型,充分证明其在时空联合定位与推理一致性上的显著优势!

△
再者,在VideoMME、WorldSense、VideoMMMU与TVGBench四个基准测试上,Open-o3 Video稳定超越基线模型和众多视频推理模型。
其在 VideoMME-Long 子任务上达到54.9 %,显著提升4.1 %;在WorldSense和VideoMMMU偏感知的任务中都相较于基线模型有超越3%的提升,在 TVGBench上mIoU达到20.8,也提升4.5%。
这些结果表明,Open-o3 Video不仅在需要复杂推理的时空任务上表现突出, 在传统的视频识别与时间定位任务中也展现了强大的泛化能力。
更重要的是,得益于其显式的证据链设计,模型生成的答案具有可验证性,在同等准确率下提供了更高的可解释性与可靠性。



△
为进一步验证不同训练环节、数据构成及奖励机制对模型性能的影响,团队进行了系统性的消融研究。
实验结果如表所示,全面评估了训练策略、奖励设计、数据类型及数据规模等因素对时空推理性能的贡献。
从表3可以看出,双阶段训练机制(SFT + RL) 对模型性能的提升至关重要。
在仅依赖监督学习(Pure SFT)的情况下,模型已能初步学习带时空标注的推理格式,但整体性能仍受限于固定标签的模仿。
而单独的强化学习(Pure RL, GSPO)虽能提升时间与空间一致性,但未经CoT数据的训练,性能提升有限。
两者结合后,模型在mAM 和mLGM 上分别提升至33.7%和46.6%。
这表明冷启动阶段的结构化监督提供了必要的推理模板,而基于GSPO的强化阶段则进一步优化了模型的时空对齐与证据指向,从而实现稳定而可解释的推理能力。
表4则展示了两项关键奖励机制:自适应时间临近(Adaptive Temporal Proximity) 与时间门控(Temporal Gating)的作用。
若移除自适应临近机制(w/o Ada.),模型的mLGM下降1.4%;若不使用门控(w/o Gat.),性能下降1.7%。
这印证了团队的设计初衷:时间临近机制能缓解训练初期奖励稀疏的问题,而门控策略能避免模型在错误时间帧上误判无关物体。
二者的结合有效保障了奖励信号的密集性与精确性,使模型能逐步收敛到真正的时空一致推理模式。
表5进一步验证了时空标注数据的重要性。
在移除时空标注样本的条件下(w/o spatio-temporal data),模型性能显著下降至 mAM 28.3/mLGM 36.2;当引入现有的VideoEspresso数据后虽略有提升,但仍不及团队自建的高一致性语料。
当使用完整的STGR标注数据时,mLGM达到46.6,说明模型确实从统一的时空监督中学到了稳健的定位与推理能力。这也间接验证了STGR数据在语言、空间与时间三维一致性上的价值。
表6探讨了通用视频问答数据量对模型整体表现的影响。
实验表明,适度的通用QA样本能有效平衡模型的语言生成与证据定位能力。当额外加入15k条通用VideoQA样本时,模型实现了最佳平衡。
若进一步扩大数据规模,性能反而出现轻微下降,说明过多的通用样本会稀释时空标注的监督信号。
因此,团队最终采用了15k规模的混合数据配置,以在可解释推理与通用问答之间取得最优折中。
综上,消融实验全面验证了Open-o3 Video的三项核心设计理念,统一的时空数据、双阶段训练机制与自适应奖励策略,在提升模型可解释性与可靠性方面的显著贡献。
正是这些设计,使模型能够在复杂视频场景中稳定生成“有迹可循”的推理链,实现真正基于证据的多模态推理。

△
表7的结果可以看到,在WorldSense与VideoMMMU两个测试基准上,基于置信度的测试时扩展策略带来稳定提升,均优于单一推理(Base)与简单多数投票(Majority Voting)方案。
这表明,显式的时空证据不仅能在训练阶段提供监督信号,也能在推理阶段作为可靠的置信度衡量指标,帮助模型在多样化思维路径间做出更稳健的判断。
然而,通过并行生成多个回复,团队也观察到:面对相对困难的问题,当前模型在实际运行中生成的高质量推理轨迹相对较少。
这意味着,模型的时空证据提取仍有待进一步改进,尤其是在更长的视频和更复杂多变的场景中,这也是未来开源社区值得深入探索的重要方向。
Open-o3 Video能够在推理中提供时间与空间证据(时间戳和目标框),以支持其推理的思路和最终的答案,具体可体现在以下可视化实例中:



这些示例分别体现了Open-o3 Video在处理物体外观识别,动作意图分析,以及天气推理上的突出性能。
模型表现上完全不逊色于其他推理模型,且能够提供一定的证据支撑,让回复更加直观可靠,易于验证。
下面再看看Demo展示。
团队相信,Open-o3 Video将推动视频多模态模型从“能答对”走向“能定位,能解释”,让机器真正具备在时空维度上进行有迹可循推理的能力。
未来,团队将继续完善时空推理数据与后训练机制,为更长视频,更复杂场景下的问答提供有利的时空证据支撑。
另外,团队论文、代码和模型全部开源,欢迎大家交流讨论!
论文链接:https://huggingface.co/papers/2510.20579
代码链接:https://github.com/marinero4972/Open-o3-Video
模型链接:https://huggingface.co/marinero4972/Open-o3-Video
