AI在实时视频里秒“剪”出你想要的部分，输入文字、图、视频片段，它都能秒懂 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

AI在实时视频里秒“剪”出你想要的部分，输入文字、图、视频片段，它都能秒懂

2025-09-17 / 阅读约6分钟

来源：36kr

研究团队提出混合模态在线视频定位技术OVG-HQ，可实时根据多种线索在视频流中定位事件。通过参数化记忆模块和混合模态蒸馏策略，解决了离线分析和模态不均问题，提升实时处理能力。

还在实时视频里找特定事件找半天？最新技术直接开挂了。

试想一下，安防监控中，几个人影短暂掠过，利用新技术可以秒级调出这段“可疑聚众”的精准片段。

△图片为AI生成

在VR训练场，你戴上VR眼镜练习投篮，提前在手机App输入“定位和这个视频示范（库里完美三分片段）相似的动作”。训练开始，每一次出手，眼镜在后台默默分析第一视角视频流。当你做出动作、发力、弧线都神似库里的三分时，眼镜立刻就能在虚拟界面高亮标记这个片段。

△

不卖关子，这就是来自深圳北理莫斯科大学、阿德莱德大学的研究团队提出的新任务。

名叫混合模态在线视频定位（Online Video Grounding with Hybrid-modal Queries, OVG-HQ）。

用大白话说，这项技术能让系统一边直播/录像，一边根据你提供的多种“线索”，包括文字、参考图、示范视频片段或组合等，瞬间在实时视频流中找出并精准裁剪出你关心的完整事件。

论文已收录于ICCV2025。

此前方法的缺陷有两个：

“离线”是硬伤：主流技术必须等视频录完才能干活，事后分析如同马后炮，无法满足安防“秒级响应”、直播“即时重现”、VR“训练中实时反馈”的刚需。

“词穷”是软肋：仅靠文字描述（如“聚众”“劈杀”“完美三分”）难精准定义视觉世界的微妙差异。动作发力点、光影细节、空间模式……很多时候“只可意会”。

OVG-HQ是怎么破局的呢？

怎么做到的？

团队表示，要让系统做到“精准定位+理解多模态”，需跨过两道坎：

挑战一：流式场景下的历史知识持续保留

模型在实时处理视频流时，必须确保历史关键信息不丢失——否则早期出现的动作线索或场景特征被遗忘，将导致事件起止点误判。

挑战二：查询模态分布不均

同一用户意图可能对应一段5秒视频（信息丰富），也可能仅是一张低分辨率图或简短文字（信息稀疏）。强弱模态的显著差异会导致模型过度依赖强模态，无法充分利用弱模态信息，影响多源信息整合精度。构建能均衡处理所有模态组合的统一模型异常困难。

为系统性研究上述问题，团队整理QVHighlights数据，构建首个支持混合模态在线定位的基准集QVHighlights-Unify，扩充四种查询元素：

检索图 ：模拟用户从搜索引擎获取参考图

生成图 ：模拟用户用文生图模型生成参考图

生成片段 ：模拟用户用文生视频模型生成参考视频

互补图文对 ：模拟用户用图+文共同说明意图（缺一不可）

总计71.6K组查询，覆盖8种模态组合，构成首个混合模态在线定位的统一评估基准。

针对两项挑战，团队提出两个核心组件：

1、参数化记忆模块（PMB）

step 1：记忆当前输入，通过参数即记忆层，将当前输入信息压缩到记忆参数中，并采用重构损失进行自监督学习。通过梯度下降更新记忆参数，使其同时保留当前和历史信息。

step 2：记忆增强处理，利用更新后的记忆参数对当前输入进行增强：先经投影层映射，输入参数即记忆层，再通过层归一化和投影操作，输出记忆增强后的表征供后续模块使用。

2、混合模态蒸馏（Hybrid-modal Distillation）

step 1: 为信息量丰富的模态组合（文本+生成片段）训练专家模型。

step 2: 以专家输出为软标签，引导其他模态的学生模型，最终得到能统一处理8种模态组合的通用模型。

实验效果如何？

离线指标只关心“对不对”，不关心“快不快”。为衡量实时能力，团队引入时间衰减因子β：当预测在标注片段结束时刻命中时，β=1，若预测时间晚于标注结束时间，β线性衰减，超过阈值后降为0，基于此设计两项在线指标：

oR@n （Online Recall@n）：在置信度排序的top n预测片段中，若存在至少一个命中标注片段，则根据命中预测片段的延迟计算β。

omAP （Online mAP）：为每个预测片段分配时间折扣分，延迟越久得分越低。

两项指标共同要求“又快又准”，贴合安防、直播等场景需求。

实验结果显示，使用混合模态蒸馏后，模型在弱模态处理上显著提升：Image-R提升8.98%，Image-G提升9.35%。

参数化记忆模块效果优于ATT和LSTM,，以生成视频查询（Segment-G）为例，PMB（20.13%）>LSTM（17.41%）>ATT（11.85%）。

总结来说，OVG-HQ任务、QVHighlights-Unify数据集、PMB模块及混合模态蒸馏策略，共同勾勒出实时视频理解的新范式：“用户给任何线索，系统实时在当前视频流中定位完整事件。”这不仅加速安防告警、体育直播回放、VR训练反馈，更为智能家居、工业质检、自动驾驶等场景打开新想象空间。

作者及单位

曾润浩（深圳北理莫斯科大学）、毛嘉其（深圳大学）、赖铭浩（深圳大学）、Minh Hieu Phan（阿德莱德大学）、董延杰（深圳北理莫斯科大学）、王伟（深圳北理莫斯科大学）、陈奇（阿德莱德大学）、胡希平（深圳北理莫斯科大学）

论文链接: https://arxiv.org/abs/2508.11903

上一篇：390亿美元，全球具身智能第一估值来了，英伟达持续加注中

下一篇：YC最新风向标：顶级VC追捧的9家初创公司

返回列表

热文阅读

2 天前

国产汽车MCU量产上车，芯钛科技完成C+轮融资｜36氪首发

2 天前

2025年上半年，元器件分销商榜单有变

2 天前

OpenAI算力建设根本停不下来，富士康、软银相继“上车”

2 天前

科技实现可持续！亨通光电亮相2025年APC大会

2 天前

软银据悉将在俄亥俄州工厂投资至多30亿美元为OpenAI数据中心供货

2 天前

半导体公司TOP 20，最新榜单

2 天前

Chromebook 用户获英伟达 GFN Fast Pass 云游戏订阅：无广告，不排队

2 天前

6G移动网络需三倍于当前频谱资源以满足激增数据需求。

2 天前

诺基亚计划明年剥离私有无线网络等四大非核心业务

2 天前

StarCompliance集成Concur Expense

上一篇：390亿美元，全球具身智能第一估值来了，英伟达持续加注中

下一篇：YC最新风向标：顶级VC追捧的9家初创公司

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们