格灵深瞳在5月20日业绩说明会上宣布,其视觉编码器Glint-MVT v2.0已升级并作为LLaVA-OneVision-2.0的视觉基座模型。该模型在性能和功能上取得显著突破,通过统一图像与视频编码,利用视频压缩域信息减少冗余,推理速度提升5倍,为多模态大模型提供更高效的视觉理解支持。