京东即将开源视觉语言实时交互模型

4 小时前 / 阅读约1分钟

来源：凤凰网

京东将开源视觉语言实时交互模型JoyAI-VL-Interaction，推进多模态大模型至实时流式交互，适合AI持续在场场景。人工评测显示，其在多个场景中表现优于豆包和Gemini。

《科创板日报》17日讯，《科创板日报》记者独家获悉，京东团队即将开源视觉语言实时交互模型JoyAI-VL-Interaction。记者从一份在开源社区和海外AI技术圈受到关注的技术报告获悉，JoyAI-VL-Interaction把多模态大模型从"一问一答"，推进到"实时流式交互"，适合需要AI持续在场的场景。报告将JoyAI-VL-Interaction与豆包、Gemini 的App内视频通话助手进行了人工评测，覆盖监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆六类场景。在58个案例中，JoyAI-VL-Interaction对豆包的总体胜率为77.6%，对Gemini的总体胜率为87.9%。其中，在监控预警场景中，对两个基线均取得100%胜率。

上一篇：“大空头”炮轰SpaceX：很想做空但太贵了，“1万亿”都不值

下一篇：数据机构：ChatGPT全球市场份额首次跌破50%

返回列表

热文阅读

2 天前

古尔曼：苹果 iOS 27/macOS 27 蛛丝马迹越来越多，暗示折叠屏 iPhone 和触屏 MacBook 即将到来

2 天前

OpenAI遭多州传票围剿，AI怎么说话都要查

2 天前

一边裁员承压，一边半年狂赚数亿，AI短剧到底谁在赚钱？

2 天前

影石、大疆的无人机影像战争，比“外卖大战”还惨烈