美团发布原生多模态 LongCat-Next
3 小时前

3月27日,美团发布并全面开源了原生多模态大模型LongCat-Next及其核心组件——离散原生分辨率视觉分词器(dNaViT)。该模型突破了传统大模型以语言为中心的架构,将图像、语音和文本统一映射为同源的离散Token,采用“下一个Token预测”(NTP)范式,使视觉和语音成为AI的原生输入模态。LongCat-Next实现了三项关键技术突破:离散原生自回归架构(DiNA)打破模态隔阂,离散原生分辨率视觉分词器(dNaViT)构造视觉“词典”,语义对齐完备编码器解决离散化信息损失问题。该模型在视觉理解、图像生成、音频等多个领域展现出与专用模型相当甚至领先的性能。