我国科研机构智源研究院主导的多模态大模型成果“悟界·Emu3”相关论文,于1月28日上线国际顶级学术期刊《自然》(Nature)正刊,预计2月12日纸质版正式刊发。该研究首次验证了仅通过“预测下一个词元”的自回归路线,即可统一文本、图像、视频等多模态学习,训练出原生多模态大模型Emu3。实验表明,Emu3在生成与感知任务上的性能可媲美专用模型,为构建可扩展、统一的多模态智能系统提供了重要路径。