2025外滩大会:蚂蚁、人大发布首个原生MoE扩散语言模型,将于近期开源
5 天前

2025外滩大会上,蚂蚁集团与中国人民大学联合发布了业界首个原生MoE架构的扩散语言模型“LLaDA - MoE”。该模型基于约20T数据从头训练,验证了工业级大规模训练的扩展性与稳定性,性能超越LLaDA1.0/1.5及Dream - 7B,达到等效自回归模型水平且推理速度提升数倍。该模型突破了“语言模型必须自回归”的传统认知,在多任务场景中性能领先,仅需激活1.4B参数即可实现等效3B稠密模型的性能。蚂蚁集团与中国人民大学团队历时3个月攻克核心难题,在多项基准测试中平均提升8.4%。模型将于近期全面开源,包括模型权重、自研推理框架及针对dLLM并行特性优化的推理引擎,相关代码与技术报告将同步在社区发布。蚂蚁集团将持续投入基于dLLM的AGI领域研发,推动技术突破。