蚂蚁开源首个100B扩散语言模型LLaDA2.0
1 天前

2025年12月12日,蚂蚁技术研究院正式推出LLaDA2.0系列离散扩散大语言模型(dLLM),同步公开技术报告。该系列包含MoE架构的16B(mini)和100B(flash)两个版本,蚂蚁集团首次将Diffusion模型参数规模扩展至100B量级。LLaDA2.0通过创新的Warmup-Stable-Decay持续预训练策略,无缝继承现有自回归模型知识,避免从头训练的高昂成本。结合置信度感知并行训练和扩散模型版DPO技术,在保证生成质量的同时,利用扩散模型的并行解码优势,实现相比自回归模型2.1倍的推理加速。在涵盖知识、推理、编码、数学、智能体与对齐的47个基准测试中,100B版本平均得分73.18,与强自回归模型Qwen3-30B-A3B-Instruct-2507(73.60)持平,在编码和智能体等复杂任务上优势显著。模型权重及训练代码已在Huggingface开源。