蚂蚁开源首个100B扩散语言模型LLaDA2.0

1 天前

2025年12月12日，蚂蚁技术研究院正式推出LLaDA2.0系列离散扩散大语言模型（dLLM），同步公开技术报告。该系列包含MoE架构的16B（mini）和100B（flash）两个版本，蚂蚁集团首次将Diffusion模型参数规模扩展至100B量级。LLaDA2.0通过创新的Warmup-Stable-Decay持续预训练策略，无缝继承现有自回归模型知识，避免从头训练的高昂成本。结合置信度感知并行训练和扩散模型版DPO技术，在保证生成质量的同时，利用扩散模型的并行解码优势，实现相比自回归模型2.1倍的推理加速。在涵盖知识、推理、编码、数学、智能体与对齐的47个基准测试中，100B版本平均得分73.18，与强自回归模型Qwen3-30B-A3B-Instruct-2507（73.60）持平，在编码和智能体等复杂任务上优势显著。模型权重及训练代码已在Huggingface开源。

上一篇：联汇科技发布VLM-FO1与OpenTrackVLA两项核心开源成果

下一篇：“大空头”伯里称无法把握或预测AI泡沫何时破裂：可能还有增长空间

返回列表

热文阅读

2 天前

年终大冲刺，中美科技大厂都杀疯了

2 天前

奥特曼上电视自曝“首个AGI宝宝”育儿经

2 天前

未发布先警告 OpenAI：新AI模型或构成高级别网络安全风险

2 天前

刚刚，AI顶会ICML允许AI参与审稿