大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
2025-01-30

微软研究院推出首个FP4大模型训练框架,在相同超参数下训练效果与FP8及BF16相当,但所需存储和计算资源更少。该框架通过FP8模拟FP4实现,训练的模型规模可达130亿参数,Tokens数量达千亿级别。