摩尔线程MTT S5000完成对DeepSeek-V4-Flash适配
3 小时前

4月24日,摩尔线程联合智源众智FlagOS社区,在旗舰级AI训推一体GPU MTT S5000上,完成对新一代大模型DeepSeek-V4-Flash的Day-0适配,并实现全量核心算子深度优化与部署支持。DeepSeek-V4-Flash采用MoE架构,总参数284B,支持百万Token上下文,首次采用FP4+FP8混合精度。MTT S5000作为国内率先原生支持FP8的全功能GPU,通过硬件级FP8 Tensor Core,将显存压力降低50%,计算吞吐量翻倍。适配过程中,团队聚焦FP8算子与Sparse Attention算子,通过编译优化与自动调优,使TTFT时延降低16.5%,ITL时延降低39.7%,吞吐量提升65.7%。目前,双方正推进1.6T旗舰模型DeepSeek-V4-Pro在MTT S5000上的迁移适配工作。