HPC-Ops 发布了包含五大关键算子的开源升级,旨在提升推理系统对动态业务负载的适应性,并满足核心模块对复杂精度和高性能融合算子的需求。此次升级有效解决了主流推理平台上的多个工程瓶颈,如 Attention 长尾延迟、显存搬运开销及跨卡通信问题,多项性能指标超越现有开源基线。主要改进包括:Attention 算子通过动态负载调度,长文本处理速度最高提升 2.95 倍,端到端 QPM 提升 17%;Router GEMM 采用双 BF16 GEMM 组合,实现 FP32 级精度,较 CuBLAS FP32 提速 3.22 倍;FusedMoE 构建全模块流水线,性能较 vLLM 和 SGLang 提升 1.2 至 1.6 倍;Fused AllReduce+Norm 融合跨 GPU 通信与计算,较 NCCL 和 FlashInfer 提速 1.04 至 1.68 倍;Sampler 将采样计算整合为 2 个 CUDA Kernel,较 vLLM 提速 4.0 至 7.5 倍,较 FlashInfer 提速 1.9 至 4.7 倍。
