腾讯混元 AI Infra 新开源：HPC-Ops 推理核心算子全面升级

2026-06-11

HPC-Ops 发布了包含五大关键算子的开源升级，旨在提升推理系统对动态业务负载的适应性，并满足核心模块对复杂精度和高性能融合算子的需求。此次升级有效解决了主流推理平台上的多个工程瓶颈，如 Attention 长尾延迟、显存搬运开销及跨卡通信问题，多项性能指标超越现有开源基线。主要改进包括：Attention 算子通过动态负载调度，长文本处理速度最高提升 2.95 倍，端到端 QPM 提升 17%；Router GEMM 采用双 BF16 GEMM 组合，实现 FP32 级精度，较 CuBLAS FP32 提速 3.22 倍；FusedMoE 构建全模块流水线，性能较 vLLM 和 SGLang 提升 1.2 至 1.6 倍；Fused AllReduce+Norm 融合跨 GPU 通信与计算，较 NCCL 和 FlashInfer 提速 1.04 至 1.68 倍；Sampler 将采样计算整合为 2 个 CUDA Kernel，较 vLLM 提速 4.0 至 7.5 倍，较 FlashInfer 提速 1.9 至 4.7 倍。

上一篇：高盛：AI投资规模仍被低估，2030年Token消耗量或增长24倍

下一篇：美团与广东监管部门建立协同共治模式，涵盖数据共享等多个环节

返回列表

热文阅读

2 天前

特斯拉一周跌没18%，马斯克自嘲回应财富急速缩水

2 天前

消息称苹果为消化内存涨价，提议下调 iPhone 18 Pro / Max 的 OLED 面板采购价

2 天前

黄仁勋站在 AI 产业的十字路口呐喊：力挺开源

2 天前

英伟达百亿扫货暗光纤，AI算力之战从硅片烧到管线