腾讯云张晋:AI下半场,拼的是工程化能力
4 小时前 / 阅读约5分钟
来源:C114
智算中心成为AI工厂,Token成重要计量单位。国内智算中心GPU利用率不足30%,腾讯云提出算力生产力公式,通过效能和满载优化,提升综合效率至76%,实现效率翻倍和TCO节约。

C114讯 7月1日消息(水易)近日,在MWC26上海期间举办的“智能数据中心峰会”上,腾讯云运营商解决方案总经理张晋发表《从跑得快,到跑得慢:智算中心从建设到变现的工程解法》的主旨演讲。他表示,智算中心不再是单独的“机房”,而是一座座实时生产Token的AI工厂,Token已经成为智算时代的重要计量单位。

因此,智算中心每天能生产多少Token,单位能耗,单位资本投入能换取多大收入成为关键指标。张晋表示:“IDC从业者的身份和定位也要随之改变,过去是算力供应商,交付机柜空间和GPU,未来要转型成为Token经营者,客户核心关切不再是底层硬件选型,而是Token的响应速度和单位成本。” 

消失的算力:“30%利用率”之困

张晋介绍,相关研究数据表明,国内智算中心GPU平均利用率不足30%。为了进行量化分析,腾讯云提出“算力生产力=标称算力×效能系数×满载系数”的核心公式,标称算力是规格说明书上的数字,因此真正决定算力产出的是效能和满载系数。

效能系数是衡量单位时间内算力的实际发挥程度,也就是GPU跑得快不快,目前平均只有0.6;满载系数是衡量时间维度上GPU的利用密度,例如24小时内一张GPU实际有效工作占比,也就是GPU跑得满不满,受潮汐现象影响,平均数据为0.5。

也就是说,100%的标称算力因效能衰减、满载损耗,最终仅剩30%的利用率,万亿级的投资,有70%在空转。

效能对策:让每一张GPU“跑得快”

“不是硬件不够,而是硬件潜力没被释放。”张晋强调。

效能系数只有0.6主要有三大成因。第一是网络瓶颈,大模型训练不是单卡独立作业,而是成千上万GPU卡的协同作业,0.1%的丢包可能导致约50%的算力效率衰减,单卡完成的数据无法及时传输,其他相关GPU将同步等待,造成算力空转。第二是显存瓶颈,大模型推理会产生KV Cache,随着对话轮次增加持续膨胀,产生大量内存碎片,显存未满,但任务却已经进不来了。第三是计算气泡,推理的两个阶段中,Prefill是算力密集型,GPU利用率高,而Decode是访存密集型,计算单元大部分时间都在等数据,利用率只有5%到15%。两个阶段交替出现,就形成了GPU空闲的计算气泡。

针对上述挑战,腾讯云对症下药。第一是网络无损化,自研星脉高性能网络拓扑和拥塞控制算法,能够做到在万卡集群规模下保持零丢包,将节点间的通信时延降到最低,彻底拆掉通信墙。第二是全栈编译加速,通过引入Paged Attention柔性显存管理和深度算子融合,将原本零散的碎片化内存像网盘一样拼接成块,让CPU的每一点显存都能100%用在刀刃上。第三个全面推行PD分离架构,将Prefill和Decode在物理或者是在逻辑上做解耦,让擅长计算的全速计算,擅长吞吐的专职做吞吐,从根本上消除流水线上的计算气泡。

张晋介绍,基于腾讯星脉网络和TACO LLM和全栈优化套件,在PD分离架构下,同集群同模型环境,在线吞吐量提升90%,这些都是企业的效率空间和利润空间。

满载对策:让每一张GPU“跑得满

满载损耗主要来自两个维度。首先是时间维度的潮汐现象,昼夜峰谷比超30倍,凌晨算力大量空闲。腾讯云的对策是潮汐调度,实时监测负载,预测未来15分钟趋势,负载下降时自动将空闲GPU释放给离线训练,负载回升时再回收,整个过程对上层业务完全透明。

第二是空间维度的粒度过粗,单任务独占整卡,微小任务可能导致碎片化浪费。腾讯云利用qGPU技术做GPU切分,一卡承载多任务,按算力显存弹性分配,消除碎片。同时通过高低优混布,包括训推混布、大小模型混布,打破资源孤岛,力求塞满每一张卡。

张晋介绍,在核心推理集群高强度业务混布实测中,通过腾讯TKE调度大脑和qGPU算力切分协作,综合满载率提升到85%,相当于利用率翻倍。另外,由于算力不再大面积空转,实际运营TCO节约50%左右。

回过头来看,传统粗放堆砌的机房综合算力生产率不到30%,而通过对效能系数和满载系数的双重优化,整座Token工厂的综合效率可以跃迁至76%,这意味着在消耗同样电力、占用同样机架空间的前提下,生产的有效Token数量翻了不止一倍。这才是“从建设到变现”的底层逻辑。变现的前提是效率,效率的路径是工程。