腾讯云张晋：AI下半场，拼的是工程化能力 - 云计算

Just Quick Just Quality

热门话题

白天

搜索

资讯

腾讯云张晋：AI下半场，拼的是工程化能力

4 小时前 / 阅读约5分钟

来源：C114

智算中心成为AI工厂，Token成重要计量单位。国内智算中心GPU利用率不足30%，腾讯云提出算力生产力公式，通过效能和满载优化，提升综合效率至76%，实现效率翻倍和TCO节约。

C114讯 7月1日消息（水易）近日，在MWC26上海期间举办的“智能数据中心峰会”上，腾讯云运营商解决方案总经理张晋发表《从跑得快，到跑得慢：智算中心从建设到变现的工程解法》的主旨演讲。他表示，智算中心不再是单独的“机房”，而是一座座实时生产Token的AI工厂，Token已经成为智算时代的重要计量单位。

因此，智算中心每天能生产多少Token，单位能耗，单位资本投入能换取多大收入成为关键指标。张晋表示：“IDC从业者的身份和定位也要随之改变，过去是算力供应商，交付机柜空间和GPU，未来要转型成为Token经营者，客户核心关切不再是底层硬件选型，而是Token的响应速度和单位成本。”

消失的算力：“30%利用率”之困

张晋介绍，相关研究数据表明，国内智算中心GPU平均利用率不足30%。为了进行量化分析，腾讯云提出“算力生产力=标称算力×效能系数×满载系数”的核心公式，标称算力是规格说明书上的数字，因此真正决定算力产出的是效能和满载系数。

效能系数是衡量单位时间内算力的实际发挥程度，也就是GPU跑得快不快，目前平均只有0.6；满载系数是衡量时间维度上GPU的利用密度，例如24小时内一张GPU实际有效工作占比，也就是GPU跑得满不满，受潮汐现象影响，平均数据为0.5。

也就是说，100%的标称算力因效能衰减、满载损耗，最终仅剩30%的利用率，万亿级的投资，有70%在空转。

效能对策：让每一张GPU“跑得快”

“不是硬件不够，而是硬件潜力没被释放。”张晋强调。

效能系数只有0.6主要有三大成因。第一是网络瓶颈，大模型训练不是单卡独立作业，而是成千上万GPU卡的协同作业，0.1%的丢包可能导致约50%的算力效率衰减，单卡完成的数据无法及时传输，其他相关GPU将同步等待，造成算力空转。第二是显存瓶颈，大模型推理会产生KV Cache，随着对话轮次增加持续膨胀，产生大量内存碎片，显存未满，但任务却已经进不来了。第三是计算气泡，推理的两个阶段中，Prefill是算力密集型，GPU利用率高，而Decode是访存密集型，计算单元大部分时间都在等数据，利用率只有5%到15%。两个阶段交替出现，就形成了GPU空闲的计算气泡。

针对上述挑战，腾讯云对症下药。第一是网络无损化，自研星脉高性能网络拓扑和拥塞控制算法，能够做到在万卡集群规模下保持零丢包，将节点间的通信时延降到最低，彻底拆掉通信墙。第二是全栈编译加速，通过引入Paged Attention柔性显存管理和深度算子融合，将原本零散的碎片化内存像网盘一样拼接成块，让CPU的每一点显存都能100%用在刀刃上。第三个全面推行PD分离架构，将Prefill和Decode在物理或者是在逻辑上做解耦，让擅长计算的全速计算，擅长吞吐的专职做吞吐，从根本上消除流水线上的计算气泡。

张晋介绍，基于腾讯星脉网络和TACO LLM和全栈优化套件，在PD分离架构下，同集群同模型环境，在线吞吐量提升90%，这些都是企业的效率空间和利润空间。

满载对策：让每一张GPU“跑得满”

满载损耗主要来自两个维度。首先是时间维度的潮汐现象，昼夜峰谷比超30倍，凌晨算力大量空闲。腾讯云的对策是潮汐调度，实时监测负载，预测未来15分钟趋势，负载下降时自动将空闲GPU释放给离线训练，负载回升时再回收，整个过程对上层业务完全透明。

第二是空间维度的粒度过粗，单任务独占整卡，微小任务可能导致碎片化浪费。腾讯云利用qGPU技术做GPU切分，一卡承载多任务，按算力显存弹性分配，消除碎片。同时通过高低优混布，包括训推混布、大小模型混布，打破资源孤岛，力求塞满每一张卡。

张晋介绍，在核心推理集群高强度业务混布实测中，通过腾讯TKE调度大脑和qGPU算力切分协作，综合满载率提升到85%，相当于利用率翻倍。另外，由于算力不再大面积空转，实际运营TCO节约50%左右。

回过头来看，传统粗放堆砌的机房综合算力生产率不到30%，而通过对效能系数和满载系数的双重优化，整座Token工厂的综合效率可以跃迁至76%，这意味着在消耗同样电力、占用同样机架空间的前提下，生产的有效Token数量翻了不止一倍。这才是“从建设到变现”的底层逻辑。变现的前提是效率，效率的路径是工程。

上一篇：国电南瑞全新一代"瑞"系固态变压器发布

下一篇：联接Agent与意图开放网关2026 MWC上海首发开启网络“Agentic服务管道”新范式

返回列表

热文阅读

1 天前

苹果代工厂塔塔电子被黑之际，iPhone 18 Pro Max 跌落测试视频流出