算力利用率提升30%,华为与三大高校开源Flex:ai
7 小时前 / 阅读约5分钟
来源:凤凰网
华为联合三所高校发布并开源AI容器技术Flex:ai,旨在实现算力资源精细化管理与智能调度。通过虚拟化与资源池化,解决算力利用率低、大任务单机算力不足等问题,提升整体训练效率。

作者 杨睿琪 

编辑 刘毓坤

凤凰网科技讯 11月26日,近日,华为联合上海交通大学、西安交通大学、厦门大学,在“2025AI容器应用落地与发展论坛”上正式发布并开源AI容器技术Flex:ai。这一技术旨在通过虚拟化与资源池化,实现算力资源的精细化管理与智能调度,推动AI从“高大上”走向“平民化”。

“人工智能是非常高大上的名词。我们在过去两年当中听到了万亿级参数,百万亿级的参数,我们也听到了某某公司买了多少千张卡,多少万张卡……”华为公司副总裁、数据存储产品线总裁周跃峰在论坛上直言,“但让AI能够平民化,让所有企业甚至家庭都能够享受AI带来的便利与高效率,依然是一个话题,依然有很多挑战。”他以医疗行业为例指出,一个医院的某一科室通常仅配备4张、8张或最多16张算力卡,ICT年投入经费仅数千万人民币。“在这样的集群中,很难进行粗放的GPU或NPU调度。”周跃峰强调,“我们能不能把一张卡虚拟化成多张卡?让每一张卡的算力能力充分释放?”

华为数据存储产品线DCS AI首席架构师刘淼进一步指出三大核心痛点:小任务单卡算力用不完,例如使用Llama3.0 3B模型进行文本总结时,单卡算力利用率极低,RAG模型仅占用3%-5%;大任务单机算力不够用,需跨节点聚合资源;多任务并发调度难题,如医院多名病理医生同时进行AI诊断,资源争抢严重。“我们发现,在模型开发阶段,许多企业仅拥有有限算力卡,却需同时支持开发、训练与推理。”刘淼表示,“如何让算力‘活’起来,是Flex:ai要解决的根本问题。”

针对上述问题,华为与三所高校分别从资源切分、跨节点聚合与智能调度三个维度展开攻关。上海交通大学软件学院戚正伟教授介绍了XPU资源池化框架的核心原理:“我们通过API劫持与转发,将单张GPU或NPU切分为1/4、1/8、1/16等虚拟算力单元,实现空间共享与资源隔离。”他展示了在交大网络中心的测试数据:未进行虚拟化时,训练任务资源利用率仅为20%,训练耗时1小时;通过虚拟化与调度优化后,利用率提升至80%,虽单任务耗时增至3小时,但支持多任务并行,整体训练效率显著提升。“我们在NPU上的初步实验显示,资源利用率可达99%。”戚正伟补充道,“通过细粒度切分与隔离,不同任务在同一张卡上运行时互不干扰,实现‘用多少,切多少’的弹性分配。”

厦门大学信息学院/上海交通大学计算机学院张一鸣教授指出,当前企业中存在大量缺乏GPU/NPU的通用服务器,形成“算力孤岛”。“我们与华为研发的跨节点拉远虚拟化技术,通过API劫持与RDMA高速网络,将集群中各节点的空闲XPU算力聚合为‘共享算力池’。”张一鸣解释,“通用服务器可透明地将AI任务转发至远端算力卡执行,实现通算与智算的融合。”在端到端实验中,该方案相比现有最优技术提升67%高优先级作业吞吐量,并有效利用17%的内部碎片资源。张一鸣强调:“通过将XPU上下文从CPU进程中解耦,我们实现了跨节点的灵活映射与性能感知的时空复用。”

西安交通大学计算机科学与技术学院院长张兴军教授将调度系统比喻为“算力网络的交通系统”。他指出,AI模型训练与推理本质是计算与数据的协同,需从底层算力资源入手实现细粒度调度。“我们与华为共同研发的Hi Scheduler调度器,支持对国产GPU、NPU等异构算力进行时分与空分切分。”张兴军介绍,“通过分层调度机制,离线计算最优资源分配策略,在线执行动态调度,有效应对负载波动。”在实际场景中,该调度器使集群整体资源利用率提升30%,并保障多租户环境下的公平性与隔离性。

“光靠华为公司的软件工程师的力量是远远难以完成AI行业化落地的。”周跃峰在发布仪式上坦言。为此,华为将Flex:ai全栈技术开源,并联合三所高校持续迭代。刘淼进一步阐述了开源路径:“开源模块包括智能调度器与算力虚拟化组件,支持与Kubernetes等主流框架集成。未来我们将推动南向异构算力兼容,构建标准化接口。”戚正伟指出,开源能加速技术普及与生态共建:“RunAI等方案受限于商业合作与硬件绑定,而Flex:ai面向异构硬件开放,更具通用性。”张一鸣透露,厦门大学已在布局拓扑感知调度、推理负载优化等后续研究方向,推动Flex:ai在复杂场景中落地。

华为2012实验室理论研究部首席研究员张弓从底层技术挑战切入,指出企业部署AI推理面临“高服务质量与低资源利用率”的根本矛盾。“以医院为例,白天推理服务器负载峰值,夜间闲置,资源利用率极低。”张弓表示,“要实现动态扩缩、任务迁移与细粒度资源分配,需突破三大技术:保序流图、细粒度资源隔离与安全点协议。”他分享了初步实验结果:通过算子劫持、状态同步与分层调度,在单卡场景下实现故障迁移与性能隔离,开销控制在5%以内。“但跨节点迁移与大规模集群调度仍是待攻克难点。”张弓坦言。