华为发布AI推理创新技术UCM
2 周前

8月12日,华为推出了AI推理创新技术UCM(推理记忆数据管理器)。UCM是一款以KV Cache为中心的推理加速套件,融合了多种缓存加速算法工具,分级管理推理过程中产生的KV Cache数据,旨在扩大推理上下文窗口,提升推理效率,降低每Token推理成本。据悉,该技术已在中国银联的三大业务场景中成功试点,实现了智慧金融AI推理加速。华为还宣布,计划于2025年9月在魔擎社区正式开源UCM。