SGLang原生支持昇腾,新模型一键拉起无需改代码
1 天前

12月20日,SGLang AI金融π对在杭州圆满结束,此次活动聚焦于大模型推理效率,深入探讨了推理系统在真实业务负载中的工程挑战。活动由SGLang携手AtomGit社区共同发起,吸引了一线工程团队的广泛参与。面对Agent应用对推理系统提出的更高标准,SGLang提出了一系列工程实践方案,包括采用HiCache体系减少显存占用、Mooncake技术压缩权重加载及模型启动时间等,且这些技术已在昇腾平台上成功应用。活动还展示了SGLang在昇腾平台上的最新进展,涵盖模型优化、系统特性、量化能力等多个维度,并对DeepSeek、Qwen等模型进行了优化。昇腾自7月起便与SGLang展开适配工作,旨在全面拥抱开源生态、加速生态建设,目前已完成对DeepSeek V3.2的灰度测试。展望未来,昇腾将持续加大在推理系统上的系统性工程投入,以支撑高并发、低时延的真实业务场景需求。