智谱近日发布了GLM-5.1高速版API,其模型输出速度高达400 tokens/s,打破了高速模型多为轻量级的行业常规,首次在国产大模型中实现了旗舰级能力与低延迟的并存。实测表明,该模型在AI编程、3D游戏、交互界面等场景中表现优异,这得益于TileRT高性能推理引擎的支持。该引擎由智谱GLM团队与TileRT团队共同研发,通过系统级优化得以实现。目前,GLM-5.1高速版API已适用于速度敏感场景,并通过智谱MaaS平台向部分企业客户开放。