加速国产大模型:AMD 推出 vLLM-ATOM 插件大幅提升推理效率
10 小时前

AMD正式推出专为大语言模型部署设计的vLLM-ATOM插件,该插件可在不改变现有工作流的情况下,优化DeepSeek-R1等国产主流大模型在AMD硬件上的推理性能。作为vLLM的扩展,vLLM-ATOM插件针对Instinct系列GPU提供优化方案,实现“零成本”部署,用户无需修改原有API或工作流。其架构分为三层,集成了混合专家模型和量化技术。该插件主要面向AMD Instinct MI350及MI400系列GPU,支持多种主流中文大语言模型和应用场景,降低了企业级AI部署的门槛,帮助开发者实现更高效、稳定的在线AI服务。