大语言模型和多模态基础模型在自然语言处理、计算机视觉、代码生成等领域应用广泛,但其推理效率和部署可扩展性成为产业化落地的关键瓶颈。为此,开源社区和产业界正加速推进大模型在推理加速、内存压缩、异构硬件适配和分布式部署等方面的优化技术研究,并提供可复用、可扩展的开源实现。