近日,学院智能存储与计算研究团队(PI:邹毅教授)的博士研究生郝英博与香港科技大学硕士研究生陈煌栩作为共同第一作者,在德国慕尼黑举行的2025年度ACM/IEEE国际计算机辅助设计会议(ICCAD,CCF-A类,h5指数66)上,宣读了题为《OA-LAMA: An Outlier-Adaptive LLM Inference Accelerator with Memory-Aligned Mixed-Precision Group Quantization》的论文。该论文针对大语言模型(LLMs)因内存和计算需求巨大而面临的部署挑战,提出了一种硬件-软件协同设计的框架,实现了异常自适应的大语言模型推理加速器OA-LAMA。该框架采用内存对齐的混合精度分组量化格式,结合异常值重排序技术,在保持DRAM对齐内存访问的同时提升模型精度。此外,通过分布感知的分组分配策略和三级累积架构的硬件设计,有效解决了层间异常比例差异问题。实验结果表明,OA-LAMA在精度上优于当前最先进的4位量化方法,同时性能提升1.21至3.09倍,能效提升1.35至2.47倍,为大语言模型推理的精度-效率协同优化建立了新的基准。论文代码已开源。
