2月12日消息,面壁智能发布了稀疏-线性注意力混合架构SALA,以及基于此架构的9B参数文本模型MiniCPM-SALA。据介绍,MiniCPM-SALA未采用投机采样等加速算法,在云端推理芯片上,当序列长度为256K词元时,其推理速度是Qwen3-8B的3.5倍,且支持在云端芯片和消费级端侧GPU上进行长达一百万词元的上下文推理。