面壁智能携手清华大学及OpenBMB开源社区,共同发布并开源了中国首个基于华为昇腾平台训练的三值(1.58-bit)大模型——BitCPM-CANN。该模型在低比特大模型训练领域取得重大进展,提供0.5B、1B、3B和8B四种尺寸选择。在推理阶段,该模型能显著节省显存,释放约6倍显存红利,其中8B参数模型可在主流旗舰手机上流畅运行。BitCPM-CANN基于MindSpeed与Megatron-LM构建了完整的低比特训练框架,且所有模型权重均已开源,用户可通过HuggingFace和ModelScope平台轻松获取。
