大模型推理时存储与计算消耗大,部分原因在于权重采用FP16存储,占用空间大。北大团队首提iFairy方案,将模型权重量化至复数集合{+1, -1, +i, -i},这四个值可用2比特表示,实现1/8的极致压缩。该方案有望显著降低存储与计算需求。