近日,中国人工智能(AI)公司DeepSeek 在微信上发布神秘信息,暗示中国下一代AI 芯片即将问世,此消息一出立即在半导体业界引发广泛猜测与热议。
DeepSeek 仅以一句话点燃网络讨论,市场开始揣测究竟是哪家AI 芯片供应商会率先推出突破性产品。与此同时,美国的科技限制仍在持续影响中国半导体产业。
其中,被点名的潜在厂商包括华为、寒武纪、摩尔线程、海光信息及沐曦集成电路。
DeepSeek 在周四(21 日)的贴文中指出,其V3.1 AI 模型的UE8M0 FP8 scale「专门为即将发布的国产芯片而设计」,但未透露具体供应商。
市场普遍猜测,新模型可能支持多款中国AI 芯片,而不仅局限于单一品牌。
DeepSeek UE8M0 FP8 技术细节与优势
FP8(8 位浮点格式)透过降低精度、减少存储器与带宽占用,能加速AI 训练与推理;而UE8M0 则是另一种8 位格式,可将存储器使用降低多达75%,提高训练效率并减少硬件需求。
该架构专为中国芯片硬件逻辑设计,使模型能顺畅运行在国产硬件上,目前支持FP8 的中国设计芯片包括华为海思半导体、寒武纪、沐曦与摩尔线程产品。
技术细节:
UE8M0 含义:
U:无符号(Unsigned),适用于启动值通常非负的场景。
E8M0:8 位全部用于指数(Exponent),尾数(Mantissa)为0,透过隐式归一化或动态尾数调整实现灵活性。
动态尾数策略:在实际实作中,可能采用动态尾数分配(如根据指数范围动态调整尾数有效位),或预设尾数为1,值的范围为(2^{-128}) 至(2^{127})。
FP8 规模
指在量化过程中用于缩放数值的因子(Scale),确保数值在FP8 的表示范围内。
块级缩放:将张量分成固定大小的区块(如128×128 的tile),每个区块共享一个缩放因子。这种区块级缩放(而非整个张量级)在保留8 位元位宽的同时,将可用动态范围扩展数十倍。
优势与应用:
硬件效率提升
显存节省:权重显存占用降低约50%,例如680B 模型权重档案从1.3-1.5TB 降至约680GB。
计算加速:由于UE8M0 不含尾数与符号位,处理器在根据缩放因子对资料复原时,仅需乘以对应的2 的幂(即指数位移操作),无需浮点乘法、规格化或舍入逻辑,缩短了时脉关键路径。
中国国产芯片适合的搭配:
寒武纪:思元590 芯片支持FP8 精度,算力密度较前代提升40%。
摩尔线程:首个支持原生FP8 的国产GPU 厂商,基于MUSA Compute Capability 3.1 架构。
海光信息:DCU(深算系列)透过FP8 优化降低30% 显存占用,运算效率提升20%。
行业影响:
技术突破:DeepSeek-V3.1 是中国国内首个成功使用FP8 完成大型语言模型训练的案例,证明了FP8 在超大规模模型训练中的可行性。
生态闭环:UE8M0 FP8 助力国产AI 芯片– 国产开源模型– 下游应用形成完整生态,推动中国AI 芯片加速追赶国际先进水准。
中国国产AI 芯片产业持续突破
中国智库至坦AI 周五(22 日)指出,华为的910D 与寒武纪的思元690 芯片都有可能成为DeepSeek 新模型的基础。
DeepSeek 团队过去主要使用英伟达芯片开发模型,因此转向中国AI 芯片可能在稳定性、连线速度及软体生态上面临挑战。
与此同时,华为正积极打造完整AI 硬件生态系统,以在国内挑战英伟达。今年初,华为发布CloudMatrix 384 计算系统,整合384 颗升腾910C 神经处理单元与192 颗鲲鹏服务器CPU,通过统一总线互联,提供超高带宽与低延迟。
对中国下一代AI 芯片的猜测,带动相关上市公司股价上扬。周五,寒武纪与海光的上海股票双双上涨20%,中国大陆最大晶圆代工厂、同时生产华为升腾和麒麟芯片的中芯国际在香港股价上涨10.1%,收报56.90 港元。