
(图片来源:微软)
微软推出了其最新的AI加速器——微软Azure Maia 200。这款全新的自研AI芯片,作为微软Maia GPU系列的下一代产品,专为AI模型推理设计,具备极快的速度和卓越的性能,旨在超越超大规模竞争对手亚马逊和谷歌的定制产品。
微软称Maia 200为迄今为止部署的“最高效的推理系统”,其新闻稿大力宣传其卓越的性能数据,并强调了微软对环保的承诺。微软表示,Maia 200的每美元性能比第一代Maia 100高出30%,考虑到新芯片的技术规格还标榜其热设计功耗(TDP)比前代高出50%,这一成绩令人瞩目。
Maia 200采用台积电的3nm工艺节点制造,集成了1400亿个晶体管。该芯片的FP4计算性能高达10千万亿次浮点运算,是亚马逊Trainium3竞品的三倍。Maia 200还配备了216GB的HBM3e内存,HBM带宽高达7TB/s,并内置了272MB的片上SRAM。
| 第0行-第0列 | Azure Maia 200 | AWS Trainium3 | 英伟达Blackwell B300 Ultra |
工艺技术 | N3P | N3P | 4NP |
FP4千万亿次浮点运算 | 10.14 | 2.517 | 15 |
FP8千万亿次浮点运算 | 5.072 | 2.517 | 5 |
BF16千万亿次浮点运算 | 1.268 | 0.671 | 2.5 |
HBM内存大小 | 216GB HBM3e | 144GB HBM3e | 288GB HBM3e |
HBM内存带宽 | 7TB/s | 4.9TB/s | 8TB/s |
TDP | 750W | ??? | 1400W |
双向带宽 | 2.8TB/s | 2.56TB/s | 1.8TB/s双向 |
从表中可以看出,与亚马逊的自研产品相比,Maia 200在原始计算能力上占据明显优势,与英伟达的顶级GPU相比也毫不逊色。当然,将两者直接作为竞争对手进行比较并不恰当;Maia 200并不直接对外销售,Blackwell B300 Ultra的调校用途也比微软芯片更为广泛,而且英伟达的软件堆栈使其在市场上遥遥领先。
然而,Maia 200在效率方面确实超越了B300,这在公众日益关注AI环境影响的当下,无疑是一个重大胜利。Maia 200的功耗几乎为B300的一半(750W vs 1400W),而且如果它像Maia 100一样,其实际运行功耗可能会低于理论最大值;Maia 100的设计功耗为700W,但微软声称其实际运行功耗限制在500W。
Maia 200针对FP4和FP8性能进行了优化,专注于为需要FP4性能的AI模型推理客户提供服务,而非更复杂的操作。微软在该芯片上的研发预算似乎大量投入到了其272MB高效SRAM存储器的内存层次结构中,该存储器被划分为“多级集群级SRAM(CSRAM)和瓦片级SRAM(TSRAM)”,以提高运行效率,并实现跨所有HBM和SRAM芯片智能、均匀分配工作负载的理念。
由于微软官方提供的Maia 200和Maia 100的技术规格几乎没有重叠或共享测量值,因此很难准确衡量Maia 200相对于前代Maia 100的改进。目前我们只能说,Maia 200的运行温度将高于Maia 100,而且在性能-成本比方面提高了30%。
Maia 200已经部署在微软的美国中部Azure数据中心,未来还将在亚利桑那州凤凰城的美国西部3区数据中心进行部署,随着微软获得更多芯片,还将有更多的部署计划。该芯片将成为微软异构部署的一部分,与其他不同的AI加速器协同工作。
Maia 200最初代号为Braga,因其开发及发布严重延迟而备受关注。该芯片原计划于2025年发布和部署,甚至可能抢在B300之前上市,但最终未能实现。微软的下一款硬件发布时间尚不确定,但据10月的报道,该芯片很可能将采用英特尔代工厂的18A工艺制造。
微软围绕Maia 200的“效率优先”宣传,延续了其近期强调公司对数据中心周边社区关怀的趋势,竭力平息对AI热潮的强烈反对。微软首席执行官萨蒂亚·纳德拉最近在世界经济论坛上表示,如果公司不能帮助公众看到AI开发和数据中心建设的益处,他们就有可能失去“社会许可”,并可能引发AI泡沫。
在谷歌新闻上关注Tom's Hardware,或将我们设为首选信息源,以便在您的资讯流中获取我们的最新新闻、分析和评测。
