又一家Google TPU前团队成员的创业公司获得大额融资。近日,AI芯片初创公司MatX完成5亿美元B轮融资,由Jane Street和Situational Awareness LP领投,Spark Capital、Triatomic Capital、Harpoon Ventures以及包括Andrej Karpathy、Stripe联合创始人Patrick Collison与John Collison在内的多位科技界创始人参投。产投方Alchip和Marvell也参与了本轮融资。
此前,他们还获得由Spark Capital领投的超1亿美元A轮融资,参投方包括Jane Street、Daniel Gross与Nat Friedman、Triatomic Capital、Harpoon Ventures以及Adam D'Angelo。
MatX认为,目前AI芯片的核心是高吞吐量和低延迟,对应的指标是tokens/每秒和首token时间。它们的首款芯片已经接近开发完成,预计在一年内完成芯片流片。
这个叫MatX One的芯片采用了可拆分脉动阵列 (Splittable Systolic Array) 架构,同时通过结合SRAM与高带宽内存 (HBM)结合的混合设计,兼顾了极低的延迟与高吞吐量。
MatX由Reiner Pope和Mike Gunter联合创立。其中,Reiner Pope从2017年开始加入Google内部项目孵化平台“登月工厂”(Moonshot Factory),2019年起,他担任Google TPU的技术主管兼架构师,连续参与了两代芯片的设计,并成为第二代芯片的主要负责人之一。
而且,他还参与了Google当时最先进模型PaLM的训练,是PaLM的软件/硬件效率负责人。
Mike Gunter则是一个对芯片的底层逻辑电路和系统架构摸得很透的“真专家”。加入Google前,他联合创办了无线通信芯片公司Gossett and Gunter,后来公司被Google收购。
从2008年开始,他主导了Google第一个硬件加速项目,该项目最终把Google计算密集型任务的性价比提高了10倍以上。他和Reiner Pope几乎同一时间加入Moonshot Factory,在TPU项目上合作也相当紧密。
当2022年, ChatGPT发布之前,Reiner Pope和Mike Gunter已经感受到了大语言模型将掀起浪潮,他们渴望AI硬件提供对超大模型的支持,但是在Google,当时TPU还要处理一个极其庞大的广告工作负载,在这种环境中要进行颠覆性的创新,掣肘太多,尤其是对于前期投入巨大的芯片。于是他们决定离职,创业。

MatX的核心团队,图片来源:MatX
这两人的组合,让创始团队对于AI芯片在硬件和软件方面结合得很好,他们目前还集结了一个百人规模的团队,汇聚了一批能够解决AI芯片难题的顶尖大脑:从学习率调度到硬件物理层的盲插连接。
从芯片架构和储存结构两方面切入
MatX One是MatX开发的第一款芯片,它专为运行大语言模型而优化,为此牺牲了小模型的性能、低并发的工作负载。
MatX One的核心技术有两个:“可拆分脉动阵列”的电路设计架构以及将SRAM和HBM结合的混合储存结构。
目前,很多专用AI芯片,采用一种被称为脉动阵列 (Systolic Array) 的电路设计。它是由相对简单、结构相同的计算模块通过网络连接而成的集合。每个模块负责执行处理AI提示词时所需计算的一小部分。
脉动阵列的好处是:极致加速稠密矩阵乘法和卷积运算,极高的硅片面积利用率,打破内存墙,扩展性好。Google TPU从第一代开始,就使用这种架构。
但传统的脉动阵列架构最大的局限是:它的阵列大小是固定的。这就造成它只能高效处理“与阵列尺寸匹配”的矩阵计算任务。
但是在实际的大语言模型计算场景中,矩阵尺寸是多变的。大模型的推理计算时,其解码阶段是处理小型矩阵计算,现在主流的MoE模型,在推理计算时,本质也是处理不同专家的小型矩阵计算。而在模型训练阶段,又处理的是大型矩阵计算。
如果阵列大小是固定的,那么处理小型矩阵计算时,大部分计算单元处于闲置状态,造成芯片资源浪费;处理大型矩阵计算时,又需要拆分任务、多次传输数据,增加延迟。
可拆分脉动阵列的好处是,芯片能够将其脉动阵列拆解为多个更小的阵列单元。这种方法使得芯片能够根据正在处理的矩阵大小动态调整电路配置,从而大幅提升计算效率。
例如,处理训练阶段的大型矩阵时,不拆分阵列,以完整的大阵列发挥高能效、高面积效率的优势;处理解码阶段的小型矩阵,或MoE模型中多个专家的并行计算时,将大阵列拆分成多个小阵列,每个小阵列对应一个小型矩阵任务,让所有计算单元都能充分工作,避免资源闲置。
在储存架构上,目前有两种主流的路线。
以英伟达为代表的HBM路线,主要解决的是吞吐问题。它的核心解法是:模型越大、参数越多、上下文越长,就越需要把权重和激活值在芯片之间高速搬运。
以Cerebras Systems为代表的片上SRAM路线,主要解决的是延迟问题。它的核心解法是:把尽可能多的数据放在片上SRAM中,以便减少外部访存,降低单次查询延迟。
但是,这两种路线都有其局限性,如果只强调HBM带宽,延迟难以下降;如果只强调片上SRAM,规模又难以扩展。
于是,MatX采用了SRAM和HBM结合的混合储存结构。MatX One将大部分模型权重存储在SRAM单元中。SRAM紧挨着逻辑电路,具有更低的延迟,能够显著加快处理速度。
对于KV缓存数据,MatX One则采用速度稍慢但容量更大的HBM进行存储。KV缓存是大语言模型用于加速处理的一种机制。通过缓存计算结果,减少了重复执行高频计算的需求,从而大幅节省了时间。
MatX联合创始人Reiner Pope在一篇博客中写到:“这些架构要素,辅以对数值计算的优化,使MatX One在处理大模型计算时实现了超越现有主流计算系统的吞吐量,同时在延迟表现上与纯SRAM优先的设计旗鼓相当。”
在扩展性和适应性上,MatX One具有很好的横向扩展互连架构,支持由数十万枚芯片组成的计算集群。而且无论是大型MoE模型还是大型稠密模型均能很好运行,对于模型规模没有任何上限限制(得益于可拆分脉动阵列)。
除了硬件外,别忘了Reiner Pope是训练过模型的,从MatX公布的一系列研究文章上看,他们正致力于将推测解码 (Speculative Decoding) 与块状稀疏注意力机制 (Blockwise Sparse Attention)融为一体。这样从模型层面的优化,能够进一步提升计算效率。
据媒体报道, MatX正与台积电合作生产芯片,MatX One计划于2027年开始发货。
以往,AI芯片的算力的衡量标准是FLOPS,但对于推理算力,现在更实际的指标可能是每秒tokens数,例如另一家刚刚获得1.69亿美元融资的AI算力创业公司Taalas就宣称它们对于Llama 3.1 8B模型的单芯片推理速度达17000 tokens/秒。
事实上,每秒tokens数这个指标,对应的就是吞吐量,这本质是一本经济账。假设客户花数万美元买一块芯片,它是能提供每秒一万个tokens还是十万个tokens的吞吐量?假设是十万个tokens ,它每token的成本就是一万个tokens的十分之一。
这里就说到了单位经济学,即每花一块钱在AI算力上,能够“压榨”出多少tokens。至少在现阶段,AI算力单位经济学的账是没有算平的。不少AI模型公司,都在陷入用户用得越多,就亏得越多,然后不得不限制用户使用量,最后损害用户体验的怪圈。
而且,自2025年以来,Agent作为一种AI应用的形式已经越来越普及。相比ChatBot,Agent对于Tokens的消耗是指数级提升的,如果一个用户一天和ChatBot交互几十次,可能只会消耗10-100万Tokens,但如果他让Agent自动完成一个复杂任务,跑一晚上,那可能会消耗上亿Tokens。鉴于现在高级AI模型的API并不便宜,这种消耗量对于用户和模型公司来说,从经济上都是很难接受的。
那么,当每一个token的成本足够低,单位经济学的账能够算平,会发生什么。想想移动互联网时代发生的事情,当网络足够快,足够便宜,手机等个人智能终端足够普及。一方面,对于互联网公司,开发和运营一个产品,当用户规模到了一定程度后,边际成本很低;对于用户,可以几乎免费的体验良好的服务。这是一个双赢,其结果就是诞生微信和抖音等巨型App。
要让这一幕在AI时代发生,需要什么?需要整个AI算力基础设施内各个环节的共同努力,不断降低每一个token的成本,我们已经看到了进展,但是仍没有达到那个临界点。而在行业向那个临界点进发的过程中,将诞生无数优秀创业公司,我们对此十分期待。
