兼顾AI芯片的高吞吐量和低延迟，MatX获5亿美元融资 - 芯片

Just Quick Just Quality

热门话题

白天

搜索

资讯

兼顾AI芯片的高吞吐量和低延迟，MatX获5亿美元融资

2026-03-05 / 阅读约10分钟

来源：36kr

AI芯片初创公司MatX完成5亿美元B轮融资，其首款芯片MatX One采用可拆分脉动阵列架构和SRAM与HBM混合储存结构，专为大语言模型优化，计划2027年发货。

又一家Google TPU前团队成员的创业公司获得大额融资。近日，AI芯片初创公司MatX完成5亿美元B轮融资，由Jane Street和Situational Awareness LP领投，Spark Capital、Triatomic Capital、Harpoon Ventures以及包括Andrej Karpathy、Stripe联合创始人Patrick Collison与John Collison在内的多位科技界创始人参投。产投方Alchip和Marvell也参与了本轮融资。

此前，他们还获得由Spark Capital领投的超1亿美元A轮融资，参投方包括Jane Street、Daniel Gross与Nat Friedman、Triatomic Capital、Harpoon Ventures以及Adam D'Angelo。

MatX认为，目前AI芯片的核心是高吞吐量和低延迟，对应的指标是tokens/每秒和首token时间。它们的首款芯片已经接近开发完成，预计在一年内完成芯片流片。

这个叫MatX One的芯片采用了可拆分脉动阵列 (Splittable Systolic Array) 架构，同时通过结合SRAM与高带宽内存 (HBM)结合的混合设计，兼顾了极低的延迟与高吞吐量。

大语言模型专用芯片，同时兼顾高吞吐量和低延迟

MatX由Reiner Pope和Mike Gunter联合创立。其中，Reiner Pope从2017年开始加入Google内部项目孵化平台“登月工厂”（Moonshot Factory），2019年起，他担任Google TPU的技术主管兼架构师，连续参与了两代芯片的设计，并成为第二代芯片的主要负责人之一。

而且，他还参与了Google当时最先进模型PaLM的训练，是PaLM的软件/硬件效率负责人。

Mike Gunter则是一个对芯片的底层逻辑电路和系统架构摸得很透的“真专家”。加入Google前，他联合创办了无线通信芯片公司Gossett and Gunter，后来公司被Google收购。

从2008年开始，他主导了Google第一个硬件加速项目，该项目最终把Google计算密集型任务的性价比提高了10倍以上。他和Reiner Pope几乎同一时间加入Moonshot Factory，在TPU项目上合作也相当紧密。

当2022年， ChatGPT发布之前，Reiner Pope和Mike Gunter已经感受到了大语言模型将掀起浪潮，他们渴望AI硬件提供对超大模型的支持，但是在Google，当时TPU还要处理一个极其庞大的广告工作负载，在这种环境中要进行颠覆性的创新，掣肘太多，尤其是对于前期投入巨大的芯片。于是他们决定离职，创业。

MatX的核心团队，图片来源：MatX

这两人的组合，让创始团队对于AI芯片在硬件和软件方面结合得很好，他们目前还集结了一个百人规模的团队，汇聚了一批能够解决AI芯片难题的顶尖大脑：从学习率调度到硬件物理层的盲插连接。

从芯片架构和储存结构两方面切入

MatX One是MatX开发的第一款芯片，它专为运行大语言模型而优化，为此牺牲了小模型的性能、低并发的工作负载。

MatX One的核心技术有两个：“可拆分脉动阵列”的电路设计架构以及将SRAM和HBM结合的混合储存结构。

目前，很多专用AI芯片，采用一种被称为脉动阵列 (Systolic Array) 的电路设计。它是由相对简单、结构相同的计算模块通过网络连接而成的集合。每个模块负责执行处理AI提示词时所需计算的一小部分。

脉动阵列的好处是：极致加速稠密矩阵乘法和卷积运算，极高的硅片面积利用率，打破内存墙，扩展性好。Google TPU从第一代开始，就使用这种架构。

但传统的脉动阵列架构最大的局限是：它的阵列大小是固定的。这就造成它只能高效处理“与阵列尺寸匹配”的矩阵计算任务。

但是在实际的大语言模型计算场景中，矩阵尺寸是多变的。大模型的推理计算时，其解码阶段是处理小型矩阵计算，现在主流的MoE模型，在推理计算时，本质也是处理不同专家的小型矩阵计算。而在模型训练阶段，又处理的是大型矩阵计算。

如果阵列大小是固定的，那么处理小型矩阵计算时，大部分计算单元处于闲置状态，造成芯片资源浪费；处理大型矩阵计算时，又需要拆分任务、多次传输数据，增加延迟。

可拆分脉动阵列的好处是，芯片能够将其脉动阵列拆解为多个更小的阵列单元。这种方法使得芯片能够根据正在处理的矩阵大小动态调整电路配置，从而大幅提升计算效率。

例如，处理训练阶段的大型矩阵时，不拆分阵列，以完整的大阵列发挥高能效、高面积效率的优势；处理解码阶段的小型矩阵，或MoE模型中多个专家的并行计算时，将大阵列拆分成多个小阵列，每个小阵列对应一个小型矩阵任务，让所有计算单元都能充分工作，避免资源闲置。

在储存架构上，目前有两种主流的路线。

以英伟达为代表的HBM路线，主要解决的是吞吐问题。它的核心解法是：模型越大、参数越多、上下文越长，就越需要把权重和激活值在芯片之间高速搬运。

以Cerebras Systems为代表的片上SRAM路线，主要解决的是延迟问题。它的核心解法是：把尽可能多的数据放在片上SRAM中，以便减少外部访存，降低单次查询延迟。

但是，这两种路线都有其局限性，如果只强调HBM带宽，延迟难以下降；如果只强调片上SRAM，规模又难以扩展。

于是，MatX采用了SRAM和HBM结合的混合储存结构。MatX One将大部分模型权重存储在SRAM单元中。SRAM紧挨着逻辑电路，具有更低的延迟，能够显著加快处理速度。

对于KV缓存数据，MatX One则采用速度稍慢但容量更大的HBM进行存储。KV缓存是大语言模型用于加速处理的一种机制。通过缓存计算结果，减少了重复执行高频计算的需求，从而大幅节省了时间。

MatX联合创始人Reiner Pope在一篇博客中写到：“这些架构要素，辅以对数值计算的优化，使MatX One在处理大模型计算时实现了超越现有主流计算系统的吞吐量，同时在延迟表现上与纯SRAM优先的设计旗鼓相当。”

在扩展性和适应性上，MatX One具有很好的横向扩展互连架构，支持由数十万枚芯片组成的计算集群。而且无论是大型MoE模型还是大型稠密模型均能很好运行，对于模型规模没有任何上限限制（得益于可拆分脉动阵列）。

除了硬件外，别忘了Reiner Pope是训练过模型的，从MatX公布的一系列研究文章上看，他们正致力于将推测解码 (Speculative Decoding) 与块状稀疏注意力机制 (Blockwise Sparse Attention)融为一体。这样从模型层面的优化，能够进一步提升计算效率。

据媒体报道， MatX正与台积电合作生产芯片，MatX One计划于2027年开始发货。

当单个token的成本足够低，AI的大规模普及才会真正到来

以往，AI芯片的算力的衡量标准是FLOPS，但对于推理算力，现在更实际的指标可能是每秒tokens数，例如另一家刚刚获得1.69亿美元融资的AI算力创业公司Taalas就宣称它们对于Llama 3.1 8B模型的单芯片推理速度达17000 tokens/秒。

事实上，每秒tokens数这个指标，对应的就是吞吐量，这本质是一本经济账。假设客户花数万美元买一块芯片，它是能提供每秒一万个tokens还是十万个tokens的吞吐量？假设是十万个tokens ，它每token的成本就是一万个tokens的十分之一。

这里就说到了单位经济学，即每花一块钱在AI算力上，能够“压榨”出多少tokens。至少在现阶段，AI算力单位经济学的账是没有算平的。不少AI模型公司，都在陷入用户用得越多，就亏得越多，然后不得不限制用户使用量，最后损害用户体验的怪圈。

而且，自2025年以来，Agent作为一种AI应用的形式已经越来越普及。相比ChatBot，Agent对于Tokens的消耗是指数级提升的，如果一个用户一天和ChatBot交互几十次，可能只会消耗10-100万Tokens，但如果他让Agent自动完成一个复杂任务，跑一晚上，那可能会消耗上亿Tokens。鉴于现在高级AI模型的API并不便宜，这种消耗量对于用户和模型公司来说，从经济上都是很难接受的。

那么，当每一个token的成本足够低，单位经济学的账能够算平，会发生什么。想想移动互联网时代发生的事情，当网络足够快，足够便宜，手机等个人智能终端足够普及。一方面，对于互联网公司，开发和运营一个产品，当用户规模到了一定程度后，边际成本很低；对于用户，可以几乎免费的体验良好的服务。这是一个双赢，其结果就是诞生微信和抖音等巨型App。

要让这一幕在AI时代发生，需要什么？需要整个AI算力基础设施内各个环节的共同努力，不断降低每一个token的成本，我们已经看到了进展，但是仍没有达到那个临界点。而在行业向那个临界点进发的过程中，将诞生无数优秀创业公司，我们对此十分期待。

上一篇：南芯科技发布音频功率放大器，定义“声临其境”的声学体验

下一篇：量子生物探测关键难题攻克

返回列表

热文阅读

2 天前

【专利】蔚来换电技术惹争议，2.5亿美元索赔遭否认

2 天前

英特尔2026年Q1财报：营收136亿美元，净利润大涨156%

2 天前

MINIX 发布英伟达 Jetson Thor 平台 GenAI 迷你主机，搭载双万兆网口

2 天前