英特尔与AMD推出新型ACE CPU扩展，为x86架构引入高效AI指令集 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

英特尔与AMD推出新型ACE CPU扩展，为x86架构引入高效AI指令集

3 小时前 / 阅读约4分钟

来源：Tomshardware

英特尔和AMD发布了ACE CPU扩展规范，使在x86处理器上运行AI任务更加高效。ACE利用AVX10寄存器，增加了专用于矩阵乘法的硅元件，提高了能效，简化了开发过程，并支持多种数据类型。

(图片来源：Getty Images)

Facebook
X
Whatsapp
Reddit
Pinterest
Flipboard
Email

分享本文

加入对话

关注我们

在Google新闻上将我们设为首选来源

订阅我们的新闻通讯

提到“运行AI模型”，大多数人首先想到的是GPU，但实际上，并非所有AI任务都适合使用GPU。对于小型模型或对延迟敏感的单用户操作，在CPU上运行可能更为合适，因为这样可以避免在GPU之间传输数据所带来的额外开销。更何况，在很多情况下，可能根本没有可用的GPU，或者仅有一个功能有限的集成GPU。最近，英特尔和AMD发布了ACE CPU扩展的完整规范，使得在x86处理器上运行这些AI任务变得更加容易，同时也更加节能。

ACE通过提供一个技术标准来实现这一目标，该标准利用现有的AVX10寄存器，并增加了专门用于矩阵乘法的硅组件。这一创新带来了诸多优势，其中最显著的是提高了能效、简化了开发和优化流程，并充分利用了AVX的512位输入。由于避免了需要ACE特定的输入，这一标准使得与现有设计的集成变得轻而易举。

矩阵乘法是AI工作负载的核心组成部分：它涉及对一个数字表格进行乘法累加循环。尽管大多数CPU都能以一定的速度完成这一操作，但这一过程一直颇为耗能。即使在今天，运行这些循环仍然会消耗大量电力，即便利用了x86的AVX10乘积累加指令也是如此。这主要是因为AVX并非专为二维矩阵乘法操作而设计，因此在技术上存在一定的局限性。

最新视频来自

观看完整视频：

对于相同数量的输入向量，ACE相比AVX10能够执行多达16倍的操作。当然，这并不意味着速度会直接提升16倍，因为具体性能还取决于每个实现的细节。但可以合理预期的是，英特尔和AMD将在未来的设计中投入更多硅资源，以进一步提升性能。此外，由于每个ACE指令比其等效的AVX10循环执行更多工作，因此CPU指令开销更少，并且可能立即实现更高效的RAM带宽利用率。

这些优势远不止于减少完成相同任务所需的指令数量。ACE的设计具有实现无关性，这意味着机器学习框架及其底层库（如PyTorch、TensorFlow）只需编写一个代码路径，而无需根据底层硬件及其AVX支持程度编写多个变体。这大大简化了开发过程，并提高了代码的可移植性。

ACE原生支持机器学习操作中常用的几乎所有数据类型，包括但不限于INT8、INT32、FP8、FP16、FP32、BF16。此外，它还可以原生使用开放计算项目的MX块缩放格式，这是AVX10所无法比拟的。当开发者需要快速完成某些任务时，他们还可以将一些原本特定于NPU的工作负载移回CPU。在这种情况下，无需处理每个NPU都不同的事实也是一个巨大的优势，因为ACE在x86硬件上提供了一个统一的目标平台。