英特尔与AMD推出新型ACE CPU扩展,为x86架构引入高效AI指令集
3 小时前 / 阅读约4分钟
来源:Tomshardware
英特尔和AMD发布了ACE CPU扩展规范,使在x86处理器上运行AI任务更加高效。ACE利用AVX10寄存器,增加了专用于矩阵乘法的硅元件,提高了能效,简化了开发过程,并支持多种数据类型。

(图片来源:Getty Images)

  • Facebook
  • X
  • Whatsapp
  • Reddit
  • Pinterest
  • Flipboard
  • Email
分享本文
1
加入对话
关注我们
在Google新闻上将我们设为首选来源
订阅我们的新闻通讯

提到“运行AI模型”,大多数人首先想到的是GPU,但实际上,并非所有AI任务都适合使用GPU。对于小型模型或对延迟敏感的单用户操作,在CPU上运行可能更为合适,因为这样可以避免在GPU之间传输数据所带来的额外开销。更何况,在很多情况下,可能根本没有可用的GPU,或者仅有一个功能有限的集成GPU。最近,英特尔和AMD发布了ACE CPU扩展的完整规范,使得在x86处理器上运行这些AI任务变得更加容易,同时也更加节能。

ACE通过提供一个技术标准来实现这一目标,该标准利用现有的AVX10寄存器,并增加了专门用于矩阵乘法的硅组件。这一创新带来了诸多优势,其中最显著的是提高了能效、简化了开发和优化流程,并充分利用了AVX的512位输入。由于避免了需要ACE特定的输入,这一标准使得与现有设计的集成变得轻而易举。

矩阵乘法是AI工作负载的核心组成部分:它涉及对一个数字表格进行乘法累加循环。尽管大多数CPU都能以一定的速度完成这一操作,但这一过程一直颇为耗能。即使在今天,运行这些循环仍然会消耗大量电力,即便利用了x86的AVX10乘积累加指令也是如此。这主要是因为AVX并非专为二维矩阵乘法操作而设计,因此在技术上存在一定的局限性。

最新视频来自
观看完整视频:

对于相同数量的输入向量,ACE相比AVX10能够执行多达16倍的操作。当然,这并不意味着速度会直接提升16倍,因为具体性能还取决于每个实现的细节。但可以合理预期的是,英特尔和AMD将在未来的设计中投入更多硅资源,以进一步提升性能。此外,由于每个ACE指令比其等效的AVX10循环执行更多工作,因此CPU指令开销更少,并且可能立即实现更高效的RAM带宽利用率。

这些优势远不止于减少完成相同任务所需的指令数量。ACE的设计具有实现无关性,这意味着机器学习框架及其底层库(如PyTorch、TensorFlow)只需编写一个代码路径,而无需根据底层硬件及其AVX支持程度编写多个变体。这大大简化了开发过程,并提高了代码的可移植性。

ACE原生支持机器学习操作中常用的几乎所有数据类型,包括但不限于INT8、INT32、FP8、FP16、FP32、BF16。此外,它还可以原生使用开放计算项目的MX块缩放格式,这是AVX10所无法比拟的。当开发者需要快速完成某些任务时,他们还可以将一些原本特定于NPU的工作负载移回CPU。在这种情况下,无需处理每个NPU都不同的事实也是一个巨大的优势,因为ACE在x86硬件上提供了一个统一的目标平台。

在Google新闻上关注Tom's Hardware,或将我们设为首选来源,以便在你的信息流中获取我们的最新新闻、分析和评论。