特斯拉揭秘:百万核Dojo超级计算机中缺陷核心的识别与处理
10 小时前 / 阅读约6分钟
来源:Tomshardware
特斯拉开发了Stress工具,可在不中断运行的情况下检测Dojo处理器中容易出现静默数据损坏的核心。Dojo是世界上最大的处理器之一,每个包含8850个核心。Stress工具已集成到Dojo集群中,用于在AI训练期间监控硬件健康状况。

(图片来源:台积电)

在庞大的处理器集群中识别并禁用故障核心是一项艰巨任务,但特斯拉已开发出Stress工具。该工具能够在不影响运行的情况下,不仅检测Dojo处理器,还能在整个包含数百万核心的Dojo集群中,识别出易导致静默数据损坏(SDC)的核心。这项功能至关重要,因为特斯拉指出,单个静默数据错误可能破坏整个训练过程,这一过程往往需要数周时间。

特斯拉的Dojo处理器是目前全球最大的处理器之一,采用整个300毫米晶圆制造,意味着无法一次性制造更大的计算能力单元。每个Dojo晶圆级处理器最多可集成8850个核心,但其中部分核心在部署后可能引发静默数据损坏,从而破坏大量训练成果。

巨型处理器的挑战

鉴于Dojo训练瓦片(大型晶圆级芯片)的极端复杂性,即使在制造过程中也难以检测出缺陷芯片,而静默数据损坏问题则更加复杂。

请注意,所有硬件类型都难免出现SDC,而Dojo处理器功耗高达18000安培,散热达15000瓦,这加剧了问题。所有核心必须按预期运行,否则特斯拉的AI训练将因数据损坏导致的单个错误而前功尽弃,数周努力付诸东流。

(图片来源:特斯拉)

特斯拉将每个晶圆级Dojo处理器称为“训练瓦片”。每个训练瓦片包含25个645平方毫米的D1“芯片”,每个芯片内置354个定制的64位RISC-V核心,配备1.25MB SRAM用于数据和指令(特斯拉称之为节点,为便于理解,我们称之为核心)。这些核心以5×5集群形式组织,并通过10TB/s带宽的网状网络相互连接。

每个D1还支持4TB/s的片外带宽。因此,每个“训练瓦片”拥有8850个核心,支持8位、16位、32位或64位整数及多种数据格式。特斯拉采用台积电的InFO_SoW技术封装其晶圆级Dojo处理器。

维护至关重要

为应对核心故障风险,特斯拉首先采用差分模糊测试技术。初期版本涉及生成随机指令集,并将相同序列发送至所有核心,执行后比较输出以查找不匹配项。然而,由于主机与Dojo训练瓦片间通信开销巨大,此过程耗时过长。

(图片来源:特斯拉)

为提高效率,特斯拉改进了该方法,为每个核心分配一个由0.5MB随机指令构成的唯一有效载荷。核心不再与主机通信,而是在Dojo训练瓦片内部相互检索有效载荷并依次执行。这种内部数据交换利用Dojo训练瓦片的高带宽通信,使特斯拉能在更短时间内测试约4.4GB的指令。

特斯拉还通过使核心能在不重置状态的情况下多次运行每个有效载荷,进一步增强了该方法。此技术在执行环境中引入额外随机性,从而能揭露原本难以检测的细微错误。尽管执行次数增加,但据公司称,与检测可靠性的提升相比,性能下降微不足道。

另一项改进是定期使用XOR操作将寄存器值集成到指定SRAM区域,从而以十倍概率(在已知缺陷核心中测试)识别出缺陷计算单元,同时不会导致性能显著下降。

跨层级的有效性

特斯拉的方法不仅在Dojo训练瓦片级别或Dojo机柜级别(包含12个Dojo训练瓦片)有效,在Dojo集群级别也同样有效,使公司能从数百万个活动核心中识别出故障核心。

(图片来源:特斯拉)

据报道,一旦调整得当,Stress监控系统就能在Dojo集群中发现大量缺陷核心。然而,检测时间分布差异显著。大多数缺陷在每个核心执行1GB至100GB有效载荷指令后发现,对应运行时间为几秒钟到几分钟。更难检测的缺陷可能需要超过1000GB的指令,即数小时的执行时间。

值得注意的是,特斯拉的Stress工具测试运行轻量且核心内部独立,允许其在后台进行测试而无需使核心脱机。显然,只有被确定为故障的核心才会在之后被禁用,且每个D1芯片可容忍少数核心禁用而不影响整体功能。

设计缺陷的识别

特斯拉还提到,Stress工具除检测故障核心外,还发现了一个罕见的设计级缺陷,工程师们已通过软件调整解决此问题。在监控系统的更广泛部署过程中,还发现了低级软件层中的几个问题并进行了纠正。

目前,Stress工具已完全集成到运行中的Dojo集群中,用于在活跃的AI训练期间对硬件健康状况进行现场监控。该公司表示,通过此监控观察到的缺陷率与谷歌和Meta公布的缺陷率相当,表明该监控工具和硬件与其他公司使用的相当。

后硅与预硅阶段的应用

特斯拉现计划利用Stress获得的数据研究因老化导致的硬件长期退化。此外,公司还打算将该方法扩展至预硅测试阶段和早期验证工作流程中,以便在生产前就能捕捉到上述故障。尽管难以想象具体实现方式,因为SDC可能因老化而发生,但特斯拉正积极探索这一领域。

深度思考

开发和构建晶圆级处理器是一项极其复杂的任务,目前仅Cerebras和特斯拉两家公司成功完成。这些设备与其他处理器一样,易出现缺陷和退化;然而,特斯拉已开发出无需脱机即可识别故障处理核心的方法,这标志着显著进步。

台积电为Cerebras和特斯拉构建了这些巨型处理器,并表示未来几年将有更多公司采用其SoIC-SoW技术的晶圆级设计。显然,该行业正在为此积极准备并积累经验。

请关注Tom's Hardware的Google News频道,以获取我们的最新新闻、分析和评论。请确保点击关注按钮。