DeepSeek-R1训练成本不到30万美元
1 天前 / 阅读约2分钟
来源:集微网
深度求索披露其R1模型训练成本仅29.4万美元,远低于OpenAI数亿美元。论文登上Nature,使用512颗H800芯片训练,首次承认拥有A100芯片并用于开发准备。

中国AI新创公司「深度求索」(DeepSeek)近日在一篇论文中披露,其R1模型的训练成本仅29.4万美元,此数字远低于美国竞争对手OpenAI所公布的数亿美元天价。

路透报导,深度求索1月曾发表其号称的「低成本AI模型」,震惊全球科技圈。此后,该公司及其创始人梁文锋就鲜少公开露面,仅偶尔发表产品更新资讯。

深度求索的最新论文18日登上顶尖学术期刊「自然」(Nature),梁文锋名列共同作者。该文章指出,深度求索专注于推理能力的R1模型,训练成本为29.4万美元,过程中使用512颗英伟达的H800芯片。这是该公司首次公开其R1模型的训练成本估算。

相较之下,OpenAI执行长奥特曼(Sam Altman)曾在2023年表示,其基础模型的训练成本「远超过」1亿美元,但该公司从未公布任何具体模型的详细数字。

然而,深度求索关于其开发成本及所用技术的部分说法,已引发美国企业和官员的质疑。该公司论文中提到的H800芯片在美国于2022年10月禁止向中国出口其更强大的AI芯片H100、A100后,专为中国市场所设计的特供版晶片。

值得注意的是,在「自然」文章的一份补充资讯文件中,深度求索首次承认确实拥有A100芯片,并表示曾在开发的准备阶段使用过它们。研究人员写道:「关于DeepSeek-R1的研究,我们利用A100 GPU为使用较小规模模型的实验做准备。」又指在此初始阶段后,R1模型最终是在由512颗H800芯片组成的丛集上,进行总计80小时的训练。