英伟达、DeepSeek集体跟进,18个月前被忽视,如今统治AI推理
13 小时前 / 阅读约1分钟
来源:凤凰网
2024年加州大学圣地亚哥分校提出DistServe解耦推理理念,迅速成为行业标准,被主流大模型推理框架采用,预示AI迈向模块化智能新时代,推理成本下降远超摩尔定律预测。

编辑:元宇

【新智元导读】2024年,加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念,短短一年多时间,迅速从实验室概念成长为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向「模块化智能」的新时代。

如果说「摩尔定律」认为计算能力每18个月翻倍,如今大模型推理成本的下降速度,已远超「摩尔定律」关于计算能力迭代速度的预测。

这并非只是芯片性能提升之功,更重要的是来自推理系统的自身进化。而加速这一进化的,源自一个在DistServe系统中首次提出并实践的「解耦推理」理念。

该系统由加州大学圣地亚哥分校的「Hao AI Lab」于2024年3月推出,并提出了一个简单而大胆的设想:

将大模型的推理过程拆分为「预填充」和「解码」两个阶段,并让它们分别在独立的计算资源池中进行伸缩与调度。