OpenAI 研发出新方案,可将推理成本减半
3 小时前

据知情人士称,本月早些时候,OpenAI工程师向部分同事透露,通过几项新的优化技术,已找到将模型推理成本降低一半以上的方案。在应用于无免费或付费账户的访客使用ChatGPT场景时,所需英伟达GPU数量一度降至仅数百块。目前,具体技术手段尚不清楚,但业内常用的优化方案包括量化压缩、键值缓存、批量处理用户查询,以及将部分请求分流至轻量化模型或模型分片进行应答。