Meta推出了LlamaRL强化学习框架,采用全异步分布式架构,显著提高了大模型训练效率。在4050亿参数模型上,强化学习步骤耗时从635.8秒缩短至59.5秒,性能提升超10倍。该框架通过模块化设计和高效数据传输技术,有效解决了内存占用高和GPU利用率低等问题,为更大规模模型训练提供了可扩展性方案。