​阿里通义实验室推出 FIPO 算法,助力大模型推理能力大幅提升
3 天前

阿里通义实验室Qwen Pilot团队推出新算法FIPO,以突破大模型推理瓶颈。传统强化学习方法难以区分关键Token,FIPO通过引入Future-KL机制,奖励对后续推理有显著影响的Token,解决了“推理长度停滞”问题。此外,团队还利用符号对数概率差捕捉优化方向。实验表明,在32B规模纯强化学习设置下,FIPO超越了同规模模型,在零基础模型上突破推理长度瓶颈,将平均推理长度提升至10,000 Token以上,显著提高了推理准确率,展现了在复杂数学推理中的潜力。