阿里通义实验室推出 FIPO 算法，助力大模型推理能力大幅提升

3 天前

阿里通义实验室Qwen Pilot团队推出新算法FIPO，以突破大模型推理瓶颈。传统强化学习方法难以区分关键Token，FIPO通过引入Future-KL机制，奖励对后续推理有显著影响的Token，解决了“推理长度停滞”问题。此外，团队还利用符号对数概率差捕捉优化方向。实验表明，在32B规模纯强化学习设置下，FIPO超越了同规模模型，在零基础模型上突破推理长度瓶颈，将平均推理长度提升至10,000 Token以上，显著提高了推理准确率，展现了在复杂数学推理中的潜力。

上一篇：被称为「GPT-4o 之母」的 OpenAI 高管宣布离职

下一篇：DeepSeek V4 又灰度测试：全新界面、多模态重大升级

返回列表

热文阅读

2 天前

养虾人，开始认真算账了

1 天前

走出ICU的“AI三小龙”，究竟做对了什么？

1 天前

对话美团GN06刘炯：美团为什么做了一款AI浏览器？

1 天前

华为入局！AI眼镜再添重磅玩家