英伟达推出开源 AI 框架 Polar,Codex 性能提升近 600%
4 小时前

英伟达近日发布了开源AI框架Polar,该框架旨在帮助Codex等智能体框架接入广义相对策略优化(GRPO)训练方法,且不影响原有工具调用、上下文组织和补丁提交流程。GRPO通过奖励信号来调整模型策略,从而提升代码智能体在多步决策任务中的性能。Polar框架在模型API边界部署智能体,保持原有运行逻辑的同时,提供了任务提交、会话调度和状态持久化等功能,进一步优化了训练流程。实验结果表明,使用Polar与GRPO训练的智能体在SWE-Bench Verified测试中性能显著提升,Codex的pass@1分数从3.8%大幅提高至26.4%,训练时间缩短了约5.39倍,GPU平均利用率也大幅提升。