2025年9月,微软研究院推出开源AI智能体推理框架rStar2-Agent,该框架仅用140亿参数便在AIME24数学推理测试中取得80.6%的准确率,超越参数规模48倍的DeepSeek-R1(6710亿参数)。在科学推理基准GPQA-Diamond测试中,其准确率达60.9%,亦超过DeepSeek-V3;在BFCL v3智能体工具使用任务中,任务完成率达60.8%,表现优于现有标杆。rStar2-Agent的核心技术革新包括:隔离式代码执行架构,支持45K并发工具调用,平均延迟0.3秒;GRPO-RoC算法,通过“正确时重采样”策略降低工具错误率至5%以下,推理长度缩短30%;高效训练流程,采用“非推理微调+多阶段强化学习”,仅需510步训练、64块MI300X GPU,一周内完成模型优化。该项目已在GitHub开源,旨在加速智能体技术产业化落地。