12月20日,OpenAI发布了最新AI推理模型o3及其轻量版o3-mini。公司宣称,o3具备近似人类的推理能力,在代码编写、数学竞赛及掌握博士级科学知识方面均超越前代o1。在数学邀请赛中,o3准确率高达96.7%;在Frontier Math测试中,o3解决了25.2%的问题,远超其他大型语言模型;在GPQA Diamond基准测试中,o3准确率达到87.7%,超过人类博士水平。尽管性能卓越,但o3仍未达到通用AI水平。