OpenAI在GPT-5发布会上因一张比例不当的图表引发争议。随后,有消息指出,在SWE-bench Verified测试中,OpenAI仅完成了477道题,却获得了74.9%的高分。相比之下,Anthropic的Claude Opus 4.1在完整500道题中取得了74.5%的成绩。SemiAnalysis指出,OpenAI少做的23道题可能影响成绩的公平性。此外,SWE-bench Verified测试集由OpenAI设计,这引发了关于测试规则是否偏向的质疑。同时,在IOI 2025竞赛中,OpenAI的内部模型取得了佳绩,但该模型并非公开版本,这进一步引发了关于测试标准和营销策略的讨论。这些细节使得公众对OpenAI的测试透明度和公正性产生了疑虑。