GPT-5编程能力测试引发争议,因其官方测试使用的SWE-bench Verified子集仅包含477个问题,而非原定的500个问题。SWE-bench是评估模型自主编程能力的通用指标,其Verified子集原本有500个问题,但OpenAI自行省略了23个问题。若这些省略的问题默认得分为零,GPT-5的得分将低于Claude Opus 4.1,两者差距仅为0.4%。OpenAI曾以解决方案无法在其基础设施上运行为由,在GPT-4.1发布时也忽略了部分问题。此次操作再次引发质疑,关于GPT-5编程能力的评估结果或存水分。