GPT-5 测试被质疑作弊，故意避开难题刷高分 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

GPT-5 测试被质疑作弊，故意避开难题刷高分

2 周前

OpenAI在GPT-5发布会上因一张比例不当的图表引发争议。随后，有消息指出，在SWE-bench Verified测试中，OpenAI仅完成了477道题，却获得了74.9%的高分。相比之下，Anthropic的Claude Opus 4.1在完整500道题中取得了74.5%的成绩。SemiAnalysis指出，OpenAI少做的23道题可能影响成绩的公平性。此外，SWE-bench Verified测试集由OpenAI设计，这引发了关于测试规则是否偏向的质疑。同时，在IOI 2025竞赛中，OpenAI的内部模型取得了佳绩，但该模型并非公开版本，这进一步引发了关于测试标准和营销策略的讨论。这些细节使得公众对OpenAI的测试透明度和公正性产生了疑虑。

上一篇：GPT-5编程成绩有猫腻自删23道测试题关键基准还是自己提的

下一篇：广州：加强对区块链、人工智能等关键数字服务机构的招商引资力度

返回列表

热文阅读

2 天前

人形机器人迈入大规模商用阶段？英伟达重磅消息：机器人新大脑来了！

1 天前

京东方A等新设科技公司含集成电路芯片业务

2 天前

《2025综合算力指数》报告：河北、江苏、广东综合算力指数位居全国前列

2 天前

《2025存力发展报告》：我国存力规模达1680EB，国产存储介质、芯片、系统实现三级突破