GPT-5编程成绩有猫腻自删23道测试题关键基准还是自己提的 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

GPT-5编程成绩有猫腻自删23道测试题关键基准还是自己提的

2 周前

GPT-5编程能力测试引发争议，因其官方测试使用的SWE-bench Verified子集仅包含477个问题，而非原定的500个问题。SWE-bench是评估模型自主编程能力的通用指标，其Verified子集原本有500个问题，但OpenAI自行省略了23个问题。若这些省略的问题默认得分为零，GPT-5的得分将低于Claude Opus 4.1，两者差距仅为0.4%。OpenAI曾以解决方案无法在其基础设施上运行为由，在GPT-4.1发布时也忽略了部分问题。此次操作再次引发质疑，关于GPT-5编程能力的评估结果或存水分。

上一篇：阿里达摩院宣布开源具身智能“三大件” 开源机器人上下文协议RynnRCP

下一篇：GPT-5 测试被质疑作弊，故意避开难题刷高分

返回列表

热文阅读

2 天前

人形机器人迈入大规模商用阶段？英伟达重磅消息：机器人新大脑来了！

2 天前

《2025综合算力指数》报告：河北、江苏、广东综合算力指数位居全国前列

1 天前

京东方A等新设科技公司含集成电路芯片业务

18 小时前

浏览器，又“性感”了？