OpenAI称GPT-5在众多职业领域表现比肩人类
1 周前

OpenAI于当地时间周四发布了一项名为GDPval的新基准测试,旨在评估其AI模型与各行业专业人士的工作表现差异。该测试覆盖医疗、金融等九大行业及44种职业,是OpenAI衡量其系统在‘高经济价值工作’上接近人类表现程度的初步尝试,也是其研发通用人工智能(AGI)使命的关键组成部分。测试结果显示,GPT-5在40.6%的任务中表现不输人类专家,而Anthropic的Claude Opus 4.1以49%的胜率领先。OpenAI解释称,Claude得分更高部分源于其图表美观性,并强调测试仅涵盖有限任务,未来将扩展至更全面的交互式工作流程。