GPT-5.2考赢人类 OpenAI警告:大模型能力已过剩,AGI天花板不是AI
18 小时前

近日,OpenAI的GPT-5.2在ARC-AGI-2基准测试中表现超越人类基线水平,准确率达75%,刷新纪录。ARC-AGI-2是评估AI抽象、归纳和迁移推理能力的重要基准,不依赖记忆或模式匹配,要求AI具备真正的推理能力。GPT-5.2通过优化软件架构,而非单纯增加算力,实现了性能提升。然而,大模型在实际应用中仍面临挑战,如用户体验不佳、任务执行不精准等。OpenAI前首席科学家Ilya Sutskever指出,当前模型存在“高分低能”现象,即在基准测试中表现优异,但在真实场景中泛化能力不足。这一“性能悖论”反映了AI技术在应用层面的不足,模型设计需更好理解用户需求,确保与实际工作场景结合。