最新研究:AI情商测试完胜人类,准确率高出25%
5 天前 / 阅读约7分钟
来源:36kr
大语言模型真的能理解情绪吗?

‍‍大语言模型能写诗、解复杂数学题,甚至辅助疾病诊断,但它们真的能理解情绪吗? 

伯尔尼大学与日内瓦大学的最新研究表明,这些强大的人工智能系统或许确实具备这种能力,甚至可能超越大多数人类。  

01.人类情绪测试

近期发表于《通讯心理学》的研究中,研究人员评估了六种最先进的语言模型:ChatGPT-4、ChatGPT-o1、Claude 3.5 Haiku、Copilot 365、Gemini 1.5 Flash和DeepSeek V3。这些AI系统经过了五项通常用于心理学和工作场所评估的测试,以测试情商(EI)。

这些测试包含复杂的现实场景。例如:同事窃取Michael的创意并获得不当赞誉,此时最明智的应对方式是?  

  • 与同事争执
  • 向上级反映
  • 默默怨恨
  • 窃取对方创意报复

心理学家的标准答案是“向上级反映”,这是一种健康、建设性的方式来处理工作中的情绪紧张。

AI们表现出色。在五项测试中,其平均准确率达81%,远高于人类参与者56%的平均水平。 

伯尔尼大学首席心理学家Katja Schlegel解释道,“我们选取了科研与企业环境中通用的五项测试,这些测试通过情绪化场景来评估理解、调节及管理情绪的能力。” 

日内瓦大学瑞士情感科学中心高级科学家Marcello Mortillaro补充道:“这表明这些AI不仅能理解情感,更掌握了高情商行为的核心要义。” 

02.为什么情商很重要

高情商意味着懂得管理自身情绪并妥善回应他人情感,这种能力在日常生活中举足轻重。拥有高情商的人通常能建立更融洽的人际关系,取得更优异的工作表现,并保持更健康的精神状态。 

以职场为例,善于调节情绪者往往被视为更专业可靠且平易近人。反之,情绪管理不当可能导致工作冲突、人际疏离甚至诱发抑郁倾向。  

正因如此,将情商能力植入人工智能,特别是聊天机器人、数字助理及医疗辅助工具,正成为重点发展方向。这个研究领域被称为情感计算,旨在赋予机器阅读和响应人类情感的能力。 

自20世纪90年代Rosalind Picard首次提出“情感机器”概念以来,AI系统在识别情绪信号方面已取得长足进步。如今的AI不仅能精准分析语音语调、面部表情和用词选择,其判断准确度甚至时常超越人类。这类技术已在医疗、教育乃至心理健康应用中落地生根。 

03.从识别情绪到理解情绪

尽管成果显著,当前大多数AI工具仍局限于单一功能。它们能判断用户是否悲伤或焦虑,却往往不知如何应对。这正是情商能力的价值所在,不仅要识别情绪,更需对其进行推理并作出智慧回应。  

Schlegel和她的团队试图验证:当今最先进的AI能否突破单纯的情绪侦测,像人类一样真正理解情感? 

为此,他们精选了五项测试:两项聚焦情绪因果推理,三项考察自我及他人情绪调节能力。所有问题均基于真实的职场与生活场景设计。结果显示,大语言模型不仅表现优异,更屡屡超越人类基准线。它们的答案不仅准确,更能展现对情境脉络和情感复杂性的深刻理解。   

这一发现并非全然出人意料。早前研究便显示,以ChatGPT-3.5为例,其在“情绪意识水平量表”测试中表现优于平均水平,该测试要求受试者推断故事人物在不同情境中的情绪反应。   

04.AI从解题到命题

在证实AI能解答情商测试后,研究者提出了更大胆的设想:AI能否自主编制测试题?   

借助ChatGPT-4,团队生成了一套全新测试体系,包含原创情境设置、选项设计和情绪挑战。随后招募460余名人类受试者,将AI编制的测试题与传统心理学家开发的版本进行对比验证。 

结果显示:AI生成的测试题在清晰度、可信度与平衡性方面与耗时数年打磨的专业版本不相上下。参与者高度评价AI题项在表述清晰性、情境真实性和情感层次感方面的表现。新旧版本在难度系数与内部一致性指标上也呈现相当水平。   

关键的是,统计学分析显示两者差异微乎其微,所有对比项目的效应量均未超过轻微级别。就整体效度而言,AI生成的测试题完全符合标准。“这印证了大语言模型确实具备情绪知识储备与情感推理能力,”Mortillaro指出。 

05.实验室外的应用前景

这些发现将带来哪些实际影响?   

首先,这为开发情感辅导类AI工具铺平道路。设想一款应用不仅能提供模板化建议,更能理解你的情绪波动,为你量身定制应对方案,无论是化解职场纠纷还是缓解考试焦虑。   

其次,这推动了高情商虚拟导师、治疗师乃至管理者的研发进程。这类智能体将突破固定脚本限制,像善解人意的教师或咨询师那样,根据情绪信号动态调整互动策略。   

当然,现有技术尚无法替代人类特有的共情能力,但它们正在逼近这个曾被视为人类专属的领域。部分专家认为,这预示着通用人工智能(AGI)的发展潜力,即具备跨情绪、逻辑与社会领域综合认知能力的系统。虽然当前模型尚未达标,但其处理情感任务的能力已初现端倪。     

Schlegel与Mortillaro特别强调,人类监督仍不可或缺。这类系统应辅助而非取代人类决策。若运用得当,高情商AI或将在教育、心理健康乃至冲突调解领域发挥变革性作用。  

06.勇敢的新AI时代

随着人工智能能力的持续进化,“应该做什么”正变得与“能够做什么”同等重要。情感智能提供了一个答案,未来工具不仅能理解言语,更能读懂情绪。  

最新研究发现,机器智能与人类情感理解之间的界限已逐渐模糊。通过审慎开发和负责任的应用,大语言模型或将成为人类情感探索之旅中值得信赖的伙伴,在这个最具人性特质的领域里,与我们并肩同行。  

原文来源于:

1.https://www.thebrighterside.news/post/ai-models-now-show-higher-emotional-intelligence-than-humans-surprising-psychologists/