最新一期《自然·机器智能》发表的论文显示,美国斯坦福大学研究发现,大语言模型(LLM)在识别用户错误信念方面存在显著局限性,难以可靠区分信念与事实。当用户个人信念与客观事实冲突时,LLM常难以准确判断。研究测试了24种LLM(含DeepSeek、GPT-4o等)在13000个问题中的表现,发现较新模型验证事实真伪的平均准确率达91.1%-91.5%,但识别第一人称虚假信念的概率比真实信念低34.3%;较老模型则分别低38.6%和15.5%。这一缺陷在高风险领域(如医学、法律)可能引发严重错误决策,需审慎对待模型输出。
