研究发现,大语言模型(LLM)在识别用户错误信念方面可能不够可靠,这提醒我们在医学、法律和科学等高风险决策领域应谨慎使用LLM的结果。研究人员对24种LLM在13000个问题上的回答进行了分析,发现较新的LLM在验证事实性数据真假方面的平均准确率高于较老模型。然而,LLM在识别虚假信念方面存在困难,往往倾向于纠正事实错误而非识别错误信念。在识别第三人称信念时,新老模型的准确性均有所下降。研究人员强调,LLM需能区分事实与信念的细微差别及真假,才能有效回应查询并防止错误信息传播。