美国华盛顿州立大学最新研究显示,面对复杂科学论断时,大型语言模型ChatGPT虽回答自信,但常靠猜测,准确率有限且前后矛盾,尤其在识别虚假信息方面表现薄弱。研究团队从商业期刊论文中提取719条假设,每条假设提交10次给ChatGPT进行真伪判断。结果显示,其表面正确率约80%,但剔除随机猜测因素后,真实表现仅比50%的‘掷硬币’概率高出约60%,对‘假命题’的正确判断率仅为16.4%。此外,ChatGPT在多次重复提问时难以保持立场一致,约73%的案例中结论一致,但部分案例出现‘真、假交替’或‘一半真、一半假’的极端情形。
