“年度最令人不安的论文”:短视频刷多了 AI也会变蠢
1 天前

2024年,“脑腐”(Brain Rot)被选为牛津年度词汇,指人类长期接触碎片化、低价值网络信息导致的认知衰退现象。近期,德克萨斯农工大学等机构的研究团队提出并验证了“LLM脑腐假说”(LLM Brain Rot Hypothesis),即大语言模型(LLM)若持续暴露于低质量网络文本,其认知能力将出现持久性衰退,且难以恢复。研究通过对照实验,将垃圾数据分为两类:M1(基于参与度,如短且高热度的内容)和M2(基于语义质量,如标题党、空洞内容)。实验结果显示,随着垃圾数据比例从0%升至100%,模型在推理能力(ARC-Challenge得分从74.9降至57.2)、长文本理解(RULER-CWE得分从84.4降至52.3)等核心认知功能上显著下降,且M1的损害远大于M2。进一步分析发现,模型推理失败的主要原因是“思维跳跃”,即跳过中间推理链直接给出结论,占比高达84%。研究还尝试了反思式推理和再训练等修复方法,但模型性能仍无法完全恢复,表明脑腐效应已深度内化。该研究呼吁重新审视互联网数据采集与持续预训练实践,实施更严格的数据筛选与质量控制,以防止累积性损害。