被指在 AI 训练中滥用盗版书籍，Adobe 面临集体诉讼 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

被指在 AI 训练中滥用盗版书籍，Adobe 面临集体诉讼

2025-12-18 / 阅读约2分钟

来源：IT之家

作家Elizabeth Lyon对Adobe发起集体诉讼，指控其训练SlimLM语言模型时使用盗版书籍。诉讼指出SlimPajama数据集包含受版权保护内容，类似诉讼在AI行业成常态，数据来源问题引发法律风险。

IT之家 12 月 18 日消息，据外媒 TechCrunch 今日报道，一项由作家 Elizabeth Lyon 发起的集体诉讼对 Adobe 发出新的指控，称对方在训练 SlimLM 语言模型时，使用了包括 Lyon 本人的作品在内的大量盗版书籍。Lyon 来自俄勒冈州，长期从事非虚构写作，并出版多本写作指导类书籍。

Adobe 方面介绍，SlimLM 是一套面向移动设备文档辅助场景的小语言模型，其预训练基础为 SlimPajama-627B 数据集。该数据集由 Cerebras 于 2023 年发布，被描述为去重、多语料的开源集合。然而诉讼认为，SlimPajama 本身来源存在问题。

诉讼文件指出，SlimPajama 是在复制并加工 RedPajama 数据集的基础上生成的，而 RedPajama 包含广受争议的 Books3 数据集。Books3 收录约 19.1 万本书籍，其中包含大量受版权保护作品。

诉讼明确指出，作为 RedPajama 的派生数据集，SlimPajama 同样包含 Books3 内容，因此不可避免地纳入了原告及其他作者的版权作品。

围绕 Books3 和 RedPajama 的争议，早已不止于 Adobe。此前，苹果和 Salesforce 均因涉嫌在 AI 训练中使用相关数据集而遭到起诉，相关案件指控企业未经授权使用受版权保护内容。

在更广泛的行业背景下，类似诉讼正在成为常态。AI 模型对训练数据规模的高度依赖，使数据来源问题频频引发法律风险。今年 9 月，Anthropic 同意向多名作者支付 15 亿美元（IT之家注：现汇率约合 105.77 亿元人民币），就其训练 Claude 时使用盗版作品的指控达成和解。该案件被外界视为 AI 训练版权争议的重要节点，然而行业内持续扩大的法律挑战仍未终结。

上一篇：中国大模型“第一股”来了，揭秘智谱与MiniMax IPO背后的“隐秘算盘”

下一篇：腾讯AI下了一场“及时雨”

返回列表

热文阅读

2 天前

为什么网友会觉得，这个国民软件里封印了个17岁美少女？

2 天前

养虾人，开始认真算账了

2 天前

拉来数名特斯拉大将，能否解雷军销量“焦虑”？

2 天前

小米疯狂从特斯拉挖人，一周内6大高管被传入职小米