AI 辅助写作:“侵犯版权”还是“抄袭”?
11 小时前 / 阅读约11分钟
来源:36kr
生成式AI在学术写作中广泛应用,但可能无意中导致抄袭,因输出可能隐含训练数据中的思想却未注明出处。版权法保护表达而非思想,抄袭是伦理问题非法律问题。应通过学术规范而非法律解决AI助长的抄袭问题。

试想,一位学生向生成式人工智能提问选题,并根据AI提示和回答撰写了一篇论文,然而,他却没有发现,已经有相关学者在若干年前就提出了完全相同的论点,而这篇论文恰好包含在这一生成式AI的训练数据集中。其原作者完全有理由对这种未经授权的抄袭行为感到恼火,然而,他们是否应该采取法律行动?

大量的司法诉讼和法律评论文章都在探讨生成式人工智能系统是否侵犯了作者在模型训练过程中大量吸收的作品的版权。但在我们的假设案例中,版权问题的答案很明确:AI的使用者仅仅使用了其他人的“思想”,而没有使用他们的“表达方式”。思想本身不受版权保护。

然而,人工智能输出的创意存在一个问题——抄袭。摘录一整章作品并注明出处,你侵犯了版权,但并不构成抄袭;将他人的想法据为己有,你构成了抄袭,但并不构成侵权。这种区别至关重要。

许多机构都在努力规范基于人工智能的复制行为,因此思考人工智能辅助抄袭问题至关重要。本文旨在为这些新的治理方案如何应对抄袭问题提供路线图,并厘清其中涉及的不同危害。

简单来说,抄袭固然是一个问题,但它并非——也不应该是——法律问题。

一、打破 “引用链”:依赖AI无意中成为抄袭者

ChatGPT和其他生成式人工智能系统目前已被广泛应用于学术写作。在2024年春季对哈佛大学本科生进行的一项调查中,近90%的学生表示使用过生成式人工智能,超过50%的学生将这些工具用于写作业,包括“构思”。

但生成式人工智能与链接到原始资料的研究工具有着本质区别。像 ChatGPT 这样的大型语言模型 (LLM)生成文本,其结果是生成新内容的一种概率形式,使得我们难以甚至无法弄清楚任何给定输出的生成原因,更不用说哪些训练材料对其有所贡献,或者输出的核心“思想”是否与训练来源中的思想相似。因此,人工智能的输出可能隐含地包含来自训练数据的事实或思想,但却没有注明出处。简言之,它打破了传统的引用链。

即使人工智能试图将信息归因于特定来源,它也经常出错。幻觉问题早已被广泛记录,但它仍然时有发生,这可能是因为软件会根据用户查询即时生成新内容,而幻觉本身就是软件固有的缺陷。

但即使人工智能公司能够以某种方式控制幻觉问题,或者用户普遍学会在信任来源之前验证其真实性,幻觉来源也掩盖了一个更深层次的问题:人工智能自身生成的想法和文本的来源。

生成式人工智能会根据用户创建的提示给出答案。从人工智能用户的角度来看,这可能会造成一种原创性的错觉,用户会将最终源自训练材料的想法误认为是自己的见解。如果人们不使用人工智能,那么将这些想法当作自己的原创作品来呈现,那显然是不恰当的。未经授权复制他人的观点就是抄袭。但问题是,使用AI的作者往往难以意识到自己正在抄袭。

更重要的是,AI技术写作辅助使得人们在认知上更难辨别想法的来源。作者可能不愿将计算机视为想法的创造者。在一项研究中,当参与者被告知明信片是由人工智能生成时,他们更有可能将明信片的所有权归于自己,而不是在被告知明信片是由人类代笔人生成时。这很可能是一个“认知外化”的例子,在这种情况下,人工智能被简单地视为一种减轻作者部分工作负担的工具,而不是某种思想的来源。

结果是,学生提交的论文以及教授撰写的文章中包含了他人首次提出的观点和概念,但却没有注明出处。这是一种无意的抄袭,作者没有注明思想的原创者,因为他们可能根本不知道有这样的原创者。

二、法律与道德的边界:版权诉讼混淆了补偿和署名权

几乎各个国家的版权法都禁止复制创意表达,但它并不禁止复制他人的想法,无论是否注明出处。相反,版权的目的在于鼓励思想的传播,允许不同的人以不同的方式表达这些思想。

生成式人工智能使用包含大量受版权保护内容的数据集进行训练。但本文关注的是生成式人工智能的“输出”。

AI的输出通常不会侵犯版权,因为它与人工智能训练所用的任何输入中受保护的表达方式都不具有实质性相似性(当然也有例外)。但总的来说,如果你要求生成式人工智能生成一篇关于某个主题的论文,它不会生成任何与特定先前论文非常相似的内容。从版权角度来看,这应该就是问题的最终答案——这并非版权法上的侵权行为。

但现实中的诉讼常常伴随着这样的担忧:作者不仅没有获得报酬,而且他们的作品被使用后也没有得到署名。即使署名被使用,他们也常常会使用“抄袭”这个词。内容创作者喜欢把生成式人工智能称为“抄袭机器”。这些评论者援引“抄袭”一词,通常并非意味着 人工智能涉及法律问题,而是在某些特定情况下应该受到道德谴责。他们认为这种论点要么是在版权侵权指控中增加了道德谴责,要么是扩大版权侵权范围的理由,以涵盖那些因为是抄袭而理应被视为非法的行为。还有一些人虽然不使用“抄袭”一词,但他们明确提出应该扩大版权的适用范围,以涵盖署名权或人格权方面的损害,以及其他类型的损害。

并非只有普通民众或行业协会才会将抄袭和版权侵权混淆。最高法院也曾错误地将版权侵权描述为抄袭。就连史上最著名的版权法学家之一,勒尼德•汉德法官也犯过同样的错误。在1930年的“尼科尔斯诉环球影业案”(Nichols v. Universal Pictures)——版权侵权判定的主要判例——中,法官反复将涉嫌侵权者称为“抄袭者”。汉德法官曾断言“抄袭者不能通过证明自己作品中有多少内容并非盗版来为其错误开脱”,这一论断已被包括最高法院在内的一百多起其他版权案件引用。甚至像理查德•波斯纳法官这样理解二者区别的著名法官,也常常利用抄袭这一概念来修改版权法,将抄袭者视为侵权者,而他们原本有权以合理使用为由进行抗辩。

三、区分版权侵权、抄袭和不良学术行为

但抄袭并非——也不应该——与侵犯版权混为一谈。区分二者的概念界限至关重要。侵犯版权是对合法权利的侵犯,而抄袭本身并非法律诉讼的理由——它是一种违反伦理或学术规范的行为。另外还有一种“不良学术行为”或不合格的研究习惯,这些行为可能不构成抄袭,但仍然违反了学科严谨性的规范。

版权侵权所侵犯的是一种经济权利,它要求复制受保护的表达形式。任何具有“最低限度创造性”的表达作品——书籍、诗歌、歌曲,甚至是计算机程序——一旦被“固定”即可获得保护。但版权并非绝对。事实和思想本身不受版权保护,但事实或思想的特定表达方式则受版权保护。版权也有一定的期限,期限过后,作品进入公有领域,任何人都可以免费使用。

如果你的论文是基于他人的受版权保护的作品撰写的,并且与他人受保护的表达方式存在“实质性相似”,则构成侵权,除非你的借用构成“合理使用”。侵权并不要求你将新材料冒充为自己的作品;即使注明出处,复制受保护的实质性表达方式也可能构成侵权。例如,如果你发表了一本受版权保护书籍中的完整章节,并注明了原作者,你仍然构成侵权——只是没有抄袭而已。

抄袭通常被定义为未经充分注明出处而使用他人的语言、观点或作品。诚实透明地说明论文中材料的来源至关重要,这不仅是为了对你所依赖的作者表示感谢,也是为了让读者真正理解和评价你的学术成果。在学术界、新闻界,抄袭是一种违反伦理的行为,可以通过社会制裁或机构纪律来纠正,但不能通过诉讼来追究责任。

布莱恩•弗莱对版权侵权和抄袭之间的区别做了精辟的总结:

版权侵权和抄袭的概念有所重叠,但并非完全一致。版权法禁止对受版权保护的作品进行某些未经授权的使用,无论是否注明出处;而关于抄袭的规范则禁止未经注明出处地复制某些表达方式、事实和观点,无论这些内容是否受版权保护。使用受版权保护作品中的原创元素并注明出处可能构成版权侵权,但不构成抄袭;复制事实或观点而未注明出处可能构成抄袭,但不构成版权侵权。

不良学术行为构成第三类,指的是违反严谨研究和写作的学科规范。这些规范更具争议性,更多地反映了对学术水平的主观评价,而非学术诚信问题。

版权侵权、抄袭和不良学术行为这三类行为既有区别又相互重叠。下图就展示了三者之间的关系。

所有形式的抄袭都是一种不良的学术行为,因为诚实地引用资料来源是学术研究的基石。但是,有很多不良的学术行为并不等同于抄袭,例如准确引用不可靠的来源,或者引用衍生来源却不注明原创者。此外,还有一些抄袭或不良学术行为并不构成版权侵权,例如未经授权复制观点、事实或公共领域文本。

四、署名权之争:法律不应是解决学术诚信的工具

署名对创作者来说很重要。但美国法律没有提供普遍的署名权。如上所述,某些未经授权的复制行为构成版权侵权;在这种情况下,版权所有者可以要求署名作为使用的条件。然而,一般来说,不署名本身并不构成法律上的违法行为。作者可能希望在多次使用其作品中不受保护的元素、使用已进入公有领域的作品或符合合理使用原则的行为时获得署名,但根据版权法,他们无权提出此类要求。

一些学者提议设立新的署名权来填补这一空白,效仿欧洲等对精神权利保护更为严格的地区。但我们赞同丽贝卡•图什内特的质疑:“合法署名权的主张过于多样化且受具体语境影响,而版权法本身也过于复杂繁琐”,因此,在没有任何独立法律损害的情况下,设立新的法律诉讼理由并不合理。一项涵盖所有未经署名使用他人思想或文字行为的规则,很可能与知识产权法中关于经济权利的诸多限制相冲突,并造成难以界定的界限问题。

需要澄清的是,我们的立场并非认为署名无关紧要,抄袭的确造成了声誉和认知损害。但并非所有损害都构成法律上的错误。如果损害发生在学术界和其他知识生产群体内部,那么相应的补救措施也应在那里进行。

结论:版权不应扩展到监管抄袭

生成式人工智能很少输出受保护的表达,但它经常会复述他人的想法,而且往往缺乏准确的出处。这本身并非版权问题。但在某些领域,尤其是在学术界,这却构成了抄袭问题。

目前,关于人工智能在学生写作或学术研究中的应用规范仍在发展完善中,人工智能助长的抄袭风险尚未得到广泛认可。然而,这种风险真实存在,应该像其他抄袭问题一样加以规范:通过在抄袭危害最为显著的学术机构中制定清晰且可执行的标准。学校应该制定学生作业规则,要求明确披露人工智能生成的想法和文本,以便读者了解论文中的想法和文本的来源。学者们更应该深入调查人工智能提出的想法和论断,以找到其真正的出处。

人工智能已成为我们生活的一部分,并将长期存在。同样不可或缺的还有学术界赖以积累知识的诚实、透明和信誉等价值观。笔者认为,我们无需新的法律途径来维护这些价值观。相反,各学科领域的专家学者应该通过深思熟虑的教学方法、清晰的指导原则、规范的编辑流程和严谨的职业操守,坚持认为人工智能并不能免除作者的这些责任。