在不经授权的情况下用人类作品训练AI,算不算侵权?围绕AI版权的争议已持续三年,两起来自美国的司法判决为这场讨论提供了新的参照:
6月23日,美国加州北区联邦法院裁定,AI公司Anthropic未经3位作家许可,使用其已出版书籍训练大模型Claude的行为合法,符合“合理使用”原则;
6月25日,同一法院的另一法官发布简易判决,认为Meta公司在未经13名作家许可的情况下使用书籍训练大模型Llama,同样构成“合理使用”。
这两起判决在整体上为AI公司开了绿灯,但也警告了红线。两份判决书都提到,“合理使用”的适用范围有限,需要考虑数据采集方式是否侵权。
不过,具体在“影子图书馆”这一非法下载渠道上,两案出现分歧。简而言之,Anthropic案认为,偷书和学习是两种行为,即便偷书是为了学习,也不能因此免责;而Meta案倾向于整体判断,并且法官认为书从哪里获得并非重点。
共识:“合理使用”的初步成立
合理使用是各国版权法的一项重要条款,允许在特定情况下,无需版权方许可即可使用作品。而生成式AI的训练能否落入这一范畴,是近年来法律界争议最为激烈的一道命题。
在Meta案中,法院支持AI训练属于合理使用,并着重从两个维度给出了解释:
从使用目的来看,法院认为Meta使用原告图书训练AI具有“高度转换性”,也就是说这些图书并非被用于供人阅读或传播思想,而是为了训练AI完成如写代码、撰写邮件等生成任务,其功能与原作用途截然不同。
从影响效果上看,AI也并没有再现、输出图书原文,法院因此认为AI没有直接替代图书市场。
对市场或作品价值的影响是Meta案法官最看重的一点。“在很多情况下,未经授权用受保护作品训练AI大模型是违法的,因为可能削弱创作者的创作动机和市场回报。”但在本案中,法院认为原告没有证明这一点。
Anthropic案的判决思路与之类似。法院同样认为,训练Claude模型的过程具备“高度转换性”,并非为了再现原作品,最终也没有向用户输出原文或类似内容,只是输出风格相似的表达,因此不能视作市场替代品。判决书引用了经典的人类读书比喻: “(AI训练过程)就像一个学生阅读了海明威的作品,然后用简短的陈述句写作一样。”
在技术层面,法院还认为AI训练过程属于“中间性技术行为”,类似缓存或全文索引,因而也符合合理使用原则。
过去,围绕生成式AI的版权纠纷大多集中在“输出”环节,例如OpenAI与《纽约时报》一案中,ChatGPT被发现能复述《纽约时报》原文;广州互联网法院的“AI画出奥特曼”案中,AI平台生成了与奥特曼高度相似的图像并被判侵权。此次两份判决的突破在于,正面回应了“AI训练是否构成侵权”的核心争议,并明确在一定条件下,AI训练本身可以适用合理使用。
但这并不意味着AI公司取得全面胜利,在适用边界上,法院仍然保持审慎。
Meta案中,法院强调该判决仅适用于13位原告作家,并不构成AI公司“大规模拿版权作品训练”的合法通行证。
而Anthropic案的法官则针对不同使用行为,做出了分项裁定:如果来源合法——比如将纸质书扫描转化为数字文本,可构成合理使用;但如果图书来源于“影子图书馆”等盗版平台,即便后续用于训练AI,依然构成侵权。
争议:如何看待“影子图书馆”
数据获取渠道的合法性,会不会影响“合理使用”的认定?法院在这一问题上出现了分歧。
在Meta案中,判决书详细披露了Llama模型的训练过程:首先,Llama在训练上使用了多个大规模数据集,约2/3来自Common Crawl(互联网公开抓取的数据集),其余来自公开站点和数据库Books3;随后,通过BT种子的方式批量下载;最后,下载图书被纳入Llama的训练语料中。
Books3 是其中的关键争议点,因为它包含了大量受版权保护的书籍,而且是通过“影子图书馆”收集的——其指的是未经出版社或作者授权、非法提供图书下载的在线数据库,典型平台包括LibGen和Z-Library。
之所以选择用影子图书馆,Meta解释,公司最初确实尝试通过谈判方式获得授权,计划投入上亿美元进行授权采购。但后来发现大多数作品的AI训练许可权归属于作者个人,而非出版社,授权缺乏集中机制,可达成交易极少。最终,该方案在公司高层讨论后被放弃,转而采用影子图书馆。
公司在辩护中还提到,采取了“去记忆”技术(post-training mitigations)防止AI过度记忆原文。第三方测试证明,Llama只能在极端“诱导提示”下偶尔重现约50个词左右的内容,无法构成大段抄袭。
这些措施或许都影响到了Meta案的最终判决。判决书认为,Meta尝试授权失败后使用影子图书馆的做法,不等于恶意侵权,法院倾向于做“整体性判断”:“因为合理使用本身就是判断某种使用是否合法,而非单纯看使用渠道是否合法”“即便使用了非法渠道,也不代表不构成合理使用。”
但Anthropic案的判决思路和结果相反,法院将不同行为分开判断,并认为再合法的动机也不能“洗白”非法入口。
判决书显示,Anthropic同样使用了Books3等影子图书馆渠道的数据,累计下载超过700万本图书,并建立起一个“永久中央图书库(permanent internal library)”的内部系统。这些图书中,部分被标记为训练素材候选,其余则储存备用,尚未使用。
建立“中央图书馆”是判决关键。法院认为,这一行为与训练AI这一“具有转换性的行为”不同,将盗版图书批量汇总、长期储存并建立内部检索体系,不具有任何转换性特征。
“只要盗取本可合法获取的内容,本质就是侵权,即便下载后立即用于转换性用途(AI训练)并立即删除也是如此。”判决书写道,接下来会审理中央图书馆造成的损失,并据此确定Anthropic公司的赔偿范围。
值得注意的是,Meta案判决书还特别强调了市场影响。法官认为,在美国版权法对“合理使用”的四项判定标准中(使用目的、作品性质、使用比例与市场影响),市场影响是最具分量的因素。尽管法院认可AI训练具备高度转换性,但也警告:如果AI输出会冲击原作品市场,仍可能无法构成合理使用。
虽然本案并未证明AI对图书市场的冲击,但另一些行业可能情况不同,“尤其是某些类型作品(如新闻文章)的市场,似乎更容易受到AI竞争冲击。”法官强调。
以上两起案件的原告均为图书作家,主要聚焦于文生文的聊天机器人,但类似争议已蔓延至影视、视觉创作等更多领域:上周,迪士尼与环球影业联手起诉图像生成平台Midjourney,指控其抓取影视剧内容训练AI模型;国内四位插画师则将AI绘图产品“Trik AI”告上法庭,称其在未经授权的情况下抓取原创插画进行训练。该案于2024年首次开庭,目前还在审理中。