AI版权关键进展：美国连判两案大模型“偷书”不算偷？-第一黄金网

摘要

在不经授权的情况下用人类作品训练AI，算不算侵权？围绕AI版权的争议已持续三年，两起来自美国的司法判决为这场讨论提供了新

在不经授权的情况下用人类作品训练AI，算不算侵权？围绕AI版权的争议已持续三年，两起来自美国的司法判决为这场讨论提供了新的参照：

6月23日，美国加州北区联邦法院裁定，AI公司Anthropic未经3位作家许可，使用其已出版书籍训练大模型Claude的行为合法，符合“合理使用”原则；

6月25日，同一法院的另一法官发布简易判决，认为Meta公司在未经13名作家许可的情况下使用书籍训练大模型Llama，同样构成“合理使用”。

这两起判决在整体上为AI公司开了绿灯，但也警告了红线。两份判决书都提到，“合理使用”的适用范围有限，需要考虑数据采集方式是否侵权。

不过，具体在“影子图书馆”这一非法下载渠道上，两案出现分歧。简而言之，Anthropic案认为，偷书和学习是两种行为，即便偷书是为了学习，也不能因此免责；而Meta案倾向于整体判断，并且法官认为书从哪里获得并非重点。

共识：“合理使用”的初步成立

合理使用是各国版权法的一项重要条款，允许在特定情况下，无需版权方许可即可使用作品。而生成式AI的训练能否落入这一范畴，是近年来法律界争议最为激烈的一道命题。

在Meta案中，法院支持AI训练属于合理使用，并着重从两个维度给出了解释：

从使用目的来看，法院认为Meta使用原告图书训练AI具有“高度转换性”，也就是说这些图书并非被用于供人阅读或传播思想，而是为了训练AI完成如写代码、撰写邮件等生成任务，其功能与原作用途截然不同。

从影响效果上看，AI也并没有再现、输出图书原文，法院因此认为AI没有直接替代图书市场。

对市场或作品价值的影响是Meta案法官最看重的一点。“在很多情况下，未经授权用受保护作品训练AI大模型是违法的，因为可能削弱创作者的创作动机和市场回报。”但在本案中，法院认为原告没有证明这一点。

Anthropic案的判决思路与之类似。法院同样认为，训练Claude模型的过程具备“高度转换性”，并非为了再现原作品，最终也没有向用户输出原文或类似内容，只是输出风格相似的表达，因此不能视作市场替代品。判决书引用了经典的人类读书比喻： “（AI训练过程）就像一个学生阅读了海明威的作品，然后用简短的陈述句写作一样。”

在技术层面，法院还认为AI训练过程属于“中间性技术行为”，类似缓存或全文索引，因而也符合合理使用原则。

过去，围绕生成式AI的版权纠纷大多集中在“输出”环节，例如OpenAI与《纽约时报》一案中，ChatGPT被发现能复述《纽约时报》原文；广州互联网法院的“AI画出奥特曼”案中，AI平台生成了与奥特曼高度相似的图像并被判侵权。此次两份判决的突破在于，正面回应了“AI训练是否构成侵权”的核心争议，并明确在一定条件下，AI训练本身可以适用合理使用。

但这并不意味着AI公司取得全面胜利，在适用边界上，法院仍然保持审慎。

Meta案中，法院强调该判决仅适用于13位原告作家，并不构成AI公司“大规模拿版权作品训练”的合法通行证。

而Anthropic案的法官则针对不同使用行为，做出了分项裁定：如果来源合法——比如将纸质书扫描转化为数字文本，可构成合理使用；但如果图书来源于“影子图书馆”等盗版平台，即便后续用于训练AI，依然构成侵权。

争议：如何看待“影子图书馆”

数据获取渠道的合法性，会不会影响“合理使用”的认定？法院在这一问题上出现了分歧。

在Meta案中，判决书详细披露了Llama模型的训练过程：首先，Llama在训练上使用了多个大规模数据集，约2/3来自Common Crawl（互联网公开抓取的数据集），其余来自公开站点和数据库Books3；随后，通过BT种子的方式批量下载；最后，下载图书被纳入Llama的训练语料中。

Books3 是其中的关键争议点，因为它包含了大量受版权保护的书籍，而且是通过“影子图书馆”收集的——其指的是未经出版社或作者授权、非法提供图书下载的在线数据库，典型平台包括LibGen和Z-Library。

之所以选择用影子图书馆，Meta解释，公司最初确实尝试通过谈判方式获得授权，计划投入上亿美元进行授权采购。但后来发现大多数作品的AI训练许可权归属于作者个人，而非出版社，授权缺乏集中机制，可达成交易极少。最终，该方案在公司高层讨论后被放弃，转而采用影子图书馆。

公司在辩护中还提到，采取了“去记忆”技术（post-training mitigations）防止AI过度记忆原文。第三方测试证明，Llama只能在极端“诱导提示”下偶尔重现约50个词左右的内容，无法构成大段抄袭。

这些措施或许都影响到了Meta案的最终判决。判决书认为，Meta尝试授权失败后使用影子图书馆的做法，不等于恶意侵权，法院倾向于做“整体性判断”：“因为合理使用本身就是判断某种使用是否合法，而非单纯看使用渠道是否合法”“即便使用了非法渠道，也不代表不构成合理使用。”

但Anthropic案的判决思路和结果相反，法院将不同行为分开判断，并认为再合法的动机也不能“洗白”非法入口。

判决书显示，Anthropic同样使用了Books3等影子图书馆渠道的数据，累计下载超过700万本图书，并建立起一个“永久中央图书库（permanent internal library）”的内部系统。这些图书中，部分被标记为训练素材候选，其余则储存备用，尚未使用。

建立“中央图书馆”是判决关键。法院认为，这一行为与训练AI这一“具有转换性的行为”不同，将盗版图书批量汇总、长期储存并建立内部检索体系，不具有任何转换性特征。

“只要盗取本可合法获取的内容，本质就是侵权，即便下载后立即用于转换性用途（AI训练）并立即删除也是如此。”判决书写道，接下来会审理中央图书馆造成的损失，并据此确定Anthropic公司的赔偿范围。

值得注意的是，Meta案判决书还特别强调了市场影响。法官认为，在美国版权法对“合理使用”的四项判定标准中（使用目的、作品性质、使用比例与市场影响），市场影响是最具分量的因素。尽管法院认可AI训练具备高度转换性，但也警告：如果AI输出会冲击原作品市场，仍可能无法构成合理使用。

虽然本案并未证明AI对图书市场的冲击，但另一些行业可能情况不同，“尤其是某些类型作品（如新闻文章）的市场，似乎更容易受到AI竞争冲击。”法官强调。

以上两起案件的原告均为图书作家，主要聚焦于文生文的聊天机器人，但类似争议已蔓延至影视、视觉创作等更多领域：上周，迪士尼与环球影业联手起诉图像生成平台Midjourney，指控其抓取影视剧内容训练AI模型；国内四位插画师则将AI绘图产品“Trik AI”告上法庭，称其在未经授权的情况下抓取原创插画进行训练。该案于2024年首次开庭，目前还在审理中。

名称	最新价	涨跌额
伦敦金	2384.81	-0.21%
伦敦银	27.07	+0.45%
美元指数	103.2069	+0.3%
美原油	73.19	-0.01%
黄金T+D	552.82	-0.15%

AI版权关键进展：美国连判两案大模型“偷书”不算偷？

驻伊拉克美军基地再次遭袭

哈马斯称有关各方已就加沙停火进行密集会谈

移民问题折射美国治理体系深层裂痕（深度观察）

伊拉克代表称50架以色列战机侵犯该国领空

【环球财经】巴西前财长警告财政“崩溃边缘”

伊朗再度发出威胁：关闭霍尔木兹海峡！

再裁超600人，“美国之音”员工仅剩约七分之一

以军称120枚导弹炸弹轰炸德黑兰

国际社会谴责美国打击伊朗核设施

特朗普：以伊冲突可能很快再次爆发！国际原油大涨！还提及下任美联储主席人选

前5个月我国在共建“一带一路”国家非金融类直接投资同比增长20.8%

商务部回应对欧盟稀土出口许可审批情况：将持续加强合规申请审批工作

国际清算银行：稳定币未达到成为货币体系支柱要求

亚投行第十届理事会年会开幕式在京举行

越南版“姐姐”话题破220亿看中国IP如何在全球“乘风破浪”

书写开放包容、合作共赢新篇章——2025夏季达沃斯论坛观察

【环球财经】研究报告：超过四分之一荷兰投资者减持美股

欧盟峰会未就新一轮对俄制裁达成一致

伊朗称此前遭袭的帕尔斯炼油厂已恢复运营

美称下周将与伊朗举行会谈能否达成协议仍然未知

导航

AI版权关键进展：美国连判两案 大模型“偷书”不算偷？