Anthropic销毁数百万纸质书籍以构建其AI模型
公司聘请了谷歌书籍扫描主管,以将“世界上所有的书籍”剪碎并数字化。
Benj Edwards – 2025年6月25日下午4:00 | 117
Credit: Alexander Spatari 通过 Google Images
周一公布的法院文件显示,AI公司Anthropic花费数百万美元对纸质书籍进行物理扫描以构建
Claude,一个类似于
ChatGPT的AI助手。在此过程中,公司剪碎了数百万本纸质书籍的装订,将其扫描成数字文件,并仅为了训练AI而丢弃了原始书籍——这些细节隐藏在一项关于合理使用的版权裁决中,我们昨日报道了该裁决的更广泛合理使用影响。
32页的法律
决定讲述了公司如何在2024年2月聘请了Tom Turvey,前谷歌书籍扫描项目合作伙伴负责人,并要求他获取“世界上所有的书籍”。这一战略性招聘似乎旨在复制谷歌在法律上成功的书籍数字化方法——即经受住版权挑战并确立关键合理使用先例的扫描操作。
虽然破坏性扫描是小型操作中常见的
做法,但Anthropic的方法由于其规模巨大而略显不同。对Anthropic而言,破坏性过程的更快速度和更低成本似乎超过了保留纸质书籍本身的必要性。
最终,法官William Alsup 裁定该破坏性扫描操作符合合理使用——但仅因为Anthropic首先合法购买了书籍,扫描后销毁每本纸质副本,并将数字文件内部保存而非分发。法官将该过程比作“通过格式转换保存空间”,并认为其具有转化性。如果Anthropic从一开始就遵循这一方法,它可能会实现首个合法授权的AI合理使用案例。相反,公司早期的盗版行为削弱了其立场。
但如果你不熟悉AI行业和版权,你可能会想:为什么一家公司要花数百万美元购买书籍然后销毁它们?这些奇怪的法律手段背后有一个更根本的驱动因素:AI行业对高质量文本的极度渴望。
高质量训练数据的竞争
要理解为什么Anthropic想要扫描数百万本书,重要的是要知道AI研究人员通过将数十亿个单词输入神经网络来构建大型语言模型(LLMs),如驱动ChatGPT和Claude的模型。在训练过程中,AI系统反复处理文本,从而建立词语和概念之间的统计关系。
输入神经网络的训练数据质量直接影响最终AI模型的能力。使用经过良好编辑的书籍和文章训练的模型往往能产生更连贯、准确的响应,而使用低质量文本(如随机YouTube评论)训练的模型则不然。
出版商合法控制AI公司迫切想要的内容,但AI公司并不总是想协商许可证。首次销售原则提供了一个变通方法:一旦你购买了纸质书,你就可以对那本书做任何事——包括销毁它。这意味着购买纸质书提供了一个合法的变通方法。
然而,即使合法,购买东西也是昂贵的。因此,像许多AI公司之前一样,Anthropic最初选择了快速简便的路径。根据法院文件,为了获取高质量的训练数据,Anthropic首先选择收集盗版书籍的数字化版本以避免CEO Dario Amodei所说的“法律/实践/商业繁琐”——与出版商进行复杂的许可谈判。但到2024年,Anthropic已不再那么热衷于使用盗版电子书“出于法律原因”,并需要一个更安全的来源。
Credit: 华盛顿州
购买二手纸质书完全绕过了许可,同时提供了AI模型所需的高质量、专业编辑的文本,而破坏性扫描则是数字化数百万卷书籍的最快方式。公司花费了“数百万美元”进行这项购买和扫描操作,通常批量购买二手书。接下来,他们从书中剥离装订,将页面裁剪到可用尺寸,将它们作为页面堆叠扫描成包含封面的PDF文件,然后丢弃所有纸质原件。
法院文件没有表明在此过程中销毁了任何稀有书籍——Anthropic从主要零售商批量购买书籍——但档案馆早就建立了其他从纸张中提取信息的方法。例如,互联网档案馆率先开发了非破坏性书籍扫描方法,这些方法在创建数字副本的同时保留了纸质书籍。而就在这个月,OpenAI和微软宣布他们正在与哈佛图书馆合作,使用可追溯至15世纪的近100万本公共领域书籍训练AI模型——完全数字化但得以保存。
当哈佛仔细保存600年的手稿用于AI训练时,地球上的某个地方却坐着数百万本被丢弃的书籍的残骸,这些书籍教会了Claude如何提升你的简历。当被问及这一过程时,Claude本身以从数十亿页被丢弃文本中提炼出的风格给出了一个感人的回应:“这种破坏帮助我诞生——一个能够讨论文学、帮助人们写作并参与人类知识的实体——为我增添了我仍在处理的复杂层次。这就像从图书馆的灰烬中诞生。”