当前位置: 首页 » 资讯 » 新科技 » 正文

英伟达遭版权诉讼,被指联系影子图书馆获 500TB盗版数据

IP属地 中国·北京 编辑:孙雅 IT之家 时间:2026-01-20 20:38:10

IT之家 1 月 20 日消息,据 Torrentfreak 报道,英伟达高管曾批准使用“安娜档案馆”的数百万本盗版书籍,为其人工智能模型训练提供数据支持。在一项援引英伟达内部文件的集体诉讼案中,数位图书作者指控这家公司曾直接联系“安娜档案馆”,寻求该影子图书馆数据的高速访问权限。

据IT之家了解,芯片巨头英伟达一直是人工智能热潮中的主要财务受益者之一。得益于市场对其人工智能训练芯片及数据中心服务的旺盛需求,该公司营收大幅增长,且这一增长势头尚无见顶迹象。

除了销售市场炙手可热的硬件产品外,英伟达也在自主研发人工智能模型,包括 NeMo、Retro-48B、InstructRetro 以及 Megatron。与其他科技巨头的做法类似,这些模型均依托英伟达自研硬件,并借助海量文本库开展训练。

与其他科技公司一样,英伟达的模型训练方法也遭到版权方的强烈法律抵制,其中就包括图书作者。在多起诉讼中,作者们指控科技公司使用盗版书籍训练人工智能模型。

例如,2024 年初,数位作者就曾以涉嫌侵犯版权为由将英伟达告上法庭。在这起集体诉讼中,原告方主张,英伟达的人工智能模型是基于 Books3 数据集训练的,而该数据集包含了从盗版网站 Bibliotik 获取的受版权保护作品。由于上述行为未经版权方许可,作者们要求英伟达作出赔偿。

对此,英伟达辩称其行为属于“合理使用”,声称书籍对其人工智能模型而言不过是一组统计关联数据。然而,相关指控并未就此平息。相反,原告方在证据开示阶段发现了更多佐证。

上周五,原告方提交了经修订的起诉状,大幅扩大了诉讼范围。除新增更多涉案书籍、作者及人工智能模型外,诉状还纳入了更广泛的“影子图书馆”相关指控。

包括阿布迪 纳泽米安在内的原告作者,如今援引了英伟达的多份内部邮件及文件,指出该公司曾蓄意下载数百万本受版权保护的图书。这份新诉状指出,“市场竞争压力驱使英伟达走上盗版之路”,其中就包括与颇具争议的“安娜档案馆”图书馆展开合作。

诉状称,英伟达数据战略团队的一名成员曾主动联系“安娜档案馆”,旨在了解这家盗版图书馆能为这家企业提供哪些资源。诉状中提到:“因急需海量图书数据,英伟达主动接洽了现存规模最大、也最为肆无忌惮的影子图书馆 ——‘安娜档案馆’,洽谈获取其数百万份盗版资料,并探讨将‘安娜档案馆’纳入其大语言模型预训练数据的可行性。由于‘安娜档案馆’对其盗版资源的‘高速访问权限’收取数万美元费用…… 英伟达试图了解获取该数据高速访问权限的具体方案。”

诉状显示,“安娜档案馆”随后向英伟达警示,其图书馆内的藏书均为非法获取和留存。鉴于该网站此前曾与其他人工智能公司合作并耗费大量时间,这家盗版图书馆要求英伟达高管确认,其是否已获得内部授权推进相关合作。

据称,英伟达方面在一周内就批准了这项合作,随后“安娜档案馆”便向这家芯片巨头开放了盗版书籍的访问权限。诉状称:“在联系‘安娜档案馆’一周后,且在被告知其藏书存在非法性的数天后,英伟达管理层仍‘开绿灯’批准推进这项盗版合作。‘安娜档案馆’向英伟达提供了数百万本受版权保护的盗版书籍。”

诉状指出,“安娜档案馆”承诺向英伟达开放约 500TB 的数据访问权限,其中包含数百万本图书,这些图书通常仅能通过“互联网档案馆”的数字借阅系统获取,而该档案馆本身也已身陷相关诉讼。

诉状并未明确提及英伟达最终是否向“安娜档案馆”支付了数据访问费用。

此外,值得注意的是,英伟达还被指控使用了其他盗版数据源。除此前涉案的 Books3 数据库外,新诉状还指出,该公司曾从“图书馆基因”(LibGen)、“科学枢纽”(Sci-Hub)以及“Z 图书馆”(Z-Library)等平台下载图书。

原告方称,英伟达除了自身下载并使用盗版书籍训练人工智能模型外,还向企业客户分发脚本和工具,使其能够自动下载包含盗版 Books3 数据集的“The Pile”数据库。

这些指控衍生出两项新的诉讼主张 —— 辅助侵权与共同侵权,原告方认为英伟达通过为客户获取盗版数据集提供便利,从中牟利。

基于上述及其他相关指控,作者们要求英伟达就其所遭受的损失作出赔偿。该诉求不仅适用于本案具名原告,也涵盖未来可能加入这起集体诉讼的其他数百位作者。

据目前掌握的信息,这是美国大型科技公司与“安娜档案馆”的往来函件首次被公开披露。而就在不久前,“安娜档案馆”刚丢失了多个域名,此次事件无疑将进一步提升这家盗版图书馆的公众关注度。

标签: 图书馆 档案馆 数据 人工智能 安娜 模型 公司 图书 书籍 原告方 作者 诉状 联系 版权 影子 科技 海量 销售市场 炙手可热 权限 硬件 迹象 数位 文件 客户 规模 管理层 科学 域名 现存

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。