近日,有消息称,这家市值万亿美元的科技巨头在一项集体诉讼中被指控曾直接联系安娜档案馆(Anna's Archive),试图获取高达 500TB 的盗版电子书数据,以用于其大模型的训练。这一行为引发了书籍作者们的强烈反对,他们认为英伟达的举动不仅侵犯了版权,还显现出其在竞争压力下的极端手段。
安娜档案馆是一个知名的盗版电子书资源库,尽管其曾多次发出警告,指出其数据来源为非法获取,英伟达却依然向其求助,意图加快模型训练的速度。根据诉讼文件,几位书籍作者引用了英伟达的内部通信,表明该公司曾试图获得与安娜档案馆的合作,意图将这些盗版书籍纳入到其大型语言模型的预训练数据中。
在过去的几年中,英伟达不仅在显卡市场上占有一席之地,还在训练其自家的 AI 模型,如 NeMo、Retro-48B 等。为了赶上竞争对手 OpenAI 推出的 ChatGPT,英伟达在 2023 年秋季的开发者日上急于展示其最新的大模型。为此,该公司似乎毫不犹豫地选择了盗版资源作为 “捷径”。
尽管英伟达在最初的回应中否认了侵权指控,声称其使用这些数据构成合理使用,但随着诉讼的推进,情况愈发复杂。书籍作者们强调,英伟达的行为是因为竞争压力而 “迫使” 其走上盗版之路。他们还透露,英伟达不仅联系了安娜档案馆,还从其他盗版网站如 LibGen、Sci-Hub 和 Z-Library 下载书籍。
目前,安娜档案馆的法律麻烦不断升级,其未来的发展也令人堪忧。而英伟达虽在诉讼中受到质疑,但其影响力似乎并未受到明显损害。科技界将持续关注这一事件的发展,看看这场围绕 AI 和版权的斗争将如何演变。





京公网安备 11011402013531号