*此节目由豆包AI播客生成
硅谷这波AI人才争夺战里,扎克伯格是最务实的。他从不跟想挖的人谈什么理想,各大科技公司的华裔人才,小扎动辄开价一两亿美元。
乃悟看到最极端的案例,是他花了148亿美元买了AI数据标注公司Scale AI 49%的股份,不要董事会席位,不要投票权。只有一个附加条件:
CEO王先生全职加入meta出任首席AI官。
在美国的AI圈子里,meta已经落后于OpenAI和谷歌之类的第一梯队,以前小扎靠开价打法搞定过Instagram、Whatsapp等等,现在他又祭出了这一招。
要All in AI不是什么稀奇事,毕竟百度的Robin也喊了很多年了,乃悟就研究了一下花了这么多钱的meta这些年在AI领域有啥进展,专业的咱就不说了,说点有意思的。
7月23日,meta的法务部门接到了一份来自加州北区联邦法院的传票,两家美国的成人视频公司strike3和counterlife把它们告了。
按照原告的说法,从2018年开始,meta就开始用BT工具从这俩网站下载各种语言和不同清晰度版本的爱情动作电影,而且往往是电影首发当天就下载,数量多达:
2396部!
俩公司向法院提交了各种证据,比如通过工具检测后发现,下载地址都指向meta的IP,其中一个IP还是meta员工自己家里。
更让俩公司愤怒的是,因为BitTorrent的特性是并行下载的人越多,速度越快,meta居然还做种分发!
meta为啥要下载这么多爱情动作电影,甚至员工还自愿加班回家继续下载?两家公司怀疑meta是用这些素材:
训练AI。
我的妈啊,我就知道我的硬盘不养闲片,储存的都是人工智能的未来啊!
按照strike3的说法,meta之所以选择他们的成人视频,主要是因为他们家的清晰度高、主题统一、画面连贯,是训练AI,特别是生成类视频模型的好素材。
Strike3还指责,为了掩盖这些素材都是盗版,meta还架设了虚构的服务器,他们曾经向meta去函警告,meta依旧我行我素。忍无可忍的他们这才将meta告上了法庭。
meta方面否认了这些指控,不过外媒预测,meta应该会选择庭外和解。
这是全球第一起关于成人影片和AI数据的版权纠纷,但却不是LLM大模型们第一次惹上版权纠纷,甚至不是meta的第一次。
此前不久,法院刚刚判决了一起和meta有关的侵权案。起因是一堆美国作者把meta告上法院,状告他们利用盗版书训练AI,数量多达700多万本。原告称,meta使用LibGen之类已经被联邦法院封禁的影子图书馆,做种下载图书,训练自家AI。
根据meta的内部备忘录显示,他们甚至记录了盗版书存在的错印、漏印等问题。有meta的员工爆料,他曾经问过同事,这事儿问过法务了吗?同事回复,别家都这么干,所以咱们也这么干。
这个爆料人一看就是新人,有些事儿法务不让干你就不干了?FBI天天警告你,有用吗?
扎克伯格当时也出庭了,说他对此毫不知情。但内部文件却显示,这些都得到了扎克伯格的允许。
最后,在meta律师团队的努力下,法院驳回了原告的上诉,理由是meta训练的AI属于合理运用,原告的证据不足。
不过,研发了Claude的Anthropic就没这么好运了。他们也因为使用盗版书而被告上法院,负责审理此案的法官Alsup认为,买书来训练Claude没问题,但用盗版就是你们的不对了。何况你们下载这些盗版书籍:
未必真的就只是用来训练AI。
Anthropic的立即上诉请求也被驳回,外媒预计他们可能面临数十亿美元的赔偿。
这个法官好,strike3和counterlife能不能申请让他来审爱情动作片训练AI的案子。
乃悟查了一下,至今为止,没有任何一家大模型彻底说清楚自己的训练素材到底是哪儿来的。各家回答都差不多,什么我们数据都是网上的公开资料、书籍和新闻。
更有甚者,如OpenAI等公司还拒绝透露数据的详细来源。
乃悟试了试问了几个国内大模型,他们的回答都如出一辙,什么保证合规啊,来自公开渠道和合作伙伴啊。但你进一步问,你的合作伙伴都有些谁?举一个例子就行。他们就沉默了。
乃悟试了试,国内很多大模型都能精准识别哈利波特中的章节原文。甚至可以整章整章背出英文原文。还特别注明:
未删减。
据乃悟所知,JK罗琳的版权还没到期吧?
背点盗版书算什么本事,有能耐你也让FBI警告我一下子。
关注星球视频号,熟知寰宇人间事
加乃悟微信:yangnw0705 备注公司-职业
给我一个在看,我能撬动整个星球