财经故事会 袁榭
9月初,估值超过1800亿美金的AI大厂Anthropic,宣布禁止中国公司控制的实体、在海外的分支机构等使用其主要产品Claude系列提供的AI服务。
靠断供扬名的前后脚,Anthropic还悄悄修改了用户隐私政策:所有Claude产品的个人消费用户必须在9月28日前决定,是否同意让自己与AI对话、编码等互动数据用于模型训练。
用大白话说,从9月28日起,个人用户和Claude的对话、写码等数据,将被默认授权拿去训练模型,除非用户在交互界面手动点击不同意。选择同意的用户数据将会被保留5年,选择不同意的用户数据将被保留30天。
此政策变动涵盖Claude系列产品的Free、Pro和Max用户,也就是该产品的所有免费和付费的个人用户。提供给企业客户的Claude for Work、给政府机构客户的Claude Gov、给学术机构客户的Claude for Education,和通过谷歌、亚马逊等企业API接口调用的商业用户则不在此变动的影响范围内。
先别吐槽Anthropic耍流氓。只能说,这家公司面临当下AI训练优质数据枯竭的困境,选择了和其他中外AI大厂差不多的应对之策,不得不降低用户隐私保护标准。
这个真相,李彦宏七年前就已揭示过,当时还引得大众一片吐槽,我想中国人可以更加开放,对隐私问题没有那么敏感。如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的,那我们就可以用数据做一些事情。
其实,老实人李彦宏,只是把其他AI厂商的心里话放在明面上了。
一、要么向AI交钱,要么向AI交数据?
大模型用户的活动数据,作为训练数据是最优质的。因为用户的使用过程,本身就是对模型生成答案向真实世界基准值的调校和标注。
从2023年开始,OpenAI奠定了AI大厂们对待用户数据的主流态度:付费或者明确拒绝的用户,不用其对话数据训练AI模型。低付费和免费用户若不主动点击界面的拒绝按钮,默认将其对话数据作为训练数据来源。
2023年4月底,OpenAI允许所有ChatGPT用户关闭聊天记录。禁用聊天记录后开始的对话不会用于训练和改进AI模型。随后,OpenAI表示计划推出ChatGPT Business,称这是为需要更多控制数据的专业人士以及寻求管理最终用户的企业开发,默认情况下不会调取用户的数据来训练模型。
2023年5月初,OpenAI的CEO山姆阿尔特曼称公司不再使用API(应用程序接口)客户的数据,去训练ChatGPT模型,因为很多客户曾明确表示拒绝。
这些宣示不妨反着读不付费或者付费不多的普通用户如果没明确拒绝,数据和聊天记录可能被默认可以用于模型训练。
时至今日,这已经是全球AI大厂普遍认可的通用标准。
在用户数据权限上,Anthropic曾是大厂中的少数异类。旧版本的Anthropic产品的隐私政策明确规定:用户不需要额外操作,就默认不使用用户对话数据来训练模型。直到最近,Anthropic调低了用户隐私保护的标准,和一众AI大厂看齐。
研究者测试大模型的提问关键字集合
系统还算可靠,但人未必可靠。算法程序不会满世界张扬用户的隐私数据,AI公司员工出个BUG,很有可能就会无意间导致用户隐私泄露。
2025年夏天,业界发生了数起暴露用户对话等隐私记录的安全事故。
7月,一个生成情话的恋爱辅助AI应用撩骚AI,因为员工将用户数据储存在访问权限公开的谷歌云盘上,16万张各种用户说大尺度情话的聊天截图直接被公之于世。
研究论文中的GPT中文词元污染示例
此研究中的一个细节引人注目:中国国产大模型的中文语料污染程度,显著低于海外大厂的AI大模型产品。研究测试中GPT-4o系列的中文词元被污染数是773。而千问系列的同类结果是48、智谱的GLM4是19、Deepseek是17、面壁智能的MiniCPM是6。
《自然》杂志当时的AI吐垃圾封面
2024年10月meta公司的研究则发现,即使合成数据只占总训练数据集的最小部分,甚至只有1%,仍有可能导致模型崩溃。
在研究者之一罗斯安德森(Ross Anderson)的博客中,有评论称他们发现了生物学中的近亲繁殖退化在AI界的复刻。罗斯安德森自己也说:真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。
真人数据如此重要,AI大厂不得不用。所以,用户为了使用更聪明更好用的AI大模型,可能也不得不适当让渡一些隐私权限了。