![]()
![]()
《AI万金油:商业幻想与科技狂潮》,[美]阿尔文德·纳拉亚南、[美]萨亚什·卡普尔 著,王勇、王安心 译,中信出版集团出版
如果你对AI感到困惑,担忧它对全球和个人未来的影响,《AI万金油:商业幻想与科技狂潮》值得一看。这本书提供了清晰视角,深入剖析AI的运作原理及局限性,帮助你辨识AI何时能带来真正的价值,何时可能引发隐患,提醒你警惕企业炒作,推销那些既不实用,未来也无前景的AI产品。
这本书在肯定部分AI技术潜力的同时,深入探讨了AI在教育、医疗、招聘、银行、保险和刑事司法等领域的实际应用所带来的问题与危害。作者将现阶段的AI分为三类,即生成式AI、预测式AI和内容审核AI,详细解析了不同类型AI的核心区别、潜力与缺陷。
>>内文选读
预测未来是许多科学领域的核心,但在社会科学中却并非如此。社会科学中,主流方法是致力于改善我们对现象原因的理解,而不是专注于预测。举例来说,社会学家的目标通常并不是预测某个人未来的收入,以实施有针对性的干预。他们的目标是研究贫困的成因,从而制定更有效的措施来缓解贫困。
随着可用数据量的增加,机器学习在社会科学中的预测应用开始逐步发展。让我们来看一个名为“脆弱家庭挑战”的尝试,这是一个利用AI和大规模数据来预测儿童成长情况的著名研究项目。
在2015年,我们在普林斯顿大学的同事马修·萨尔加尼克希望研究AI预测未来的能力。当时,普林斯顿大学的社会学教授萨拉·麦克拉纳汉正在进行一项长期研究,追踪了2000年前后出生于美国20多个城市的4000多名儿童的生活。在过去的15年中,萨拉及其团队分别在孩子出生时,以及在孩子1岁、3岁、5岁和9岁时,对这些孩子及其家庭进行调查。通过这些调查,研究团队从父母、老师以及家庭活动中收集了超过一万个数据点。事实上,很难找到一个未被纳入这项研究的社会学变量。
在2015年,萨拉及其团队计划发布最新一轮调查数据,这些数据是在孩子们年满15岁时收集的。马修希望利用“脆弱家庭挑战”项目的调查数据来测试AI的预测能力。他来到萨拉的办公室讨论细节,这场对话成为两个人合作的起点。
他们向全球的参赛者发布了部分数据,即从孩子出生到九岁期间收集的所有数据。参赛者被要求利用这些数据创建AI模型,预测孩子在15岁时的表现,包括六项具体结果,如GPA、是否被驱逐出住所,以及家庭是否面临物质困境。参赛者的排名基于他们的预测结果与真实数据的接近程度。
由于比赛对公众开放,吸引了数百名研究人员参与,不同团队得以尝试多样化的方法。有些团队使用复杂的AI模型,而另一些团队则采用传统的社会学统计模型。不论方法如何,所有参赛者都在同样的条件下竞争,唯一的评判标准是模型对儿童未来结果的预测准确性。这场比赛的目标并非挑选“最佳模型”,而是通过集体努力,互相学习。实际上,组织者将这一形式称为“集体协作”。
最终,共有160个团队提交了他们的预测结果。在这些模型中,一个简单的基准模型被用作与复杂AI模型的对照。这个基准模型仅依赖基本的统计技术,包含4个特征,其中3个与孩子的母亲相关,一个与孩子九岁时的数据相关。例如,为了预测孩子15岁的GPA,该模型使用了母亲的种族、婚姻状况、教育水平,以及孩子9岁时的学业表现。
令马修感到惊讶,甚至有些失望的是,没有任何模型表现得特别出色。即使是表现最好的模型,其预测能力也仅比随机猜测略强。而那些复杂的AI模型与仅包含4个特征的基准模型相比,并未表现出显著改进。
![]()
图源:视觉中国
换句话说,尽管拥有数万个关于数千个家庭的数据、160名竞赛研究人员以及最先进的AI模型,但在预测未来方面的表现并未优于基于社会学理论并在几十年前提出的回归模型。数据表明了过去的GPA、种族和社会阶层确实在预测未来的GPA方面具有一定的作用。然而,这些趋势早已被社会学家所理解,因此这并不是什么新发现。
为何“脆弱家庭挑战”项目以失败告终
在学术演讲中展示“脆弱家庭挑战”项目的结果时,计算机科学家和数据科学家是看到令人失望的结果时提问最多并提出改进建议最多的。一个最常见的问题是,来自4000个家庭的样本是否足够?这些观众通常会提到另一场推动深度学习革命的比赛,即2012年的ImageNet挑战。该比赛要求参赛者用AI技术识别图片内容,数据规模达到120万张标记图片。
提高社会预测精度的一种可能方法正是计算机科学家在这种情况下提出的暴力干预策略,即扩大样本规模,获取更多数据。这一假设基于这样的理念:通过增加数据量和提高计算能力,可以显著提升预测的准确性,从而实现社会预测领域的突破。
正因如此,我们不能简单地将“脆弱家庭挑战”项目的结果视为社会预测能力的根本限制。事实上,我们尚未确定这一假设是否成立。在理论已经成熟的科学领域,如天文学中的行星轨道预测,可预测性非常高,我们可以精准地预测行星在未来几年中的位置。而在另一些情况下,也存在明确的可预测性限制。例如,热力学定律让我们能够估算氧气或氮气等气体的整体行为,却无法预测单个气体分子的运动轨迹。
然而,到目前为止,我们还没有关于社会问题可预测性的系统理论。我们既无法很好地预测未来,也不清楚预测能力的基本限制究竟在哪里。
科幻作品中常常探索人生结果的可预测性。科幻电影《少数派报告》提出了这样一个设定,即通过预测未来可能发生的犯罪,可以提前逮捕潜在的罪犯。这些作品的核心矛盾通常集中在宿命论与自由意志的对立上,但它们往往忽略了一个关键且无法消除的误差来源,那就是偶然事件。
AI在某些任务中表现良好的一个显著原因是,任务本身的不可消除误差较小。例如,在分类图像内容时,一旦我们拥有一张图像(如一只猫的图像),判断图中内容是相对容易的。在这种情况下,不可消除的误差很小;人类和现代AI大多数情况下都能正确分类图像,偶然性在确定正确答案中几乎不起作用。
那么,社会预测中的不可消除误差究竟有多高?目前,我们对社会科学的理解和对可预测性的理论尚未成熟,我们也不能给出明确的答案。然而,我们有理由相信这种误差较高,部分原因是偶然事件的影响。人们可能会经历完全无法预测的突发事件,这些事件对他们的人生轨迹会产生重大影响。没有任何模型能够准确预测某人是否会中彩票,或者是否会遭遇车祸等事件。
![]()
图源:视觉中国
那么,这些不可预测事件的发生频率有多高呢?或许蝴蝶扇动翅膀确实能够引发龙卷风,但这种情况如果每千年才发生一次,那可能不值得我们过于担心。比起大规模的突发事件,更常见的是一些小的初始优势或劣势,随着时间的推移逐渐累积,产生深远影响。例如,年度绩效评估中的一个小偏见(如因为你的上司与你意见相左)可能会对你的职业生涯造成重大影响,让你比他人晋升得更慢。这些微小的差异往往难以量化,从而增加了预测中不可消除的误差。
现在让我们回到预测未来结果所需数据量的问题。我们知道,样本中的噪声越大,构建准确模型所需的样本规模就会急剧增加。而社会数据集通常充满噪声。此外,社会现象的模式并非固定不变。与猫的图像不同,社会现象会因背景、时间和地点的不同而发生显著变化。在一个地方或时间点定义成功的因素,可能对预测另一个地方或时间的成功完全无效。
这意味着,AI要想准确预测未来,可能需要大量来自不同社会背景的数据,而仅仅依赖过去的数据是不够的,就像仅用上一次选举的民调数据并不足以准确预测下一次美国总统选举的结果一样。
这引出了一个有趣的可能性,也许收集足够的数据来准确预测人们的社会结果不仅不现实,甚至是不可能的。马修·萨尔加尼克将其称为“80亿问题”,如果我们无法做出准确预测,是不是因为地球上根本没有足够的人口来让我们学习并识别出所有可能存在的模式?
此外,样本的数量和样本所包含的信息同样重要。在“脆弱家庭挑战”项目中,每个孩子的数据记录了大约一万个与社会学相关的特征。但即便如此,这些特征仍可能不足以捕捉所有影响结果的因素,接下来我们将阐述原因。
预测比赛结束后,马修和他的同事们试图找出这些模型表现不佳的原因。为此,他们决定拜访那些预测误差最大的家庭,探索导致这些偏差的具体原因。在一次采访中,他们发现一个原本成绩较差的孩子突然在学校里表现出色。原因是邻居给予了关键支持,不仅开导孩子、辅导作业,还常给孩子吃蓝莓。但在“脆弱家庭挑战”项目的数据中,没有问及孩子是否从家庭外获得食物(或更重要的,是否有人帮助辅导作业)。这是不是一个缺失的关键特征?如果数据中包括这些信息,是否能更准确地进行预测,如孩子生活中是否有一个成年人支持?当下的数据集中又缺少了多少类似的重要特征呢?
构建更全面的数据集的一种方式是依靠政府收集的数据。例如,荷兰已经编制了关于个人家庭、邻居、同学、家庭成员和同事的详细数据。这一数据集规模庞大,覆盖全国总计1720万人。平均而言,每个人与82个人相联系,总共记录了14亿个网络关系。这些数据显然比“脆弱家庭挑战”项目数据集更大、更完整,有可能成为预测社会结果的实际替代方案。如果这些数据确实能够有效预测未来感兴趣的结果,那么相关成果很快就会显现。目前,包括一场预测竞赛在内的多个研究项目正在测试这一假设。
另一种潜在的数据来源是科技公司。如今,人们在谷歌和meta等公司运营的平台上花费了大量时间。这些公司收集的数据是否能够提供其他途径无法获得的独特洞见呢?
正如许多流行文化对技术与社会关系的探讨所展现的,我们可以对此进行推测。然而,从根本上说,预测人们生活结果的尝试对科技公司来说,可能面临声誉和法律方面的高风险,因此并不值得去做。此外,这些公司的商业目标并不是预测人们的长期未来,而是理解他们今天会参与哪些内容。因此,关于在线数据对长期预测能力的价值,短期内可能不会得到明确答案。
![]()
图源:视觉中国
一种更宏大(同时也更具反乌托邦色彩)的设想是收集每个人的广泛信息,建立一个关于人类的超级数据库。在这样的世界中,每个人都会被全天候监视,每一个行为都被追踪记录。尽管美国国家安全局和大型科技公司已经掌握了大量关于人们的数据,但这里讨论的是更激进的数据收集,即追踪每一句话、每一个动作、每一种行为,甚至可能包括每一个大脑中的电信号。这样的世界是否会带来更好的预测能力?如果是,这么做又是基于什么目的呢?而这种全面追踪对隐私权的代价又会有多高?





京公网安备 11011402013531号