当前位置: 首页 » 资讯 » 新科技 » 正文

未来人类学家|章邵增:人类学方法如何打破人工智能“黑箱”

IP属地 中国·北京 编辑:柳晴雪 澎湃新闻 时间:2025-07-25 12:30:56

许多人误以为,人类学只是去“研究他者”的学问,是去寻找那些“遥远的”“奇特的”文化遗迹。但事实上,人类学从来都不是“落后”的代名词。它并不局限于过去,而是面向未来;它研究的不是“奇观”,而是“人类社会的深层逻辑”,尤其是在科技、媒体与全球化飞速发展的今天,人类学正在以前所未有的方式活跃在最前沿的时代现场,越来越多的人类学者投身到人工智能的研究中去。Genevieve Bell是当代非常重要的一位人类学家兼技术专家,她的工作跨越了人类学、设计、人工智能和未来技术发展等多个领域。她最广为人知的身份是前Intel首席人类学家、现任澳大利亚国立大学(ANU)教授,并创办了3A Institute(Autonomy, Agency and Assurance Institute),致力于人工智能伦理和新兴技术治理。Bell坚信:技术并不是中立的工具,而是嵌入文化、社会、历史与权力关系中的产物。她强调,理解人类如何使用和想象技术,需要人类学的田野调查方法和文化洞察。英国剑桥大学的人类学家Beth Singler,就研究“人工智能的宗教想象”:为什么人们会把AI神化?麻省理工学院(MIT)的人类学家Stefan Helmreich,研究“AI语音识别中的性别与权力”:为什么语音助手多为女性声音?这和技术背后的文化编码有什么关系?法国社会科学高等研究院(EHESS)的人类学者Dominique Boullier,则关注“算法社会中的人类行为重组”——当社交媒体以推荐机制统摄注意力,我们的选择真的还自由吗?算法塑造了我们理解世界的方式,也重组了公共领域。美国俄勒冈州立大学人类学家章邵增提出从人类学的视野出发来革新大数据分析。在认识论上,可以用考古学来重新定义大数据,而在方法论上,人类学完备又严谨的方法是大数据应该借鉴的,能帮助重新认识数据“真实性”问题。


7月12日,由“未来人类学家”项目组发起的2025线上讲座,章邵增为大家带来了“如何提升人工智能中的人——用人类学的方法参与设计机器学习算法模型”主题讲座。章邵增分享了自己在过去几年从事的一项跨学科研究,该研究项目源自一次偶然却富有象征意义的跨学科交流。2019年初,章邵增与一位和他在同一所大学任教的计算机专业人工智能方向的教授在子女幼儿园家长会上相识。两人虽属不同学科背景,但在等待开会期间的闲谈中,因对人工智能道德伦理问题的共同关注而激发了合作契机。特别是在讨论到2015年谷歌新出品的人工智能图像识别系统将两位美国非洲裔人士误判为“大猩猩”的事件时,双方对人工智能的算法偏见问题产生强烈共鸣。一方面,计算机专业的研究者对该领域技术失误深感遗憾;另一方面,人类学者也察觉该事件与自己学科对“人”与“类”的长期关注息息相关。如果人工智能是孩子们将要生活的未来社会的重要科技,那么作为父母就有责任一起去设计更好的人工智能、塑造更好的未来社会。

这次貌似偶然但富有启发性的对话促成了一个跨学科研究项目的构想。二人随后联合申请了美国国家科学基金会(NSF)旗下的“早期概念探索研究基金”(Early-Concept Grant for Exploratory Research, EAGER),旨在探索如何将两个学科的理论知识和方法经验纳入人工智能的设计过程。项目自2020年正式启动,为期三年,核心目标在于开发更具人性化(humanized)的人工智能系统。值得注意的是,“humanized AI”一词最初并非来自研究设计,而是源自项目后期用户体验评估中的参与者反馈,反映出公众对技术与人文融合的直观期待。

项目团队由两位主导教师(计算机科学与人类学背景)及多位研究生组成,形成了以跨学科合作为基础的研究群体。在此框架下,本项目不仅聚焦技术方法的创新,也重视学科间话语的互通与方法论的共享,为人工智能研究引入社会科学特别是人类学的伦理关怀与知识结构。项目期恰逢全球新冠疫情,尽管全球公共卫生危机带来了诸多限制,但由于此项研究主要依托于算法设计与远程合作,较之传统需实地田野工作的民族志研究,此项目仍得以开展。事实上,研究的时机反而为跨学科线上协作提供了机会。

不过,项目初期并不轻松,虽然两位主导教师(分别来自人类学与计算机科学领域)对合作抱有高度兴趣,但两学科在研究语言、范式与操作方式上的差异使得有效协作面临一定挑战。为克服这一障碍,研究团队制定了密集的协作节奏,从项目启动初期即以每两周例会的形式推进团队内部沟通,并通过不断讨论将研究目标细化为可操作的若干子任务。为进一步强化方法论框架与跨学科整合,团队还组织了两轮专家咨询会议,邀请具有人类学与计算机双重背景的研究人员作为顾问。例如,Paul Dourish教授虽隶属于计算机学院,但具有深厚的人类学素养;Melissa Cefkin博士则以人类学博士背景长期供职于高科技企业,曾任日产自动驾驶团队的首席科学家。这些专家的反馈对项目设计的理论深度与现实导向均产生了积极影响。

在方法论层面,研究团队对“算法”(algorithm)与“人工智能”(artificial intelligence)两个核心概念的基础结构与历史脉络进行了反思性澄清。尽管“人工智能”在当下成为高度流行的术语,但许多计算机科学研究者更倾向于使用具体的技术术语,如“机器学习”(machine learning)与“深度学习”(deep learning),以避免概念过于宽泛所带来的理解偏差。项目核心聚焦于机器学习模型的设计优化,尤其是试图将人类学中的伦理关注与归纳逻辑引入算法训练的全过程。研究团队指出,机器学习本质上是通过不断迭代数据输入与输出,对基础模型进行训练、校正与优化的过程,这一过程与人类学民族志研究方法例如扎根理论(Grounded Theory)所采用的“资料驱动、理论生成”逻辑在方法论原则上一致的。在机器学习中,数据被用以训练模型,通过不断喂入新样本,观察系统输出结果,并对算法进行校正;而民族志研究亦是在田野中反复采集资料、归纳意义,并逐步建立概念和理论。这种共享的逻辑过程构成了人类学与人工智能研究之间潜在而富有成效的方法论基础和对话空间。

因此,此研究的一个基本出发点即在于:重新思考人类在算法建构过程中的角色与能动性,不再将人工智能视为独立于社会文化的“黑箱技术”,而是主张通过方法论上的反思与协作,推进更具科学严谨性和更符合社会现实的技术实践。

为应对机器学习模型在高不确定性情况下易于产生失误的问题,研究者设计并实施了“放弃预测”(abstention option)机制。人工智能的发展是新一轮的自动化,就是人类智力活动的自动化,所以,很自然地,传统人工智能系统肯定是追求“算法必须输出结果”。这个项目则反其道而行之,尝试在模型中引入“无法判断”的响应选项,使得系统在遭遇信息不足或边缘个案时,能够承认其判断力的局限性,并将此类情况交由人工分析者处理。这一策略不仅体现出“human-in-the-loop”(人在回路)理念的深化,也将人工智能从一种封闭、权威的“黑箱”技术,转化为一个开放、可调的人机协作系统。研究者亦在算法界面(user interface)设计上进行了相应的优化,使操作者能够在系统训练与决策过程中进行人工干预与评估,从而增强用户的控制力与信任感。

为了进一步提升模型的社会适应性与用户接受度,研究者在中美两地组织了基于在线平台的用户体验研究,探索不同文化语境下用户对于人工智能系统的理解、偏好与伦理关切。这一过程不仅丰富了算法输出的社会语义层面,也为后续提出的“公平性权重”调整策略提供了实践基础。该研究特别强调,所谓“公平性”(fairness)并非一个单一、稳定的技术参数,而是一个价值多元的概念,其定义可能因哲学传统、社会结构与历史经验的不同而大相径庭。因此,研究者并未对“公平性”进行静态定义,而是主张将其作为可变权重,由用户根据自己的定义或应用需求来调整公平性的权重。


在计算机科学领域,“human-in-the-loop”机制已成为一种流行的设计策略,但其在实践中往往仅局限于后期的用户测试阶段。本项目试图对这一策略进行结构性扩展,将“人”在数据选取、算法建模、风险评估等多个核心阶段中都凸显出来:包括人工智能系统设计者的主观位置,数据自带的社会结构性偏差,并赋予人可以解读和操作机器学习算法的能力。

此外,研究过程中也揭示了跨学科合作的挑战与潜能。如在与计算机科学同事的术语交流中,研究者注意到社会科学语境中的“个案”(case)在计算机领域常被称作“样本”(sample),而社会科学中的“样本”一般指的是一个通过科学抽样方法获取的个案的集合。这种术语差异初期造成一定沟通障碍,但也促使合作过程中不断澄清认知边界,推动学科间的深度融合。在模型设计环节,研究者进一步尝试将“公平性”作为可量化的权重指标引入到算法结构中。这意味着:当模型遭遇高不确定性或潜在歧视风险的输入时,其判断将自动触发审慎机制,降低决策置信度,或直接将个案交由人工干预。这一设计逻辑不仅提升了系统的伦理可控性,也回应了技术—社会接口处的现实问题。

然而,任何对于公平的“参数化”尝试都难以逃脱标准化与压缩复杂性的风险。公正的多样性在哲学、政治、社会和文化维度上均有不同表达方式。因此,作者提出:公平性的操作化应最终交由具体的用户群体来参与定义与评估,而不是由开发者单方面设定。该研究选取了两个在机器学习领域中被广泛使用的数据集——Adult Dataset 与 COMPAS Dataset,并从人类学的角度对其历史来源与社会语境进行了系统性的批判性审视。这两个数据集不仅在学术研究中频繁出现,也被广泛用于人工智能系统的训练与基准测试(benchmarking)之中。Adult Dataset源自1994年美国人口普查,涵盖佛罗里达州两个县的社会经济数据,主要用于预测个体年收入是否超过5万美元;而 COMPAS Dataset则是一套用于刑事司法系统风险评估的问卷数据,其核心用途是预测被释放人员的再犯风险。

尽管这类标准数据集具有结构化和易于重复使用的优点,但它们在内容与设计上深嵌于特定历史、文化和技术背景之中。例如,在COMPAS原始问卷中,存在如下问题:“How hard is it for you to find a job above minimum wage compared to others?” 该问题表面上看来具有中性、量化的特征,实则包含大量主观性判断,并受到地区、族群与社会结构性因素的影响。考虑到数据采集发生在20世纪90年代的美国南部——一个长期处于种族与经济张力中的区域——该问卷极有可能在设计之初便已反映出种族偏见与结构性不平等。

研究者将这些数据集视为“人造物”(human artifacts),并借助科学技术研究(STS)中的路径追踪方法,对其形成过程进行系统性重建。这种做法其实就是借鉴了民族志或考古学中对物质文化的溯源分析,意在揭示已被编入数据的社会关系与政治隐喻,或曰编码化的偏差(encoded bias)。进一步地,该研究还指出,即便是被广泛视为“客观基准”的benchmark数据集,在构建与使用过程中亦充满了历史性、文化性与地域性的限制。研究者强调,将这些数据未经批判性审查地直接用于人工智能系统的设计,极易造成结构性偏差的复制甚至放大。

在与计算机科学领域的合作过程中,研究团队识别出算法在训练过程中反复出现的“困难个案”(hard cases)。例如,三位背景条件几乎一致的受访者,在收入预测模型中却被分别判定为年收入高于或低于5万美元,由此暴露出模型在边界判断上的不确定性。这类个案成为推动机器学习模型引入“abstention option”(放弃决策选项)的关键线索,即当模型面对高度不确定的输入时,主动选择“无法预测”而非强行给出判断。此策略不仅可降低系统性错误风险,也为人工智能与人类专家之间的任务协作提供了实际路径。

基于上述分析,研究团队设计了一个具有操作性的用户界面,使最终用户可以在“公平性”(fairness)与“预测精度”之间进行调节选择。早期版本允许用户通过滑杆在不同精度或权重间自由设定,但实验室的用户测试结果显示分档设定更具实用性。因此,系统后续采用了分级调整机制,如“高公平性”“中等公平性”等,以便适用于如银行贷款评估等特定场景。这一设计显著打破了传统人工智能系统的“黑箱”结构,将模型参数与结果可视化,并赋予用户一定的干预权限。最终的跨文化用户测试在中国与美国同步进行,用户反馈普遍认为系统具备更高的透明性与可控性,尤其在面对社会敏感议题(如种族、公平分配等)时更具可靠性。

综上所述,该研究通过数据考古、批判性路径追踪、模型可解释性设计与人类干预机制的融合实践,展示了人类学方法在人工智能设计与伦理提升方面的探索和创新。

讲座讨论环节有多位学者和同学积极地参与,包括黄瑜老师(中央民族大学)、熊志颖老师(湖北民族大学)。

黄瑜围绕人工智能领域中的 benchmarking dataset(基准数据集) 提出了一个非常重要的问题。她指出,当前人工智能研究广泛采用的一种标准做法是依赖于“benchmarking”的模型来训练和评估AI系统,而这种模型本质上来源于应用科学的传统,其主要目标是提高系统在具体应用场景中的预测准确性和效率(efficiency),而忽略了基础科学中所强调的价值维度,如公平性、公正性等问题。她进一步指出,benchmarking 方法的历史起源,实际上与美国的商业和军事系统密切相关,比如用于评估一个人是否符合信用卡申请条件等。这种模式强调数据的覆盖范围和操作效率,但并不关心决策是否具有社会伦理或价值正义的基础。她提到的相关著作《秩序社会》(Ordered Society),也从社会学视角批评了当下AI系统在信息结构化与管理中如何隐含了某种权力逻辑。这些系统在不断预测与排序中,事实上在塑造我们所生活的“秩序”,而这个秩序并不总是中立或公正的。

章邵增首先肯定了 benchmark(基准测试)在 AI 发展早期的合理性——它曾是推动人工智能标准化、可比性的重要手段,也被视为技术进步的象征。但随着 AI 技术的深入发展,越来越多的研究者开始意识到,这些被当作“标准尺子”的 benchmark dataset 并非中立、普遍适用,而是带有特定历史、文化和政治偏见的“局部工具”。章邵增指出,这些数据集其实是“人的行为遗迹”(a trace of human behavior),即由人类历史、社会行为所生产,因此自然携带特定群体、文化、权力结构的偏见。这种偏见在现实中表现为不同族群的语言、思维、逻辑被“标准化”地优劣排序,从而涉及伦理风险。 以大语言模型(LLM)为例,AI在训练中可能更倾向模仿白人中产阶级英语语法、表达风格,忽略黑人英语、移民英语、非主流口音等,这反映了AI系统背后对于“最佳表达”的默认偏见。章邵增指出,这种偏见最终可能滑向某种“新型优生学”(eugenicism)的逻辑——认为某些人的语言、逻辑、智力更值得学习和复制。章邵增坦言,面对“什么是最好的公平性”这个问题,哪怕在人类学和计算机科学交叉团队中也难有定论。因此,他们在项目中采取一种“懒人方法”:让未来的用户群体参与定义 AI 系统中何为“公平”。这背后反映的是对社会结构复杂性的尊重——公平的标准不能脱离现实语境、阶层差异、文化背景。最后,章老师强调,解决 AI 中的公平性与伦理问题,不能靠计算机科学或人类学单一学科,而需要跨学科合作。这是一个既有学术研究意义,也有现实社会意义的方向。他鼓励更多人文学科的研究者积极参与 AI 的设计讨论,强调这不仅是学术兴趣,更是道义上的责任。

接下来,熊志颖从文化概念的反思出发,提出以下问题和思考:传统人类学对“文化”概念的静态理解是否仍适用于当代社会?他质疑美国人类学中那种将“文化”视为具有典型性、同质性、相对静态系统的做法,在当代社会快速变化、多元交融的背景下是否仍具解释力。他还提出,面对人工智能等新兴科技带来的文化变动,我们是否需要更动态、复杂的文化分析框架?

对此,章邵增强调,人类学的方法不仅适用于传统研究对象(如亚马逊雨林的部族技艺),也可以用来研究“我们自身社会中的技术实践”,比如 AI 的设计与使用。 他认可熊志颖的批判,指出美国人类学中“文化”概念的形成确实深受19世纪德国人类学与民俗学的影响——强调文化的类型化、同质性与静态性。然而,随着社会不断变化与交融,这种概念已经难以覆盖现实。尤其在人工智能研究中,文化变化的速度之快,使得传统追求“文化典型性”的研究取向显得不合时宜。他呼吁摆脱对静态文化模型的执念。以他自己的研究为例,在中美两国进行的 AI 用户测试中,反馈结果出人意料的相似——这说明 AI 作为新技术,在两国都尚属“新事物”,人们的反应在一定程度上趋同。不过也观察到一些细微差异,比如:中国用户更积极,美国男性相对更保守,而女性则更开放。他指出,这种现象说明,即便在同一社会中也存在显著的异质性(如性别差异)。他充分肯定熊志颖对文化概念的反思,并鼓励在研究新兴技术与跨文化现象时,保持文化概念的**开放性、灵活性与批判性应用,而不是拘泥于“典型性”“静态性”等过时框架。

(“未来人类学家”夏令营是由一群热爱及乐于分享人类学知识和方法的年轻人组织和筹办的系列科普教育活动。该项目由青年人类学者王希言发起,其后得到了许多知名学者的支持和帮助。“未来人类学家”还将持续推出系列讲座和夏令营等公共活动。)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。