![]()
![]()
《自然-医学》发表的一项研究指出,大语言模型(LLM)或许不能协助公众作出更好的日常健康决策。
全球医疗机构提议将LLM作为提升公众获取医疗信息的潜在工具,让个人在向医生求助前,先由LLM进行初步健康评估和疾病管理。但研究显示,即使在医师资格考试中得分很高的LLM也并不保证能有效完成真实世界的交互。
研究团队对LLM进行了测试,看其是否能协助公众精准辨别医疗病症——如普通感冒、贫血或胆结石——并选择一种行动方案,如呼叫救护车或联系全科医生。作者给1298名英国受试者每人指派了10种不同医疗情景,并让他们随机使用三个LLM中的一个,或使用他们的常用资源(对照组),如互联网搜索引擎,来辨别自己的疾病并选择行动方案。
不用人类受试者进行测试时,LLM能准确完成这些情景,平均能在94.9%的情况下正确辨别疾病,在56.3%的情况下选择正确的行动方案。不过,当受试者使用相同的LLM时,相关病症的识别率低于34.5%,选择正确行动方案的情况低于44.2%——该结果未超过对照组。
作者人工检查了人类与LLM交互中的30种情况发现,受试者向模型提供的信息常常不完整或不准确,而且LLM有时也会生成误导性或错误的信息。因此,当前的LLM尚未准备好直接用于患者医疗,因为将LLM与人类用户配对会产生现有基准测试和模拟交互无法预测到的问题。





京公网安备 11011402013531号