当前位置: 首页 » 资讯 » 新科技 » 正文

AI诊断准确率超医生20%,芝大揭示AI辅助临床诊断的瓶颈与潜力

IP属地 中国·北京 编辑:钟景轩 DeepTech深科技 时间:2025-08-27 20:07:31

当 AI 系统在医学诊断上的表现超过人类专家时,人机协作一定会带来更好的结果吗?来自美国芝加哥大学的一项研究给出了意外的答案。

这项研究专门针对前列腺癌磁共振成像(MRI,Magnetic Resonance Imaging)诊断进行了深入的人机协作实验。之所以选择这个难题,该论文第一作者、芝加哥大学陈诧姹博士对 DeepTech 解释道:“前列腺癌 MRI 诊断是一个真实存在且难度较高的问题。许多以往的 AI 医疗研究所选择的领域,医生诊断的准确率可能已高达 90% 以上,但前列腺 MRI 诊断即使对经验丰富的放射科医生也极具挑战性。”


图丨陈诧姹(陈诧姹)

也就是说,在一个比较难的问题上,AI 可能给人带来的帮助更大,因为 AI 会比人更好,而且人也有更多的进步空间。

研究团队训练了一个基于 nnU-Net 架构的 AI 模型,使用包含 1411 个病例的 PI-CAI 公开数据集。这个模型在测试集上的 AUROC(Area Under the Receiver Operating Characteristic curve,接受者操作特征曲线下面积)分别达到 0.730 和 0.790,明显超过了参与研究的 8 名放射科医生的平均水平(这些医生来自美国和欧洲,年龄在 29 到 52 岁之间,大多具有丰富的前列腺 MRI 诊断经验)。

实验模拟了两种可能的临床 AI 部署场景。第一种是在医生独立诊断后,再提供 AI 的建议作为参考;第二种则是直接将 AI 的建议前置提供给医生。


图丨实验流程概览(arXiv)

第一阶段实验中,8 名放射科医生需要对 75 个病例进行三步诊断:先独立诊断,然后查看 AI 预测,最后做出最终判断。30 天后的第二阶段实验里,医生们首先会看到详细的个人表现反馈,包括第一阶段的各项诊断指标,然后在 AI 预测直接展示的情况下诊断 100 个新病例。


(arXiv)

研究结果首先证实了 AI 辅助的直接价值,但也揭示了一个更深层次的协作瓶颈。在第一组实验中,放射科医生独立诊断的平均准确率为 63.2%,获得 AI 辅助后,他们的平均准确率提升至 66.2%。然而,这一“人+AI”的协作表现,仍未能超越 AI 模型本身 69.3% 的独立诊断准确率。

原因何在?陈诧姹观察到:虽然医生会更加依赖 AI 的决策,但他们不知道在哪种情况下该相信 AI 的建议。医生并不能分辨出哪些情况下 AI 是对的,哪些情况下 AI 是错的,所以即使他们总体上更信任 AI,最终的准确率提升还是有限。

研究显示,在第一阶段研究中,当医生的初步诊断与 AI 出现分歧时(平均 22.6 个病例),医生只在 4.6 个案例中选择改变自己的判断,改变率仅为 20.4%。且在这些存在分歧的病例中,医生自己的准确率只有 44.4%,远低于总体水平。这说明医生往往在最需要 AI 帮助的时候,反而更坚持自己的判断。

第二阶段实验中,性能反馈和直接展示 AI 建议确实提高了医生对 AI 的采纳率,从第一阶段的 75.5% 上升到 78.4%,但这种提升并没有带来诊断表现的显著改善。看来,简单地告诉医生数据还不够,无法根本改变他们的决策习惯。


(arXiv)

既然个体层面的协作存在局限,研究团队便将目光转向了群体决策,探索实现“互补性能”(Complementary Performance)的可能性,即人机团队的表现超越任何一方单独表现的理想状态。他们将 8 位医生在 AI 辅助下做出的诊断结果进行整合,通过“多数票决”(majority vote)的方式形成一个集体的最终决策。

这一策略的效果十分显著。数据显示,这个“人+AI”群体的平均诊断准确率达到了 73.3%,不仅显著优于人类专家的独立表现(63.2%),也首次超越了 AI 模型的独立表现(69.3%)。


(arXiv)

“这个结果的意义在于,”陈诧姹强调,“它说明在这个问题上,人类和 AI 确实是可以互补的。只有他们能互补,你最后才能看到一个比任何一方单独表现都更好的结果。”

这一发现表明,虽然让单个医生完美地驾驭 AI 存在困难,但通过群体智慧的机制,人类的经验、直觉与 AI 强大的数据分析能力确实可以实现互补,从而达到最佳诊断效果。这为未来 AI 在临床中的应用模式提供了新的思路:或许重点不应仅仅是为单个医生提供一个“超级工具”,而是构建一个人与 AI 深度融合的“协作团队”。

对于如何更好地实现这种互补,陈诧姹认为,未来的方向包括持续优化 AI 模型本身,使其更加精准。同时,更重要的是要增进医生对 AI 的 理解。“你要告诉他们 AI 模型能做到什么样,有哪些病历是 AI 模型特别擅长的,然后哪些病历 AI 模型可能没有那么好。”通过给予医生关于 AI 模型能力边界的清晰认知和数据反馈,能帮助他们建立更合理、更有效的信任。


图丨相关论文(arXiv)

相关论文相关以《领域专家能否恰当地依赖 AI?一项关于 AI 辅助前列腺癌 MRI 诊断的案例研究》(Can Domain Experts Rely on AI Appropriately? A Case Study on AI-Assisted Prostate Cancer MRI Diagnosis)为题发表于会议 ACM Conference on Fairness, Accountability, and Transparency [1]。芝加哥大学陈诧姹博士是第一作者,芝加哥大学谭宸浩教授担任通讯作者。

参考资料:

1.https://arxiv.org/pdf/2502.03482v1

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。