当前位置：首页 » 资讯 » 新科技 » 正文

斯坦福大学和根特大学联手：让AI读懂胸片，改变医学报告生成方式

IP属地中国·北京 科技行者 时间：2026-06-16 18:23:23

这项由斯坦福大学电气工程系、斯坦福大学医学院生物医学数据科学系以及根特大学数学建模、统计与生物信息学系联合开展的研究，以预印本形式于2026年5月30日发布，编号为arXiv:2606.00440。感兴趣的读者可以通过该编号在arXiv平台查阅完整论文。
每一张胸部X光片背后，都有一份放射科医生写下的报告。这份报告可能只有寥寥几句，却关系到患者的诊断方向和治疗方案。全球每年拍摄的胸片数量以亿计，而有资质的放射科医生却始终是稀缺资源。人工智能辅助生成放射科报告的研究，正是为了让这个瓶颈松动一些——不是让机器取代医生，而是帮助医生更快、更准确地完成这项繁重的工作。
然而，要让AI写出一份像样的胸片报告，远不如训练AI解数学题那么简单。这项研究的出发点，正是揭开这背后一个被长期忽视的根本矛盾：现有的AI训练方式，其实根本不适合胸片报告这类任务。研究团队由此提出了一套全新的奖励机制，不仅在训练阶段让AI学得更好，还在推理阶段让AI用更少的资源选出更好的答案。
一、为什么用"标准奖励"训练AI写胸片报告，是一件南辕北辙的事
在人工智能领域，训练一个模型的核心手段之一，就是设计一套奖励机制——做对了给奖励，做错了给惩罚。近年来，一种叫做强化学习的训练方式在语言模型领域大放异彩，尤其是在数学推理和编程任务上。它的原理是：让模型生成多个答案，然后根据答案的对错给予奖励，模型从奖励信号中学习如何做得更好。
这种方式在数学题上效果惊人，原因在于数学题有一个明确的正确答案，而且解题过程有清晰的步骤顺序——每一步推理是否正确，都可以被严格验证。但胸片报告根本不是这样一种结构。
放射科医生在写胸片报告的"发现"部分时，会记录下他们在图像中观察到的各种情况，比如"心脏略有扩大"、"左肺基底部有少量积液"、"未见气胸"。这些发现彼此独立，没有固定的先后顺序，也没有逻辑上的因果链条。医生可以先写心脏，再写肺部，也可以反过来——顺序不同，报告的临床含义完全一样。
这就带来了一个棘手的问题：如果用"完全匹配"来衡量AI生成的报告好不好，那AI写出的报告只要和标准答案的句子顺序不同，就会被判定为错误。这就好比你去参加一道菜的烹饪比赛，评委说你先放盐再放糖就算输，但实际上先放糖再放盐做出来的菜味道完全一样。这种评判标准，显然是对厨师的不公平，也无法真正衡量厨艺的高下。
更根本的问题在于，用强化学习训练时，通常需要给每一步推理打分，这叫做"过程奖励"。但胸片报告的各条发现并不是一步一步推导出来的，不存在"因为A所以B"这样的推理链条，强行为每一步打分既没有意义，也找不到可靠的依据。
研究团队清醒地认识到这一矛盾，并决定从根本上重新设计奖励机制。
二、把报告变成"无序的句子集合"：一个优雅的解决思路
解决方案的核心，是改变看待报告的方式。与其把一份报告视为一段有顺序的文字，不如把它看作一个由独立句子组成的"集合"——就像一袋弹珠，你抓起来的时候不在乎哪颗先出来，只在乎里面有哪些颗。
具体的做法是这样的：研究团队先用一个预先训练好的"句子理解模型"（研究中使用的是all-mpnet-base-v2，一个专门把句子转化为数字向量的工具），把报告中的每一个句子都变成一个高维空间中的点。每个句子对应一个点，整份报告就对应一个点的集合。这个集合是无序的，完全不在乎句子原来的排列顺序。
胸片报告通常分为两个部分：一是"发现"（Findings），描述图像中观察到的客观情况；二是"印象"（Impression），是医生基于发现得出的综合判断。研究团队对这两个部分分别进行这种"集合化"处理，每个部分得到一个独立的句子嵌入集合。
有了这种表示方式，接下来的问题就变成了：如何衡量AI生成的报告集合，和标准参考报告集合之间的距离有多远？距离越近，说明AI写得越好，奖励就越高；距离越远，奖励就越低。这就是"集合距离奖励"（Set-Distance Reward，简称SDR）的核心思路。
三、量尺的选择：用"集合距离"衡量两份报告有多像
衡量两个集合之间距离的方式有很多种，研究团队系统地探索了多种方案，并在训练中重点使用了其中两种——Chamfer距离和Hausdorff距离。
Chamfer距离的计算方式可以这样理解：对于AI生成报告中的每一个句子，找出参考报告中和它最像的那个句子，记录下它们之间的"不像程度"；同样，对参考报告中的每个句子，也找出AI报告中最像的那个，记录不像程度。把两个方向的平均值加起来，就得到了Chamfer距离。这个距离越小，说明两份报告的内容越接近。它像是一种"软覆盖"检查：只要AI生成的每个句子在参考报告中都能找到相似的对应，且参考报告的关键内容也被AI覆盖了，距离就会比较小。
Hausdorff距离则更加严苛。它不看平均情况，只看最坏情况——两份报告中，哪一对句子"最不像"，那个最坏情况就决定了整体的Hausdorff距离。这就像一个挑剔的主考官，不管你其他题目答得多好，只要有一题答得很差，总分就会被拉低。对于已经经过监督训练的模型来说，Hausdorff奖励特别适合惩罚那些"偶尔离谱"的生成——如果AI在某个临床发现上写出了和参考完全不同甚至矛盾的内容，这个奖励机制会立即察觉并给出惩罚。
除了这两种主要距离，研究团队还探索了最优传输距离（Wasserstein距离）、Sinkhorn距离、匈牙利匹配距离、部分最优传输距离等多种方案，并系统评估了它们在推理时段选择最佳报告的效果。
在训练时，除了这个语义距离奖励之外，研究团队还加入了一个简单的格式奖励：要求模型必须按照规定的模板输出，把"发现"部分放在``标签里，把"印象"部分放在``标签里，格式不对就不给奖励。这两个奖励叠加在一起，共同引导模型输出既有正确格式、又有正确内容的报告。
四、训练结果：集合距离奖励让三个模型都脱胎换骨
研究团队在两个大型数据集上验证了这套方案：一个是医学界广泛使用的MIMIC-CXR数据集（训练集约18万条，验证集约4.5万条），另一个是最近公开的RexGradient数据集（训练集约24万条，验证集约1.7万条）。实验涉及三个不同的视觉语言模型：Qwen3-VL-2B、Qwen3-VL-4B和Gemma3-4B，规模分别在20亿和40亿参数左右。
每个模型先经过监督微调（SFT）——就是直接拿正确答案喂给模型，让它学习模仿——然后再用不同的奖励配置进行GRPO后训练。对比的基线方案包括：只有监督微调（SFT）、只用格式奖励（Rfmt）、用精确匹配奖励（Rexact，判断AI输出是否和参考完全一致）、以及研究团队提出的Chamfer奖励（RCham）和Hausdorff奖励（RHaus）。
评估采用了多种指标，覆盖两大类：一类是基于文本相似度的指标，包括BERTScore F1（用语言模型衡量语义相似度）、COMET（机器翻译质量评估指标）、METEOR、ROUGE和BLEU等；另一类是专门针对放射科报告的临床指标，包括RadGraph F1（评估报告中临床实体和关系的准确性）和CheXbert F1（评估14种常见胸部病变的标签是否正确识别）。
在RexGradient数据集上，Chamfer奖励在所有三个模型的几乎所有指标上都是最佳，平均而言BERTScore F1比监督微调基线提升约6.80%，RadGraph F1提升约7.82%，CheXbert F1提升约4.45%。精确匹配奖励（Rexact）表现最差，在多数情况下甚至不如只进行监督微调——这印证了研究团队最初的判断：对于胸片报告这类任务，精确匹配根本不是合适的奖励信号。
在MIMIC-CXR数据集上，Hausdorff奖励表现最佳，Chamfer也名列前茅，两者都大幅超越精确匹配奖励和仅格式奖励的方案。这个数据集的结果进一步表明，集合距离奖励在不同数据规模和分布下都具有稳健性，而哪种集合距离更优则可能因数据特性不同而有所差异。
这些结果在5个不同随机种子上重复验证，标准差普遍较小，说明结论的稳定性良好，并非偶然。
五、推理时的妙用：不训练，只靠"集合距离"选出最好答案
集合距离奖励的价值不仅限于训练阶段。研究团队发现，同样的距离计算逻辑，在推理时也可以大显身手。
具体做法是：对于每一张测试图片，让模型生成K个候选报告（实验中K=5）。然后，把每个候选报告转化成句子嵌入集合，再和训练集中随机抽取的5000份真实报告的嵌入集合进行比较，计算候选报告到训练分布的距离。距离最小的那个候选报告，就是最终选出的答案。
这个逻辑的直觉非常朴素：训练数据里都是真实放射科医生写的报告，它们代表了临床上合理、规范的表达方式。如果AI生成的某个候选报告，其句子嵌入在语义空间中离这些真实报告最近，那它就是最像真实报告的一个，最有可能是高质量的输出。
距离的聚合方式有三种选择：取所有训练报告距离中的最小值（Dmin，问的是"这个候选报告是否和某一份真实报告非常接近"）、取平均值（Davg，评估候选报告和整个训练集的平均匹配程度）、以及取K近邻平均（DkNN，取最近的K份训练报告的距离平均，对噪声更鲁棒）。
这套推理时选择方案的最大优势，在于它完全不需要修改模型参数，不需要任何梯度更新，只需要预先计算好训练报告的嵌入集合并存储在磁盘上，推理时直接查询即可。而且，嵌入计算可以并行进行，不需要GPU，额外成本极低。
更重要的是，这套方案甚至可以用于那些完全无法进行参数调整的封闭商业模型，比如GPT-4o-mini、Gemini Flash-Lite和Mistral-Small。研究团队分别用两种不同的提示词模板（一种零样本提示，一种包含五个示例的少样本提示）让这些商业模型生成候选报告，然后用集合距离进行选择，结果同样优于随机选择基线。
在Findings部分，BERTScore F1相对于随机选择的平均提升幅度约为16.4%，其中Mistral-Small在RadGraph F1上提升最高达47.2%，Gemini Flash-Lite在BERTScore F1上提升达20.6%，GPT-4o-mini在BERTScore F1上提升达18.7%。这些结果表明，即便是性能强大的商业模型，其随机生成的候选中也存在相当大的质量差异，而集合距离可以有效地帮助筛选出更好的候选。
六、边生成边剪枝：用更少的算力达到同样的效果
标准的"生成K个再选一个"方案有一个明显的代价：必须把K个候选报告全部生成完毕，才能开始比较和选择。这意味着计算成本是单次生成的K倍。
研究团队提出了一个聪明的改进：在生成过程中实时计算每个候选和训练分布的距离，动态地将分数低的候选提前终止。
具体流程是这样的：K个候选报告同步开始生成，每生成一个新句子，就更新每个候选当前已生成部分的句子嵌入集合，重新计算它到训练分布的距离。得分最低的那一半候选（实验中剪枝比例设为0.5，即每轮淘汰一半）立即停止生成，不再继续。这个"生成一句、打分、淘汰"的循环持续进行，直到只剩下最后一个候选，再把它生成完整。
这个方案的效果，是在保持和全量生成再选择方案接近的报告质量的同时，大幅减少了需要生成的token总数。实验结果显示，在Mistral-Small、Gemini Flash-Lite、Gemini 3.1 Flash-Lite和GPT-4o-mini上，剪枝方案平均节省了42.1%到60.1%的生成token，而BERTScore F1、RadGraph F1和CheXbert F1相比随机选择分别平均提升了约12.7%、17.1%和6.2%，和全量生成再选择方案相比质量下降极少。
值得一提的是，句子嵌入模型本身非常轻量——研究中使用的all-mpnet-base-v2模型大小只有420MB，远小于被生成报告的大型语言模型（通常数十亿参数、几个GB起步）。因此，虽然剪枝方案需要在每个句子生成后额外进行嵌入计算和距离打分，但这个额外开销相对于节省下来的大模型生成token是划算的。
七、实验的全貌：多维度验证的严谨性
这项研究在细节上表现出相当的严谨性。除了主要的训练和推理实验，研究团队还做了多项补充分析。
在推理时选择实验中，研究团队系统评估了所有可能的集合距离和聚合方式的组合，并用热力图直观展示了每种组合在不同评估指标上相对于随机选择的提升幅度。总体来看，Chamfer+kNN、匈牙利匹配+kNN等组合在Findings部分表现最为稳健，而在Impression部分，部分组合的提升幅度更加显著。
研究团队还进行了一项分层分析，将测试样本按照临床复杂程度分为三组：无异常发现（504例）、单一异常发现（206例）和多项异常发现（290例）。结果显示，集合距离选择对无异常发现组的提升最为一致，对多项异常发现组的提升相对较小。这一发现有助于理解该方法的适用边界。
研究还提供了若干定性案例展示，直观地呈现了集合距离选择机制是如何在实际案例中筛选出质量更高的报告的。在展示的案例中，被选中的候选报告在BERTScore F1上显著高于被淘汰的候选，直观地印证了距离机制和报告质量之间的关联。
不过研究团队也坦承了方法的局限性：剪枝方案需要在每个句子生成后进行额外的嵌入和距离计算，虽然这个计算可以在CPU上进行，但仍然增加了推理系统的复杂性。此外，训练集嵌入的覆盖范围和质量，也会影响推理时选择的效果。
说到底，这项研究提供的不仅仅是一个更好的奖励函数，而是对"如何让AI更好地理解结构松散、内容无序的医疗文本"这一根本问题给出了一种系统性的思路回答。核心的洞见在于：当你要评价的对象本质上是一个无序集合而非有序序列时，就应该用集合的眼光去看待它，用集合的距离去衡量它，而不是削足适履地套用顺序匹配的逻辑。
这个思路不仅在训练阶段起效，在推理阶段同样适用，而且可以无缝移植到那些无法修改参数的商业模型上。这对于临床实践有切实的意义：哪怕医院或研究机构只有权使用商业API，也可以通过这种推理时的集合距离选择机制，在不额外付费进行模型微调的情况下，显著提升报告生成的质量。
随着AI辅助医学影像报告技术的不断成熟，如何在保证质量的前提下降低计算成本，将是从研究走向实际部署的关键瓶颈。研究团队提出的剪枝方案在这个方向上给出了一个有意思的早期探索——用"边做边评、做差就停"的策略代替"全做完再评"的策略，本质上是一种在线的质量控制机制。未来是否可以把这种实时打分的思路做得更细致，比如在词语级别而非句子级别进行打分和剪枝？这或许是后续研究可以探索的方向。
有兴趣深入了解这项研究的读者，可以通过arXiv编号2606.00440查阅完整论文，论文中还包含了详尽的实验参数设置、所有指标的完整结果表格以及更多定性案例。
Q&A
Q1：集合距离奖励（SDR）和传统的精确匹配奖励有什么本质区别？
A：传统精确匹配奖励要求AI生成的内容和标准答案完全一致，包括顺序。但胸片报告中的各项发现本质上是无序的，顺序不同不代表内容有误。集合距离奖励把报告中每个句子变成语义向量，忽略顺序，只比较内容上的相似程度，更符合医学报告的实际性质，因此训练效果更好。
Q2：推理时的集合距离选择方法可以用在GPT这类商业模型上吗？
A：可以。这个方法不需要修改模型参数，只需要预先把训练集中的真实报告转化成句子嵌入并存储好。推理时让商业模型多生成几个候选报告，再用集合距离找出和真实报告最接近的那个即可。实验中GPT-4o-mini、Gemini Flash-Lite和Mistral-Small都通过这种方式获得了显著的质量提升。
Q3：剪枝方案在实际使用中能省多少计算资源？
A：实验结果显示，在Mistral-Small、Gemini系列和GPT-4o-mini上，剪枝方案平均能节省42%到60%的生成token数量，同时报告质量和全量生成再选择的方案相差极小，比随机选择仍然有显著提升。核心思路是边生成边打分，分数低的候选提前停止，不用等全部生成完再比较。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Anthropic撤回禁令，智能眼镜销量持续走高，荣耀新机型搭载超大容量电池

央视关注三大运营商“新老用户不同权”问题，更换套餐阻碍重重

Keychron国行推出Q1 Ultra 8K机械键盘：75%配列，660hr续航

OPPO、vivo万元档影像旗舰排期曝光

史上最大改版！AI版支付宝启动邀测，一个对话框搞定缴费、转账等上万项服务

AI版支付宝（阿宝）诞生的底层逻辑丨商业快评

全站最新

Anthropic撤回禁令，智能眼镜销量持续走高，荣耀新机型搭载超大容量电池

央视关注三大运营商“新老用户不同权”问题，更换套餐阻碍重重

Keychron国行推出Q1 Ultra 8K机械键盘：75%配列，660hr续航

OPPO、vivo万元档影像旗舰排期曝光

热门推荐

Anthropic撤回禁令，智能眼镜销量持续走高，荣耀新机型搭载超大容量电池

央视关注三大运营商“新老用户不同权”问题，更换套餐阻碍重重

Keychron国行推出Q1 Ultra 8K机械键盘：75%配列，660hr续航

OPPO、vivo万元档影像旗舰排期曝光

史上最大改版！AI版支付宝启动邀测，一个对话框搞定缴费、转账等上万项服务

烧不动了，Meta呼吁别再打token消耗战

AI版支付宝（阿宝）诞生的底层逻辑丨商业快评

Citrini：AMD和苹果双双押注闪存替代DRAM，内存成本或直降55倍

高管押上未来十年收益，理想这次动了真格

HBM之后的“存储超级风口”——NAND! AMD(AMD.US)果断出手吞下MEXT 闪存正在主导“AI推理经济学”

利好来了！算力网，万亿级投资周期开启！

刘鹏出任沃尔玛（中国）董事长

当AI Agent开始工作，安全该如何跟上？AgentDoG 1.5开源发布

字节豆包日收入不足百万，Seedance毛利率达70%

上海一知名电商双标？外国人不加班，中国人补工时