当前位置: 首页 » 资讯 » 新科技 » 正文

北京航空航天大学让AI学会"认出"不同曝光下的PET扫描图

IP属地 中国·北京 科技行者 时间:2026-06-17 18:32:22


这项由北京航空航天大学生物与医学工程学院联合清华大学生物医学工程系、中国医学科学院肿瘤医院及小米公司的研究人员共同完成的工作,发表于2026年的《医学图像分析》(Medical Image Analysis)期刊,预印本编号为arXiv:2606.11131。感兴趣的读者可以通过该编号查阅完整论文。

一、当医院检查遇到一个尴尬的困境

每次做PET扫描,医院都需要往患者体内注射一种带有放射性的示踪剂。这种示踪剂会随着血流游走,在代谢旺盛的地方——比如肿瘤——大量聚集,然后向外发射粒子信号,扫描仪捕捉这些信号之后就能拼出一幅人体内部的"活动地图"。问题在于,放射性剂量越高,拍出来的图像越清晰,但患者承受的辐射风险也越大。于是医生们常常会降低注射剂量——这就是所谓的"低剂量"扫描。

然而低剂量扫描的代价是图像质量大幅下降。信号变得稀疏,图像看上去就像一张过度曝光又充满噪点的老照片,小小的肿瘤结节可能直接消失在噪声里,让医生看得头疼。为了弥补这一缺陷,研究人员长期以来都在开发各种深度学习算法,试图把嘈杂的低剂量图像"修复"成接近正常剂量的清晰版本。

近年来这类方法已经取得了相当不错的效果,但有一个致命的短板始终困扰着所有人:几乎所有现有的算法都只针对某一个固定的"剂量削减比例"(论文中称之为DRF,简单理解就是原始剂量被打了几折)进行训练。DRF=2意味着剂量减半,DRF=12意味着剂量只有正常的十二分之一。一旦实际扫描中使用的比例和算法预设的不同,性能就会急剧下滑。

这个问题在现实中其实非常普遍。不同患者的体重、体型不同,医生会调整注射量;扫描是在注射后多少分钟进行的,也会影响实际"有效剂量";不同医院的扫描时长不同……种种因素叠加,导致真实世界里的DRF几乎永远处于变动之中。训练一个DRF专用模型,等于买了一把只能开某一把锁的钥匙。而为每一种可能的DRF都单独训练一个模型,则意味着巨大的计算开销和维护成本,在临床上根本不现实。

北航领衔的这支团队正是在这个背景下提出了UniPET系统,目标是用一个统一的模型,处理任意DRF下的低剂量PET图像,同时不牺牲图像质量。

二、"风格消除"——一个被长期忽视的隐患

在介绍UniPET的具体方案之前,有必要先理解团队发现的一个关键现象。研究人员发现,不同DRF下的低剂量图像,并不只是清晰度不同那么简单——它们在纹理、细节的分布和特征上存在系统性差异,就像同一个场景在不同天气、不同光线下拍出的照片:背景内容相同,但"气质"完全不同。论文把这种差异叫做"风格差异"。

当你把不同DRF的图像统统塞给同一个神经网络去学习时,网络会本能地寻找所有图像的共性,削平差异,产生一个平均化的输出。对于平坦均匀的背景区域,这没什么问题;但对于那些充满细微纹理和细节的区域——比如小肿瘤、组织边界、精细的空间摄取模式——网络会把不同DRF风格之间的差异理解为"噪声",然后把它们一并抹平。最终输出的图像变得过于光滑,像是被磨皮过度的照片,细节丢失,诊断价值大打折扣。研究团队把这种现象命名为"风格消除问题"。

为了量化这个现象,团队做了一组很直观的分析:把PET图像划分为"风格化区域"(富含纹理的活跃区域)和"平坦区域"(均匀、变化少的背景),然后分别测量不同DRF下图像与标准全剂量图像之间的误差。结果非常清晰:平坦区域在各个DRF下的误差都很小,变化不大;而风格化区域的误差随着DRF升高而急剧增大,而且在不同DRF之间差异显著。这说明,风格化区域才是真正"难啃的硬骨头",也是通用模型最容易出错的地方。

三、UniPET的三层架构:一个侦探团队的分工合作

UniPET的整体思路可以用一个侦探团队办案的比喻来理解。面对一起复杂案件(低剂量噪声图像),团队分三步行动:第一步,老侦探凭经验先做一个初步判断,把案子的大致轮廓勾勒出来;第二步,专门负责"风格鉴定"的成员介入,识别案发现场的独特风格特征,确保细节不被遗漏;第三步,团队在最难破的关键线索上集中火力,避免在已经清楚的简单情节上浪费精力。

具体来说,UniPET由三个核心组件构成。

第一个组件叫做基础降噪网络(BDN)。这是整个系统的主干,一个预先在多种DRF数据上联合训练好的神经网络。它的任务是接收低剂量图像,估算出需要补偿的"残差"(即图像与全剂量图像之间的差距),然后把这个残差加回原图,得到初步的恢复结果。BDN的结构采用了经典的残差学习框架:先用一层卷积提取浅层特征,再通过若干个残差模块深入挖掘深层特征,最后输出估算的残差图。这个组件能够提供相当不错的去噪效果,但由于没有专门处理风格差异,它的输出仍然存在过度平滑的问题,缺乏不同DRF应有的独特纹理和细节。

第二个组件叫做风格对齐网络(SAN)。这是UniPET最核心的创新。SAN的工作原理是:先从输入的低剂量图像中提取"领域知识",也就是关于当前图像属于哪种DRF风格的线索;然后用这些线索动态调整BDN内部的特征风格,让BDN的每一层处理都能"感知"到当前处理的是哪种剂量下的图像,从而有针对性地恢复该剂量应有的纹理和细节。

SAN究竟如何提取"领域知识"?团队比较了三种方案:直接用原始低剂量图像本身、用从图像中手工提取的高频成分(保留纹理信息)、以及用网络自动学习得到的浅层特征。浅层特征指的是BDN第一层卷积处理后的中间产物,它既保留了图像的低级纹理和细节信息,又经过了可学习的变换,比原始图像更"纯粹"地反映了领域相关的特征。研究发现浅层特征是三者中最有效的领域知识表示。

有了领域知识之后,SAN通过四个编码模块将其压缩成四种不同层次的"风格码"。这四种风格码对应着BDN中四个不同阶段的特征,就像乐团里的指挥用不同手势分别指挥弦乐、管乐、打击乐和木管乐器,各司其职又协调统一。每个风格码会被传入BDN对应层次的残差模块,通过一种叫做"动态卷积"的机制,把风格信息揉入特征处理过程中。

这里的"风格调制"机制值得细说,因为它是整个SAN的执行核心。在普通卷积神经网络里,卷积核(可以理解为特征提取的"模板")是固定不变的,不管输入是DRF=2还是DRF=12的图像,用的是同一套模板。但UniPET引入了"动态卷积"——卷积核的参数会根据输入图像的风格码实时调整。具体操作是:先对领域知识做全局平均池化(把空间信息压缩成一个紧凑的向量),再经过一个仿射变换层得到风格码,然后用这个风格码对卷积核的权重做逐元素缩放,并归一化处理,最终得到针对当前DRF"量身定制"的动态卷积核。这样一来,面对DRF=12的严重噪声图像,网络会自动调整处理策略;面对DRF=2的轻微噪声图像,又会换一套处理方式。

为了确保这种风格调制真的在起作用,SAN还引入了一个"风格对齐损失"。原理是这样的:在神经网络处理图像时,特征图的均值和标准差(也就是统计特性)被认为承载了"风格"信息——这是图像风格迁移领域的成熟发现。如果一个低剂量图像被正确恢复了,那么它在BDN内部的特征统计就应该和全剂量图像的特征统计趋于一致。于是团队设计了一个损失函数,直接度量低剂量图像在BDN各层的特征统计与全剂量图像特征统计之间的差距,训练时持续最小化这个差距,迫使模型把不同DRF的特征都"对齐"到全剂量的标准上。

第三个组件叫做区域感知学习策略(RALS)。这个组件解决的是另一个维度的问题:就算有了SAN的风格调制,训练数据中平坦背景区域占绝大多数,风格化区域只占很小一部分,模型在优化时自然会把更多注意力放在"容易的部分"上,对"难的部分"的学习效果打折扣。

RALS的解决方案相当直接:把图像按照纹理丰富程度划分为"风格化区域"和"平坦区域",然后只在风格化区域上开展对抗训练(GAN训练),让判别器专门评估这些区域的恢复质量,迫使生成器在这些区域上精益求精。

具体的区域划分方法是:对全剂量图像的每个体素,计算以它为中心的一个小立方体邻域内的像素方差——方差大的地方纹理丰富,方差小的地方则比较均匀。然后设定一个阈值(论文中选定的是0.001),方差高于阈值的体素归入风格化区域,低于阈值的归入平坦区域。训练时,模型生成的恢复图像和真实全剂量图像分别乘以这个区域掩码,只保留风格化区域的内容,再送入判别器做对抗学习。整个对抗训练采用的是WGAN-GP框架,判别器是PatchGAN结构,这些技术选择都有助于生成更稳定、更真实的纹理细节。

四、训练流程和实验设置

UniPET的训练采用了分阶段的策略。第一阶段,屏蔽SAN和RALS,单独预训练BDN,使用简单的L1重建损失,让主干网络先学会基本的降噪能力,训练200轮。第二阶段,激活SAN,用重建损失加风格对齐损失联合优化整个生成器,训练200轮,让风格调制机制逐步磨合。第三阶段,引入RALS,开始对抗训练,生成器和判别器交替训练,持续100轮,进一步打磨纹理细节的恢复效果。这种从粗到细的训练流程,确保了每个组件都能在合适的基础上发挥作用。

为了验证模型效果,研究团队建立了四个数据集。UPID-base是核心私有数据集,来自北京协和医院,包含115名受试者,全剂量加上DRF为2、3、6、12四种低剂量的PET图像,按90/10/15分配给训练、验证和测试集,测试集中有10名癌症患者共36个病灶。UPID-OOD-DRF是出分布测试集,来自同一家医院但使用了不同的DRF(1.5、2.4、4、10),专门测试模型对"从未见过的剂量"的泛化能力。UPID-OOD-Center则来自北京医院的另一台PET/CT系统,既是不同医院,也是不同机器,用于测试跨中心泛化性。此外,研究团队还在公开的Bern数据集上进行了验证,该数据集来自伯尔尼大学医院,包含377名受试者,涵盖DRF=2、4、10、20、50、100六个级别,是迄今为止最大规模的公开PET降噪数据集之一。

评估维度也相当全面。量化指标方面选用了峰值信噪比(PSNR,衡量整体强度恢复精度)和结构相似性(SSIM,衡量结构保真度)。感知质量方面使用了LPIPS(对纹理、结构、模式变化敏感,能有效评估风格恢复质量),并邀请四名放射科医生对图像进行盲评打分,分别针对噪声消除、结构保留、纹理保留和整体质量四个维度打1到5分。临床相关性方面,由资深放射科医生标注了血池、肝脏和病灶三个感兴趣区域,用平均绝对误差(MAE)量化SUV(标准摄取值)误差;同时由另外三名放射科医生独立标注可见病灶,用F1分数评估病灶检测性能;此外还训练了一个病灶分类模型,通过ROC曲线下面积(AUC)量化图像对自动病灶检测的支持程度。

超参数的选取也经过了系统性的搜索。研究团队采用了分组序贯优化策略,优先调整对整体性能影响最大的数据相关参数(如训练块大小P)和模型相关参数(残差模块数量N、通道维度C),再调整损失相关参数(平衡系数β和γ、风格化区域阈值δ)。最终确定的配置为:块大小64,残差模块数8,通道数64,β=γ=0.001,δ=0.001。

五、实验结果:通用模型能打败专用模型吗?

最令人关注的问题是:一个为所有DRF服务的通用模型,能达到专门针对某个DRF训练的专用模型的水平吗?答案是肯定的,而且UniPET做到了。

在UPID-base数据集上,单独针对DRF=2训练的专用模型在DRF=2上PSNR为50.54,但一旦切换到DRF=12,性能就跌至42.19。其他专用模型也有类似问题,在自己擅长的DRF上表现出色,一旦面对陌生DRF就明显退步,综合平均性能反而不高。没有SAN和RALS加持的基础通用模型BDN综合PSNR达到48.08,但在LPIPS这个反映纹理细节的指标上表现明显偏弱,印证了风格消除问题的存在。而UniPET的综合PSNR达到48.55,SSIM提升至0.967,LPIPS仅为0.007,在所有四个DRF上都取得了与对应专用模型相当或更好的成绩。换句话说,UniPET是第一个真正做到"一模多用不掉链子"的通用PET降噪系统。

与其他五种对比方法(Unet、DCNN、mDCSRN、3D-cGAN和当前最优的Spach Transformer)的比较同样令人信服。在UPID-base数据集上,UniPET在所有DRF和所有指标上均超过了所有对比方法,尤其是LPIPS的优势最为突出:最优对比方法Spach Transformer的平均LPIPS为0.010,而UniPET为0.007,降幅超过30%。在拥有六种DRF的Bern数据集上,UniPET同样全面领先,在极高DRF(100倍剂量削减)下仍能保持最佳性能,展现了处理极端低剂量场景的能力。

放射科医生的主观打分更是直观反映了UniPET的优势。噪声消除方面,UniPET平均得分4.60,远高于第二名Spach Transformer的4.20;结构保留4.40分,纹理保留4.35分,整体质量4.60分,均为最高。特别是纹理保留这一项,其他方法得分普遍在3分左右,UniPET高出近1.5分,说明其生成的图像在视觉上对临床医生来说更加真实可信。

在病灶检测这个最贴近临床价值的评估维度上,UniPET同样一骑绝尘。低剂量原图在DRF=12时病灶检测F1分数仅有0.58,经过UniPET处理后达到0.93,提升幅度在所有方法中最大;而Spach Transformer在DRF=12时的F1分数为0.84,DCNN为0.81。ROC曲线分析也呈现了一致的规律:UniPET的ROC曲线在所有DRF下都最接近全剂量数据的曲线,DRF=2时AUC达到0.86,DRF=12时也有0.75,相较之下其他方法最高仅有0.82(DRF=2,Spach Transformer)和0.70(DRF=12)。

在SUV误差的临床评估中,血池区域UniPET的MAE为0.098,肝脏为0.099,病灶为0.165,均为最低。参照临床可接受的SUV误差标准(平均误差不超过真实值的10%),所有方法的表现都达标,但UniPET在病灶区域的误差比最优竞争对手低出约12%,对于需要精确判断病灶摄取量的临床场景有实质性意义。

六、在陌生环境下的表现:出分布泛化测试

把一个在协和医院数据上训练的模型,拿去处理从未见过的DRF数据,或者完全不同医院、不同机器扫出来的图像,会发生什么?这是检验模型真实泛化能力的终极考验。

在UPID-OOD-DRF测试集上(DRF为1.5、2.4、4、10,全部不在训练集范围内),UniPET的PSNR为47.93,SSIM为0.967,LPIPS为0.007,超过第二名Spach Transformer的47.49/0.961/0.009。这意味着即使面对从未"见过"的剂量削减比例,UniPET依然能稳定发挥,而不是像专用模型那样遇到陌生DRF就"不认识了"。

在UPID-OOD-Center测试集上(不同医院、不同机型),所有方法都受到了明显冲击,普遍出现性能下滑。但UniPET的跌幅最小,PSNR达到43.61,比第二名mDCSRN高出1.10 dB,SSIM高出0.007,LPIPS低出0.011。值得注意的是,Spach Transformer在这一测试中表现相对较差,LPIPS高达0.050,明显不如其他方法,这说明Transformer架构在跨中心场景下可能存在更强的领域依赖性,而UniPET基于领域泛化设计的SAN机制提供了更强的抗漂移能力。

七、逐件拆解:每个组件到底贡献了多少?

研究团队对UniPET的每个组件都进行了系统的消融实验,确认各自的贡献。

关于SAN的作用:仅加入SAN(没有RALS)时,相比基础BDN,PSNR从48.08提升至48.98,SSIM从0.962提升至0.968,LPIPS从0.016降至0.011,病灶MAE从0.189降至0.172。这说明风格对齐机制对整体性能提升的贡献是全面的,覆盖了量化、感知和临床三个维度。在病灶检测方面,DRF=12时F1分数从0.83提升至0.88,AUC从0.68提升至0.71。

关于RALS的作用:仅加入RALS(没有SAN)时,PSNR提升幅度不如SAN(从48.08到47.85,反而略有下降),但LPIPS从0.016大幅降至0.009,病灶MAE从0.189降至0.173。这个模式说明RALS的主要贡献是纹理和细节的恢复,而不是整体亮度精度。从F1分数看,DRF=12时从0.83提升至0.85,AUC从0.68提升至0.72。两者组合使用时效果最佳,PSNR为48.55,LPIPS为0.007,病灶MAE为0.165,DRF=12的F1分数为0.93,AUC为0.75。

关于SAN内部设计的消融:三种领域知识表示的比较(原始低剂量图像、手工高频成分、浅层特征)中,浅层特征在所有四个指标上均为最优,病灶MAE比原始图像低0.004,比高频成分低0.003。分层嵌入与单一嵌入(只用最后一层的输出)的比较中,分层嵌入的病灶MAE为0.165,低于单一嵌入的0.170,PSNR高出0.33 dB,证明多层次的细粒度风格调制比单一全局调制更有效。加入风格对齐损失与去掉它相比,PSNR提升0.17 dB,LPIPS降低0.001,病灶MAE降低0.003,说明显式的统计对齐约束确实在帮助模型收敛到更好的风格空间。

关于RALS中阈值δ的选取:当δ=0时等同于全图对抗训练,LPIPS为0.009;当δ=0.001时即UniPET的选定值,LPIPS为0.007,是所有候选值中最优的;当δ继续增大至0.01和0.1时,LPIPS分别退化到0.009和0.010;当δ=+∞时完全关闭对抗训练,LPIPS为0.011。这说明适中的风格化区域选择比全图训练更有效:太小的δ会把简单的平坦区域也纳入对抗训练,稀释对困难区域的关注;太大的δ则会遗漏部分有价值的纹理区域。

从临床ROI的角度来看,RALS在风格化区域上训练所获得的血池MAE(0.098)、肝脏MAE(0.099)和病灶MAE(0.165)都优于全图对抗训练。为了了解这与"直接在各临床ROI上训练"的差距,团队还专门用每个临床ROI的标注掩码替换RALS的风格化区域掩码,结果血池MAE降至0.092,肝脏降至0.093,病灶降至0.153。这说明RALS的风格化区域策略在不需要任何临床标注的情况下,已经相当接近这种"上界"水平。

为了验证SAN和RALS的可迁移性,研究团队还把这两个组件嫁接到了三种不同架构的网络上:ResNet结构的BDN(默认使用的)、DenseNet结构的mDCSRN,以及UNet结构的3D-cGAN。三种网络在加入SAN和RALS之后,病灶MAE分别降低了0.024、0.011和0.010,LPIPS也均有明显改善。这证明了UniPET的框架设计具有良好的通用性,并非专门为某种特定网络结构"量身裁缝"的产物。

八、局限与未来方向

诚实地说,UniPET并非完美。从可视化结果来看,合成图像中的小病灶与全剂量参考图像相比仍存在一定差距,部分病灶的形状出现了轻微变形。研究团队将这归因于小病灶在整个数据集中占比极小,使得模型难以从有限的样本中充分学习其精确形态。未来可以借鉴将下游分割任务作为辅助监督信号的思路,专门强化小病灶的恢复能力。

跨中心泛化仍然是一个未完全解决的问题。在UPID-OOD-Center数据集上的可视化结果显示,UniPET的输出在某个病灶上出现了对比度恢复不足的情况,说明模型对极端领域偏移依然有盲区。团队初步尝试了对抗样本训练(FGSM,快速梯度符号法)来增强鲁棒性:加入FGSM后,模型在UPID-base上的PSNR小幅下降(48.55→48.36),但在两个出分布测试集上分别提升了0.09和0.22 dB,显示出改善泛化性的潜力。未来更高级的对抗训练方法有望进一步推进这一方向。

此外,研究团队也坦承,目前的评估指标——PSNR、SSIM、LPIPS、F1分数、SUV误差——都是间接的替代指标,而非真实临床工作流程中的直接验证。未来需要基于真实临床大规模数据的前瞻性研究,才能最终确认模型在临床部署中的实际价值。

归根结底,这项研究的核心贡献是:它把PET图像降噪从一个"专用模型问题"转变为了"通用模型问题",并找到了一条切实可行的解决路径——通过领域泛化技术消解不同剂量间的风格差异,通过区域感知策略把有限的学习资源集中在真正重要的地方。这不只是算法层面的技巧进步,而是对这个问题本质的一次重新定义。对于临床核医学来说,维护一个能应对所有剂量情况的单一模型,远比维护一套不同DRF各用一个的模型阵列更经济、更实际,也更符合真实世界的需求。

如果你对技术细节有进一步的兴趣,原论文已在arXiv上公开,编号为arXiv:2606.11131,代码也已开源于GitHub(搜索"Yaziwel/UniPET"即可找到)。

Q&A

Q1:PET图像的"风格消除问题"是什么?

A:风格消除问题指的是,当一个通用降噪模型同时处理不同剂量削减比例的PET图像时,会本能地抹平各剂量之间的纹理和细节差异,产生过于光滑的输出图像,导致小病灶和精细组织结构丢失,降低诊断价值。UniPET通过风格对齐网络专门应对这一问题。

Q2:UniPET的区域感知学习策略和普通GAN训练有什么不同?

A:普通GAN训练对整张图像一视同仁,但PET图像中大部分是变化不大的背景区域,只有少数区域富含诊断相关的纹理细节。UniPET的区域感知学习策略通过计算局部方差划定"风格化区域",只在这些区域开展对抗训练,让模型把有限的学习能力集中在最难恢复、也最重要的部分,实验证明效果优于全图训练。

Q3:UniPET在完全陌生的医院设备上表现如何?

A:在来自北京医院、使用不同PET/CT机型的测试数据上,UniPET的PSNR达到43.61,比第二名高出超过1 dB,LPIPS也优于所有对比方法。尽管跨中心场景下所有模型都有性能下滑,UniPET凭借领域泛化设计的风格对齐机制展现了最强的跨中心鲁棒性。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新