当前位置: 首页 » 资讯 » 新科技 » 正文

华为技术(加拿大)团队用结构化图谱彻底改变AI看图方式

IP属地 中国·北京 科技行者 时间:2026-04-24 21:14:22


这项由华为技术(加拿大)研究团队完成的研究,以论文编号 arXiv:2604.11004v1 发表于2026年的顶级机器学习会议 ICLR 2026(国际学习表征会议)。对计算机视觉或图像质量评估感兴趣的读者,可以通过上述编号在 arXiv 平台查阅完整论文。

**当AI"看图"时,它真的看懂了吗?**

设想你是一名挑剔的摄影师,同时收到了同一场景的两张照片。你扫一眼就能发现:左边那张整体有点暗,但右边那张的天空部分出现了颗粒感,而两张照片的草地区域都还不错。你做出这个判断的过程,不是对整张照片笼统打个分,而是把照片拆分成一个个区域,分别去感知每块区域的质量差异,然后汇总成一个整体印象。

然而当前的AI系统在面对同样任务时,却往往只能"看个大概"。它们习惯于把整张图像当成一个不可分割的整体来评判,就像一个评委在不看菜单、不尝每道菜的情况下,只凭饭店门口的气氛给出一个总评分。这种"从上往下看全局"的方式,在处理复杂的图像质量问题时,会遗漏大量细节,产生错误判断。

正是为了解决这个问题,华为技术(加拿大)的研究团队提出了一个全新的思路:与其让AI笼统评价整张图,不如教它像真正的专家一样,先把图像拆解成一个个有意义的区域,再针对每个区域进行细致的质量分析,最后通过一张结构化的"关系图谱"把所有信息整合起来。这张图谱,被研究团队命名为**失真图(Distortion Graph,简称 DG)**。

**一、问题的根源:AI评图为何总是"差那么一口气"**

在深入了解这项研究的解决方案之前,有必要先弄清楚问题究竟出在哪里。

当我们谈论"图像质量"时,实际上在谈论一件相当复杂的事情。一张图片可能在整体上看起来不错,但放大某个角落却发现人脸模糊;另一张图片天空部分清晰锐利,但前景中的人物却被过度锐化,显得不自然。真正的质量评估,必须细化到图像中的每一个区域,而不是用一个数字去概括整张图的好坏。

目前市场上已经存在一些专门处理图像质量问题的大型多模态语言模型(可以把这类模型理解为"能看图说话的AI")。比如 Co-Instruct、Q-Instruct、DepictQA 等,它们能够告诉你"这张图片整体有点模糊"或者"这张比那张清晰"。但研究团队发现,当你给这些模型提出更具体的要求——比如"请告诉我这张图片里每个区域的质量如何,哪个区域出了什么问题,严重程度如何"——它们的表现就会令人失望。

研究团队做了一个生动的实验,把同样两张图片同时喂给当时最先进的多模态语言模型 Co-Instruct,并提供了每个区域的名称、描述和边界框坐标,请它回答每个区域的质量情况。结果呢?模型给出的回答根本没有涉及区域对比,也没有质量评分,甚至漏掉了某些区域,给出的是一段对整张图片的笼统描述。换句话说,即使你把答题范围画得很清楚,这些模型依然习惯性地"看整体",没有能力做到"看局部"。

这背后的原因有两个。其一,这些模型在训练时接触的数据基本上都是以整张图片为单位的质量评估,从没有被专门训练过"逐区域分析"这件事。其二,语言模型有输出长度的限制,当图片包含十几个甚至几十个区域时,要求它逐一分析每个区域,往往会超出模型的处理能力,导致遗漏或重复。

更关键的问题在于,这些模型通过"监督微调"(可以理解为"刷题训练")的方式习得了固定的回答模板,就像一个学生死记硬背了几套答题公式,一旦遇到没见过的题型就不知所措。区域级别的质量分析,正是这些模型没见过、也没准备好的题型。

**二、新思路登场:把图像对比变成一张"关系图谱"**

针对上述问题,研究团队提出的核心解决方案,是把两张图片之间的质量对比关系,用一种结构化的图谱来表示——这就是失真图(DG)的本质。

可以把失真图理解成一份详细的"体检报告"。普通的图像质量评估,就像医院给你做了个全身扫描后只告诉你"整体健康状况良好,有些小问题";而失真图,则是把身体拆成心脏、肺、肝脏等各个器官,分别告诉你每个器官的状态如何、出了什么问题、严重程度是几级,同时还对比了你去年和今年的体检结果,明确指出哪些器官今年变好了、哪些变差了、哪些没有变化。

具体来说,失真图处理的是一对图像——一张叫做"锚图"(anchor,可以理解为参照图),另一张叫做"目标图"(target,即被比较的图)。系统首先将两张图片各自分解成若干个区域(比如人物、天空、背景、物体等),然后对每个区域建立一个"节点"。每个节点记录了该区域的失真类型(比如是模糊、噪点、过度压缩还是过度锐化),失真严重程度(轻微、中等、严重或无失真),以及一个0到1之间的质量评分。

在节点之间,失真图还建立了"边"——也就是连线,用来表示锚图和目标图中对应区域的比较关系。这条连线会标注"锚图中的这个区域比目标图中的对应区域好"、"两者差不多"还是"目标图更好",而且还会区分"稍好"和"明显更好"这两种程度。

研究团队特别为失真图设计了三条数学性质,以确保这种图谱能够准确、一致地描述图像对比关系。首先是"有效性":图谱中的每条比较关系,必须连接来自两张不同图片的对应区域,不能拿同一张图片的不同区域相互比较。其次是"有序性":比较关系永远是从锚图指向目标图,不存在反向比较,保证了方向的一致性。第三是"功能性比较":对于每一对对应区域,有且仅有一条比较关系,不允许出现一个区域对应多个比较结论的情况。

这三条性质,就像是给这份"体检报告"制定了严格的填写规范,确保报告不会出现自相矛盾或逻辑混乱的情况。

**三、PANDA架构:让机器学会填写这份"体检报告"**

有了失真图的概念,接下来的问题是:如何让计算机自动生成这份图谱?为此,研究团队设计了一个专门的神经网络模型,取名为 PANDA(全称 Panoptic Pairwise Distortion Graph,意为"全景配对失真图")。

PANDA 的工作流程,可以用一个"精密流水线"来理解。

整个流程从图像的特征提取开始。研究团队使用了一个名为 DINOv2 的预训练视觉模型(可以把它理解为一个经过大量图片训练的"看图专家"),将输入的两张图片分别转换为包含丰富视觉信息的特征矩阵。与此同时,一个叫做 SAM(Segment Anything Model,即"万能分割模型")的工具负责把图片中的每个区域自动分割出来,生成对应的二值掩码(也就是标记出每个区域的精确边界)。

接下来是一个独特的"令牌池"机制。研究团队为每张图片维护了一个可学习的向量集合,称为令牌池。可以把每个令牌理解为一个"标签贴纸",系统会为图片中的每个区域随机分配一个这样的贴纸,然后把贴纸和区域的形状信息相结合,再与图像的深层特征融合,从而为每个区域生成一个"个性化"的特征表示。这种设计的好处是,系统可以灵活处理不同数量的区域,不受区域数量变化的限制。

随后,这些区域特征被送入一个"退化解码器"。这个解码器由多层 Transformer(一种强大的注意力机制网络)组成,让每个区域的特征同时"看"到对方图片的全局特征,从而学会"我在另一张图片中对应的区域是什么样子的"。通过自注意力机制,解码器先让图片内部的特征相互交流;通过交叉注意力机制,再让区域特征与对方图片的特征进行对话。这种双向信息交换,使每个区域都能在"看过"对应区域的基础上,做出更准确的判断。

最后,解码器的输出经过全局平均池化压缩后,被分别送入四个独立的预测头。第一个预测头判断区域比较关系(是锚图更好、目标图更好还是差不多),第二个预测头识别失真类型,第三个预测头判断严重程度,第四个预测头给出0到1之间的质量评分。前三个头使用交叉熵损失函数(适合分类任务),第四个头使用L1损失函数(适合数值回归任务)。

PANDA 模型的参数量仅为0.028亿,处理一对包含14个区域的图片对只需要3.53秒,而相比之下,同类开源多模态模型(如 Q-Insight)处理同样的任务需要274秒,参数量更是高达70亿。这种"轻量级但高效"的特性,使 PANDA 在实际应用中极具吸引力。

**四、PANDASET:为这张"体检报告"准备训练数据**

一个好的AI系统需要大量高质量的训练数据。为了训练 PANDA,研究团队构建了一个专门的数据集,命名为 PANDASET。

PANDASET 的构建过程,就像是一个大规模的"人工制造缺陷"实验。研究团队首先从两个现有的公开数据集中筛选出2200张高质量图片:其中1592张来自 PSG 数据集(一个包含场景信息和区域级全景分割的数据集),另外608张来自 Seagull-100w(一个包含真实ISP图像退化效果的数据集)。这些图片涵盖了室内外各种场景,拍摄角度和光线条件各异。

接下来,研究团队为这些图片设计了一套完整的失真体系。他们将失真类型分为14大类,分别是:模糊、亮度增强、压缩失真、对比度增强、对比度减弱、变暗、雾霾、噪点、过度锐化、像素化、雨滴、饱和度增强、饱和度减弱和雪花。每种失真还进一步细分为不同的子类型(比如不同类型的噪点、不同的模糊方式、不同的压缩算法),总共形成32种子类型。加上"无失真(干净)"这一类别,每个区域面临的选择共有15种。

对于每个区域,系统会以80%的概率随机选择一种失真来施加,以20%的概率保持该区域干净。每种失真还有三个严重程度级别:轻微、中等和严重。对于人工合成的非天气类失真,研究团队参考了此前学术界的经验;对于雨雪这类天气失真,他们使用了真实的雨雪叠加素材;对于雾霾,他们通过调整大气散射模型的参数来模拟不同浓度的霾。值得一提的是,对于来自 Seagull-100w 的图片,当合成失真类别与图片本身已有的ISP真实失真(如真实噪点或模糊)重叠时,系统会优先保留真实的ISP失真效果,确保数据的真实性。

每个区域的质量评分,通过计算失真后的区域与原始干净区域之间的 TOPIQ(一种基于语义的全参考图像质量评估指标)得分来确定,分值范围在0到1之间,1代表与原图完全一致,0代表严重退化。

区域之间的比较关系,通过对比两个区域的 TOPIQ 分数差值来确定:差值小于0.1的标记为"相同";差值在0.1到0.3之间的标记为"稍好"或"稍差";差值大于0.3的则标记为"明显更好"或"明显更差"。

最终,PANDASET 包含了超过52.8万对图像,覆盖训练集(约48万对)、验证集(约1.2万对)和测试集(约3.6万对)。每张图片平均包含18个区域,最多可达112个区域。如此规模的区域级配对失真数据集,在学术界尚属首次。

**五、PANDABENCH:一个让AI"现原形"的考场**

有了 PANDASET,研究团队还从其测试集中精心设计了一个专门的评测基准,称为 PANDABENCH。这个基准共分三个难度级别,每级随机抽取300对图像。

最简单的"Easy"级别,要求两张图片中所有区域都被同一种失真类型影响,只是严重程度可能不同。就像一张照片整体偏暗(所有区域都受到"变暗"效果的影响),另一张整体有噪点(所有区域都有噪点),系统需要分析各个区域的情况并进行比较。

中等难度的"Medium"级别,其中一张图片被同一种失真统一处理,而另一张图片则是"混合失真"——每个区域都可能受到不同类型的失真影响。比如一张图里,天空有雾霾,人物有噪点,背景有压缩失真,系统需要逐区域识别不同的失真类型。

最难的"Hard"级别,两张图片都是混合失真模式,每个区域的失真类型和严重程度都可能各不相同。在这种情况下,系统不仅需要识别每个区域各自的失真,还要在两张图片的对应区域之间进行精准比较,难度大幅提升。

研究团队在这个基准上对当前最先进的多模态大语言模型进行了全面测试,结果相当"触目惊心"。

以最简单的 Easy 级别为例,PANDA 在区域比较任务上的准确率达到了58%,而开源的蒸馏专项模型 DepictQA 只能在用 PANDASET 额外训练后才达到49%,如果不额外训练则根本无法完成这项任务。参数量高达270亿的 Gemini 2.5 Pro(谷歌旗下最先进的商业大模型之一)只有22%的准确率,而随机猜测的准确率是20%——也就是说,Gemini 2.5 Pro 在这项任务上的表现几乎与瞎猜无异。

在失真类型识别上,Easy 级别中 PANDA 达到了78%的准确率,而排名第二的微调版 DepictQA+ 达到75%,商业模型 GPT-5 Mini 只有49%,GPT-4o 是46%,Gemini 2.5 Pro 是39%,而随机猜测只有7%。可见商业大模型在这项任务上确实比随机猜测强得多,但与专为此设计的 PANDA 相比仍有相当差距。

从 Easy 到 Hard,所有方法的性能都出现了不同程度的下滑。PANDA 展现出了最小的性能下降幅度,而部分商业大模型在 Hard 级别的严重程度分类任务上甚至下滑到了低于随机猜测水平的表现——这说明在面对复杂混合失真场景时,这些模型完全"迷失方向",只能靠"惯性"输出一些听起来像样但实际上随机的答案。

研究团队还测试了两个基线方法作为参照:线性探针(在 DINOv2 特征上直接套一层线性分类器)和注意力探针(在 DINOv2 特征上套一个带交叉注意力的 Transformer 模块)。这两个基线的结果表明,单靠 DINOv2 的预训练特征是远远不够的,PANDA 中专门设计的退化解码器对最终性能的提升至关重要。

**六、让失真图成为AI的"参谋":链式思考实验**

研究团队还探索了一个有趣的应用方向:把 PANDA 生成的失真图,作为"提示信息"喂给商业大语言模型 GPT-5 Mini,看看它能否借助这份结构化的"参谋意见"做出更好的判断。

实验方案参考了"组合链式思考提示"的做法——先用 PANDA 生成一份失真图,再明确告诉 GPT-5 Mini:"这是一份关于这两张图片各区域质量对比的参考信息,请把它当作辅助线索,如果你从图像本身看到了与这份信息矛盾的地方,请以图像本身为准。"

结果显示,加入失真图作为背景信息后,GPT-5 Mini 在 Easy 级别的区域比较准确率从31%提升到了52%,失真类型识别准确率从49%提升到了67%,严重程度判断准确率从36%提升到了51%,质量评分相关性也从0.09提升到了0.52。综合来看,引入失真图带来了约15%的整体性能提升。

更有说服力的是,研究团队发现 GPT-5 Mini 并不是机械地复制失真图的预测结果。在某些案例中,当失真图的预测结果与图像的真实视觉信息存在矛盾时,GPT-5 Mini 会主动纠正失真图的错误判断——比如失真图错误地把锚图某个区域标记为"干净",而 GPT-5 Mini 通过观察图像本身正确识别出了"变暗"效果。同样,当失真图把某个区域标记为"干净",但实际上该区域存在过度锐化时,GPT-5 Mini 也能通过视觉分析得出正确结论。这说明失真图与大模型之间形成了一种真正有意义的协作关系,而非简单的复制粘贴。

当然,当图像中的视觉证据本身不够明显时,GPT-5 Mini 也会倾向于信任失真图。比如当失真图预测某个目标区域存在亮度增强失真,而实际上该区域是干净的,GPT-5 Mini 有时会跟随失真图的错误判断。这属于预期中的行为模式,反映出失真图作为结构化先验信息的合理作用方式。

**七、从区域到整张图:失真图的泛化能力验证**

研究团队还专门验证了一个重要问题:PANDA 生成的失真图,能否自然地从区域级别的判断聚合为整张图片的质量排名?毕竟,区域级分析如果不能服务于整体判断,其实际价值就会大打折扣。

为此,研究团队在两个公认的图像质量评估基准数据集上进行了零样本测试(即不对模型做任何额外训练,直接用在 PANDASET 上训练好的 PANDA 来评估新数据集)。第一个是 KADID-10k,包含81张参考图像和各类失真版本;第二个是 TID2013,是另一个广泛使用的图像质量评估数据集,包含人工标注的平均意见分(MOS)。

实验逻辑很简单:对于一对图片,PANDA 生成两张图的失真图,然后用一个朴素规则来做整图排名——如果某张图中更多区域的质量评分更高(或者比较关系显示更多区域更好),则认为该图整体质量更好。

结果表明,在 KADID-10k 上,基于 PANDA 分数的排名准确率达到78.83%,基于比较关系的排名准确率达到76.90%,超过了同类开源多模态模型(如 mPLUG-Owl2 的48.5%、LLaVA-1.6 的57%、Q-Instruct 的55%)。在 TID2013 上,PANDA 同样以78.4%(基于比较关系)和77.8%(基于分数)的准确率大幅领先其他方法。这有力地证明了,区域级的失真图确实可以自然地"聚合"成可靠的整图质量排名,与人类的主观感知具有高度一致性。

**八、设计细节与超参数敏感性分析**

在模型设计层面,研究团队进行了一系列消融实验,验证各个设计选择的必要性与合理性。

首先是特征提取器的选择。默认配置使用 DINOv2(小型版本,ViT-s,384维特征),研究团队还测试了 DINOv2(基础版本,ViT-b,768维特征)和 SigLIP(768维)的效果。实验结果显示,三种配置的性能差异不大,但 DINOv2(ViT-s)在性能与计算效率之间取得了最佳平衡。

其次是 Transformer 解码器层数。默认采用4层,研究团队还测试了2层和6层的版本。结果显示,4层是一个甜蜜点——既足够深以捕捉复杂的跨图像区域对应关系,又不会因层数过多而导致过拟合或训练困难。

在训练超参数方面,研究团队对损失函数中四项任务的权重系数进行了网格搜索,最终确定的配置为:区域比较关系损失权重0.1、失真类型识别损失权重1.0、严重程度分类损失权重0.1、质量评分回归损失权重1.0。研究结果表明,模型对超参数选择并不特别敏感——在大多数合理的参数组合下,模型表现保持相对稳定,只有极端配置才会导致明显性能下降。

PANDA 使用8块 NVIDIA V100 32GB 显卡训练,批次大小为6,总训练时间约1.5天,使用 AdamW 优化器,学习率1e-4,权重衰减0.01,共训练30轮。

**九、这项研究的位置与贡献**

在此前的相关研究中,确实存在不少图像质量评估或区域级理解的工作,但它们各有局限。Q-Bench 等工作侧重于单张图像的整体质量分析;DQ495K、MICBench 等工作虽然涉及图像对比,但不是以区域为核心出发点;Seagull、QGround、Grounding-IQA 等工作虽然涉及区域级分析,但只针对单张图像,不支持两张图片之间的区域级比较。

研究团队在论文中汇总了一张比较表,清楚地展示了 PANDABENCH 是目前唯一一个同时满足以下全部条件的基准:以区域为核心出发点、具有比较性质(两张图片之间)、支持多样化失真类型、包含严重程度级别、提供质量评分。任何现有的基准都无法同时满足这五个条件。

这一定位意味着,这项研究填补了一个明显的学术空白,并为后续研究提供了一个清晰的评估框架。

**十、失真图的更广泛应用前景**

研究团队在论文的附录部分,还专门讨论了失真图作为通用比较形式化框架的潜力。失真图的核心思想——把两个比较对象分解成对应的部分,为每个部分建立节点、描述属性、标注比较关系——并不局限于图像质量评估这一个场景。

在视频分析领域,可以用类似的框架来描述两段视频中人物动作的区域级差异,用于视频动作对比任务。在医学图像领域,可以把两次CT扫描的不同区域(肺、心脏、肝脏等)进行结构化对比,辅助医生发现细微变化。在图像信号处理器(ISP)基准测试领域,可以系统性地比较不同ISP算法在各个图像区域的处理质量。在视频压缩和流媒体传输领域,可以根据区域重要性和质量评分,智能地筛选冗余帧,提高存储和传输效率。在假图检测领域,区域级的比较关系可以帮助定位图像篡改的具体位置。

这种跨场景的通用性,说明失真图不仅仅是一个解决特定问题的技术工具,更是一种可以推广到多个比较性评估任务的结构化思维框架。

**十一、研究的局限与未来方向**

研究团队对这项工作的局限性保持了坦诚的态度。

第一个局限是 PANDA 作为基线模型的简洁性。它有意保持了架构的简单,留有很大的改进空间,特别是在处理视觉细节复杂的区域时。更强大的视觉特征提取器、更复杂的跨图像对应机制,都可能进一步提升性能。

第二个局限来自数据集的构建方式。PANDASET 中的场景是真实的,但大多数失真是人工合成的(除了来自 Seagull-100w 的真实ISP失真部分)。人工合成失真的优势是可控性强,能够精确地为每个区域分配质量评分和比较标签,也能系统地覆盖不同难度级别;但其代价是可能与真实世界中自然产生的失真存在一定的感知差距。研究团队通过在 KADID-10k 和 TID2013 上的验证,证明了合成失真与人类主观感知具有合理的一致性,但更大规模的真实世界失真数据集仍是未来的重要方向。

第三个局限是比较关系标签依赖于 TOPIQ 这一特定的图像质量评估模型,可能会继承该模型的感知偏好。构建由人工标注的区域级比较标签数据集,将是一项巨大但有价值的工程。

研究团队还提出了一个有趣的未来方向:把失真图作为推理链的中间步骤,让模型先生成失真图,再基于失真图给出最终的自然语言描述。这种"先结构化、再语言化"的路径,可能比直接让语言模型输出区域级分析更加可靠和可控。

**归根结底,这项研究说明了什么?**

这项由华为技术(加拿大)团队完成、发表于 ICLR 2026 的研究,用一种非常朴素的逻辑回应了一个长期被忽视的问题:AI评价图片质量时,不应该只看整体,因为整体感知是由局部细节决定的,而不是反过来。

通过引入失真图这一结构化表示方式,研究团队不仅为区域级图像质量评估提供了一套完整的形式化框架,还构建了迄今为止最大规模的区域级配对失真数据集,并设计了一个轻量高效的模型来学习这种图谱结构。更重要的是,他们通过大规模实验揭示了当前最先进的多模态大语言模型在区域级质量理解上的系统性短板——即使是 Gemini 2.5 Pro 这样的顶尖商业模型,在这类任务上的表现也接近随机猜测的水平。

这对普通用户意味着什么?下次你的照片编辑软件告诉你"这张照片质量比另一张好"时,你可以期待的是:未来版本的软件不会只给你一个笼统的打分,而是会告诉你"你照片里的人脸区域有些过度锐化,但背景的清晰度比对比照片好很多,天空部分两者差不多"——这才是真正有用的质量反馈。

有兴趣深入了解技术细节的读者,可以通过 arXiv 编号 **2604.11004** 查阅完整论文,或访问项目主页 aismartperception.github.io/distortion-graph/ 获取更多信息。

Q&A

Q1:失真图(Distortion Graph)和普通的图像质量评分有什么区别?

A:普通图像质量评分只给整张图打一个数字,比如"7分",无法告诉你具体哪里有问题。失真图把图片拆成多个区域(如人物、天空、背景),为每个区域分别记录失真类型、严重程度和质量评分,还能对比两张图片中每个对应区域的优劣。这就像从"这道菜整体还行"变成了"这道菜的汤底很好,但肉有点老,配菜火候不够"的专业点评。

Q2:PANDA模型和GPT-4o这类大模型相比有什么优势?

A:PANDA的参数量只有0.028亿,处理一对图片仅需3.53秒;而GPT-4o等大模型参数量达数百亿甚至更多,且在区域级质量比较任务上准确率仅26%,接近随机猜测的20%。PANDA在同类任务上准确率达58%,同时计算成本极低。当然,PANDA只专注于生成结构化的失真图,不具备大模型的通用对话能力。

Q3:PANDABENCH的Easy、Medium、Hard三个难度级别有什么具体区别?

A:Easy级别中,每对图片的所有区域都受同一种失真类型影响,只是严重程度不同,相对容易识别。Medium级别中,一张图是单一失真,另一张每个区域的失真类型各不相同,识别难度增加。Hard级别中,两张图的每个区域都可能有不同的失真类型和严重程度,需要逐区域精细分析,是最具挑战性的场景。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。