![]()
这项由加拿大滑铁卢大学、澳大利亚悉尼大学、香港中文大学(深圳)、新加坡管理大学、南洋理工大学、香港城市大学等十余所高校及研究机构联合开展的研究,以预印本形式于2026年4月发布,论文编号为arXiv:2604.07413。感兴趣的读者可通过该编号在arXiv平台检索到完整论文。
**一个你可能从没想过的问题**
每天,全球数以亿计的工厂流水线在运转。一颗螺丝型号装错了,一个零件表面裂了,一套组件少了垫圈——这些看起来微不足道的差错,放在航空发动机、医疗设备或者汽车底盘上,轻则产品召回,重则事故频发。
传统上,工厂靠的是经验丰富的质检工人,靠眼睛和手感来把关。后来,机器视觉系统出现了,能认出零件在哪儿、有没有裂纹,但它只是个"眼睛",不会思考,无法理解"这颗M10的螺栓为什么不能和M16的螺母配套",更无法自主判断"这套夹具的装配是否符合今天这批零件的规格"。
近年来,一种新技术开始引发工厂管理者的遐想——多模态大语言模型,也就是那些既能看图又能对话的大型AI,比如GPT、Gemini、Kimi这类。这些模型在日常问答、写代码、分析文件上表现出惊人的能力,有人开始问:它们能不能也帮工厂"看"零件、"懂"规格、"判断"装配?
为了回答这个问题,这批来自十余所顶尖高校的研究者们做了一件在学界颇具开创性的事:他们没有停留在泛泛的讨论层面,而是真刀真枪地构建了一套名为FORGE的评测基准,专门用来测量这些大模型在制造业场景下的真实能力。他们用真实工厂零件建起数据集,设计了三类核心任务,找来18个当下最先进的多模态大模型逐一"应试",并深入分析了这些模型究竟在哪里卡壳、为什么卡壳。结果既让人耳目一新,也让人若有所思。
**一、从流水线到考场:FORGE是什么,为什么它与众不同**
在此之前,学界并非没有针对工业场景的AI评测。现有的一些基准数据集,比如MMAD专注于视觉异常检测,MME-Industry涵盖工业认知和安全规程,还有DesignQA聚焦于技术蓝图的理解。但研究团队发现,这些评测有一个共同的短板:它们把工厂里的零件当作普通的视觉对象来处理,只需要模型说出"这是一颗螺丝"就算过关了。
这就好比让一名医学生用病人照片诊断疾病,却只要求他说出"这个人病了",而不要求他判断究竟是M型还是B型病变、用哪种药、剂量多少。现实的工厂要求的精度,远不止于此。
以螺母为例,工厂里的螺母分M10、M12、M14、M16、M18……各种型号,直径相差几毫米,但配套关系截然不同。如果你把一颗M16的螺母和M10的螺栓配在一起,零件会松动报废。因此,FORGE的核心设计理念是**型号级别(model-number level)的细粒度语义理解**——不仅要认出这是螺母,还要认出它是哪个型号的螺母,以及它和同批次其他零件的兼容关系。
为了支撑这套高精度评测,研究团队先构建了一批高质量的多模态数据。他们用精度达0.02毫米的手持3D扫描仪,对14类真实工厂零件(包括角支架、沉头螺丝、杯头螺丝、眼形螺栓、平垫圈、六角螺母、铆钉螺母、自攻螺丝、弹簧垫圈、T型螺栓、T型螺母、T型螺丝、翼形螺母、翼形螺丝)进行了全面的3D点云扫描,涵盖90个不同型号,共585个样本。与此同时,他们还拍摄了约3000张来自四种真实装配场景的图像。所有数据都配有精细标注,不只是"这是什么零件",还包括"这是哪个型号"、"有没有缺陷"、"装配是否合规"。
仅在数据规模和标注深度上,FORGE就已经和此前的同类工作拉开了明显差距:12972个评测样本,横跨图像和3D点云两种模态,是目前制造业领域最全面的多模态基准之一。
**二、三场"考试":模型到底需要懂什么**
评测设计了三类任务,分别对应工厂自动化中最关键的三个环节。
第一类叫做零件核验(WORKVERI),本质上是材料分拣能力的考核。给模型一批零件的图像或3D渲染图,告诉它"这批货应该全是M18杯头螺丝",然后在其中混入一颗M10的螺丝,或者换成了一颗自攻螺丝,让模型指出哪颗不对。这一任务分为三个场景:来自图像子集的气动连接件(PCS SCENARIO)、来自点云子集的杯头螺丝(CHS SCENARIO)和螺母(NUTS SCENARIO)。
第二类叫做表面缺陷检测(SURFINSP),也就是质量检查。给模型一个零件的三视图点云渲染,让它先判断这个零件是否正常,如果不正常,再从裂纹、切痕、变形、凹痕四种类型中指出是哪种缺陷。这项任务横跨上述全部14种零件类型。
第三类叫做装配核验(ASSYVERI),是三类任务里最复杂的。这里不只是认零件,而是要理解装配规则。比如,一套标准的金属膨胀螺栓由螺栓、螺母、平垫圈、弹簧垫圈、套管五个部件组成。给模型看一张装配好的组件图,如果混入了一颗不对型号的平垫圈,或者多了一个弹簧垫圈,模型需要找出那个"异类"。四个装配场景分别是金属膨胀螺丝(MES SCENARIO)、塑料膨胀螺丝(PES SCENARIO)、数控夹具(CNC SCENARIO)和金属螺丝垫圈螺母组合(SWN SCENARIO)。
所有任务都以多选题的形式呈现,每道题给出若干候选部件的位置,模型选出那个"有问题的"。每类任务都在三种不同"难度设定"下评测:零样本(模型只看题目图片)、参考条件(同时提供标准正确样品的图片作为参考)、以及上下文示范(在参考图基础上,额外提供一道完整的示例题和答案)。
**三、18个"考生"亮相:有人超常发挥,有人稳定发挥,有人令人大跌眼镜**
研究团队把当下最具代表性的18个多模态大模型全都拉来测了一遍,既有可以直接调用API的闭源模型(GPT-5、GPT-5.2、GPT-5 Mini、O3、Gemini-2.5-Flash、Gemini-3-Flash、Claude-4.5-Opus、Seed-1.6),也有开源可部署的模型(Gemma-3-27B、InternVL3-78B、Llama-4-Maverick、Mistral-3-8B/14B/Large、Qwen3-VL-8B/235B、GLM-4.6V、Kimi-K2.5)。
评测用的指标很简单:精确匹配准确率,也就是模型选对了几题。同时设置了随机猜测基线作为参照——在WORKVERI和ASSYVERI中,每题4到6个选项,随机猜对率约25%到33%。
总体来看,闭源模型普遍优于开源模型。其中Gemini-3-Flash和GPT-5系列在零件核验和装配核验任务上表现领先,而开源阵营里,Kimi-K2.5和Qwen3-VL-235B相对突出。
然而最令人意外的是表面缺陷检测任务(SURFINSP)。这道"简单题"——毕竟只需要从五个类别里选一个——偏偏成了全场最低分的任务。即便是最强的模型,也几乎无法超过50%的准确率,部分模型甚至接近随机猜测水平。这种差距说明,大模型对零件的宏观外形识别("这是颗螺丝")和对微观表面形态的感知("这条纹路是裂纹还是切痕")是两种截然不同的能力,前者相对成熟,后者目前还是一块未被开垦的荒地。
**四、奇怪的发现:参考图有时反而帮了倒忙**
评测结果里藏着一个让人挠头的现象。
正常的直觉是:给模型看"正确答案长什么样",应该让它表现更好。但数据显示,对于基于三视图点云渲染的任务,从零样本切换到参考条件设置之后,很多模型的准确率反而下降了,有些模型甚至下降了十几个百分点。进一步加入完整示范题之后,情况也没有明显改善。
这是为什么?研究者的解释是:三视图渲染是从三个正交方向(前视、侧视、俯视)拍摄的平面投影,不同角度下同一个零件看起来差异很大。当模型面对参考图时,它试图把参考图里的零件和测试图里的零件做空间匹配,但因为视角差异和空间感知能力不足,这种比较反而引入了混乱,让模型越看越糊涂。
相比之下,对于需要型号级别精度的任务(比如判断这颗螺丝是M16还是M18),空间视觉特征的权重本来就比较低,主要靠的是对形状细节的语义理解,所以受这种"空间困惑"的影响相对较小。而对于需要直接辨认零件类型的任务(比如判断这个是螺母还是翼形螺母),视觉特征极为重要,三视图的角度变换就造成了更明显的干扰。
简而言之:给大模型看更多参考图,有时候不仅没帮上忙,反而让它更困惑了。
**五、解剖瓶颈:问题出在"看不清"还是"不懂行"**
光知道模型表现不好还不够,研究者更想搞清楚:模型究竟是"眼睛不好使",还是"大脑没经验"?
为了回答这个问题,他们设计了三项专门的"瓶颈分析"实验,像一个外科医生逐层切开,找出病灶所在。
第一项实验测的是视觉定位能力。在所有装配图像里,每个零件都被标上了字母标签(A、B、C……)。研究者专门出题:给你坐标[0.70, 0.44],对应的是哪个字母?或者,字母B对应的是哪个坐标?结果发现,在500道单图定位题中,Gemini-3-Flash平均准确率高达98.9%,四个最强模型在字母→坐标方向的准确率全部超过97.6%。这个结果非常清楚:大模型的视觉定位能力本身是过关的,它们确实能"看清"图里哪个零件在哪儿。
第二项实验测的是零件功能知识。研究者给模型提供了完整的装配规格说明(每个部件叫什么名字、有几个、功能是什么),然后让模型判断哪个部件缺失了。这类题对"看图认位置"的要求极低,主要考的是"知不知道这套装配应该有什么"。结果显示,四个顶尖模型在240道图像题上的整体准确率达到74.9%到90.7%,远高于23.3%的随机猜测基线。绝大多数零件类型(螺丝、螺母、锚固件、楔块)几乎都能判断正确。但有一类零件——平垫圈——出现了系统性失败:准确率仅23.3%到60.0%(图像),三视图模式下更是低至8.3%到74.5%。
错误分析揭示了一个精妙的细节:模型能很好地检测到"少了一个垫圈",但无法判断缺少的是平垫圈还是弹簧垫圈。这两种垫圈的外形确实很相似,但功能和规格截然不同。既然视觉定位没问题,那这种混淆就只能归结为"对零件功能和形态区别的专业知识不足",也就是说,模型的知识库里对工厂零件的了解太浅了。
第三项实验则更极端:研究者把3D点云数据直接转成文本坐标表格,喂给模型,看它能不能从一堆数字里分析出零件形状。结果相当清晰:在表面缺陷检测任务上,两个被测模型的表现都接近随机猜测水平,几乎无法区分缺陷类型。仅在零件核验任务上,模型靠着比对坐标范围来估算零件尺寸大小,获得了勉强高于随机的表现(Gemini-3-Flash零样本53.6%)。这说明,对于通用大语言模型而言,视觉渲染是处理3D制造数据的必要手段,纯文本坐标流远远不够。
三项分析的结论汇聚成一个清晰的结论:当前大模型在制造业场景下失败的根本原因,不是"看不清",而是"不懂行"——缺乏制造业领域的细粒度专业知识。
**六、错误案例里的意外惊喜:模型的"歪打正着"**
研究者还做了定性错误分析,逐字拆解了模型答错时的推理过程,发现了两类有趣的失败模式。
第一类叫做"材料幻觉"。在金属膨胀螺栓装配场景(MES SCENARIO)中,某模型被问到哪个零件规格不对,结果它盯着一个金属平垫圈,硬说那是"塑料/尼龙材质",然后以"膨胀螺栓组件中不应该用塑料垫圈,会降低强度"为理由,选择了那个垫圈作为答案——答错了。但研究者注意到,这个模型的推理过程本身其实很有价值:它在没有被明确要求的情况下,自发地尝试推断零件材质,并把材质因素纳入了装配合规性的判断中。虽然这次判断出错了,但这种"自主推断材质并用于决策"的能力,正是真正实用的工厂AI所需要的。
第二类叫做"服役状态感知"。在数控夹具场景(CNC SCENARIO)中,某模型虽然判断错了哪个零件的型号不对(它认为螺母太小,实际上是垫块太大),但在推理过程中,它随手指出了"压板A端部严重磨损/崩缺"、"垫块D也有磨损痕迹"。这种顺带识别出"零件磨损程度"的能力,与工厂里的预测性维护需求高度吻合——如果模型能在做质检的同时顺手给出磨损评级,那对工厂的价值远不止于合格与不合格的二元判断。
这两类"歪打正着"的案例说明,大模型在制造业中的潜力,可能比一道标准化测题所能衡量的要大得多。
**七、一个小模型的逆袭:专业微调的力量**
前面所有的分析都聚焦于"现有大模型的局限",但研究者还进了一步:既然领域知识是瓶颈,那用制造业数据专门训练一个模型,效果会怎样?
他们挑了一个只有30亿参数的小模型——Qwen2.5-VL-3B,这在大模型圈里属于"迷你"级别,连很多普通电脑都能跑起来。然后用FORGE数据集里的训练数据对它进行了全参数微调。
微调的逻辑很有讲究:他们用CHS SCENARIO(杯头螺丝场景)的数据训练模型,然后在它从未见过的NUTS SCENARIO(螺母场景)上评测;用MES和PES场景数据训练,在CNC夹具场景上评测。这样的"跨场景"测试,才能真正检验模型有没有学到可迁移的制造业推理能力,而不只是死记硬背了训练数据里的具体零件。
结果非常显眼:在零件核验三视图任务上,这个30亿参数的小模型从28.2%跳升到了53.8%,提升幅度达90.8%,直接达到了参数量是它78倍的Qwen3-VL-235B的水平。在装配核验图像任务上,准确率从24.0%提升到30.5%,相对提升27.1%,表现超过了Seed-1.6、Qwen3-VL-235B、Mistral-3-8B等多个大得多的模型,仅次于Gemini-3-Flash和GPT-5.2。
进一步拆解来看,微调之后,小模型对"正常装配"的判断准确率从24.3%猛升到74.8%,以前它总是觉得"哪里都有问题",现在知道什么是正常了。型号识别的准确率虽然从33.8%小幅降至23.8%,但整体上,由于正常案例在评测集里占多数,综合表现大幅提升。
这个结果传达了一个直接且实用的信号:哪怕是非常有限的专业领域数据(训练数据只有8337条),也能让一个小巧的模型在特定制造业任务上迅速成长,逼近顶级闭源大模型的水准。不需要等GPT出个新版本,自己用FORGE这样的数据微调,是一条更现实的路径。
**说到底,这意味着什么**
归根结底,这项研究做了一件很务实的事:它把那些在对话、写作、编程上叱咤风云的大模型,拉到了工厂这个它们不太熟悉的考场上,如实记录了它们的成绩单。成绩单说明了几件事。
大模型不是万能的。在制造业这种对精度要求极高的场景里,"认出这是螺丝"和"判断这颗螺丝该不该在这里"是两种截然不同的能力。前者当前AI已经做得不错,后者还差得远。表面缺陷检测尤其困难,微观形态识别是目前整个领域的硬骨头。
然而,失败的原因并不是模型"眼睛不好",而是"经验不足"。视觉定位能力是够的,卡壳的地方是细粒度的领域专业知识——哪种垫圈该搭哪种螺栓,哪种纹理是裂纹哪种是加工痕迹,这些需要专业数据来填补。
更积极的发现是,这个知识缺口是可以弥补的,而且成本并不像想象中那么高。用专门构建的制造业数据集微调一个小模型,就能带来非常可观的提升。这对于真正想把AI引入工厂的企业来说,意味着不必非得等待更大更贵的通用模型,而是可以按照自己的场景定制训练。
当然,这项工作也有它目前的边界。评测数据集的规模和零件种类,相比真实工厂的多样性还远远不够。现实中的生产线零件种类成千上万,光靠研究者收集的585个原始样本还是太少。模型在极端光照、遮挡、污损等真实生产条件下的表现也有待验证。三视图渲染代替真实3D输入,是一种实用的妥协,但不是终点。
如果你对这个方向感到好奇,不妨思考一个问题:如果工厂里的AI不只是质检工人,而是同时能估算零件磨损状态、预测下次维护时间、甚至理解上下游工序的逻辑,那它应该学什么、怎么学?这正是FORGE这类基准工作试图推动的方向——先把问题说清楚,再谈如何解决。有兴趣深入了解的读者可以通过arXiv:2604.07413查阅完整论文。
Q&A
Q1:FORGE评测基准和之前的制造业AI评测有什么不同?
A:之前的评测主要把工厂零件当普通视觉对象处理,比如认出"这是螺丝"就算过关。FORGE要求细粒度到型号级别,比如要判断这颗螺丝是M10还是M16、和同批零件是否兼容。同时,FORGE结合了真实2D图像和3D点云两种数据模态,并覆盖零件核验、表面缺陷检测、装配核验三类实际工厂任务,在数据精度和任务设计上均大幅超越以往同类工作。
Q2:大模型在制造业场景下表现差的主要原因是什么?
A:研究通过三项专门的瓶颈分析实验证明,主要原因不是视觉定位能力弱,因为测试显示模型能准确找到图中零件的位置。真正的瓶颈是缺乏细粒度的制造业专业知识,比如分不清平垫圈和弹簧垫圈的具体形态差异,不知道不同型号零件之间的装配兼容规则,以及无法分析微观表面形态来判断缺陷类型。
Q3:微调小模型的效果真的能媲美大模型吗?
A:在特定制造业任务上可以。研究用FORGE数据对只有30亿参数的Qwen2.5-VL-3B进行专业微调后,在零件核验三视图任务上准确率提升了90.8%,达到参数量是它78倍的Qwen3-VL-235B的相同水平。在装配核验任务上也超越了多个规模更大的模型。这说明用专业领域数据定向微调小模型,是一条在制造业落地AI的实际可行路径。





京公网安备 11011402013531号