当前位置: 首页 » 资讯 » 新科技 » 正文

香港理工大学提出"光学推理":用图片代替文字做推理

IP属地 中国·北京 科技行者 时间:2026-06-15 22:13:52

这项由香港理工大学研究团队完成的研究,以预印本形式发布于2026年6月8日,论文编号为arXiv:2606.09585,感兴趣的读者可通过该编号查阅原始论文。


人类用语言思考已经司空见惯,但如果有一天,AI不再用文字"想问题",而是直接用图片来推理呢?这个听起来有些奇特的想法,正是这篇论文的核心出发点。香港理工大学的研究团队大胆地问了一个问题:我们能不能把推理过程本身变成一张图片?

要理解这个想法的意义,先得从AI是怎么"想问题"说起。现代大型语言模型(也就是类似ChatGPT这样的AI)在回答复杂问题时,通常不会直接蹦出答案,而是先一步步地把思路写出来,就像我们在草稿纸上列算式一样。这种方法叫做"思维链"(Chain-of-Thought,简称CoT),它能让AI在解数学题、做科学推理时表现好得多。

然而,这种方法有一个实实在在的成本:文字推理步骤会消耗大量的"令牌"(token,可以粗略理解为AI处理信息的基本单位,有点像计算机处理文字时的基本收费单元)。推理步骤越长,消耗越多,速度越慢,费用越高。

随着多模态AI(能同时理解图片和文字的AI)的发展,研究者们开始尝试把图片也塞进推理过程里,让AI在想问题时既用文字又用图片。这个方向被称为"交错模态推理"。而香港理工大学的研究团队则更进一步,提出了一个更激进的设想:干脆把整个推理过程都用图片来呈现,完全抛弃文字形式的中间步骤——他们称之为"光学推理"(Optical Reasoning)。

研究结果相当亮眼:在数学、科学和多模态推理等多个测试场景中,光学推理不仅能达到甚至超过传统文字推理的准确率,同时还能将推理所需的令牌数量平均削减28.57%(语言任务)到16%(多模态任务),整体令牌使用效率是传统文字推理的近两倍。

一、什么是"光学推理"?从草稿纸到图片画布的转变

要理解光学推理,可以用一个生活场景来类比:假设你需要向朋友解释一道几何题的解题过程。你有两种选择:一种是用文字一句一句地描述"首先,角A等于角B,因为……然后根据……可以推导出……";另一种是直接画一张图,在图上标注关键角度、画出辅助线、写上关键公式,让人一眼就能看清楚整个推理脉络。

光学推理选择的就是第二条路。它把AI的推理步骤"渲染"成一张图片,然后让AI通过"看图"来提取推理信息,最终得出答案。

在学术框架上,研究团队把这个过程描述得相当严谨。传统文字推理的流程是:给AI一个问题,AI生成一段文字推理步骤,然后根据这段文字推导出答案。而光学推理的流程是:给AI一个问题,同时给它一张包含推理步骤的图片,AI通过视觉编码器把图片转化为视觉令牌,再根据这些视觉令牌得出答案。

这里有一个关键概念值得解释清楚:所谓"渲染"(rendering),就是把文字内容转化为图片的过程。就像一个文字编辑器可以把你打的字转化为PDF文件一样,研究团队使用专门的工具把推理步骤变成了视觉化的图片。

研究团队具体实现了两种不同风格的光学推理,分别针对不同的需求场景。

二、排版版光学推理:把推理步骤"印"成一张密集的版面

第一种方式叫做"排版版光学推理"(Typographic-based Optical Reasoning,简称T-OR)。顾名思义,它把推理步骤排版成一张类似书页或报纸版面的图片——密密麻麻的文字、公式整齐地排列在图片上,就像一本压缩得很紧凑的教科书页面。

这种方法背后有一个精巧的设计思路:如何在有限的图片空间里塞进尽可能多的信息,同时又不能让字太小、排得太挤以至于AI"看不清楚"?

研究团队为此设计了一套自动化的"排版优化策略"。这套策略会在多种字体大小和文本宽度组合中进行搜索,寻找最佳方案。具体来说,系统会评估每种排版方案的"版面填充率"(有多少版面被内容填满,避免浪费空白),同时也会惩罚那些过于拥挤或过于宽松的布局。综合这两个维度,系统会选出在给定令牌预算下得分最高的排版方案。

实现这套系统用到的是一个叫做XeLaTeX的排版工具——这是LaTeX排版系统的一个变种,常被学术界用来排版论文,可以精确控制字体、公式、图片的布局。系统会搜索不同的文本宽度和字体大小组合,先进行粗粒度搜索,找到满足令牌预算的候选方案后,再对字体大小进行细粒度微调,最终找到内容完整、布局紧凑、可读性良好的最优排版。

一个有趣的发现是:排版的视觉风格本身对推理效果也有影响。研究团队发现,红色字体比黑色字体表现更好,而绿色字体效果最差。"Heros"字体家族表现最佳。太小的字体(8号)会显著降低准确率,而过宽的文本布局(6英寸宽)也不如较窄的布局(2英寸宽)效果好。这说明AI的"视觉阅读能力"对字体对比度和布局紧凑性有一定敏感性,就像人类阅读时也更偏好清晰、对比鲜明的版面一样。

三、图形版光学推理:把推理步骤画成"解题漫画"

第二种方式叫做"图形版光学推理"(Graphical-based Optical Reasoning,简称G-OR)。如果说排版版是把推理步骤"印"成一张报纸,那图形版则是把推理步骤"画"成一张解题示意图,或者说一组解题步骤的漫画面板。

具体来说,G-OR会把整个推理过程拆分成若干个步骤,每个步骤对应图片中的一个独立面板。在每个面板里,除了关键的文字和公式,还会加入与该步骤相关的示意图、空间关系图、几何图形等视觉元素。这样一来,一张图片不仅包含了文字推理,还包含了帮助理解的可视化辅助信息。

以一道关于汽车和建筑物的三角函数题为例:排版版会把整个解题过程的文字和公式密集排版在图片上;而图形版则会生成一个多面板图,第一个面板画出汽车和建筑物的几何关系图并标注初始仰角45°,第二个面板展示汽车行驶后的新位置和60°仰角,第三个面板则呈现速度和时间的计算推导过程。

研究团队用一个叫做"Nano Banana 2"的图像生成模型来实现这个功能(这是谷歌DeepMind旗下Gemini系列的图像生成模型)。系统通过一个精心设计的提示词模板,要求模型将解题过程转化为紧凑的多面板教育漫画风格图片,要求保留关键推理文字和公式,使用简洁的形状和清晰的标签,保持高对比度的白色背景,风格清晰易读。

图形版的一个潜在优势在于它能自然地整合空间关系信息。对于几何题、物理题这类需要理解空间位置关系的问题,一张示意图往往比几段文字描述更直观。这也是研究团队对图形版寄予厚望的原因——它不仅是文字的压缩替代品,更是能利用视觉空间来增强推理的独立媒介。

四、实验结果:光学推理在五款顶级AI模型上的表现

为了全面验证光学推理的效果,研究团队在五款当前最先进的多模态AI模型上进行了测试,分别是:GPT-5.1(OpenAI的最新模型)、Gemini 2.5 Flash(谷歌的多模态模型)、Claude Sonnet 4.5(Anthropic的模型)、Kimi K2.5(国内月之暗面的模型)以及Qwen3-VL-235B(阿里巴巴的开源多模态模型)。

测试覆盖了五个不同的推理基准数据集:AquaRat(代数和定量推理选择题,共254题)、GSM8K(小学数学应用题,共1319题)、GPQA Diamond(涵盖物理、化学、生物的研究生水平科学选择题,共198题)、ScienceQA(包含图片的多模态科学问答,共1836题),以及Zebra-CoT(包含图片和中间推理图片的交错模态推理,共300题)。

基准线设置了两种对比场景:一种是"无推理"(只给问题,让AI直接回答,不提供任何推理步骤),另一种是"文字推理"(给问题的同时提供完整的文字推理步骤)。光学推理的目标是在使用更少令牌的前提下,达到接近甚至超越文字推理的准确率。

排版版光学推理(T-OR)在语言任务上的表现相当出色。在所有模型和语言类基准的组合中,有七个"模型-基准"配对中,T-OR的准确率与文字推理持平甚至超越,同时平均节省了28.57%的推理令牌。在剩余的未达到文字推理水准的配对中,准确率差距平均仅为0.027(约2.7个百分点),而令牌数量仍减少了20%。

多模态任务方面,T-OR在五个"模型-基准"配对中与文字推理持平或超越,平均节省16%的推理令牌;在落后的配对中,平均准确率差距仅0.014,令牌却减少了32%。

研究团队还引入了一个综合衡量指标叫做"边际准确率增益"(Marginal Accuracy Gain,简称MAG),用于评估每消耗一千个推理令牌能带来多少准确率提升。按照这个指标,视觉推理令牌的效率是文字推理令牌的1.96倍——也就是说,同样的"计算资源"花在图片上,产出了将近两倍的效果。

从各个模型的表现规律来看,不同AI对光学推理的敏感程度不一样。Gemini 2.5 Flash即便在极度压缩的情况下也能维持不错的准确率;而Kimi K2.5和Claude Sonnet 4.5则随着视觉令牌数量的增加而更稳定地提升,显示出它们对视觉信息密度更高的依赖性。这说明不同AI家族的"视觉阅读能力"存在差异,就像不同人阅读图表的能力也有高有低一样。

五、图形版推理的额外优势,以及令人惊讶的极端压缩实验

在AquaRat数据集上,研究团队进一步比较了排版版(T-OR)和图形版(G-OR)的表现差异。结果显示,图形版的准确率达到0.8150,高于文字推理的0.7323,也高于排版版最好成绩的0.7835。这个结果说明,图片不只是文字的压缩替代品,在某些场景下,它作为推理媒介本身具有超越纯文字的表达能力。

更令人意想不到的是研究团队进行的"极端压缩实验"。他们在Gemini 2.5 Flash上测试了把推理图片压缩到极限会发生什么——具体来说,他们把平均每道题的推理令牌数量一路压缩到1.2个(文字推理需要95.3个)。即便在这种近乎荒诞的极端压缩情况下(压缩率高达98.75%),模型依然能得到高于"完全不给推理步骤"的准确率(0.7008对0.6890)。

更有趣的是,在7.2个令牌的情况下,准确率反而达到了最高点(0.7992),超过了使用完整令牌预算(95.6个令牌)的排版版(0.7362),也超过了文字推理(0.7323)。这个现象暗示了一件非常耐人寻味的事:AI可能并不需要把图片中的每一个字都清晰地"看"出来,某种程度上,一张高度压缩的、肉眼已经看不太清楚的小图片,依然能为AI提供有价值的推理线索。这与"光学压缩"领域此前的研究发现一脉相承——视觉编码似乎有某种我们还未完全理解的信息保留机制。

六、与现有文字压缩方法的比较,以及在模型自生成推理中的验证

研究团队还把光学推理与一种现有的文字压缩方法LLMLingua-2进行了对比。LLMLingua-2的思路是直接删减文字推理步骤中的部分内容,保留关键信息,从而减少令牌数量。在AquaRat数据集上,使用相同令牌预算的情况下,排版版光学推理在所有对比的令牌预算点上均优于LLMLingua-2。LLMLingua-2在低令牌预算下的准确率甚至下降到与"无推理"相同(0.6890),说明简单地删减文字会丢失关键推理信息;而光学推理通过2D视觉编码保留了这些信息,即便图片分辨率很低,关键推理线索也没有完全丢失。

此外,前面的实验主要使用了公开数据集中预先提供的推理步骤,而非AI自己生成的推理步骤。为了验证光学推理在更真实的场景中是否有效,研究团队进一步让GPT-5.1自己在GPQA Diamond数据集上生成推理步骤,再把这些自生成的推理步骤转化为图片进行测试。结果显示,使用自生成推理的光学推理版本在多个令牌预算下都能达到甚至超越"自由推理"基准(即让AI直接生成推理和答案,不做任何压缩处理),在令牌完全不压缩(-0%)的情况下准确率为0.6919,略高于自由推理的0.6869。这验证了光学推理在真实场景下的实用价值。

七、不同渲染工具对效果的影响,以及研究的局限性

渲染工具的选择对最终效果也有影响。研究团队在GPQA Diamond上用三种不同的图片渲染工具测试了T-OR:Pillow(Python常用图像处理库)、Matplotlib(Python常用数据可视化库)和XeLaTeX(学术排版系统)。结果发现不同AI模型偏好不同的渲染风格——Qwen3-VL和Claude在XeLaTeX渲染的图片上表现最佳,而Gemini则更喜欢Matplotlib风格的图片。这说明不同AI模型在训练过程中可能"见过"不同风格的图片,从而形成了各自不同的视觉解读偏好。

研究团队坦诚地指出了这项工作的两个主要局限性。第一个是模型依赖性问题:光学推理对不同AI模型的效果不尽相同,受到各模型对分辨率、布局密度、渲染风格和视觉令牌预算的不同敏感性影响。未来的研究可能需要为不同模型定制自适应的渲染策略。

第二个局限是图形版推理的可靠性问题:AI生成的示意图并不总是准确的。以几何题为例,生成的图中标注关键对角线关系的红色线段,其位置可能偏离了真正的几何约束。这种"图形幻觉"是图形版推理引入的新型错误模式,而排版版则没有这个问题,因为它只是忠实地将文字转化为图片布局,不会改变内容本身。

说到底,这项研究做的事情可以用一句话概括:它证明了AI不一定非要用文字来"思考",一张图片同样可以承载完整的推理过程,而且通常还能用更少的计算资源完成同样甚至更好的工作。

这个发现对AI系统的实际应用有相当直接的意涵。当我们使用AI助手处理复杂问题时,推理过程的令牌消耗往往是成本和速度的主要瓶颈。如果能把推理步骤"压缩"进图片,既保留了推理的完整性,又减少了令牌的消耗,那么同样的计算预算就能处理更多的问题,或者让AI的响应速度更快、费用更低。

对于多模态任务(比如需要结合图片信息的问题),图形版光学推理还提供了一种自然整合文字推理和视觉空间信息的途径,而不需要在文字和图片之间反复切换——所有信息都在同一张"画布"上。

当然,还有一些未解之谜值得进一步探索:为什么极端压缩后反而有时能提升准确率?不同AI模型的视觉理解机制究竟有何不同?图形版推理中的"图形幻觉"问题能否通过训练或后处理来解决?这些问题都为后续研究留下了充足的空间。

有兴趣深入了解这项研究的读者,可以通过arXiv编号2606.09585找到原始论文,相关代码也已在论文中提供的GitHub仓库地址公开。

Q&A

Q1:光学推理和普通的文字推理相比,主要优势是什么?

A:光学推理把推理步骤变成图片,而不是一长串文字。这样做最直接的好处是节省令牌——在香港理工大学的实验中,语言任务平均节省了28.57%的令牌,多模态任务节省16%,整体令牌效率是文字推理的近两倍。同时,准确率不仅没有明显下降,在很多场景下还持平甚至提升了。对多模态任务来说,图形版光学推理还能把文字和图形元素整合在同一张"画布"上,这是纯文字推理做不到的。

Q2:排版版和图形版光学推理有什么区别,哪个效果更好?

A:排版版(T-OR)把推理文字和公式密集排版成图片,就像一本压缩的教科书页面,内容完全忠实于原始推理步骤,主要优势是节省令牌。图形版(G-OR)则把推理步骤画成多面板示意图,加入几何图、流程图等视觉元素,更像解题漫画,优势是能表达空间关系。在AquaRat数据集上,图形版准确率(0.8150)高于排版版最佳结果(0.7835),但图形版存在"图形幻觉"风险,生成的示意图不一定准确。

Q3:极端压缩到只有1.2个令牌时光学推理还有效吗?

A:出乎意料地有效。在Gemini 2.5 Flash上的测试显示,即便把推理图片压缩到平均每道题只剩1.2个视觉令牌(原来文字推理需要95.3个),准确率依然高于完全不给推理步骤的基准。更神奇的是,在7.2个令牌的预算下,准确率反而达到最高点,超过了完整版排版推理和文字推理。这暗示AI从图片中提取推理线索的方式,并不完全依赖于高清晰度的视觉可读性,低分辨率的图片依然能保留有效的推理信息。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。