当前位置: 首页 » 资讯 » 新科技 » 正文

LG AI研究院首发开源视觉语言模型EXAONE 4.5

IP属地 中国·北京 科技行者 时间:2026-04-22 13:11:45


这项由LG AI研究院主导开发的研究成果以技术报告形式发布于2026年4月9日,论文编号为arXiv:2604.08644v1,有兴趣深入了解的读者可通过该编号在arXiv平台查询完整报告。

一个能同时看懂图纸、读懂说明书、还能用六种语言回答问题的AI助手,听起来像科幻小说里的情节,但LG的工程师们已经把它变成了现实。这就是EXAONE 4.5——LG AI研究院历史上第一个以"开放权重"形式对外发布的视觉语言模型,也是该研究院在AI技术路线上迈出的重要一步。

所谓"开放权重",可以理解为LG把这个AI模型的内部参数公开分享给全世界的研究者和开发者,有点像一家餐厅不仅开放给客人用餐,还把厨师的菜谱一并公开。这样的做法能让全球研究社区在此基础上继续改进和创新,推动整个行业向前发展。

一、从"只读文字"到"既看图又读字"——EXAONE家族的进化之路

要理解EXAONE 4.5的价值,先得了解它的前辈们走过了什么路。LG的EXAONE系列模型就像一个不断成长的学生:最早的EXAONE 3.0和3.5专注于文字处理,相当于只会读书写字的学生;后来的EXAONE Deep专门强化了数学、科学、编程等领域的推理能力,像是参加了数理竞赛培训;再后来的EXAONE 4.0进化成一个"双模式"系统,既能轻松应对日常对话,也能在面对高难度问题时切换到深度推理状态。

但这些前辈有一个共同的局限:它们只能理解文字,看不懂图像。对于工厂里复杂的电路图、医院里的医学影像、工程师手头的设计蓝图,这些模型统统束手无策。EXAONE 4.5的诞生就是为了突破这道屏障——它给这个文字高手装上了一双"眼睛",让它既能读文又能看图。

用一个更形象的比喻:以前的EXAONE就像一个博学的盲人,能够流利背诵百科全书,却无法判断面前摆的是苹果还是橙子。EXAONE 4.5则是在这位博学者身上装了一套精密的视觉系统,让他第一次真正"看见"了世界。

二、架构设计:如何给语言模型装上一双好眼睛

EXAONE 4.5的核心架构可以用"大脑加眼睛"来理解。它的语言理解部分继承自EXAONE 4.0的32亿参数(准确说是320亿,即32B)语言模型,这是模型的"大脑",负责理解和生成语言。而新增的"眼睛"则是一个专门从零开始训练的12亿参数视觉编码器。

为什么要特别强调"从零开始训练"?因为市面上现有的视觉编码器要么规模太小,要么效率不够高,无法满足LG工程师的具体需求。于是研究团队干脆自己设计并训练了这个12亿参数的视觉编码器,确保它能够与整个系统的架构完美契合。

视觉编码器和语言模型之间,还有一个叫做"MLP投影器"的连接模块,可以把它理解为翻译官——它把视觉编码器"看到"的内容翻译成语言模型能够理解的格式,让两个原本说"不同语言"的系统能够顺畅沟通。

在处理图像时,有一个关键的技术挑战:图像越高清,处理它所需的计算资源就越多。以前很多模型为了省资源,会把图像"压缩"得很厉害,导致丢失大量细节。EXAONE 4.5选择了不同的路——它用一个足够大(12亿参数)的视觉编码器来处理高分辨率图像,同时支持"原生分辨率"输入,也就是说图像不需要被强制缩小,保留了原始的细节信息。这就像拍照时选择最高画质,而不是为了省存储空间压缩成低画质。

为了在保持高质量的同时控制计算成本,模型还用到了几个聪明的技术。首先是"分组查询注意力机制",简称GQA——这个技术可以理解为一种更高效的信息处理方式,让模型在处理图像时不需要重复做太多冗余计算,节省了大量算力,同时也得到了现代推理框架的广泛支持,部署起来更方便。

其次是"混合注意力机制",它帮助模型在处理长文本或者多张图片时,能够更有效地管理注意力资源,就像一个有经验的读者在阅读长文章时会合理分配注意力,而不是死盯着每一个字。

还有一个叫做"2D旋转位置编码"(2D RoPE)的技术,专门用于视觉编码器。普通的语言模型处理的是一维的文字序列,就像读一行文字,从左到右依次理解。但图像是二维的,有宽度也有高度,位置信息更复杂。2D旋转位置编码就专门为此设计,让模型能够理解"这个物体在图像的左上角"、"那个符号在右边第三行"这样的空间位置关系。相比之下,语言模型依然使用标准的一维位置编码,这样既保证了图像理解的精准性,也不影响语言理解的性能。

此外,模型还引入了"多令牌预测"模块,借鉴自LG此前的K-EXAONE项目。这个模块可以让模型在生成文字时一次预测多个词,相当于打字时不是一个字一个字地敲,而是整词、整句地输入,大大提升了输出速度。不过在实际推理时,这个模块会被关闭,以确保输出质量。

分词器也做了专门优化。EXAONE 4.5复用了K-EXAONE的分词器,相比EXAONE 4.0的版本,它在多语言支持和韩语处理方面有显著提升,能够更准确地理解和生成多种语言的文本。

三、训练过程:一场精心设计的"多阶段特训"

训练EXAONE 4.5就像培养一名全能运动员,不能一上来就让他参加奥运会,而是要按照由浅入深的课程逐步强化。整个预训练过程分为两个大阶段,总计处理了超过6450亿图像令牌和5100亿文本令牌。

在正式的双模态联合训练开始之前,研究团队先单独训练了视觉编码器,让它学会如何"看图",采用的是一种自回归目标的训练方式,灵感来自OpenVision2的方法,确保视觉编码器的输出格式与整体架构兼容。

第一阶段被称为"基础模态对齐"。在这个阶段,视觉编码器、投影器和语言模型三者一起进行端对端的联合训练,序列长度设定为8000个令牌,总计算量约为1.57×10??次浮点运算。训练数据的组合非常多元:既有一般性的图文配对数据,也有交错排布图文的文档数据,还有专门用于文档理解的数据集和以OCR(光学字符识别)为核心的样本。特别值得一提的是,为了防止加入视觉训练后语言能力退步,研究团队还在训练数据中加入了K-EXAONE流水线中的纯文本数据,就像让一个学美术的学生同时不放弃语文练习。

第二阶段叫做"感知与知识精炼",序列长度同样保持8000个令牌,总计算量约为6.43×10??次浮点运算。这个阶段的重点是调整数据配比:减少通用域数据的比例,转而增加视觉定位、文档解析和OCR相关的高密度结构化数据。同时引入了涵盖知识、数学和STEM领域的多样化数据集,为后续处理复杂多模态任务打下基础。整体策略是从"宽泛的视觉文本对齐"过渡到"对结构化、领域特定数据的深度理解"。

在训练数据的构成方面,研究团队投入了大量精力进行精细化设计。图像描述数据以韩英双语配对为主,针对原始网络抓取的图文数据描述过于简短和噪声多的问题,研究团队构建了一套合成描述生成流水线,专门用来丰富语义内容。为了缩小通用预训练数据和实际下游任务之间的差距,还引入了面向任务的图像,包括数学图形、图表、示意图和文档解析相关内容。整个流水线以视觉信息丰富度和图文对齐为优化目标,强调实体多样性、视觉复杂性和细粒度细节,同时利用现有元数据作为合成生成的参考依据,以减少幻觉现象。

交错图文数据方面,研究团队借鉴了成熟的大语言模型数据过滤方法,从多个开源资源和内部资源中提取高质量的多模态网络内容。他们使用了一个轻量级的文本分类器,根据教育质量分数和STEM相关性对文本部分进行评估,过滤掉低价值的网络噪声,同时对高信息密度文档进行重点采样。保留图文自然排列顺序的设计使模型能够在长上下文中处理多模态信息,并将非相邻的视觉和文本线索关联起来。

OCR和文档数据的构建非常细致,涵盖了英语和韩语,在字符、词语和文档三个层面上整合了开源和内部资源。合成的OCR图像使用多样化的背景和对比度不同的视觉混淆词对,模拟真实场景中的识别难度。各类文档解析任务还包括将图表、表格和文档转换为HTML、Markdown和JSON等结构化格式,帮助模型学习版面理解和语义结构重建。

视觉定位和计数数据有一套专门的构建流水线。所有物体位置统一用边界框格式表示,坐标经过归一化处理后缩放到0到1000的范围。计数任务则以合成生成为主,避免真实世界数据中遮挡、拥挤等噪声问题,并通过对计数范围和对象类型进行显式平衡来消除偏向少量、简单类别的偏差,随后经过迭代精炼增加难度和多样性。

STEM和推理数据通过一套基于搜索的合成流水线来解决高水平学术内容稀缺的问题,覆盖复杂数学图形、工程示意图和科学图解。提取的元数据被用于生成长链式思维数据,将视觉感知与深度知识推理结合起来。训练过程遵循渐进式课程:先用宽泛过滤策略保证视觉多样性,然后对专项数据集进行战略性上采样,弥补剩余性能差距。

韩语专项数据是EXAONE 4.5的一大特色。研究团队专门整理了韩国旅游局的数据集,涵盖大量韩国历史和当代文化的图文描述,帮助模型积累深厚的文化知识。为了覆盖活跃用户群体中流行的游戏和IT内容,还使用了IT Donga和Game Donga的数据集,让模型能够全面理解现代韩国数字文化。在推理任务方面,除了沿用英语STEM流水线外,还额外采用了一种"文字渲染为图像"的策略,把基于文字的题目转换为高分辨率渲染图像,确保模型能够稳健地解析和求解格式化的韩语学术内容。

四、从8K到256K:如何让模型读懂"超长文档"

一般的AI模型就像一个短期记忆很有限的人——你给他看的内容太多,他就记不住前面说了什么。EXAONE 4.5的目标是支持最多256,000个令牌的上下文长度,相当于大约20万汉字的超长文档。这对于需要分析整本技术手册或跨页面图表的工业应用场景至关重要。

实现这一目标的方式颇为巧妙。通常的做法是先把模型训练好,再单独做一个"上下文扩展"的阶段,就像先造好一辆车,再专门改装成越野车。EXAONE 4.5却把上下文扩展直接融入了监督微调阶段,让模型在学习如何遵循指令的同时,一并学会处理超长内容。

这种方法奏效的一个关键原因是底座足够扎实——EXAONE 4.0语言模型本身就已经支持128K的上下文长度。在这个高起点上继续扩展到256K,比从只支持4K的模型开始扩展要稳定得多,就像已经跑过半程马拉松的运动员,再多跑几公里比从零起跑的人容易得多。视觉编码器此时也能发挥积极作用,因为它已经通过多模态预训练与语言模型良好对齐,在多模态场景下同样能保持稳定的长上下文处理能力。

计算层面,处理256K长度的序列对内存和算力的需求是巨大的。为此,研究团队引入了"上下文并行"技术,把超长序列分散到多个计算节点上并行处理,就像把一份超长的报纸分成多段,让多个人同时阅读,再汇总各自的理解,从而维持了高训练吞吐量。

五、精细打磨:监督微调、偏好优化与强化学习三管齐下

预训练完成后,研究团队还对模型进行了多轮精细化训练,就像一把刀锻造好之后还要经过打磨和开刃才能真正好用。

监督微调阶段构建了一个覆盖多领域、多模态的高质量训练数据集。与其用单一的数据处理流水线一刀切,研究团队按照不同的能力域来组织数据,并为每个领域定制了不同的策略。训练数据覆盖了视觉理解、语言使用、推理和指令遵循等多种能力,既包含文档中心型输入,也涵盖通用多模态输入,让模型形成广泛的泛化能力。

监督微调同时整合了"非推理模式"和"推理模式"两种监督信号——前者对应日常对话型任务,后者对应需要深入分析的复杂问题,就像一个人既会轻松闲聊,也能在需要时切换到严肃思考模式。多阶段的课程式训练设计让模型能够循序渐进地强化各项能力,避免顾此失彼。语言支持方面,微调数据覆盖了韩语、英语、西班牙语、德语、日语和越南语六种语言的指令跟随场景。

偏好优化阶段采用了"离线偏好优化"方法,在训练流水线的不同位置分多个阶段插入。每个阶段针对特定能力,包括OCR、图表理解、视觉识别、对话、指令遵循和安全性。对于视觉任务,使用了DPO(直接偏好优化)方法,通过参考模型提供稳定的优化信号,β参数设为0.1;对于文本任务,使用了GROUPER方法,能更有效地利用包含多个拒绝回答的数据集,G参数固定为4。两种方法分别针对视觉和文本任务的特点量身选用,而非一律套用同一算法。

强化学习阶段通过跨文本和视觉的联合多模态强化学习进一步增强推理能力。文本数据涵盖数学、编程、知识和指令遵循任务;视觉数据涵盖通用视觉理解、STEM推理、图表、OCR、文档理解和多图场景。奖励机制上,文本任务沿用K-EXAONE的奖励系统,视觉任务则针对不同任务设计了专门的奖励函数。策略优化使用了GRPO算法配合IcePop设置,并应用了零方差过滤——即如果一组样本中所有样本的优势值都为零,就直接跳过该组。优势值的计算方式是每个样本奖励减去组内平均奖励,同时省略了标准差归一化,以保持训练稳定性。

六、评测结果:用数字说话,它究竟有多厉害

在视觉基准测试方面,研究团队将EXAONE 4.5(33B参数)与多个强劲对手进行了比较,包括GPT-5 mini(OpenAI的强力闭源模型)、Qwen3-VL-32B(阿里巴巴的32B密集模型)、Qwen3-VL-235B(阿里巴巴的超大规模混合专家模型,总参数236B但每次激活约23B)以及Qwen3.5-27B(密集型推理模型)。

在STEM和推理类测试中,EXAONE 4.5的表现相当亮眼。在MATH-VISION数学视觉推理测试中得分75.2,超过了参数规模是它七倍以上的Qwen3-VL-235B(74.6分);在WE-MATH测试中得分79.1,同样高于Qwen3-VL-235B(74.8分)。面对GPT-5 mini这个强劲的闭源对手,EXAONE 4.5在MMMU-PRO上取得68.6分(GPT-5 mini为67.3分),在MATH-VISION上取得75.2分(GPT-5 mini为71.9分),均有超越。MMMU(大规模多学科多模态理解)得分78.7,MATHVISTA(mini)得分85.0,LOGICVISTA得分73.8。

文档理解是EXAONE 4.5的重点强化领域。在CHARXIV图表理解测试中得分71.7,明显高于Qwen3-VL-235B的66.1分。在AI2D图示理解测试中得分89.0,超过GPT-5 mini的88.2分。在OMNIDOCBENCH文档基准测试中得分81.2,超过GPT-5 mini的77.0分。CHARTQAPRO图表问答得分62.2,OCRBENCH v2光学字符识别得分63.2。

通用视觉测试方面,在Blink测试中得分68.8,超过Qwen3-VL-235B的67.1分;MMSTAR得分74.9,HALLUSIONBENCH得分63.7。

韩语视觉理解方面,KMMMU得分42.7,高于GPT-5 mini的42.6分和Qwen3-VL-235B的42.1分;K-VISCUIT得分80.1,高于GPT-5 mini和Qwen3-VL-32B的78.5分;KRETA得分91.9。

在语言基准测试方面,对比的模型增加了LG自己的K-EXAONE-236B-A23B(更大规模的混合专家模型)。推理类测试中,EXAONE 4.5在LIVECODEBENCH V6编程能力测试上取得81.4分,超越所有对比模型,包括K-EXAONE的80.7、GPT-5 mini的78.1、Qwen3-VL-235B的70.1和Qwen3.5-27B的80.7。AIME 2026数学竞赛测试得分92.6,排名第二(仅次于Qwen3.5-27B的93.2分,但高于GPT-5 mini的92.4分和K-EXAONE的92.2分)。GPQA-DIAMOND研究生水平问答得分80.5,MMLU-PRO得分83.3。

智能体工具使用测试(τ?-BENCH)是EXAONE 4.5的另一个亮点。在零售场景子集得分77.9,航空场景得分56.5,电信场景得分73.0,加权平均综合得分72.0,大幅超过Qwen3-VL-235B的57.0分。指令遵循测试中,IFBENCH得分62.6,高于Qwen3-VL-235B的59.2分;IFeval得分89.6,高于Qwen3-VL-235B的88.2分。

长上下文理解测试AA-LCR得分50.6。韩语语言测试中,KMMLU-PRO得分67.6,高于K-EXAONE的67.3分;KOBALT得分52.1,超过Qwen3-VL-235B的51.1分。多语言测试中,MMMLU覆盖韩语、德语、西班牙语、日语四种语言,得分85.4;WMT24++翻译测试覆盖五种语言(含越南语),得分91.5,超过K-EXAONE的90.5分。

七、EXAONE 4.5能在工业场景里做什么

以工厂为例:传统的质量检测需要人工在流水线旁盯着产品一个个检查,不仅费人力,还容易因为疲劳产生漏检。有了EXAONE 4.5这样的视觉语言模型,AI可以实时分析流水线摄像头的视频画面,自动识别产品表面的划痕、变形、颜色异常等缺陷,同时还能用语言描述发现了什么问题,给出处理建议,甚至生成质检报告。

在工程维护领域,工程师有时需要翻阅厚厚的技术手册、对照复杂的管道示意图,才能判断某个设备的故障原因。EXAONE 4.5可以同时"看"图纸、"读"说明书,把视觉信息和文字信息综合起来,自动完成合规检查,生成诊断报告,大幅缩短维修响应时间。

从更长远的视角来看,EXAONE 4.5在LG的技术路线图中承担着"跳板"的角色。研究报告明确指出,视觉语言能力是迈向"视觉-语言-动作"模型(VLA)的关键一步。VLA模型不仅能看懂图像、理解语言,还能将这些理解转化为实际的物理操作指令,指挥机器人在工厂、仓库、医院等真实环境中自主完成任务。EXAONE 4.5就是这条路上不可或缺的基础设施。

八、模型的局限性和使用条款

任何技术都有其边界,LG的研究团队在报告中坦诚地列出了EXAONE 4.5的局限性。模型生成的内容基于训练数据中的统计规律,可能会包含个人信息、有害内容或带有年龄、性别、种族等方面的偏见;也可能在语义或语法上出现错误;由于训练数据有截止日期,模型不反映最新信息,可能给出过时或不准确的答案。LG明确表示,模型生成的文字不代表LG AI研究院的立场,用户不得将模型用于任何违反LG AI伦理原则的活动。

使用授权方面,EXAONE 4.5采用的是EXAONE AI模型许可协议1.2版(非商业版),由LG管理发展研究院作为许可方授权。该协议允许用户访问、下载、安装和使用模型,但仅限于研究和教育目的,涵盖评估、测试、学术研究、实验、学习、教学、培训以及非商业性质的竞赛参与。用户可以公开披露基于模型或衍生品的研究结果,也可以修改模型并在研究和教育范围内创建衍生品,修改后的模型名称必须以"EXAONE"开头。协议明确禁止将模型用于任何商业目的,禁止逆向工程、违法使用和不道德使用,并禁止将模型用于开发或改进与LG模型竞争的产品。

说到底,EXAONE 4.5的发布代表着LG在AI领域的一次重要跨越——不仅是技术上的跨越,更是开放理念上的跨越。一个33B参数的开放权重视觉语言模型,能够在数学推理和文档理解上挑战参数规模是它七倍的竞争对手,在编程能力测试上力压一众强敌,在韩语理解上展现出独特优势,这样的成绩确实值得记录。

未来EXAONE系列将继续向更多领域和应用场景扩展,研究团队也明确了向视觉-语言-动作模型演进的方向。如果你对这个领域感兴趣,不妨追踪LG AI研究院的后续动态,或者通过arXiv编号2604.08644v1查阅这份完整的技术报告,亲自探索这些技术细节背后的更多可能性。

Q&A

Q1:EXAONE 4.5和普通的文字AI有什么区别?

A:EXAONE 4.5是一个视觉语言模型,意味着它既能理解文字,也能看懂图像。普通的文字AI只能处理文本输入,而EXAONE 4.5能同时分析图片内容和文字描述,适合工厂质检、工程图纸分析、文档解析等需要同时处理图文信息的场景。

Q2:EXAONE 4.5支持哪些语言?

A:EXAONE 4.5支持六种语言,分别是韩语、英语、西班牙语、德语、日语和越南语。其中韩语是重点优化方向,模型在韩语理解和文化知识方面有专项数据训练,在多个韩语基准测试上的表现超过了一些参数规模更大的竞争对手。

Q3:EXAONE 4.5可以商用吗?

A:不可以直接商用。EXAONE 4.5采用非商业许可协议,仅允许用于研究、教育、学术实验等非商业目的。如果企业或开发者希望将其用于商业产品或服务,需要与LG管理发展研究院单独签署商业许可协议。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。