当前位置: 首页 » 资讯 » 新科技 » 正文

击败99%人类玩家!智谱开源GLM-4.5V,拿下41个SOTA

IP属地 中国·北京 编辑:顾雨柔 学术头条 时间:2025-08-12 12:24:59


多模态推理被视为通向通用人工智能(AGI)的关键能力之一,让 AI 能够像人类一样综合感知、理解与决策。其中,视觉-语言模型(VLM)是实现多模态推理的核心基础。

今年 7 月,智谱发布并开源了全球 10B 级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大,展现了小体积模型的极限性能潜力,上线后迅速登上 Hugging Face Trending 榜首,并累计获得超过 13 万次下载。

昨天,智谱又发布了他们在通向 AGI 道路上的又一探索性成果——全球 100B 级效果最佳的开源视觉推理模型GLM-4.5V(总参数 106B,激活参数 12B)。

保持一贯的风格,GLM-4.5V 发布当天即同步在魔搭社区与 Hugging Face 开源。

开源列表:

GitHub:https://github.com/zai-org/GLM-VHugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

在线体验:

前往z.ai,选择 GLM-4.5V 模型,上传图片或视频,即刻体验;或前往智谱清言APP/网页版,上传图片,开启“推理模式”进行体验。

此外,在保持高精度的同时,GLM-4.5V 兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模态 AI 解决方案,现已上线智谱开放平台BigModel.cn

API 调用价格:低至输入 2 元/M tokens,输出 6 元/M tokens响应速度:达到 60-80 tokens/sAPI 接口文档:http://docs.bigmodel.cn/api-reference

开源多模态 SOTA

据介绍,GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线,41公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。


在多模态榜单之外,智谱更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:

图像推理(场景理解、复杂多图分析、位置识别)

视频理解(长视频分镜分析、事件识别)

GUI 任务( 屏幕读取、图标识别 、桌面操作辅助)

复杂图表与长文档解析(研报分析、信息提取)

Grounding 能力(精准定位视觉元素)

同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。

为帮助开发者直观体验 GLM-4.5V 的模型能力,打造专属于自己的多模态应用,智谱同步开源了一款桌面助手应用


开源链接:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

该桌面应用可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。

典型示例 1.视觉定位:精准识别和定位目标物体,应用潜力强大

GLM-4.5V 能够根据用户提问,精准识别、分析、定位目标物体并输出其坐标框。该能力在现实世界拥有广阔的应用场景,例如安全与质量检查、高空遥感监测分析。相较于传统的基于视觉模型的物体识别,GLM-4.5V 凭借更丰富的世界知识与更强大的语义理解能力,能够通过推理理解更复杂的定位指令。

2.前端复刻:输入网页截图或交互视频,即可复刻网页

GLM-4.5V具备强大的推理与代码生成能力,能够对上传的网页截图进行分析,并将其转化为结构化的网页代码。与简单的图像元素识别不同,GLM-4.5V能够深入理解并推断元素间的逻辑关系、布局规则和交互意图,从而生成高度准确且功能完整的网页代码。

值得注意的是,GLM-4.5V在未对视频输入进行专门训练的情况下,也能结合视频理解与代码生成能力,通过其强大的泛化能力对网页交互视频进行分析,输出相应的网页代码,成功复刻视频中展示的网页内容。

在以下示例中,GLM-4.5V能够通过分析用户浏览知乎的视频,精准识别网页中所有元素的内容、样式与布局,并还原其背后的HTML、CSS和Javascript代码,确保运行效果与原始视频高度一致。同时,模型会分析视频帧间的动态变化,建模并实现网页交互逻辑,最终复刻出真正可交互的前端页面。此外,用户可通过圈选标记方式向模型提出修改需求,模型据此进一步优化页面,实现真正的视觉交互闭环。

3.图像识别与推理:视觉神探,精准识别图像细节并推理背景信息

GLM-4.5V具备强大的感知与推理能力。一个典型应用是:在不依赖搜索工具的情况下,模型能通过图像中的细微线索推理出背景信息。例如,上传任意风景或街拍图片后,GLM-4.5V可分析植被特征、气候痕迹、建筑风格等要素,精准推测图片拍摄地点及大致经纬度。

为验证GLM-4.5V的地点识别能力,智谱让其参与"图寻游戏"全球积分赛,与国内两万余名顶尖人类玩家同台竞技。该游戏要求玩家在限定时间内,根据风景街景图片推测拍摄地的经纬度,比拼速度与精度。

- 参赛16小时:GLM-4.5V击败99%的人类玩家

- 参赛7天:模型攀升至全球第66名

这一结果充分证明了GLM-4.5V在复杂视觉推理任务中的卓越表现。


4.复杂文档深度解读: 不止擅长信息提取、总结和翻译,也能表达自己的见解

GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本,能够对文本进行总结、翻译、图表提取等操作;此外,还能在给定信息的基础上输出自己的"观点"。与传统的OCR信息提取+文本模型解读的方式不同,GLM-4.5V会像人类一样,以视觉方式读取文档中的每一页图片,避免了信息提取过程中的错误传递,实现了文字与图像的同时理解,因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。

例如,给GLM-4.5V上传一份图文并茂的技术报告,让它翻译并解读其中的技术亮点。


5.强大的 GUI Agent 能力,为 Agent 任务打基础

基于强大的视觉推理能力,GLM-4.5V 能够识别和处理电子屏幕画面, 在 GUI 环境中进行对话问答、图标定位等任务。同时,他们将 GUI Agent 的能力融合到基座模型,模型能够结合当前 GUI 界面与用户指令输出相应操作,配合相应的 Agent 软件能够 完成复杂的 GUI Agent 任务,为广大 Agent 项目提供可靠的 基座 模型支持。

例如,给 GLM-4.5V 传入一张陈列了数十个商品的电商页面,让它识别商品图中的折扣价格与标题中的原价,并且计算出折扣比例。

技术细节


GLM-4.5V 由视觉编码器、MLP 适配器和语言解码器三部分组成,支持 64K 多模态长上下文,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型采用双三次插值机制,有效增强了模型对高分辨率及极端宽高比图像的处理能力与稳健性;同时,引入三维旋转位置编码(3D-RoPE),显著强化了模型对多模态信息的三维空间关系的感知与推理能力。

GLM-4.5V 采用三阶段策略:预训练、监督微调(SFT)和强化学习(RL)。其中,在预训练阶段,他们结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力;在 SFT 阶段,他们引入了显式“思维链”格式训练样本,增强了 GLM-4.5V 的因果推理与多模态理解能力;最后,RL 阶段,他们引入全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),GLM-4.5V 在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。