当前位置：首页 » 资讯 » 新科技 » 正文

DeepSeek-OCR 2发布：让AI像人一样“读懂”复杂文档

IP属地中国·北京 编辑：胡颖凤凰网科技 时间：2026-01-27 20:43:59

1月27日，DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文，并开源DeepSeek-OCR 2模型。
该模型采用创新的DeepEncoder V2新型编码器结构，它能够根据图像语义动态调整视觉信息的处理顺序，使模型在进行文字识别前先对视觉内容进行智能排序。这项技术突破源于对传统视觉语言模型处理方式的重新思考，旨在让机器更贴近人类的视觉阅读逻辑。
在传统的视觉语言模型中，图像通常会被切分为若干视觉token，并按照从左上到右下的固定栅格顺序送入模型处理。这种方式虽然实现简单，但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的方式并不一致。
DeepSeek论文指出，尤其在版式复杂的文档场景中，视觉元素之间往往存在明确的逻辑先后关系，仅依赖空间顺序可能限制模型对内容结构的理解能力。
为验证模型性能，研究团队在OmniDocBench v1.5基准上进行了全面评估。该基准涵盖多种类型的中英文文档，包括学术论文、杂志、报告等，重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。
测试结果显示，在视觉token上限更低的情况下，DeepSeek-OCR 2的整体得分达到91.09%，相较DeepSeek-OCR提升了3.73%。特别是在阅读顺序准确度方面，编辑距离从0.085降至0.057，表明新模型能够更合理地理解文档内容结构。

标签：模型视觉文档顺序结构内容传统语言公式基准 学术论文 中英文 论文开源语义人类报告图像场景编辑方面 准确度 逻辑表格智能排序信息 多种类型 动态方式距离重

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用