当前位置: 首页 » 资讯 » 新科技 » 正文

DeepSeek-OCR 2发布:让AI像人一样“读懂”复杂文档

IP属地 中国·北京 编辑:胡颖 凤凰网科技 时间:2026-01-27 20:43:59

1月27日,DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源DeepSeek-OCR 2模型。

该模型采用创新的DeepEncoder V2新型编码器结构,它能够根据图像语义动态调整视觉信息的处理顺序,使模型在进行文字识别前先对视觉内容进行智能排序。这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。

在传统的视觉语言模型中,图像通常会被切分为若干视觉token,并按照从左上到右下的固定栅格顺序送入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的方式并不一致。

DeepSeek论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅依赖空间顺序可能限制模型对内容结构的理解能力。

为验证模型性能,研究团队在OmniDocBench v1.5基准上进行了全面评估。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。

测试结果显示,在视觉token上限更低的情况下,DeepSeek-OCR 2的整体得分达到91.09%,相较DeepSeek-OCR提升了3.73%。特别是在阅读顺序准确度方面,编辑距离从0.085降至0.057,表明新模型能够更合理地理解文档内容结构。

标签: 模型 视觉 文档 顺序 结构 内容 传统 语言 公式 基准 学术论文 中英文 论文 开源 语义 人类 报告 图像 场景 编辑 方面 准确度 逻辑 表格 智能 排序 信息 多种类型 动态 方式 距离

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。