10月24日消息,DeepSeek在10月20日发布的3B参数开源OCR模型,迅速在AI领域获得了广泛关注和讨论。
DeepSeek-OCR模型创新性地提出“上下文光学压缩”技术,将长文本转换为图像进行高效压缩处理,大幅降低大模型输入所需的Token数量,从而显著降低大模型处理长文档时的计算开销。
其核心理念被评价为“AI的JPEG时刻”,通过视觉输入模拟人类记忆衰减机制,将久远上下文压缩为低分辨率图像,实现自然遗忘,从而优化长上下文管理,其被认为为AI的记忆和上下文处理架构打开了新路径。
这一思路获得 Andrej Karpathy 等业界专家高度评价,认为可能改变 AI 理解信息的方式。
DeepSeek-OCR模型在GitHub上迅速获得过万星标,在HuggingFace也登上热榜,证明了其受开发者欢迎的程度。
DeepSeek-OCR开源

DeepSeek-OCR模型在 OmniDocBench 测试中表现优异。仅用100 个视觉 token*即超越 GOT-OCR2.0(256 token),用不足800视觉 token超越 MinerU2.0(超 6000 token),实现高达 60 倍的 token 效率提升。
实测数据显示,在 10 倍压缩率下 OCR 解码准确率达 97%,即使在20倍压缩率下仍保持约 60% 准确率,支持多分辨率输入(如 tiny: 512x512 到 large: 1280x1280)及动态分辨率模式(Gundam 模式)。
DeepSeek-OCR的出色表现,源于其精巧的“编码器-解码器”架构设计。
DeepEncoder编码器是模型的核心引擎,其参数量约为3.8亿。它创新性地串联了SAM-base和CLIP-large两个视觉模型。SAM-base利用窗口注意力机制捕捉局部细节,而CLIP-large则通过全局注意力理解图像的整体语义。两者之间通过一个卷积模块进行16倍下采样,显著减少了需要处理的视觉Token数量,从而在高分辨率输入下也能保持较低的计算消耗。
DeepSeek3B-MoE解码器是一个参数量为30亿的混合专家模型 (MoE)。在推理时,它每次仅激活约5.7亿参数,这使得它既能具备大模型的强大表达能力,又保持了小模型的轻量级推理效率,负责从压缩后的视觉Token中精准地还原出原始文本。

模型已在 GitHub 与 Hugging Face 开源,并上线超算互联网平台提供免费在线推理服务,单块 A100-40G GPU 每日可生成超 20 万页高质量训练数据,显著降低数据制备成本。
海内外如何评价?真香
DeepSeek-OCR 模型自发布以来,凭借其创新的“上下文光学压缩”思路,在AI领域获得了广泛关注。
特斯拉前自动驾驶负责人、OpenAI联合创始人安德烈•卡帕西(Andrej Karpathy)在X发长文盛赞DeepSeek-OCR 模型,认为像素可能比文本更适合作为LLM的输入。他提出,即便纯文本也应先渲染成图像再输入,这样信息压缩效率更高,并有望淘汰存在安全和效率问题的分词器 (Tokenizer)。

特斯拉创始人埃隆•马斯克 (Elon Musk)则在卡帕西的讨论下评论,从长远看,AI模型超过99%的输入和输出都将是光子(光学信号)。
360创始人周鸿祎直接指出,以前的OCR是逐个认字符,不管文字多长都要一个个token堆。但DeepSeek-OCR是把文字当图片压缩,就像把一千字的文档转成JPG,体积小了但内容没丢。这招直接解决了OCR的两大痛点,精度不够和成本太高。

《麻省理工科技评论》发文指出DeepSeek-OCR模型具备较强的"深度解析"能力,能将图表转为表格、解析化学分子式等,拓展了其在金融、科研等专业领域的应用空间。
长江证券研究报告则认为DeepSeek-OCR模型验证了视觉Token可以更高效地表达信息,提供了降本新思路,有望成为文档智能领域的基础组件。
在开发者社区,有从业者赞叹,DeepSeek的论文每篇都是精品,R1养活了一批研究强化学习的人,OCR这篇意味CV研究员的春天到来了。
由斯坦福大学学生开发的学术论文在线交流平台AlphaXiv宣布用DeepSeek OCR从自己论文库中的50W+篇AI相关的文章中的表格与图表中,提取了每一个数据集,来看哪个benchmark最流行,并发布成一个新的数据集。这个操作总共花费了1000美元;同样的项目用Mistral OCR要7500美元。

有行业从业者就表示,AlphaXiv做的这件事意义远超技术本身。AlphaXiv用DeepSeek OCR做的,不只是一次“便宜又快”的信息提取实验,而是一种研究范式的跃迁。当OCR成本降到每篇几厘钱,谁先把“学术表格与图表”这座金矿变成一张可查询、可比较、可复用的“Benchmark 图谱”,谁就掌握了下一轮模型评测与研发决策的话语权。
谈到DeepSeek-OCR模型的开源将对行业带来多大冲击?
周鸿祎认为:“首先那些靠OCR技术收费的公司压力山大了,人家免费开源的效果比你收费的还好。其次文档处理、数据录入、内容审核这些传统行业也要变天了,以前需要大量人工的工作,现在AI几秒钟就搞定。最关键的是这会加速整个AI生态的发展,更多创业公司能用上顶级技术,行业竞争会更激烈。”
目前,DeepSeek OCR模型热度也带火了多款OCR相关模型,百度PaddleOCR-VL、阿里Qwen3-VL-8B-Instruct、Nanonets-OCR2-3B等在Hugging Face上均排到模型前几名。

OCR发展历史
事实上,OCR(Optical Character Recognition,光学字符识别)技术发展经历多个重要发展阶段。从最早的模板匹配到现在的端到端深度学习,每个阶段都有其标志性技术突破。
1929年,德国科学家 Gustav Tauschek申请了首个OCR相关的专利。他的装置使用模板和光电管来识别字符,属于机械式识别。早期仅能识别0-9数字等固定字体。
随着计算机的出现,OCR的概念开始成型。IBM的David H. Shepard 在1951年建造了“Gismo”*机器,被认为是第一台能识别印刷英文字母的计算机,并成立了世界第一家OCR公司。
此后,计算机科学的发展推动了OCR进入真正的数字化和算法化阶段。随着计算能力的提升和统计学习理论的发展,OCR技术变得更加鲁棒和通用。OCR技术从特征提取与模式识别,发展到从纯粹的几何特征转向基于统计模型的分类。
深度学习的出现,特别是卷积神经网络(CNN),彻底改变了OCR领域,使其性能达到了前所未有的高度。CNN架构(如CRNN模型)实现端到端训练,提升文字检测精度,复杂场景识别率从2013年的58%跃升至2018年的89%左右。
在此阶段,百度推出的开源工具库PaddleOCR,集成了当时最先进的检测和识别模型,推动了OCR的工业化应用。OpenMMLab旗下的开源工具箱MMOCR,采用模块化设计,支持多种前沿算法。
深度学习OCR系统能够在复杂背景、光照不均、字体多变、角度倾斜等挑战性场景下取得极高的准确率(99%+)。这使得OCR应用场景从扫描文档扩展到了自然场景文本识别。例如,OCR技术已经广泛应用于教学领域。
当前,OCR技术正与多模态大模型融合,其目标不再是单纯的“文字识别”,而是升级为全面的“文档智能理解”。
如GPT-4V、Gemini等,它们内置了强大的视觉理解能力,能够直接对文档图像进行问答、总结、提取信息等,OCR成为其底层能力之一。与此同时,Donut、Pix2Struct等模型,则展示了无需OCR即可直接“理解”文档图像的端到端能力。
这一次,DeepSeek-OCR代表了另一个前沿方向——“上下文光学压缩”。它不再追求将每个像素都精确转换为文本,而是探索如何以极高的效率压缩和保留文档中的语义信息,为处理海量长文档提供了新范式。
纵观OCR技术的发展史,这是一条从 “机械之眼”到“认知之脑”*的演进之路。在方法上,经历了从 模板匹配→ 特征工程→ 统计学习→ 深度学习→多模态理解的发展,在能力上,实现了从识别单一字体→识别多字体→应对复杂场景→理解文档语义的跃迁。
DeepSeek-OCR 之所以能引发如此热烈的讨论,主要归功于它在以下几个方面的突破:
首先,最值得称道的是,思想上的根本性创新。
DeepSeek-OCR跳出了传统纯文本处理的框架,提出了一种名为“上下文光学压缩”的思路。利用“一图胜千言”的道理,将长文本转换为图像并进行高倍率压缩,让模型通过“看图”来理解和还原内容。
DeepSeek-OCR变换了处理方式后,不仅有更优的性能与效率,同时还展现出强大的结构化信息解析能力,不仅限于文本识别。它可以将金融报告中的图表直接转换为表格数据,将化学分子式输出为专业的SMILES格式,或解析几何图形中的关系。这使其在专业领域具有极高的应用价值。
其次,DeepSeek-OCR也给未来OCR研究提供了新方向的启发。研究团队提出了一个有趣的构想,即用这种光学压缩的方式来模拟人类的“遗忘机制” 。近期记忆用高分辨率保留细节,远期记忆则逐步压缩、变得模糊,这为AI处理无限长上下文提供了一个全新的、更接近人类智能的思路。(果青)





京公网安备 11011402013531号