当前位置: 首页 » 资讯 » 新科技 » 正文

百度飞桨团队突破:0.9B超轻量级模型如何让文档识别变得又快又准

IP属地 中国·北京 科技行者 时间:2025-12-22 22:17:34


这是一个来自百度飞桨团队的重要研究成果。由Cheng Cui、Ting Sun、Suyin Liang等多位研究者组成的团队,在2025年11月发表了这项突破性研究,论文编号为arXiv:2510.14528v4。这项工作发表在计算机视觉领域,代表了文档解析技术的最新进展。有兴趣深入了解的读者可以通过这个论文编号在arXiv学术论文库中查询完整论文。

一、为什么我们需要一个更聪明的文档阅读机器

想象一下,你正在一个巨大的图书馆里工作,每天要处理成千上万份各式各样的文件。有些是学术论文,里面充满了复杂的公式和表格;有些是报纸,文字和图片混在一起;有些甚至是手写的笔记。如果要一份份手工整理这些文件,提取里面的信息,那简直是一场噩梦。

这正是现实中很多企业和机构每天都在面对的挑战。随着数字化进程的加快,文档的数量和复杂性都在爆炸式增长。这些文档可能来自不同的国家,使用不同的语言,有着各种各样的排版方式。对计算机来说,理解这些文档的内容和结构,就像要求一个人类在完全陌生的环境中快速理解一份外文文件一样困难。

百度飞桨团队认识到这个问题的严重性。他们意识到,如果能开发出一个既能准确理解文档内容,又能快速处理大量文件的智能系统,那将是一个巨大的突破。这个系统不仅要能识别文字,还要能理解表格的结构、识别数学公式、分析图表数据,甚至要能处理手写文字。更关键的是,这个系统要足够轻量,能在普通的计算机上运行,而不是只能在超级计算机上才能使用。

二、两条路线的碰撞:为什么选择混合方案

在文档处理的技术世界里,研究者们一直在两条不同的路线之间摇摆。

第一条路线就像是一个专业的流水线工厂。工厂里有多个专门的工人,每个人负责一项特定的工作。有人专门负责找出文档的布局结构,有人专门识别文字,有人专门分析表格。这种方法的好处是每个工人都能把自己的工作做得非常精细,因为他们只需要专注于一件事。但问题在于,如果前一个工人出了错,后面的工人就会基于错误的信息继续工作,错误会像滚雪球一样越来越大。而且,当你想要添加一个新的功能或处理新的文档类型时,整条流水线都需要重新调整。

第二条路线就像是招聘一个全能的员工,给他一个任务,他就能从头到尾完成所有工作。这种方法看起来很高效,因为少了很多中间环节。但这个全能员工通常需要很大的脑子(也就是需要很强的计算能力),而且当文档特别复杂或特别长时,他容易出现幻觉,就像一个人在极度疲劳时开始说胡话一样。

百度飞桨团队采取了一个聪明的折中方案。他们保留了第一条路线中最有价值的部分——一个专门负责理解文档布局和阅读顺序的模块,但这个模块被设计得非常轻量和高效。然后,他们开发了一个新的、更聪明的全能员工来处理具体的内容识别工作。这个新员工的大脑虽然不是最大的,但被精心设计得特别擅长处理文档中的各种元素。

三、聪明的大脑是如何构造的

让我们来看看这个新系统的核心——PaddleOCR-VL-0.9B模型。这个名字中的"0.9B"指的是它有9亿个参数,相比之下,很多其他的文档识别模型有几十亿甚至上百亿个参数。参数就像是大脑中的神经元连接,参数越多,模型通常就越大,需要的计算资源也就越多。所以0.9B听起来很小,但百度团队让它做出了很多大得多的模型才能做到的事情。

这个模型的构造就像是一个精心设计的两层楼房。底层是视觉部分,负责"看"文档。百度团队使用了一种叫做NaViT的特殊视觉编码器,它有一个独特的能力:可以处理任意分辨率的图像,而不需要先把图像压缩或扭曲成固定的尺寸。这就像是一个摄像头,无论你拍摄的是一张小纸条还是一整面墙,它都能清晰地捕捉所有细节。这对于文档识别特别重要,因为文档中的文字可能很小,如果压缩图像,小文字就会变得模糊不清。

楼房的上层是语言部分,负责"理解"和"表达"。这里使用的是一个叫做ERNIE-4.5-0.3B的语言模型。这个模型虽然只有3亿个参数,但它被特别优化过,能够快速地生成文本。在自动回归语言模型中,每生成一个词都需要时间,所以用一个更小、更快的模型能显著加快处理速度。

连接这两层的是一个简单但有效的中间层,就像是一个翻译官,把视觉信息转换成语言模型能理解的形式。这个中间层只有两层神经网络,非常轻量。

四、第一步:教会机器理解文档的布局

在处理任何文档之前,系统首先需要理解文档的结构。这就是PP-DocLayoutV2模块的工作。

想象你拿到一份报纸,首先要做的是识别哪些是标题,哪些是正文,哪些是图片,哪些是广告。然后你需要确定应该按什么顺序读这些内容。这个模块就是在做这样的工作。

PP-DocLayoutV2由两个部分组成。第一部分是一个物体检测模型,它的工作就像是一个细心的编辑,用红笔在文档上圈出不同的元素。它使用了一个叫做RT-DETR的最新检测技术,能够快速准确地定位文档中的各个元素,比如文本块、表格、公式和图表。

第二部分更有趣。它是一个指针网络,用来确定阅读顺序。这就像是在问:"这些被圈出来的元素,我应该按什么顺序读?"这个网络通过分析元素之间的几何关系来做出判断。它考虑的是元素的位置——哪个在左边,哪个在上面,哪个更靠近——然后推断出合理的阅读顺序。

这个模块的巧妙之处在于,它不依赖长序列的自动回归生成过程。也就是说,它不需要像生成文本那样一个一个地预测每个元素的顺序。相反,它能够一次性地分析所有元素之间的关系,然后确定最合理的顺序。这使得它既快速又准确,而且不容易出现那种"越往后预测越容易出错"的问题。

五、第二步:识别文档中的具体内容

一旦系统理解了文档的布局和阅读顺序,就可以根据这些信息把文档分割成不同的区域,然后让PaddleOCR-VL-0.9B模型来处理每个区域。

这个模型需要处理四种不同的任务,就像一个多面手工人需要掌握不同的技能。

第一项技能是光学字符识别,也就是识别文字。这不仅仅是识别单个字符,而是理解文字是如何组织的——哪些字组成一个词,哪些词组成一行,哪些行组成一个段落,甚至整个页面的文本结构是什么样的。这对于处理不同语言特别重要,因为不同语言的文字组织方式完全不同。

第二项技能是表格识别。表格就像是一个精心组织的矩阵,有行有列,每个单元格里可能有文字、数字或其他内容。识别表格需要理解这种二维结构,知道哪些单元格是相邻的,哪些单元格被合并了。模型需要输出一种特殊的格式来表示这种结构,就像是用代码来描述一个表格的样子。

第三项技能是公式识别。数学公式是特别复杂的,因为它们涉及特殊的符号、上标、下标、分数线等等。模型需要把这些视觉元素转换成LaTeX格式,这是数学领域的标准语言。这就像是要把一个手写的数学公式翻译成计算机能理解的数学语言。

第四项技能是图表识别。图表可能是柱状图、折线图、饼图等等。模型需要理解图表想要表达的数据,然后把这些数据转换成表格的形式。这就像是要把一个图形化的故事翻译成数字表格。

六、数据:高质量训练数据的秘密配方

要让一个AI模型变得聪明,最重要的是给它高质量的训练数据。百度团队在这方面下了很大的功夫。

他们的数据收集策略就像是在做一道复杂的菜肴,需要从多个不同的来源采集食材。首先,他们从公开的数据集中收集了大量的基础数据,就像是去超市买基本的食材。这些包括著名的手写数据集CASIA-HWDB,还有各种数学公式数据集和图表数据集。

但仅有这些还不够,因为公开数据集往往不够平衡。某些类型的数据很多,某些类型的数据很少。所以团队采用了数据合成技术,就像是用烹饪技巧来补充不足的食材。他们使用各种工具——字体库、CSS库、LaTeX渲染器、网页浏览器等——来人工生成缺少的数据类型。

此外,他们还从互联网上收集了大量真实的文档,包括学术论文、报纸、科学期刊、扫描的手写文档、各种考试试卷和演示文稿。这些真实数据为模型提供了多样化的风格和结构。

最后,百度团队还使用了自己多年积累的内部数据集。这些数据都经过了精心的质量控制。

数据收集只是第一步。接下来是标注,也就是给数据添加正确答案的标签。对于3000多万个样本来说,手工标注是不可能的。所以团队使用了一个聪明的自动标注流程。首先,他们用一个已有的专业模型PP-StructureV3来初步处理数据,生成初步的标签。然后,他们把这些初步标签和原始图像一起送给更强大的大型语言模型,比如ERNIE-4.5-VL和Qwen2.5VL,让这些模型来改进和验证标签。最后,他们还进行了一个特殊的过滤步骤,去除那些模型可能产生的错误或幻觉。

但这还不是全部。团队还进行了一个叫做"困难样本挖掘"的过程。他们在一个精心标注的评估数据集上测试模型,找出模型表现不好的地方。然后,他们针对这些困难的情况,使用各种工具来合成新的训练样本,帮助模型在这些弱点上进行改进。这就像是一个学生在考试中发现自己在某个知识点上很弱,然后专门做这个知识点的练习题一样。

七、训练的两个阶段:从基础到精通

训练PaddleOCR-VL-0.9B分为两个阶段,就像学习一门新语言——先学基础语法,再学实际应用。

第一个阶段叫做对齐预训练。在这个阶段,模型要学习的是如何把视觉信息和语言信息联系起来。团队使用了2900万个高质量的图像-文本对。这些对可能来自各种来源,但都经过了精心的选择和清理。在这个阶段,模型就像是一个初学者,在学习如何用眼睛看东西,然后用语言来描述。这个阶段进行了一个完整的循环,使用了相对较大的学习率。

第二个阶段叫做指令微调。在这个阶段,模型已经学会了基础的视觉-语言对齐,现在要学习如何在特定的任务上表现得很好。团队使用了270万个精心设计的样本,这些样本都是针对四个具体任务的——OCR、表格识别、公式识别和图表识别。在这个阶段,模型要学习的是如何根据具体的指令来完成任务。这就像是一个学过基础语言的人,现在要学习如何在不同的情境下使用这门语言。这个阶段进行了两个循环,使用了更小的学习率,以便进行精细的调整。

八、测试的时刻:模型表现如何

要知道一个模型是否真的好,最重要的是在真实的任务上测试它。百度团队在多个公开的基准测试上评估了他们的模型。

首先是OmniDocBench v1.5,这是一个包含1355个文档页面的大型测试集,涵盖了多种文档类型和语言。在这个测试上,PaddleOCR-VL取得了92.86的总体分数,超过了之前的最佳模型MinerU2.5的90.67分。更重要的是,在各个具体的任务上,这个模型都表现得很出色。在文本识别上,它的错误率是0.035,这意味着平均每1000个字符中只有3.5个识别错误。在公式识别上,它的CDM分数是91.22,在表格识别上,它的TEDS分数是90.89。

在OmniDocBench v1.0上,模型同样表现优异,在多个指标上都达到了最先进的水平。

还有olmOCR-Bench,这个测试集包含了1402个PDF文档和7010个测试用例。这个测试的特点是使用了非常严格的评估标准,不允许模糊的评分,而是要求模型的输出完全正确。在这个严格的测试上,PaddleOCR-VL取得了80.0的分数,在多个类别上都领先其他模型。

九、具体任务的深度评估

除了整体的文档解析能力,团队还在四个具体的任务上进行了详细的评估。

在文本识别方面,他们使用了多个测试集。在OmniDocBench-OCR-block上,这个测试集包含了从真实文档中提取的17148个文本块,PaddleOCR-VL在几乎所有的文档类型上都表现最好。在一个叫做In-house-OCR的内部测试集上,这个集合包含了超过10万个样本,涵盖了多种语言和文本类型,模型同样表现出色。特别值得一提的是,它在处理多种语言上的表现——包括阿拉伯语、韩语、泰米尔语、希腊语、泰语、印地语、西里尔字母等——都达到了最先进的水平。在处理各种文本类型上,比如手写中文、手写英文、印刷文本、传统中文、古文、竖排文字、单个字符和艺术字体,模型都表现得很好。

在表格识别方面,模型在OmniDocBench-Table-block上取得了0.9195的TEDS分数,这是一个非常高的分数。在一个包含各种表格类型的内部测试集上,模型同样表现优异,在各个指标上都超过了其他模型。

在公式识别方面,模型在OmniDocBench-Formula-block上取得了0.9453的CDM分数。在一个包含34816个公式的内部测试集上,模型的CDM分数达到了0.9882,这意味着它能够正确识别98.82%的公式。

在图表识别方面,虽然公开的测试集质量不是很高,但在内部的测试集上,模型取得了0.8440的RMS-F1分数,这个分数超过了很多更大的模型。

十、速度的较量:为什么快速很重要

一个好的模型不仅要准确,还要快速。毕竟,如果一个模型需要花费几个小时来处理一份文档,那它在实际应用中就没有什么价值。

百度团队通过多种优化技术来提高推理速度。他们使用了多线程异步执行,把推理过程分成三个阶段——数据加载、布局模型处理和VLM推理——每个阶段在单独的线程中运行。这样,当一个阶段在处理数据时,另一个阶段可以同时准备下一批数据,就像是一个流水线一样。

此外,他们还使用了高效的推理引擎,比如vLLM和FastDeploy,这些引擎经过了特殊的优化,能够充分利用GPU的计算能力。他们还调整了各种参数,比如最大批处理令牌数和GPU内存利用率,以找到速度和内存消耗之间的最佳平衡。

在实际测试中,当在一个NVIDIA A100 GPU上处理OmniDocBench v1.0数据集时,PaddleOCR-VL使用FastDeploy后端可以达到每秒1.6184个页面的处理速度,这比之前最好的模型MinerU2.5快了53.1%。如果考虑生成的令牌数,PaddleOCR-VL每秒可以生成2486.4个令牌,比MinerU2.5快了50.9%。

十一、多语言支持:全球化的文档处理

在一个全球化的世界里,文档可能使用任何一种语言。百度团队的模型支持109种语言,这包括了世界上大多数主要语言。

这种广泛的多语言支持不是偶然的。在训练数据的收集和处理过程中,团队特别注意了语言的多样性。他们确保训练数据包含了各种不同的语言和文字系统,从拉丁字母到阿拉伯字母,从汉字到天城文。

这意味着,无论你的文档是用英文、中文、阿拉伯文、俄文、印地文还是其他任何语言写的,这个模型都能理解并正确处理。这对于跨国公司、国际组织和全球供应链来说是非常重要的。

十二、实际应用中的表现

除了在标准测试集上的表现,百度团队还展示了模型在真实世界文档上的表现。这些文档包括学术论文、报纸、教科书、考试试卷、手写笔记等等。在所有这些真实世界的场景中,模型都表现得很好,能够准确地识别和理解各种复杂的文档元素。

这意味着,这个模型不仅在实验室里表现好,在真实的应用场景中也能可靠地工作。

十三、为什么这很重要

这项研究的重要性不仅仅在于技术指标的提升,更在于它解决的实际问题。

首先,它证明了一个相对较小的模型(0.9B参数)也能达到甚至超过更大模型的性能。这对于那些计算资源有限的组织和个人来说是一个好消息。你不需要拥有超级计算机才能使用最先进的文档处理技术。

其次,它提供了一个完整的解决方案,不仅仅是一个模型,而是一个从数据收集、标注、训练到推理的完整系统。这对于其他研究者和开发者来说提供了宝贵的参考。

第三,它在多个维度上都达到了最先进的水平——准确性、速度、资源效率和多语言支持。这使得它成为了一个真正可用的、实用的系统。

最后,它为大型语言模型在文档理解中的应用打开了新的可能性。通过结合专门的布局分析模型和高效的视觉-语言模型,百度团队展示了如何在保持高性能的同时降低计算成本。

十四、未来的展望

这项研究为文档处理领域的未来发展奠定了基础。随着越来越多的信息被数字化,自动化文档处理的需求只会增加。这个模型的出现意味着,更多的组织可以使用先进的AI技术来处理他们的文档,而不需要投入巨大的资金购买昂贵的硬件。

这也为检索增强生成(RAG)系统的改进提供了基础。RAG系统是现代AI应用中的一个关键技术,它允许大型语言模型访问外部知识库。如果文档处理变得更快、更准确、更便宜,那么RAG系统就能提供更好的服务。

总的来说,百度飞桨团队的这项研究不仅是一个技术上的突破,更是一个实用性的突破。它证明了在AI时代,我们不需要盲目追求更大的模型,而是应该追求更聪明的设计和更高效的实现。通过精心的架构设计、高质量的数据准备和系统的优化,一个相对较小的模型也能做出令人印象深刻的工作。

Q&A

Q1:PaddleOCR-VL是什么?它能处理哪些类型的文档内容?

A:PaddleOCR-VL是百度飞桨团队开发的文档解析系统,核心是一个仅有9亿参数的轻量级视觉-语言模型。它能够识别和处理文档中的文字、表格、数学公式和图表,支持109种语言,包括中文、英文、阿拉伯文、俄文等。

Q2:为什么PaddleOCR-VL比其他文档识别模型更快更准确?

A:该模型采用了两阶段的混合方案:先用专门的布局分析模型理解文档结构,再用高效的视觉-语言模型识别具体内容。它使用了NaViT动态分辨率视觉编码器和轻量级的ERNIE-4.5-0.3B语言模型,通过多线程异步执行和高效推理引擎优化,处理速度比前代快50%以上。

Q3:这个模型需要什么样的硬件才能运行?普通用户能使用吗?

A:PaddleOCR-VL仅需9亿参数,相比其他动辄几十亿参数的模型要轻量得多,可以在单块NVIDIA A100 GPU上高效运行。百度已经开源了代码和模型,普通用户可以通过PaddlePaddle框架使用,或者通过在线演示体验其功能。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。