古代文献就像是时光的密码箱,里面锁着前人的智慧和故事,但由于年代久远、字迹模糊,这些珍贵的历史资料往往只能静静躺在图书馆里。现在,斯坦福大学的研究团队终于找到了打开这些密码箱的钥匙。这项由斯坦福大学的Sina J. Semnani、Han Zhang、Xinyan He、Merve Tekgürler和Monica S. Lam领导的研究发表于2025年1月的arXiv预印本论文库,编号为arXiv:2509.19768v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
研究团队开发了一个名为CHURRO的人工智能系统,就像给古代文献配备了一位经验丰富的古文字专家。这个系统不仅能识别各种古老的文字,还能理解不规则的排版和因年代久远而模糊的文字。更令人惊叹的是,它可以处理从公元前3世纪到20世纪跨越22个世纪的文献,覆盖46种不同的语言和方言,包括许多已经消失的古代语言。
整个研究就像是为历史文献打造了一套万能翻译工具。研究团队首先收集了一个名为CHURRO-DS的超大规模数据库,这个数据库包含了近10万页历史文献,涵盖了欧洲、东亚、东南亚、中东和印度等地区的14种不同文字系统。这些文献包括报纸、书籍、手写日记、政府记录等各种类型的历史材料。
一、古文献识别面临的巨大挑战
想象一下,你拿到一本祖传的古书,上面的字迹已经因为年代久远而变得模糊不清,有些页面甚至出现了霉斑和破损。更复杂的是,这本书使用的是几百年前的字体和拼写方式,排版也和现代书籍完全不同。这正是历史文献数字化面临的真实挑战。
传统的文字识别技术就像是一个只会阅读现代印刷体的学生,当遇到古代手写体或特殊字体时就束手无策。这些古代文献具有许多独特的特征:首先是语言的复杂性,不仅包括现代语言的历史变体,还包括许多已经消失的古代语言。比如一份中世纪的拉丁文手稿,不仅使用的是古拉丁语,还充满了当时特有的缩写和简写形式。
其次是书写方式的多样性。古代文献中经常出现各种装饰性元素,如红色的标题字、边缘的注释,以及精美的插图。这些在现代文档中很少见的特征,对文字识别系统来说都是额外的挑战。手写文献的识别更加困难,因为不同的书写者有不同的笔迹风格,即使是同一个人,在不同时期的书写风格也可能发生变化。
第三个挑战是物理状态的退化。经过几个世纪的保存,许多文献都出现了不同程度的损坏,比如纸张发黄、墨迹褪色、页面撕裂等。这些物理损伤使得原本就复杂的文字识别变得更加困难。
二、CHURRO系统的核心创新
面对这些挑战,斯坦福的研究团队采用了一种全新的解决方案。CHURRO系统就像是一个博学的古文字学者,不仅精通各种古代语言和文字,还具备强大的适应能力。
系统的核心是基于一个名为Qwen 2.5 VL的基础模型,这个模型原本就具备处理图像和文字的能力。研究团队将其比作一个聪明的学生,虽然有一定的基础,但还需要专门的训练才能成为古文献专家。通过在CHURRO-DS数据集上进行专门训练,这个系统学会了如何处理各种复杂的历史文献。
与传统方法不同,CHURRO采用了端到端的处理方式。传统的文档识别系统通常需要先检测文字区域,然后逐个识别,最后再确定阅读顺序。这就像是把一幅拼图拆散,然后试图重新组装。而CHURRO则能够直接查看整个页面,理解其中的内容和结构,就像人类阅读文献时的自然过程一样。
这种方法特别适合处理复杂的历史文献布局。比如一份古代报纸可能采用多栏排版,还夹杂着广告和插图,传统系统很难准确判断正确的阅读顺序。CHURRO则能够理解页面的整体结构,正确识别从右到左或从上到下的阅读方向,甚至能处理一些特殊的排版形式。
三、数据宝库CHURRO-DS的构建
为了训练CHURRO系统,研究团队构建了迄今为止最大规模的历史文献数据库CHURRO-DS。这个数据库的建设过程就像是组织一次全球性的历史文献大搜集活动。
研究团队花费了大量时间搜集和整理来自155个不同来源的历史文献,最终汇集了99491页文档。这些文献跨越了从公元前3世纪到20世纪的漫长历史时期,覆盖了46种不同的语言集群。其中包括29种语言出现在验证和测试数据集中,包括阿拉伯语、孟加拉语、保加利亚语、加泰罗尼亚语、中文、捷克语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、意大利语、日语、高棉语、拉丁语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、梵语、斯洛文尼亚语、西班牙语、瑞典语、土耳其语和越南语。
数据集还涵盖了14种不同的文字系统,来自欧洲、东亚、东南亚、中东和印度等5个主要文字家族。这种多样性确保了CHURRO系统能够处理世界各地的历史文献,而不仅仅局限于某一种特定的语言或文字。
数据库中的文献类型也极其丰富,包括报纸、书籍、手写日记、政府记录等。每一页文献都配有完整的文本标注,这些标注是按照外交转录的标准制作的,也就是说,转录的文本完全忠实于原始文档的内容,包括原有的拼写、标点和格式。
四、训练过程中的精心调校
训练CHURRO系统的过程就像是培养一个古文献专家。研究团队选择了Qwen 2.5 VL作为基础模型,这是一个30亿参数的多模态模型,具备处理图像和文本的能力。虽然相比其他一些大型模型来说参数较少,但这个规模对于历史文献识别任务来说已经足够了,而且能够保持较高的运行效率。
训练过程中,系统学习了如何处理各种复杂的历史文献特征。比如,它学会了识别各种古代字体,从哥特式字体到各种手写体;学会了理解不同的页面布局,从单栏到多栏,从水平文本到垂直文本;还学会了处理各种文档状态,从清晰的印刷品到模糊的手稿。
整个训练过程使用了32个NVIDIA H100 GPU,持续了大约25小时。研究团队采用了梯度累积技术,有效批次大小为128,学习率为5×10^-5,并使用了余弦学习率调度策略。这些技术细节确保了模型能够稳定有效地学习数据集中的复杂模式。
五、令人惊叹的性能表现
经过训练的CHURRO系统表现出了令人印象深刻的能力。在印刷文档的识别上,CHURRO达到了82.3%的标准化编辑距离相似度,在手写文档上达到了70.1%。这个成绩不仅超越了所有其他开源模型,甚至比最好的商业模型Gemini 2.5 Pro还要好,在印刷和手写文档上分别高出1.4%和6.5%。
更令人惊叹的是成本效益。CHURRO的运行成本仅为Gemini 2.5 Pro的1/15.5,这意味着同样的预算可以处理15倍多的文献。对于需要大规模数字化历史文档的图书馆和研究机构来说,这种成本优势具有重要意义。
研究团队对各种不同语言的处理效果进行了详细分析。在印刷文档方面,CHURRO在大多数语言上都表现出色,特别是在日语、芬兰语和瑞典语等语言上改进最为明显,分别提升了37.0%、32.9%和22.9%。在手写文档方面,希腊语、日语、土耳其语、希伯来语和波斯语的改进最为显著,分别提升了62.6%、54.7%、42.3%、42.1%和36.8%。
六、深入的错误分析与改进空间
为了更好地理解CHURRO的表现,研究团队进行了详细的错误分析。他们发现,CHURRO在处理阅读顺序方面比基础模型有显著改进。在50个样本中,基础模型有42%出现重大阅读顺序错误,而CHURRO只有16%。这种改进对于保持文档内容的连贯性和准确性至关重要。
最常见的问题是栏目顺序处理。许多CHURRO-DS中的页面采用两栏或多栏布局,一些模型容易搞错阅读顺序。对于东亚文字,这个问题更加突出,因为许多古代文献采用从上到下、从右到左的书写方向,而基础模型往往无法正确识别这种传统布局方式。
另一个有趣的发现是关于幻觉现象。基础模型中有36%的预测出现重大幻觉,也就是说,当模型无法可靠识别文本时,会生成看似合理但实际错误的内容。比如,在一份18世纪的荷兰信件中,模型正确识别出这是一封信,但由于无法转录实际内容,就生成了"Dit is een brief"(荷兰语"这是一封信")这样的内容。经过训练的CHURRO完全消除了这种幻觉现象。
研究团队还发现了一些金标准标注中的错误。在检查的50个样本中,有2个包含不完整的页面文本,这些错误来自原始数据集中的标注问题,在清理过程中未能完全发现。这提醒我们,即使是精心构建的数据集,也可能存在一些难以避免的问题。
七、与现有技术的全面比较
研究团队将CHURRO与各种现有技术进行了全面比较,包括专门的OCR系统、通用的大型视觉语言模型以及商业API服务。
在专门的OCR系统中,Azure OCR表现最好,达到71.9%的平均性能,但仍比CHURRO低10.4%。有趣的是,将Azure OCR与Gemini 2.5 Pro结合的混合系统表现反而更差,平均只有52.6%,在每种语言上的表现都不如其单独组件。这说明简单的系统组合并不一定能带来性能提升。
在开源的视觉语言模型中,专门针对OCR优化的模型表现最好,如NuMarkdown、olmOCR和Nanonets OCR分别达到72.7%、69.8%和69.7%。但它们仍然显著落后于CHURRO。
商业模型方面,Gemini 2.5 Pro在零样本设置下达到80.9%的印刷文档识别率和63.6%的手写文档识别率,是商业模型中表现最好的。其他商业模型的表现差异很大,从38.7%到73.1%不等。
一个有趣的发现是,模型大小与性能之间并没有明显的相关性。比如,3B参数的Qwen 2.5 VL表现优于同系列的72B参数版本,这与GPT-4.1和GPT-5系列中Mini模型的表现类似。这提醒我们,对于特定任务,精心设计的小模型可能比简单放大的大模型更有效。
八、技术细节与实现策略
CHURRO的技术实现涉及多个关键决策。首先是模型架构的选择。研究团队选择了Qwen 2.5 VL作为基础,主要考虑其紧凑的规模、强大的零样本OCR性能,以及处理高分辨率、可变大小图像的能力。这些特性对于处理多样化的历史文献布局至关重要。
在数据预处理方面,团队采用了sophisticated的标准化流程。他们将各种标注格式(如ALTO XML、PAGE XML、JSON、纯文本)统一转换为单个文本字符串,并确保正确的阅读顺序。对于缺少明确阅读顺序标注的数据集,他们开发了数据集特定的启发式方法,对于复杂布局则使用VLM确定阅读顺序。
数据清理过程也极其细致。研究团队识别并修正了16个数据集中的标注问题。比如,某些数据集遗漏了页面顶部的文本,另一些包含频繁的转录错误。他们使用Gemini 2.5 Pro根据图像边界框建议修正,然后由人工验证这些修正。
为了确保外交转录的准确性,研究团队标准化了各种印刷元素。他们将分数符号(如1/4,Unicode U+00BC)转换为1/4,将连字符(如Unicode U+FB06)转换为"st"。这种标准化确保了评估系统只需转录可见内容,而不依赖特定数据集的指导原则。
九、评估方法与指标设计
研究团队采用了标准化的Levenshtein相似度作为主要评估指标。这个指标测量将一个字符串转换为另一个字符串所需的插入、删除和替换操作次数,然后用较长字符串的长度进行标准化,最后转换为相似度分数。这个指标与OCR研究中常用的字符识别率密切相关,但被限制在0到1的范围内,便于跨不同文本长度进行比较。
为了确保公平比较,研究团队对所有模型预测应用了相同的标准化程序。对于阿拉伯文字,他们还使用PyArabic工具包进行了额外的音调符号和hamza标准化。
评估结果按印刷和手写文档类型分别计算和平均。这种分类反映了两种文档类型的不同难度水平,手写文档通常更难识别,因为存在个体书写风格的变化。
十、历史文献数字化的深远意义
CHURRO的成功不仅仅是技术上的突破,更具有深远的文化和学术意义。历史文献的数字化一直是人文学科的重要目标,但传统方法要么成本高昂,要么准确率不足。CHURRO提供了一个可行的解决方案,使得大规模历史文献数字化成为可能。
对图书馆和档案机构而言,CHURRO意味着他们可以以相对较低的成本将珍贵的历史藏品数字化,使这些材料更容易被研究者和公众获取。即使是不完美的转录结果也能作为有价值的初稿,大大减少人工校对所需的时间。
对历史学家和其他人文学者来说,CHURRO让原本只有少数专家能够阅读的古代文献变得更加易于获取。这可能会促进新的研究发现,因为更多研究者能够访问和分析历史文献。
此外,CHURRO的多语言能力意味着它能够帮助保护那些使用较少研究语言的文化遗产。许多历史文献使用的是现在已经很少使用或研究的语言,CHURRO能够帮助这些文献得到更好的保存和传播。
说到底,CHURRO代表了人工智能技术与人文学科结合的一个成功范例。它不是要取代人类专家,而是要放大他们的能力,让更多的历史声音能够被听到。通过让沉睡千年的文献重新开口说话,CHURRO为我们理解人类历史和文化开辟了新的可能性。
研究团队已经将CHURRO模型和CHURRO-DS数据集开源发布,希望能够促进社区驱动的研究,进一步改善历史文本的可读性,加速学术研究的进展。这种开放的态度体现了学术界合作精神,也为这一重要技术的广泛应用奠定了基础。虽然目前的技术还不够完美,但它已经为历史文献数字化领域带来了革命性的改变,相信在未来会有更多的改进和创新。
Q&A
Q1:CHURRO是什么系统?
A:CHURRO是斯坦福大学开发的人工智能历史文献识别系统,就像给古代文献配备了一位经验丰富的古文字专家。它能识别各种古老文字,理解不规则排版和模糊文字,可以处理从公元前3世纪到20世纪跨越22个世纪的文献,覆盖46种不同语言。
Q2:CHURRO-DS数据集有什么特别之处?
A:CHURRO-DS是目前最大规模的历史文献数据库,包含99491页来自155个不同来源的文档,涵盖46种语言集群和14种文字系统。这些文献包括报纸、书籍、手写日记、政府记录等,每页都配有完整的外交转录标注,完全忠实于原始文档内容。
Q3:CHURRO的识别准确率如何?
A:CHURRO在印刷文档识别上达到82.3%准确率,手写文档达到70.1%准确率,不仅超越所有开源模型,还比最好的商业模型Gemini 2.5 Pro分别高出1.4%和6.5%。同时运行成本仅为商业模型的1/15.5,具有极高的性价比优势。