10月14日世界中国学大会第四分论坛上,上海社会科学院研究员刘炜在发言时介绍了中国数字人文自主知识体系建设与国家主权AI的关系,并分析应该如何建设适配这一知识体系的主权AI。
他表示,首先应明确两个概念。其一是主权AI。这一概念的核心是国家对AI的数据、算法、语义拥有自主掌控力,它不只是技术主权,更是文化主权。和通用AI不同,主权AI必须理解本国语言逻辑、文化常识与价值,对齐本土意识形态,要能懂 “为什么这么说、为什么这么想”,而非仅追求生成流畅性。
第二个概念是中国数字人文自主知识体系,当前学界已有不少探讨,简单说就是用数字化、智能化手段重建知识结构与阐释体系,实现知识主权再造,让中国历史思想、美学在数字世界里以自主方式被理解、传播。但这是一个比较抽象的解释。
刘炜认为,在算法与语义共塑的新时代,数字人文是连接传统文化与AI的桥梁,但桥梁的技术基础,决定了能否用自己的方式讲好中国故事。
现在很多人没意识到,中国数字人文自主知识体系离不开主权AI的支撑,二者本应相互促进。若没有主权AI,自主知识体系会陷入依附。
例如,当前多数通用大模型以西方语料为主,中文占比仅2%~3%,缺乏中国文化、历史常识,解决不了特有的偏见与误导问题,还容易产生“AI幻觉”。即便如今AI对中国文化的呈现有所进步,但对中文的理解仍显机械,尤其在东亚文化相关的图像、多模态资源解读上,因缺乏语境易出问题。没有独立的算法语义底层、自主知识体系,中国数字人文自主知识体系就是空谈。
具体来说,刘炜列举了主权AI对数字人文的四大意义。
第一是让AI真正懂中国人的世界,中文典籍语法灵活、典故繁多,通用大模型难领会语感与历史语境,而基于本土语料训练的主权AI,能更精准理解文本,让AI“读得懂”典籍。
第二是让文化遗产重新“发声”,中国文化不只有文字,青铜器铭文、碑刻、建筑等非文字遗产都藏着深刻思想,主权AI可支持文字、图像、音频多模态融合分析,比如解读工艺图示,让非文字文献被科学读取。
第三是重建知识间的有机联系,数字人文的核心不是信息堆积,而是关系重构,借助知识图谱能把人物、思想脉络织成知识地图。上海图书馆正把海量文化遗存数字化后建知识图谱,只是目前大模型利用知识图谱的效果还需提升。
第四是在算法层面嵌入中国价值,数字人文与大模型并非价值中立,语料会自带判断倾向,在多元世界里如何实现文化包容兼容,是重要课题,而主权AI能推动这一问题的解决。
接下来,刘炜分析了具体的实践路径,认为要建设适配中国数字人文的主权AI,应聚焦四项关键任务。
一是构建本土化高质量数据底座,不能只停留在传统语料库概念,要对古籍、碑帖等文化遗存做统一标准、集中管理,建设带目标性标注的海量专属语料库,这是基础中的基础。
二是研发面向场景的专用模型,现在业内已形成共识,通用大模型无法“通吃”所有领域,文化领域需要专属小模型或多智能体系统,针对性解决数字人文的应用需求。
三是建设国家级数字人文智能平台,目前大量素材分散在不同数据库,工具也无法统一使用,只有搭建共建共享的平台,才能打破资源壁垒。
四是形成跨学科人才生态,当前既懂AI又懂人文的人才仍很短缺,即便有改观也相对滞后,必须加快这类人才的培养。
刘炜最后强调:对数字人文来说,主权AI不是防御性概念,而是创造性工具。不应关起门做AI,而是用中国文化逻辑重建AI。这不止是守护数据,更是塑造未来形态。智能时代,真正的文化实力不在于谁的算力更强,而在于能否让AI“理解”自己的文明与文化。
他呼吁:“希望我们携手,以主权AI为核心,为中国数字人文自主知识体系建设发力,让中华文明在新的语义空间里持续生长、发声、传播,以智能之光照亮文化之根。”
本文系观察者网独家稿件,未经授权,不得转载。