点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

■ 陈婷珠
至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率,到了真实的甲骨拓片上就大打折扣。
近年来,计算机领域兴起了一门甲骨文识别技术,让电脑通过深度学习,自动辨认甲骨上的文字。研究者们制作了多个数据集,也就是把成千上万张甲骨字形图像分门别类整理好,作为训练和测试电脑模型的教材与考卷。自Oracle-20k问世以来,国内外团队已陆续建成甲骨文数据集。在这些数据集上,电脑模型的分类准确率频频超过80%,个别常见字甚至达到97%以上。
然而,一个令人尴尬的现实是,至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率,到了真实的甲骨拓片上就大打折扣。这一反差提示我们,既有研究可能在某些认识上存在偏差。
数据集“高歌猛进”背后的问题
目前公开的甲骨文数据集,按任务类型可分为检测数据集(如殷契文渊检测集)、分类与检索数据集(如Oracle-20k、HWOBC)以及考释数据集(如EVOBC、HUST-OBC)等。这些数据集规模不断扩大,分类准确率屡创新高。但在实际应用中,它们存在四类问题。
第一,多数数据集用的是人工摹写,而非原始拓片。在已有公开的甲骨文数据集中,超过半数明确标注其图像来自手工摹写。摹写图像干净、端正、边缘清晰,但恰恰丢失了原始甲骨拓片因年代久远而产生的裂纹、残损等痕迹。古文字学者每天面对的是原始甲骨拓片,而电脑只见过标准字。好比一个人只练过印刷体,突然让他辨认手写草书,自然认不出来。
第二,标注错误时有发生。数据集需要人工给每个字形图像贴上正确的字类标签,但这项工作中失误并不少见。如在OBC306数据集中,编号038000h01166_甲-1等四个字形实际是“豖”字,却被归入“犬”类。两个字含义不同,电脑学了错误对应关系,后续的准确率也就失去了意义。又如Oracle-MNIST数据集中展示的“马”字示例图片,除了第一张外,其余均非“马”字。
第三,只收录已释读的字,把最需要解决的难题排除在外。现有数据集几乎都只包含现代汉字已经能够对应的甲骨文字。而古文字学最大的挑战,恰恰是那些至今尚未释读的字,约占全部甲骨文的三分之二。电脑模型目前只学习已知的字,尚无法帮助学者破解未知的字。
第四,单字被切出来,丢掉了上下文。现有数据集大部分是一个个切割好的单字图像,没有前后文,也没有所在卜辞的整句信息。但真正的古文字认字,从来不是孤立地看一个字。学者要把这个字放回句子中,结合卜辞、同版其他刻辞等来综合判断。脱离语境的图像分类,哪怕准确率再高,也回答不了“这个甲骨文字在这句卜辞里到底是什么意思”这一重要问题。
两套知识体系的认知差异
上述问题的共同根源可能在于,研究者为了追求高准确率,倾向于使用干净、规整、已标好答案的实验室数据,而非古文字学者实际面对的残泐不清、异体繁多的原始拓片。这不是计算机学科本身的问题,图像分类任务的常规做法确是如此。但问题在于,如果目标是做出能够辅助学者的实用工具,那么训练和测试的环境就必须逼近真实的研究场景。
在古文字学中,“认出一个字”是一个结合考古、历史、语言、文字等多学科知识的复杂推理过程。学者需要运用字形比较法、辞例推勘法等,将字形与已知字形比对,再放回卜辞中通读验证,最终确定其读音和意义。例如,甲骨文“蠢”字的释读,蒋玉斌先生先将未释字形与“屯”字比对,确认其隶定为“屯”,再放入“屯盂方”“屯人方”等卜辞语境中,结合《诗经》“蠢尔蛮荆”等传世文献,推知其读为“蠢”,表示蠢动、作乱之义。整个考释过程需要一个完整的证据链。
而在计算机学科中,目前的甲骨文识别研究主要被处理为一个图像分类问题,给定一张甲骨字形图像,输出其对应的类别标签。这一做法隐含着三个假设。一是每个字形有唯一正确答案。二是正确答案可以通过与训练数据的相似度确定。三是字形本身的视觉信息足以决定其意义。这三个假设在甲骨文字形系统面前均不完全成立。一字多形、一形多字、异体通用等现象普遍存在。在甲骨文字形系统中,字形相似未必字义相同,而字形不相似未必字义不相同。
因此,那些令人振奋的97%、99%,本质上是在一个经过人工美化、脱离语境的实验室里测出来的。一旦将模型放到真实的拓片上,未经人工摹写、未经切割、含有未释字和大量噪声,准确率就会明显下降。更关键的是,模型输出的只是一个标签和一个概率值,它无法告诉学者“为什么是这个字”,也无法提供字形演变、辞例证据、构形理据等可解释的信息。学术论证需要的是证据链,这是目前算法尚无法给出的。
走出困境:从“各自为战”到“人机协同”
有人可能会问:古文字学有一百多年的积累,出版了大量的字形编、字表、辞例类纂,比如孙海波《甲骨文编》、李宗焜《甲骨文字编》、姚孝遂《殷墟甲骨刻辞类纂》等,这些能否直接用于计算机训练?答案是:很难。这些成果是前数字时代的纸本工具书,其知识组织方式(按部首、按笔画、按意义分类)与计算机需要的像素级标注、大规模均衡采样等完全不同。它们是非常宝贵的知识库,但不是可以直接喂给深度学习模型的“数据集”。
问题在于,两个学科的学者的有效沟通尚待进一步提高。古文字学者对数据集建设参与不足。计算机学者往往从零开始自己标注,既不熟悉已有的学术成果,也不了解原始拓片的真实面貌,于是在早已被指出的错误上重蹈覆辙。结果是,计算机花大力气做出的数据集,在古文字学者看来漏洞百出;而学者积累的深厚知识,计算机又用不上。
要改变现状,需要双方都往前走一步。对于计算机研究者,首先要调整目标:不再把在某个封闭数据集上“刷榜”作为识别成功的唯一标准,而是把能否在真实的、未经处理的原始拓片上取得可用的识别结果作为评判依据。其次,数据集建设建议放弃人工摹写,直接从高精度照片或拓片中提取字形,保留残泐、噪点和异体变化。同时纳入未释字。再次,要保留辞例上下文,输入的不应该是单字图像,而应该是包含该字的整行或整版拓片片段,让模型能够利用上下文信息。
对于古文字学者,可以主动提供小规模但高质量的标注数据,比如几百个典型字形及其语境,用于验证和校准模型;也可以参与设计评估指标,不要只看准确率,更要看模型能否为考释提供有用的线索,比如相近字形的检索、同辞例中其他字的分布等。
最理想的方向,不是让电脑代替学者去“认字”,而是开发一个交互式工具:学者在拓片上画一个不认识的字符,模型返回最相似的字形图像、在已有数据集中的位置、相关的辞例例句,以及基于上下文推测的可能候选。学者可以纠正模型的错误,模型也能从学者的反馈中持续学习。这种人机协同的路径,远比训练一个封闭数据集上的高精度分类器更有价值。
* * *
甲骨文识别“高准确率难落地”,本质是实验室标准化技术逻辑,与古文字非标准化、人文性、历史性的底层特质不匹配。纸面精度是可控数据集的最优结果,而落地应用需要适配残缺多元的实物样本、复杂深厚的历史语境、专业严谨的学术体系。
古文字学百年积累的知识体系,与计算机学科日益强大的模式识别能力,不是替代关系,而是互补关系。两者能否有效结合,不在于某一方单方面的努力,而在于双方能否真正理解对方的认知方式,并在此基础上设计出服务于学者工作的实用工具。
说到底,实验室里的高准确率只是一个中间指标,而不是最终目的。未来甲骨文智能识别的突破,不在于一味追求算法精度提升,而在于打破文理壁垒、构建标准化数据体系、融合视觉识别与文史考据逻辑,这或许是甲骨文识别研究走出困境的正解。
(作者为上海交通大学中华文化基因智能实验室教授)
《文汇报》(2026-06-28 07版)
