点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:甲骨文识别研究:实验室里的高准确率为何难落地
首页> 悦读频道> 资讯 > 正文

甲骨文识别研究:实验室里的高准确率为何难落地

来源:文汇报2026-06-30 11:03

  ■ 陈婷珠

  至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率,到了真实的甲骨拓片上就大打折扣。

  近年来,计算机领域兴起了一门甲骨文识别技术,让电脑通过深度学习,自动辨认甲骨上的文字。研究者们制作了多个数据集,也就是把成千上万张甲骨字形图像分门别类整理好,作为训练和测试电脑模型的教材与考卷。自Oracle-20k问世以来,国内外团队已陆续建成甲骨文数据集。在这些数据集上,电脑模型的分类准确率频频超过80%,个别常见字甚至达到97%以上。

  然而,一个令人尴尬的现实是,至今没有任何一款计算机工具被古文字学者真正在日常研究中采用。实验室里的高准确率,到了真实的甲骨拓片上就大打折扣。这一反差提示我们,既有研究可能在某些认识上存在偏差。

  数据集“高歌猛进”背后的问题

  目前公开的甲骨文数据集,按任务类型可分为检测数据集(如殷契文渊检测集)、分类与检索数据集(如Oracle-20k、HWOBC)以及考释数据集(如EVOBC、HUST-OBC)等。这些数据集规模不断扩大,分类准确率屡创新高。但在实际应用中,它们存在四类问题。

  第一,多数数据集用的是人工摹写,而非原始拓片。在已有公开的甲骨文数据集中,超过半数明确标注其图像来自手工摹写。摹写图像干净、端正、边缘清晰,但恰恰丢失了原始甲骨拓片因年代久远而产生的裂纹、残损等痕迹。古文字学者每天面对的是原始甲骨拓片,而电脑只见过标准字。好比一个人只练过印刷体,突然让他辨认手写草书,自然认不出来。

  第二,标注错误时有发生。数据集需要人工给每个字形图像贴上正确的字类标签,但这项工作中失误并不少见。如在OBC306数据集中,编号038000h01166_甲-1等四个字形实际是“豖”字,却被归入“犬”类。两个字含义不同,电脑学了错误对应关系,后续的准确率也就失去了意义。又如Oracle-MNIST数据集中展示的“马”字示例图片,除了第一张外,其余均非“马”字。

  第三,只收录已释读的字,把最需要解决的难题排除在外。现有数据集几乎都只包含现代汉字已经能够对应的甲骨文字。而古文字学最大的挑战,恰恰是那些至今尚未释读的字,约占全部甲骨文的三分之二。电脑模型目前只学习已知的字,尚无法帮助学者破解未知的字。

  第四,单字被切出来,丢掉了上下文。现有数据集大部分是一个个切割好的单字图像,没有前后文,也没有所在卜辞的整句信息。但真正的古文字认字,从来不是孤立地看一个字。学者要把这个字放回句子中,结合卜辞、同版其他刻辞等来综合判断。脱离语境的图像分类,哪怕准确率再高,也回答不了“这个甲骨文字在这句卜辞里到底是什么意思”这一重要问题。

  两套知识体系的认知差异

  上述问题的共同根源可能在于,研究者为了追求高准确率,倾向于使用干净、规整、已标好答案的实验室数据,而非古文字学者实际面对的残泐不清、异体繁多的原始拓片。这不是计算机学科本身的问题,图像分类任务的常规做法确是如此。但问题在于,如果目标是做出能够辅助学者的实用工具,那么训练和测试的环境就必须逼近真实的研究场景。

  在古文字学中,“认出一个字”是一个结合考古、历史、语言、文字等多学科知识的复杂推理过程。学者需要运用字形比较法、辞例推勘法等,将字形与已知字形比对,再放回卜辞中通读验证,最终确定其读音和意义。例如,甲骨文“蠢”字的释读,蒋玉斌先生先将未释字形与“屯”字比对,确认其隶定为“屯”,再放入“屯盂方”“屯人方”等卜辞语境中,结合《诗经》“蠢尔蛮荆”等传世文献,推知其读为“蠢”,表示蠢动、作乱之义。整个考释过程需要一个完整的证据链。

  而在计算机学科中,目前的甲骨文识别研究主要被处理为一个图像分类问题,给定一张甲骨字形图像,输出其对应的类别标签。这一做法隐含着三个假设。一是每个字形有唯一正确答案。二是正确答案可以通过与训练数据的相似度确定。三是字形本身的视觉信息足以决定其意义。这三个假设在甲骨文字形系统面前均不完全成立。一字多形、一形多字、异体通用等现象普遍存在。在甲骨文字形系统中,字形相似未必字义相同,而字形不相似未必字义不相同。

  因此,那些令人振奋的97%、99%,本质上是在一个经过人工美化、脱离语境的实验室里测出来的。一旦将模型放到真实的拓片上,未经人工摹写、未经切割、含有未释字和大量噪声,准确率就会明显下降。更关键的是,模型输出的只是一个标签和一个概率值,它无法告诉学者“为什么是这个字”,也无法提供字形演变、辞例证据、构形理据等可解释的信息。学术论证需要的是证据链,这是目前算法尚无法给出的。

  走出困境:从“各自为战”到“人机协同”

  有人可能会问:古文字学有一百多年的积累,出版了大量的字形编、字表、辞例类纂,比如孙海波《甲骨文编》、李宗焜《甲骨文字编》、姚孝遂《殷墟甲骨刻辞类纂》等,这些能否直接用于计算机训练?答案是:很难。这些成果是前数字时代的纸本工具书,其知识组织方式(按部首、按笔画、按意义分类)与计算机需要的像素级标注、大规模均衡采样等完全不同。它们是非常宝贵的知识库,但不是可以直接喂给深度学习模型的“数据集”。

  问题在于,两个学科的学者的有效沟通尚待进一步提高。古文字学者对数据集建设参与不足。计算机学者往往从零开始自己标注,既不熟悉已有的学术成果,也不了解原始拓片的真实面貌,于是在早已被指出的错误上重蹈覆辙。结果是,计算机花大力气做出的数据集,在古文字学者看来漏洞百出;而学者积累的深厚知识,计算机又用不上。

  要改变现状,需要双方都往前走一步。对于计算机研究者,首先要调整目标:不再把在某个封闭数据集上“刷榜”作为识别成功的唯一标准,而是把能否在真实的、未经处理的原始拓片上取得可用的识别结果作为评判依据。其次,数据集建设建议放弃人工摹写,直接从高精度照片或拓片中提取字形,保留残泐、噪点和异体变化。同时纳入未释字。再次,要保留辞例上下文,输入的不应该是单字图像,而应该是包含该字的整行或整版拓片片段,让模型能够利用上下文信息。

  对于古文字学者,可以主动提供小规模但高质量的标注数据,比如几百个典型字形及其语境,用于验证和校准模型;也可以参与设计评估指标,不要只看准确率,更要看模型能否为考释提供有用的线索,比如相近字形的检索、同辞例中其他字的分布等。

  最理想的方向,不是让电脑代替学者去“认字”,而是开发一个交互式工具:学者在拓片上画一个不认识的字符,模型返回最相似的字形图像、在已有数据集中的位置、相关的辞例例句,以及基于上下文推测的可能候选。学者可以纠正模型的错误,模型也能从学者的反馈中持续学习。这种人机协同的路径,远比训练一个封闭数据集上的高精度分类器更有价值。

  * * *

  甲骨文识别“高准确率难落地”,本质是实验室标准化技术逻辑,与古文字非标准化、人文性、历史性的底层特质不匹配。纸面精度是可控数据集的最优结果,而落地应用需要适配残缺多元的实物样本、复杂深厚的历史语境、专业严谨的学术体系。

  古文字学百年积累的知识体系,与计算机学科日益强大的模式识别能力,不是替代关系,而是互补关系。两者能否有效结合,不在于某一方单方面的努力,而在于双方能否真正理解对方的认知方式,并在此基础上设计出服务于学者工作的实用工具。

  说到底,实验室里的高准确率只是一个中间指标,而不是最终目的。未来甲骨文智能识别的突破,不在于一味追求算法精度提升,而在于打破文理壁垒、构建标准化数据体系、融合视觉识别与文史考据逻辑,这或许是甲骨文识别研究走出困境的正解。

  (作者为上海交通大学中华文化基因智能实验室教授)

  《文汇报》(2026-06-28 07版)

[ 责编:张晓荣 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • “核心价值观百场讲坛”走进江苏南京

  • 舰耀香江:人民海军舰艇赴港影像志

独家策划

推荐阅读
滑动汉字方块,还原完整诗词。
2026-06-29 17:07
6月22日-6月28日光明图片一周见报作品精选
2026-06-29 16:03
青海省海西蒙古族藏族自治州乌兰县茶卡盐湖,湖光潋滟倒影如镜。
2026-06-29 14:53
"七一"前夕,全国各地精心组织开展形式多样、内容丰富的主题党日活动和群众性宣传教育活动。
2026-06-29 14:21
山东省滨州市博兴县第四小学开展"防溺水知识进校园"专题安全教育活动。
2026-06-29 13:55