首页 > 天际云想 > 基于深度学习的甲骨文识别与理解研究
基于深度学习的甲骨文识别与理解研究
22计算机系
作品介绍

作者:肖光烜 吕天 李永威 计算机科学与技术系

指导老师:刘知远 计算机科学与技术系

关键词:深度学习、计算机视觉、甲骨文、自然语言处理

摘要

深度学习需要大数据驱动,而在甲骨文释读领域还未有合适的大规模数据集。我们构建了一个组织良好、噪声小的甲骨文数据集,我们相信这种数据集能够为今后的自动化甲骨文释读的研究做出贡献。

在我们构造的数据集的基础上,我们采用计算机视觉领域的技术做到甲骨文字“分类”,即对一个甲骨文图片给出其现代汉语或古汉语中对应的汉字。同时,我们训练了一个能够自动构建甲骨文的生成对抗网络,以期能够捕捉甲骨文中的内在结构并发现未发现的甲骨文。

构建数据集

我们对已有的纸质甲骨文词典进行了扫描和编排,利用滤波和二值化等图像处理技术收集了一个组织良好、噪声小、全面的甲骨文数据集。该数据集由7000余个甲骨文样例组成,共有542个多于10个样例的甲骨文,覆盖了最常见的甲骨文,具有较好的代表性。

图 1甲骨文字典(左)与对应构造好的数据集(右)

甲骨文识别

利用目前最先进的图像识别网络ResNetDenseNet,我们在甲骨文识别任务上达到了很高的准确率。由于甲骨文识别可以减轻考古人员筛选甲片的工作量并提高准确度,这一结果具有重要现实意义。使用我们提出的数据集进行训练,图像识别网络可以区分非常形近的甲骨文,例如“月”和“夕”。这也说明我们提出的数据集具有良好的清洁度和代表性。

2DenseNet网络结构

Model

Top-1 Accuracy(%)

Top-5 Accuracy(%)

ResNet-152

38.72

63.72

DenseNet-121

75.14

88.82

表格 1  甲骨文识别准确度

甲骨文生成

我们期望利用生成对抗网络(GAN)获得不存在的甲骨文,从而得到甲骨文字形的一般形式信息。

3生成对抗网络结构

但是最原始的生成对抗网络产生了严重的过拟合现象,因此我们换用了更为先进的WGAN,得到了更为多样化的甲骨文生成结果。

4GANWGAN生成的不存在的甲骨文及其对应的汉字

 

评论 文明上网理性发言,请遵守评论服务协议
登录  登录后可以发言~
全部评论
主办方
承办方