科学的规划

在这一页上

文摘介绍文献综述材料结果与讨论结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

对智能世界2022年科学规划

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID7490363| https://doi.org/10.1155/2022/7490363

一种改进的神经网络模型基于Inception-v3甲骨铭文字符识别

章子怡郭 ,¹ 周子寒,¹ Bingshuai刘 ,¹ 龙泉李,² Qingju娇,^3、4 至岑溪黄 ,¹ 和张建伟 ⁵

学术编辑器: Tongguang倪

收到了 2022年3月27日

接受 2022年4月20日

发表 2022年5月05

文摘

甲骨铭文是现代汉字的祖先。字符识别是一个重要的组成部分,甲骨铭文的研究。在本文中,我们提出一种改进的神经网络模型基于Inception-v3甲骨铭文字符识别。我们替换原来的卷积块并添加上下文变压器块和卷积块关注模块。我们进行字符识别实验与改进模型在两个甲骨铭文字符图像数据集,HWOBC OBC306,结果表明,改进的模型仍然可以取得优秀的成果在模糊的情况下,阻挡,被肢解的字符。我们也选择AlexNet、VGG-19 Inception-v3神经网络模型相同的实验,和比较结果表明,该模型优于其他模型在三个评价指标,即(准确性、前三的准确性,和前5的准确性,表明模型的正确性和卓越。

1。介绍

甲骨铭文是中国发现的最早的公文的证据,刻在乌龟指甲或动物骨骼。它被用于占卜商朝末期,是最早的脚本形式的汉字1]。甲骨铭文已添加到世界的内存寄存器联合国教育、科学及文化组织(UNESCO)。脚本提供了占卜和祈祷古人的记录,显示中国词源的进化。它提供了宝贵的见解长期在中国早期文明和社会结构。甲骨铭文的研究不仅是重要的对于理解汉字的起源,也为探索古代中国和世界的历史和文化遗产。

字符识别是一个重要的组成部分,甲骨铭文的研究。其目的是确定甲骨铭文字符的类别,在此基础上,解释变异的这些角色通过借鉴现有翻译的结果。此外,字符识别也是一个重要的任务,如果我们想要达到快速检索的甲骨铭文字符。然而,依赖于甲骨文专家人工注释是一个非常耗费时间和人力资源的任务,因此许多研究人员现在求助于神经网络和深度学习实现字符识别。

在本文中,我们提出一种改进的基于Inception-v3神经网络模型。我们替换原来的卷积块并添加上下文变压器块和卷积块关注模块。我们将改进模型应用于两个甲骨铭文图像数据集进行字符识别,比较它与Inception-v3和其他古典VGG-19和AlexNet等神经网络模型。结果表明,我们的模型达到最佳性能,达到一个优秀的排名前98.171%,99.837%的前三,和99.844%的前5名准确清晰的数据集,和排名前87.732%,94.847%的前三,和前5 96.322%精度与噪声数据集,这是高于其他模型,证明模型的正确性和卓越。

2。文献综述

早期的基本思想传统的甲骨铭文字符识别方法是先预处理数据,然后手动提取功能在图论和拓扑结构,然后编码匹配和识别的功能。李和周et al。2)认为甲骨铭文字符组成的无向图线和点,所以他们基于图论多级图像中提取特征,然后他们识别和分类。李等人。3)抽象甲骨铭文字符和字符分类基于图同构判定算法。美国古(4]认为甲骨铭文字符的拓扑结构更加稳定在某种程度上,他使用最小距离来判断的等价关系拓扑结构编码的字符。这些方法主要集中在甲骨文字字符的字体特点,取得了有意义的结果,但简单的图形理论特征与手工编码容易underfitting的大量的数据。

许多研究人员已经实现甲骨铭文字符识别的神经网络和深度学习,取得优秀的成果。深上优于字符识别是监督。它需要大量的训练数据,使深层神经网络学习不同的甲骨铭文字符模式,从而实现单个字符图像的自动识别。Lv et al。5]提出了曲率直方图傅里叶描述符提取字形特征然后输入特征的经典支持向量机(SVM)模型(6]字形分类。郭et al。7)提出了一种多级甲骨字符表示方法,结合稀疏self-coding-based中层的特性和Gabor-based低级形式特征来描述甲骨字符。高et al。8)提出了一个基于Hopfield神经网络识别方法的分析上下文的识别模糊字符。Yongge刘(9)提取特征分块直方图和介绍了经典的支持向量机模型的甲骨铭文字符分类。孟et al。10]提取拓扑特性通过霍夫变换以及聚类,取得认可通过计算实际图像和标准图像之间的距离。刘等人。11)创建了一个基于古典SqueezeNet卷积神经网络识别不完整的字符在甲骨文的边缘。太阳et al。12)提出了一个dual-view甲骨字符识别系统结合时空psychovisual调制(TPVM)和字符识别算法。Zhang et al。13)采用了一种改进的暹罗网络学习甲骨字符之间的相似性和相应的模板排版图片。藤川et al。14)提出了一种两阶段方法,采用最新的你只看一次(YOLO)意思模型和MobileNet字符识别。这些方法介绍了神经网络和深度学习,使模型得到一个更好的表征能力的特性,所以字符识别的准确性显著提高。

3所示。材料

我们收集和选择两个甲骨字符图像数据集作为我们的实验数据进行训练和测试。一个是笔迹甲骨字符识别数据集(HWOBC),面向手写字符数据的离线识别手写的甲骨文字训练(15]。的离线识别手写的甲骨文字是必不可少的步骤之一手写的甲骨文字和文学的数字化。22甲骨铭文等不同学科的研究人员脚本,书法、考古学、历史、和计算机编译这个数据集通过对比手写甲骨软件标准甲骨铭文字符形式,所以这个数据集的图像质量是相当清楚的。总共83245张图片收集在这个数据集分为3881类根据甲骨铭文字体代码。

另一个是摩擦甲骨字符识别数据集(OBC306)。黄等。16]首先收集了八个权威出版工作甲骨铭文作为数据集的材料来源,扫描所有页面的作品转化为数字图像,检索拓片上的所有位置的字符在字典的帮助工具,最后剪出每个字符手动实例作为一个单一的形象性格。每个角色都是一个独立的词类。在剪切过程中,一个矩形框用于框架选择,并尽可能接近角色实例,这样剪图像不包含太多的冗余信息。OBC306包含309551个甲骨字符图像,覆盖306个不同的甲骨文字。它是第一个公共数据集与大量的拓片,以及首次公开数据集包括多种出版工作甲骨铭文和各种甲骨角色的异形尸体。

与HWOBC相比,OBC306更大的数据量大小和形状的多样性。样品的数量在每个类分布是不均匀的,显示了长尾效应,他们都是生活照片,比手写更模糊图像。此外,还有两个困难在这个数据集从字符识别的角度(16),接下来详细描述。

第一个困难在于异构人物和极端的存在不规则的甲骨文字。随机方向,不同大小和分散分布的甲骨文字识别的难度增加。甲骨文象形文字,更多关注描述特定的功能,所以零件的相对位置的角色并不是固定的,和中风的数量上下波动。写作没有统一的标准,所以写作风格演变。

噪音是另一个困难。由于多年的葬礼和腐蚀,甲骨文经常损坏,所以的图像数据集OBC306也受到各种噪声的影响,分为以下三种情况:第一,由于砂和砾石埋葬和碰撞在开挖期间,许多甲骨拓片上手写部分坏了,所以上的字符对应的图像由白噪声部分覆盖,导致模糊的角色。第二,因为古人乌龟指甲或动物骨骼用于占卜,嘶嘶声直到他们破解,所以裂缝会通过一些字符,导致图像的字符被白色条纹区域覆盖。第三,许多甲骨文在开挖后的片段,所以人物在碎片的边缘不完整,导致大型白色区域从图像的边缘延伸覆盖字符。图1显示了一些示例图片,很难识别。所有上述因素表明,该数据集是一个更具挑战性。

4所示。方法

在本文中,我们提出一种改进的模型基于Inception-v3甲骨铭文字符识别。我们替换原来的卷积块并添加上下文变压器块和卷积块关注模块。我们建议的模型的主要模块详细描述如下。

4.1。模型结构

我们替换原来的简单的卷积Inception-v3模型的层(17]与我们新的褶积块,然后引入上下文变压器(CoT)块之间的卷积和池层提高加权空间特征的识别;最后,我们添加卷积块关注模块《盗梦空间》(CBAM)三个主要模块来提高网络的性能。图2显示了整个的结构改进的神经网络模型。

4.2。新的褶积块

最初的卷积块执行批处理规范化卷积后,然后,结果传递给下一层的激活函数。我们引入一个倒置瓶颈18),它将一个卷积层转换为切除卷积层和两层逐点的卷积。我们也参考属性的多层感知器(MLP)块变压器(19),隐藏的维度是四倍输入尺寸和设计的点态卷积层通过设置维度中间隐层输入的大小的四倍。与此同时,我们将切除的大小卷积层7×7提高准确性。由于我们操作复杂的一个简单的褶积层变成3 - layer卷积和求和,我们将批量标准化替换为更简单的归一化层(20.)降低复杂性。图3显示的结构提出了新的褶积块。

在激活函数的选择,我们更换整流线性单元(ReLU)和高斯误差线性单元(GELU)。激活介绍随机规律的想法,这是一个概率的描述神经元输入和直觉更符合自然的理解,和实验结果就是比ReLU更好。GELU可以使用高斯误差函数的计算在小块土地(.)是高斯误差函数。

4.3。上下文变压器块

我们引入上下文变压器(床)块21视觉识别),小说Transformer-style模块。有大量的异构甲骨铭文中的人物,但他们通常有相同的功能在某些结清头寸。卷积没有交互的方式来表示特性在不同空间位置极好地,和Transformer-style模块是需要改进这一缺陷22]。然而,传统的self-attention块忽略了丰富的上下文信息在最近的邻居(23),而床块可以编码输入键3×3的背景下卷积,产生的静态上下文表示输入和更好的提取最近邻特征。我们把它在最初的3 - layer卷积块特征学习的最近邻空间。图4显示上下文变压器的结构块。

4.4。卷积块关注模块

介绍了卷积块关注模块(CBAM) (24),其中包含两个模块的关注机制,该频道关注模块和模块空间的关注。

频道关注模块主要处理不同渠道的特征图,告诉地图的模型应该更加关注。它首先执行全球MaxPooling或AveragePooling [25)的特征图在不同的渠道和获得MaxPool通道矢量和一个AvgPool频道关注关注。然后这两个向量输入到weight-sharing多层感知器(MLP) [26)只有一个隐藏层两个加工通道注意向量。最后,这两个向量处理element-wise求和和乙状结肠函数,乘以原始特征映射,得到一个新特性映射。它可以被描述为

空间关注模块主要处理功能区域的特征图,告诉模型区域的特征图谱应该更加关注。它执行全球MaxPooling AvgPooling在同一位置的像素值在不同的轴方向的特征图谱,获得两个空间注意地图,并将它们连接(27]。然后,功能映射通过7×7卷积和乙状结肠激活函数得到一个空间注意矩阵相同的维度与原始特征映射。最后,空间注意矩阵乘以原功能映射,然后输出一个新特性映射。它可以被描述为

CBAM块将获得注意力地图顺序由两个不同的尺寸,然后把注意力地图的输入特性映射来实现自适应功能优化。图5显示了CBAM的结构。使用注意力机制,我们可以使我们的模型更关注的基本特性和抑制不必要的功能(28]。我们添加CBAM块在Inception-A卷积层后,Inception-B, Inception-D通道提取特征维度和空间维度来提高精度。

5。结果与讨论

5.1。实验

我们把两个oracle字符图像数据集分为训练集和测试集的比率7:3,分别加载后,然后进行预处理。数据加载器加载图像和随机作物不同大小和纵横比,299×299,调整大小以及随机旋转图像水平(29日]。它增强了数据集的多样性,模拟了甲骨文的字符出现在不同的情况下,和测试模型的鲁棒性。

我们选择AdamW [30.)优化器,可有效提高泛化性能和更好的避免过度拟合问题的参数解耦的重量衰减梯度更新。我们选择的损失函数是叉损失函数(31日),描述了实际产出的亲密和叉到预期的输出。熵越小,距离越小。熵的公式如下: 在哪里p预期的输出和吗问是实际的输出。有三种模型精度评价指标,(准确性、前三的准确性,和前5的准确性。他们指的是预期的结果的概率最高n实际产出的分类排名,排名前精度的概率是完整正确的识别。

我们的实验环境是PyTorch 1.10.0, Python 3.8,和11.3 Cuda,硬件配置英特尔(R)至强(R)黄金5320 @ 2.20 GHz CPU和16 GB NVIDIA RTX A4000 GPU。学习速率将随着时代的增加减少,目标函数是足够快的达到局部最优。我们绘制变化曲线(准确性和损失在实验过程中OBC306数据集的数据6和7。他们表明(精度逐渐增加和损失逐渐减少,同时收敛30时代之后,并没有过度拟合,初步证明了模型的有效性。图8显示OBC306一些字符的识别结果,这说明我们的模型表现优异地一些难以识别的字符图像。

5.2。比较

为了进一步证明我们的模型的卓越,我们选择Inception-v3, AlexNet [32],VGG-19 [33)神经网络模型在相同的条件下进行实验和比较结果。

AlexNet创新应用修正线性单元的激活函数,并使用辍学随机忽略神经元在训练的一部分,以避免过度拟合。它还提出了一种局部反应正常化(LRN)层创建一个局部神经元的活动的竞争机制。它抑制较小的其他神经元反馈,反应较大的值变大,提高模型的泛化能力,适用于字符识别。

VGG-19已经十三卷积完全连接层和三层,其中每个进一步提取更复杂的特征,因此每一层可以被视为一个器多个地方特色。它有回旋的内核(3×3)和小池内核(2×2),增强网络的深度和提高识别精度同时确保相同的接受域。VGG-19广泛应用领域的图像特征提取和识别。

两个数据集的结果如表所示1和2,这表明我们改进的模型优于其他模型在这两个数据集,达到98.171%,排名前99.837%的前三,和99.844% HWOBC前5的准确性,和排名前87.732%,94.847%前三,96.322% OBC306前5的准确性。它证明了模型的正确性和优越性。

6。结论

在本文中,我们提出一种改进的神经网络模型基于Inception-v3甲骨铭文字符识别。我们用新的替换原来的简单卷积层卷积。我们引入卷积和池层之间的上下文变压器块改进加权空间特征的识别能力。我们添加卷积块注意模块三个主要初始模块提高字符识别的性能。我们将改进模型应用于两个甲骨铭文字符图像数据集进行字符识别,比较它与AlexNet, VGG-19, Inception-v3神经网络模型。结果表明,我们的模型达到最好的性能,达到98.171%,排名前99.837%的前三,和数据集HWOBC前5精度99.844%,排名前87.732%,94.847%的前三,和数据集OBC306前5精度96.322%,证明模型的正确性和卓越。

为今后进一步的工作,我们计划改善模型对于那些很少出现的人物。因为这些字符的样本图像的数量很小,他们的符号通常是复杂的,我们的模型不能充分认识到正确训练。我们还将努力提高识别的准确性在尽可能多的噪音干扰,如采用有效的图像预处理方法,以减少噪声的影响。

数据可用性

两个甲骨铭文字符图像数据集用于本文(HWOBC和OBC306)都可以从网站:https://jgw.aynu.edu.cn/ajaxpage/home2.0/index.html。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究是由河南省重点实验室开放项目的甲骨文信息处理(OIP2021002)。

引用

c .张”写在骨头的中国历史上,“美国科学家,卷106,不。3、133 - 135年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
f·李和x周”,用oracle自动识别方法。”电子和信息的杂志,41-47,1996页。
视图: 谷歌学术搜索
问:美国李、杨y . x和A . m .,“甲骨文识别图同构的方法,”计算机工程与应用卷,47号8,112 - 114年,2011页。
视图: 谷歌学术搜索
s . t .顾”拓扑alignment-based甲骨文字形识别方法”,计算机与数字工程,44卷,不。10日,2001 - 2006年,2016页。
视图: 谷歌学术搜索
李x Lv, m . n, k w·蔡x Wang和Y.-M。唐”,图实现分类方法对于甲骨文来说,“北京大学信息科学与技术杂志》上,第96 - 92页,2010年。
视图: 谷歌学术搜索
t . Evgeniou和m .铁棒”,支持向量机:理论和应用程序”,先进的人工智能课程施普林格,柏林,海德堡,249 - 257年,1999页。
视图: 谷歌学术搜索
大肠Roman-Rangel j .郭c . Wang, h . y .曹”为oracle性格和绘图识别,构建层次化表示“IEEE图像处理,25卷,不。1,第118 - 104页,2016。
视图: 出版商的网站 | 谷歌学术搜索
f·高,问:吴、刘y和x,“语义构建基于块的方法识别模糊甲骨文字形,“科学技术与工程,30卷,第70 - 67页,2014年。
视图: 谷歌学术搜索
y . g . Liu和g . y .刘“基于svm甲骨字符识别中,”安阳师范学院杂志》上,卷2,54-56,2017页。
视图: 出版商的网站 | 谷歌学术搜索
l .孟”,甲骨文的识别提取线特征在图像处理”学报第六届国际会议在模式识别应用程序和方法,页606 - 611,波尔图,葡萄牙,Febraury 2017。
视图: 出版商的网站 | 谷歌学术搜索
g . m . Liu, g . Liu y . Liu和娇,“甲骨文识别基于卷积神经网络,”图象图形学报,8卷,不。4、114 - 119年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
w .太阳、g .翟和z高,“Dual-view甲骨文通过时空psychovisual调制识别系统”学报2020年IEEE会议多媒体信息处理和检索(MIPR)IEEE,页193 - 198年,广东,中国,2020年8月。
视图: 出版商的网站 | 谷歌学术搜索
c . Zhang r .宗庆后曹,m .咦,和b·莫”AI-powered甲骨文识别和碎片重新加入,”美国29日国际会议上国际人工智能联合会议5311年,页5309 - 2021年1月,日本横滨。
视图: 谷歌学术搜索
x y藤,h . Li曰,c . v . g . a . l . Aravinda”的甲骨文通过使用两个深度学习模型,”国际口腔卫生杂志》上,2022年。
视图: 出版商的网站 | 谷歌学术搜索
b·李问:戴,f .高,w•朱问:李,和y . Liu“HWOBC-a笔迹甲骨字符识别数据库,”物理学杂志》:会议系列、眼压出版1651卷,没有。1,文章ID 012050, 2020。
视图: 出版商的网站 | 谷歌学术搜索
黄,x, y . Liu h . Wang和l .金”Obc306:大规模的甲骨字符识别的数据集,”国际会议文档的程序分析和识别(ICDAR)IEEE,页681 - 688年,澳大利亚,2019年9月。
视图: 出版商的网站 | 谷歌学术搜索
美国基督徒,诉文森特,谢尔盖,j . Shlens z . Wojna,“重新考虑初始计算机视觉架构,”《IEEE计算机视觉与模式识别会议内华达,页2818 - 2826年,ND,美国,2016年6月。
视图: 谷歌学术搜索
毛h . z . Liu,彭译葶。吴,c . Feichtenhofer t·达雷尔,谢,2022年,https://arxiv.org/pdf/2201.03545。
诉阿施施:Shazeer: Parmar et al .,“关注”是你所需要的,先进的神经信息处理系统,30卷,2017年。
视图: 谷歌学术搜索
j . j .顾z . Wang Kuen,洛杉矶b t . x·g·j·t·马“卷积神经网络的最新发展,”模式识别卷,77年,第377 - 354页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
t . y . Li姚明,y锅,t·梅“上下文变压器网络视觉识别,”2021年,https://arxiv.org/pdf/2107.12292。
视图: 谷歌学术搜索
c . Djork-Arne t Unterthiner, s . Hochreiter”快速和准确的深度网络学习指数线性单位(elu),”2015年,https://arxiv.org/pdf/1511.07289。
视图: 谷歌学术搜索
e·辛顿杰弗里·n·斯利瓦斯塔瓦,a . Krizhevsky Sutskever,和r . r . Salakhutdinov”改善神经网络通过防止互相适应的特征探测器,“2012年,https://arxiv.org/pdf/1207.0580。
视图: 谷歌学术搜索
美国吸引,j .公园,J.-Y。i . s . Lee,”Cbam:卷积块关注模块”,计算机视觉——2018年大会,3-19,2018页。
视图: 出版商的网站 | 谷歌学术搜索
f .彦和美国宅一生Neocognitron:自组织神经网络模型的视觉模式识别机制,“在神经网络竞争和合作施普林格,柏林,海德堡,267 - 285年,1982页。
视图: 谷歌学术搜索
y Lecun (l . Bottou y Bengio, p . Haffner“Gradient-based学习应用于文档识别,”IEEE学报》,卷86,不。11日,第2324 - 2278页,1998年。
视图: 出版商的网站 | 谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页770 - 778年,NV,美国,2016年7月。
视图: 出版商的网站 | 谷歌学术搜索
k·h·金,香港,卢武铉,郑y,和m .公园,“Pvanet:深但轻量级神经网络实时检测,”2016年,https://arxiv.org/abs/1608.08021。
视图: 谷歌学术搜索
k . Hara d Saitoh, h . Shouno”辍学的分析学习视为整体学习,”学报2016年ICANN,人工神经网络的国际会议施普林格,页72 - 79年,巴塞罗那,Sepetember 2016。
视图: 出版商的网站 | 谷歌学术搜索
d . p . Kingma和b,吉米,”亚当:随机优化方法,”2014年,https://arxiv.org/abs/1412.6980。
视图: 谷歌学术搜索
>和m . Sabuncu广义交叉熵损失深层神经网络训练与嘈杂的标签,“先进的神经信息处理系统2018年,卷。31日。
视图: 谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”先进的神经信息处理系统,25卷,2012年。
视图: 谷歌学术搜索
k . Simonyan和a . Zisserman”很深的卷积网络大规模图像识别,”2014年,https://arxiv.org/abs/1409.1556。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

877年

下载

421年

引用