文摘
阿姆哈拉语语言是第二大语言闪米特人的家族在阿拉伯语。在埃塞俄比亚和周边国家超过1亿人说阿姆哈拉语的语言。有许多使用注射脚本编写的历史文献。数字化历史手写文档和手写字符的识别是至关重要的保护有价值的文档。手写数字识别是数字化手写文档的任务之一,从不同的来源。目前,手写数字识别的研究很少,而且没有可用的公共研究组织的数据集。卷积神经网络(CNN)比等模式识别的手写文档识别提取特征从不同的写作风格。在这部作品中,提出了模型识别注射使用CNN数字。深层神经网络,最近显示出非凡的性能在许多模式识别和机器学习应用程序,用来识别手写注射数字,但这并没有试图为埃塞俄比亚的脚本。手写的数据集,其中包含51952张图片注射收集的数字从524个人,用于训练和评估CNN模型。 The application of the CNN improves the performance of several machine-learning classification methods significantly. Our proposed CNN model has an accuracy of 96.21% and a loss of 0.2013. In comparison to earlier research works on Geez handwritten digit recognition, the study was able to attain higher recognition accuracy using the developed CNN model.
1。介绍
语言阿姆哈拉语中是唯一的非洲语言有自己的字母,书写系统虽然大多数其他的非洲语言使用拉丁语和阿拉伯语字母的书写系统(1]。埃塞俄比亚联邦民主共和国和其他地区国家使用阿姆哈拉语语言作为他们的官方工作语言。它是超过5000万人的母语和第二语言,超过1亿人在埃塞俄比亚(1]。阿拉伯语是唯一闪族语言世界上超过阿姆哈拉语。阿姆哈拉语也说有些人在邻国厄立特里亚等国,吉布提和索马里。有许多历史文献写在在埃塞俄比亚发现注射脚本。大约有80种不同的语言在埃塞俄比亚,200方言。吉兹语字母用作一些语言的书写系统。阿姆哈拉语,天啊,提格里尼亚语是最口语在埃塞俄比亚使用注射的字母(1]。
注射脚本包含265个字符包括27被唇音化的字符(字符代表2声音),20个数字符号,和8个标点符号(2]。我们的研究只关注注射位数。注射数字已经在埃塞俄比亚使用日历、注射圣经和历史文献。天啊数字由20个不同的符号来表示数值。与拉丁数字,0不代表任何符号。20数字由独立的符号如1 - 9、10、20、30、40、50、60、70、80、90、100和10000,如图1。其他数字由二十符号的组合。每个数字符号有一个破折号(水平线)上方和下方数字字符。
手写字符和数字识别作品在不同的语言时提高识别的效率数字化历史和手写文档(4]。数字识别是一个众所周知的问题,已经被用于文档索引使用日期如文档日期、出生日期、婚姻的日期,和死亡日期(5]。数字识别和检测被用于各种各样的应用程序,包括自动阅读数量的银行支票、邮政号码和密码,税收形式,根据日期和文档索引(6]。有两种类型的架构为手写数字识别的字符串。认识到数字字符串的两种策略是detection-free和有效识别(7]。在细分的基础上,系统中,我们首先检测数值的字符串可能包含多个数字。分位数应该做过的每个数字识别孤立(8,9]。然而,detection-free识别方法识别每个数字没有任何分割和检测预处理[10]。
随机森林、支持向量机、资讯和其他机器学习技术已经开发识别手写的数字。深度学习方法就像CNN精度最高最常用的机器学习算法相比,手写数字识别[11,12]。模式识别和大规模图像分类都是完成了CNN。手写字符识别是计算机视觉研究领域,人工智能,模式识别1]。它可能声称进行手写识别的计算机应用程序有能力获取和识别人物照片,文件,和其他来源,将它们转换为电子或machine-encoded形式。深度学习是一个流行的机器学习领域,使用层次结构学习高层抽象的数据。根据引用(13,14),技术的可用性cpu、gpu和硬盘,除此之外,机器学习算法,和大数据,如MNIST手写数字的数据集和ImageNet数据,都是在深度学习的成功因素。手写数字识别、面部识别、计算机视觉、音频和视觉信号分析、语音识别、灾害识别、和自动化应用语言处理都是深度学习的领域(15]。
如今,深度学习是成为一个受欢迎的技术学会识别模式和深层模式和提取。它有一个深度学习水平从一个给定的数据集生成模式。这是一个神奇的算法与不同的库从图像中提取模式和识别和分类。在深层学习算法中,CNN是高效和具有良好的图像分类、图像识别、模式识别、特征提取等。
2。相关的工作
Kusetogullari et al。5]介绍了深度学习架构称为DIGITNET探测和识别英语手写数字中发现在瑞典历史文献。作者还创建了一个大规模的手写数字为公众数据集称为迪达。从瑞典手写的历史文献收集的数据不同的祭司在19世纪写的。100000年的数据集包括手写数字图像。DIGITNET由两个不同的体系结构来检测数字和认识到数字。第一个架构是DIGITNET-dect检测数字从手写文档字符串,第二个架构是DIGITNET-rec识别手写的数字。作者使用了深度学习的方法来训练模型和回归深CNN方法用于检测数字。YOLOv3是由作者设计的检测和分类的数字图像。在识别阶段,作者提出了三种不同的CNN架构。卷积,批处理规范化、max-pooling全层,和SoftMax层都包含在每个模型。 But still, it has a limitation of some of the image data having high resolution, so it increases the computational cost in the training of the model and some digits are not labeled due to their bad appearance. Low digit detection accuracy because of negative sampling is also a limitation of the research work.
陈等人。16]相比五机器学习分类模型来识别笔迹离线。作者资讯的性能相比,神经网络,随机森林,决策树,装袋梯度增加。70000年数字图像是用来开发的分类器模型。资讯和神经网络显示精度优于其他分类器和资讯达到更快的速度比神经网络模型的10倍。预处理阶段的关键部分是手写识别的识别系统。作者使用了一些提高数据预处理技术。他们使用标准化对每个属性给予同等重视。然后,他们使用的中值滤波降噪的一步。图像锐化,图像属性约简是其他措施在预处理阶段,但是,它有一些局限性,使迷惑工具不是有效的预处理手写的图像数据,他们没有找到一个阈值的二值化预处理技术;然后,他们忽视二值化技术。 The image is blurred after median filter and sharpening in preprocessing techniques.
伊恩(3)提出了一种多层前馈传播为离线手写和安机印阿姆哈拉语(注射)数字识别。作者收集560数据集模型。他用460 100年培训和测试数据。作者收集的数据手动为注射,因为没有公共数据手写数字。总体分类精度为89.88%,这是可怜的,因为他利用少量数据的开发他的模型(3]。许多researchhas尝试在古代闪族语言的手写数字的特定区域(天啊)。其他研究人员所做的所有注射字符识别但作者(3)天哪位做专门研究。但仍有一些局限性的,少量的数据用于训练算法,工作不给任何信息预处理技术,该模型精度低,认识到数字。侯赛因和阿里17)提出了一种手写数字识别使用CNN MNIST手写的数据集。作者使用MatConvoNet增加的速度建立该模型的操作。MatConvoNet支持高效的计算是一个MATLAB函数在CPU和GPU允许复杂的模型的训练图像净ILSVRC等大型数据集。然而,它有一些局限性,如研究并没有给出任何信息预处理技术和隐藏的卷积模型层很小。
Demilew和Sekeroglu1)提出了一个古老的注射用深度学习脚本识别模型。作者建立了一个深CNN模型识别埃塞俄比亚注射古代汉字在历史文献中找到。他们提出一个架构,只有认识到注射字符而不是单词或完整的句子。收集的数据集是22913图像库,私人的书,埃塞俄比亚东正教Tewahedo教堂。他们还开发了一种字符识别系统识别26个基地。在注射脚本,大约有265个字符和34个基本角色,但他们基本字符类分类每个字符,没有特定的字符。有7个字符发现在每一个基类,包括基类。在识别手写的注射脚本的一个挑战是发现的字符之间的相似性在同一个基类。作者分类中所有的七个字符相同的类为一个基类和忽略了艰巨的任务在他们的模型中,但是,它有图像质量低的问题,实例的数量为每个字符是不平衡的。此外,研究工作没有提到用于字符检测的方法。 The proposed model classified all of the seven characters found in the same class into one base class; this is the other limitation.
Gondere et al。2)设计了一个手写的注射用CNN字符识别系统。作者使用多任务学习来提高人物的关系的模型。他们的实验一些hyper-parameters CNN。参数是100批次,0.3保持概率辍学,学习速率的0.0001和0.01 L2正规化。他们组织了一个数据集不同以往的研究工作。但是,它有一些问题的研究工作。第一个是他们使用了独特的手写的数据集,影响模型的性能和工作没有提到预处理技术。阿里et al。18)提出了一个模型来识别手写数字。作者利用CNN算法开发模型。他们用deeplearning4j CNN的识别系统。CNN是由两个主要的任务。第一个任务是提取每一层的功能。每一层需要来自前一层的输出输入和远期当前输出到下一层。第二个任务的CNN架构功能分类。本单元生成或分类预测的输出。作者MNIST数据集用于自己的工作。60000份手写数字图像被用于训练和测试模型。 But it has some limitations from those, the proposed model used a large kernel size in the convolution layer, and because of that, it consumes a longer training time. Also, the work does not give any detailed information about the preprocessing technique.
大多数研究人员确实数字识别英文数字。他们使用不同的方法来实现高性能识别笔迹。英语手写的数字,有很多资源和数据集可以由研究团体使用。它鼓励研究人员关注这一领域。然而,对于注射手写的数字,没有数据在公共组织人员手写数字的识别。一些研究者做了注射机印字符识别和手写字符但是他们没有关注数字,特别是手写。的作者(3)是第一个研究数字识别手写的注射,但他使用的数据集是一个非常小的和较低的性能。
3所示。数据收集方法
在这项研究中,手写数据收集来自不同的人与不同的写作风格。代替手工特征提取,这对人类是很困难的,深度学习模型是利用life-simplifying和高效的技术与高精度提取,和性能。数据收集的论文是为此目的而创建的。数据收集论文准备的方式使预处理更容易。纸是A4大小由所有20天啊数字的象征,在2行十列在一个盒子里,和其他同样空箱子准备和重复5次,如图2。这意味着一个人必须手写100实例或数字。收集的数据来自524个不同的个体,每个人给100位数的实例。根据计算,自524年收集的数据来自不同的个体,得到了52400个实例。人们从许多人群参与了数据收集。收集的数据从小学学生,高中学生,高中员工,大学生,大学的学术人员(讲师)。大多数从大学生获得的信息,这总计约250阿达玛科技大学。
大学成功进行的数据收集您在计算机科学和工程的帮助俱乐部(CSEC-ASTU)成员。俱乐部拥有100成员的数据收集;因此,从他们的数据聚集在校园和通过他们的连接。正如前面提到的,数据来自250大学的学生,其中150名男性和100女性。在收集的数据,它必须从纸到数字格式转换,才能处理。文件扫描使用TECNO移动50像素的相机和软件应用cam扫描仪呼吁这一过程。使用凸轮扫描仪的优势是,它检测到纸上,只提供数字格式(图片格式)的部分去除背景后,减少噪音。
Python的OpenCV图书馆在预处理技术用于数据提取。这个程序的输入是一个分区,其输出是提取的数据。准备一个分区后,同样会为他人。
4所示。数据预处理
该模型的第二阶段是发生在数字图像的预处理阶段。首先检查数字化图像扭曲前预处理,以减少噪音。预处理是必要的用于创建数据简单的识别使用手写数字识别系统,目标是减少背景噪音,提高图像的感兴趣的区域,并产生明确区分前景和背景。这项研究使用的Python OpenCV库预处理技术。
4.1。调整图像
因为一系列的数据大小,必须调整以适应网络的输入的大小。所有图片大小为32×32像素在这项工作。这个比例是重要的为降低计算复杂度和专注于感兴趣的地区种植。
4.2。RGB灰度转换
最简单的灰度颜色模型,它指定颜色只使用一个组件:轻盈。一个值从0(黑色)到255(白色)用于定义亮度(白)的数量。所有的原始图像数据集在RGB颜色格式。将RGB转换为灰度图,减少颜色通道,它减少了计算复杂度与RGB彩色图像。在我们的模型输入图像灰度级,应该转换为原始图像灰度的颜色格式。
4.3。颜色反转
原始图像的主要颜色是白色的,它的值为255。对于灰度图像,数据集模型变化的主导颜色黑比减少数学运算的复杂性。因为黑色0值,卷积操作与占主导地位的一部分0值减少模型的计算复杂度。图3显示了预处理技术用于我们的数据集。如图3(d),占据主导地位的图像的背景图像的一部分。背景颜色反转技术,从白到黑颜色如图4。
5。提出的模型
卷积神经网络(CNN)是该模型解决注射手写数字识别。识别数字,CNN-based数字分类器使用。六种不同CNN-based手写数字分类器由一个层数如卷积层,max-pooling层,辍学层、平层、全层,SoftMax层来实现识别精度高。此外,应用反向传播训练是由随机梯度下降的方法。
最后,根据评价指标,选择最好的模型识别数字字符串。每一个分类器是由不同数量的卷积层,内核大小和过滤器。总结了应用于所有六个分类器参数表1。模型6,例如,如图5有8卷积层,4 max-pooling层,3辍学层,2层完全连接,20输出层。内核大小、步幅和数字滤波器的卷积层3×3,1,32 (3×(电子邮件保护)分别@32)。第二和第三层类似于卷积。卷积在三层,max-pooling层(2×(电子邮件保护)@32)。卷积层(3×(电子邮件保护)@64)在第五层,它由64内核大小的过滤器3 3和1的步伐。以下两层卷积层,与相同的hyperparameter第五层。max-pooling层(2×(电子邮件保护)@64)是应用于第八层。max-pooling层,后辍学。卷积层(3×(电子邮件保护)@64)应用,包括64内核大小的过滤器3 3和1的步伐。max-pooling层(2×(电子邮件保护)@64)是下一个隐藏层。
max-pooling层后,辍学。卷积层(3×(电子邮件保护)@128)是应用下,128年由过滤器与内核大小为3×3和1的步伐。max-pooling层以及辍学层使用之前完全连接层。完全连接层,包含128个节点。卷积和完全连接层,ReLU用作激活函数。SoftMax作为最后一层计算的概率输出类在最后一层。最高的类概率产生期望的结果。时代的尺寸是30和训练实例的总数在单个批处理是32。其他五个分类器有不同数量的卷积和完全连接层,以及不同层组织。第一个完全连接层包含128个神经元,第二个包含20个神经元对所有案件。
6。结果和讨论
CNN是用来观察和看到精度的差异在不同的结果手写注射数字模型。培训和验证精度测量30种不同时代通过改变了卷积的各种组合层和隐藏层使用批量大小32在所有情况下。数据6、7、8、9、10和11说明CNN的准确性,和数字1213日,14日,15日,16日和17CNN的损失与各种卷积和隐层的组合。表1显示最大和最小的训练和验证精度CNN实验后确定的六种不同的情况下有不同的隐藏层,和表2显示了最大和最小的训练和验证CNN在各种情况下的损失注射手写数字的识别。
表3描述了CNN的配置和参数6例。模型有不同数量的卷积和完全连接层,以及不同层组织。第一个完全连接层包含128个神经元,第二个包含20个神经元在所有情况下。
第一个隐层在第一种情况下提出了数字6和12是卷积图层1,用于特征提取。它有32内核大小的过滤器3×3像素,和它使用ReLU作为一个激活功能。下一个隐层是卷积层2,由32内核大小的过滤器和ReLU 3×3像素。减少的空间大小的输出卷积层,池定义图层1,max-pooling和2×2像素的池的大小。下一层是64年的两个卷积层过滤与内核3×3像素的大小和ReLU激活函数应用到模型中。max-pooling层2应用卷积layer4之后。池2层,一层正规化辍学是用来减少随机模型的过度拟合消除25%的神经元层。卷积层64和过滤通道尺寸的大小为3×3辍学后应用。卷积层6是下一个隐藏层,它是由128过滤器内核3×3像素的大小和ReLU。Max-pooling第三层与辍学后应用卷积层6。 A flattened layer is utilized to turn the 2D filter matrix into a 1D feature vector before entering the fully connected layers. After the flattened layer, the fully connected layer 1 is used, which comprises 128 neurons and ReLU. Finally, the fully connected layer 2 output layer, which determines the digits, has 20 neurons for 20 classes.
输出位数,输出层SoftMax激活函数。批处理大小为32,CNN是训练有素的30多个时代。95.65%的性能有一个整体测试精度。时代1最低验证精度是91.75%,而最小的训练精度时代1 88.15%。在时代28日训练精度最高的99.23%,而在18时代验证精度最高的95.82%。整体模型的损失,在这种情况下,估计在0.2946。培训损失减少指数当迭代。验证选择价值的损失减少到最优值,然后上升到17时代。19时代后,确认损失保持不变。
数据7和13被定义为例2,第一个隐层是卷积图层1,用于特征提取。它有32内核大小的过滤器3×3像素,和它使用ReLU作为一个激活功能。下一个隐层是卷积层2,由32内核大小的过滤器和ReLU 3×3像素。减少的空间大小的输出卷积层,池定义图层1,max-pooling和2×2像素的池的大小。下一层是两个卷积层32内核大小的过滤器3×3像素和ReLU激活函数应用到模型。max-pooling层2应用卷积layer4之后。接下来的两个隐藏层是卷积层由64过滤器内核3×3像素的大小。马克斯池和辍学层应用卷积后层。接下来的两层卷积层通道大小64后跟max-pooling层。下一个隐层是卷积层9 3×3内核大小为128过滤器。 A max-pooling layer with a dropout is applied after the convolution layer. Rectified Linear Units (ReLU) are used as an activation function in all convolution layers. The dimensions and hyperparameters used in this and the next cases are the same as those used in case 1. The overall performance test accuracy is found to be 94.71%. The minimal training and validation accuracy is determined at epoch 1. The training accuracy is 85.01%, and the validation accuracy is 89.00%. Epoch 28 has the highest training accuracy, while epoch 20 has the highest validation accuracy. The maximum accuracy for training and validation is 98.74% and 94.99%, respectively. The total model loss is estimated to be approximately 0.2928.
两个旋转层与内核大小3×3的32过滤器是一个接一个在例3,如图8和14,紧随其后的是一个max-pooling层。另外两个卷积层具有相同的参数前的前两层应用max-pooling层和辍学层。的下一层三个连续卷积层64过滤通道与一个3×3内核大小和一层max-pooling紧随其后。两个卷积层,平层之前,max-pooling层,和辍学层。64年和128年两个卷积层有内核渠道,分别。两层有相同的内核3×3的大小。一个扁平的层是紧随其后的是两个完全连接层。
发现整体性能测试精度达到94.98%。时代1,最低培训精度为85.96%,而最低验证精度89.63%。最大的培训和验证精度分别为98.63%和95.28%在时代发现26日和20日,分别。总模型发现损失约为0.2908。
例4,如图9和15,连续三次卷积层应用一个接一个。通道的数量是32和内核大小3×3。max-pooling层后应用卷积三层。卷积max-pooling层是紧随其后的是三层64内核频道和3×3内核大小由max-pooling层之后辍学。下一层是卷积层7 max-pooling层和辍学。平层后,有两种完全连接层没有辍学。整体测试精度性能发现,95.42%。时代1,最低培训和验证精度是88.88%和91.89%,分别。最大的训练精度是99.36%是发现时代30日和最大验证精度95.64%是发现时代27。0.3032总损失模型。
例5是如图10和16,对于这种情况,连续三次卷积层应用一个接一个。内核是32频道和内核大小3×3。max-pooling层后应用卷积三层。池层,旁边一个正则化层辍学是用来减少随机的过度拟合消除20%的神经元层。卷积下一层三层max-pooling层和一层辍学。两个完全连接层是紧随其后的是一个平层。
整体性能测试精度是94.42%。时代1,最低培训精度是87.41%,而最低验证精度为89.90%。时代29日的训练精度最高,而时代27验证精度最高。培训和验证最大精度为99.77%和94.84%,分别。0.5504总测试模型的损失。验证模型的损失增加当迭代。它显示了模型成为overfit训练数据。最大模型损失发生在这种情况下从所有6例。同时,最小模型精度在所有病例发生在例5。这表明overfitted模型给出一个模型损失和低精度高一个新的测试数据集。
最后,以防6(数字11和17),三个旋转一个接一个,紧随其后的是一个汇聚层。三个卷积层32内核频道。卷积三层与内核规模64人接下来,紧随其后的是一个max-pooling层。池2层,应用正则化层辍学减少随机消除20%的神经元过度拟合的层。卷积layer 7 64内核大小是下一个隐藏层,其次是max-pooling层和一层辍学。下一层是卷积与128数量的渠道和内核层8过滤器3×3的大小。所有卷积层过滤器的大小相同。Max-pooling第四层,辍学后应用卷积层8。平层,其次是两个完全连接层、应用。整体性能测试精度是96.21%。 At epoch 1, the minimum training and validation accuracies were found to be 88.77% and 91.94%, respectively. Epoch 30 has the highest training accuracy, while epoch 12 has the highest validation accuracy. The maximal training and validation accuracy is 98.44% and 96.15%, respectively. The total model loss is found approximately 0.2013. The training loss decreases when the number of epoch goes, but the validation loss fluctuate for 10 epochs and then remain constant for the remaining number of epochs.
通过改变隐藏层,改变了手写数字不准确观察到30多个时代的实验。6例为每个参数的精度曲线生成使用手写的天哪位数据集。6例不同由于隐藏层的不同组合。最大和最小精度几个隐藏层变化记录使用批处理大小为32。如图18,测试精度最高的性能被发现96.21%的30时代情况下6在所有观测(Conv1、Conv2 Conv3, pool1, Conv4, Conv5, Conv6, pool2辍学,Conv7, pool3辍学,Conv8, pool4辍学,平层,2层完全连接)。
这种类型的更大的准确性将注射手写数字识别机器来帮助更有效地执行。5,然而,在所有观测精度最低性能被发现为94.42% (Conv1、Conv2 Conv3, pool1, Conv4, Conv5, Conv6, pool2,平层和2层完全连接)。此外,最高的总模型损失5是0.5504,而损失的最低总模型案例与辍学大约是0.2013(图619)。这最小的损失,CNN能够实现更大的图像质量和噪声处理。从观测结果,研究从6例选择最好的模型,模型试验精度最高和最低损失进行测试。例6模型精度最高的96.21%和最低损失0.2013是该模型的研究工作。
前面的工作天啊手写数字识别是通过作者的3使用一个ANN模型)已经达到了89.88%的准确率。本研究评估不同hyperparameters CNN模型与不同的层。研究与以前的工作相比,提高识别的准确性从89.88%到96.21%通过CNN,增加数据集大小,提高图像的质量,采用预处理技术在数据集。
7所示。结论和未来的范围
在本研究工作中,卷积神经网络用于识别与请填写类注射手写数字。cnn是当前最先进的算法对图像数据进行分类和广泛应用。准备形式数据收集,收集大量注射手写的数字从个人笔迹。手写的文件扫描和预处理32×32-pixel数字图像。这项研究提供了一种新的公共数据集注射手写数字数据集,这是开放给所有人员。CNN使用架构的深度学习的方法来开发一个注射手写数字识别系统。大量的试验和错误的神经网络配置调优机制被用来获得最适合CNN-based建筑的模型。相比,早期的研究工作注射手写数字识别,研究能够获得更高的使用开发了CNN模型识别精度。该模型实现了96.21%,模型精度损失为0.2013。
不管这一事实已经完成了大量的工作在英语语言识别手写的数字,只有少量的阿姆哈拉语语言的工作已经完成。由于缺乏研究工作区域,有一个巨大的挑战阿姆哈拉语语言的数据集。收集到的数据量是足够的训练模型,但它不是一个大的数据集,数据采集的学生主导被申请人。大多数被申请人是学生,所以该模型表现良好的学生和其他个人组模型表现良好不像学生。数据不包括历史文献和原稿图像。收集到的数据只是从个人不包括其他来源。在这个研究中,他开发了一个数据集,在未来可以被其他研究人员使用。在未来,数据集也将历史数据作为模型的数据集,和当前工作只支持一个手写的通用电气'ez数字,但在未来,为multi-digit添加支持。
数据可用性
使用的数据来支持本研究的发现是可用的https://drive.google.com/file/d/1abJWvSYSyw8mLQ5Blg_lYAJng1K3LtGS/view?usp=sharing。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由大学。