文摘

任何机器学习模型的性能很大程度上取决于输入数据的类型。和各种各样的数据量越高,更好的机器学习模型得到训练,从而产生更精确的结果。然而,这是一项具有挑战性的任务来获得大量的数据在某些情况下包含足够的多样性。手写字符识别Odia语言就是其中之一。NITROHCS v1.0 Odia汉字手写和三军情报局手写Odia数字图像数据库是标准Odia语言数据集用于研究团体。本文展示了五个不同的机器学习模型的性能使用卷积神经网络来识别手写字符在回应手写数据操纵和扩大使用几个增强技术创造变化和增加的数量在给定的数据集的数据。这些模型,讨论增强技术,甚至导致进一步提高模型精度约1%。支持的声明上的实验结果提出了卷积神经网络模型在标准可用Odia字符和数字数据集。

1。介绍

通过他们的眼睛和大脑,人类可以看到,视觉上感觉他们周围的世界。使计算机能够感知和处理图像的相同的方式,个人可以是电脑视觉的目标。计算机视觉领域中产生了大量的图像识别的技术。从一个给定的感官输入,分层表示层由深层神经网络学习(款)进行模式识别1- - - - - -3]。这些深架构最近显示非常引人注目的结果,通常与人类的结果(4,5]。然而,尽管超过五年的密集的研究,计算机的阅读能力仍远低于人类。大多数光学字符识别(OCR)技术仍无法读取文档或恶化手写笔记。

在过去,手写识别算法依赖于手工制作的特性和需要大量的先验信息。基于这些要求,很难训练一个光学字符识别(OCR)系统和相对较小的分类精度。深入学习方法现在手写识别研究的最前沿,近年来产生了一些杰出的成就。尽管如此,越来越多的手写的数据集,结合大规模计算能力的可用性,导致识别精度,增加激励研究人员继续研究字符识别领域的使用卷积神经网络(CNN)。

cnn尤其有效地提取手写字符的各种特性和自动识别它们的结构。然而,也有一些限制,比如CNN模型经常需要大量的数据进行训练。数据增强技术用于生成不同的相同的数据副本,引入变异以及提高训练的数据,除了人为地提高现有数据集的体积。深入学习模型训练增强图像与原始图像优于深学习模式,只有训练有素的原始图像。除此之外,在一般情况下,成本的增加降低了收集数据稀缺时,增加数据模型的泛化能力。

如果我们看到HCR Odia语言的最先进的,有非常少的贡献对这个领域的研究相对于其他印度语言;由于Odia字符的圆的形状,存在大量的修改和复合字符和相似性不同字符使这门语言很难创建一个令人满意的分类器。在我们提出的CNN模型,我们正在努力实现人类Odia HCR准确性。

拟议的工作有两个目标:O1群:一个目标是达到可比手写Odia数字和字符识别准确性使用正规化CNN架构。O2:另一个目标是研究各种增强方法以及它们是如何影响该CNN架构的性能。

因此,这项工作的主要贡献如下:C1:这是一个彻底的评估提出的五个不同的基线模型不同的数量特性卷积层和致密层的单位数量从一个架构。C2:为了避免过度拟合模型、L2正规化和空间辍学被添加到模型来提高精度和基线和正则化模型的性能进行了分析。C3:不同的增强技术应用于数据库用于我们的实验创造变异,增加的体积数据。一组最好的数据增强技术是提出并得到了实验结果的支持。

其余的文章如下:相关工作在节中有详细描述2和部分3介绍了技术,其中包括五个不同的数据集用于研究和CNN的体系结构,在此研究中使用手写字符识别。图像增强技术都包含在部分4。实验的结果部分的主题5,结论部分6

Odia(以前奥里萨邦)是一种流行的语言在印度认识到宪法以及Odisha的国家的官方语言。手写字符识别(HCR),在线或离线,邮政地址解释,作家识别、签名验证、实时手写识别,银行支票/支票处理,或者只注意准备的一些正在进行的研究领域深入学习产生更好的精度。几项研究已经进行光学字符识别领域中的几种语言(6,7Odia语言),但进步是有限的。的作者(8]分析各种方法的使用标准的手写数字识别手写字符识别测试,和卷积神经网络(cnn)被发现比所有其他技术在处理二维形状的变化。的作者(9)分类打印Odia字符从加尔各答三军情报局数据集,并获得96.3%的准确性。作者所使用的预处理技术倾斜检测和校正,其次是行、单词和字符分割。中风和run-number-based特性,随着功能从水库的概念,使用,使用决策树分类器的分类任务。在[10),二值化,骨架化链编码,去除噪声、和分割使用的预处理技术作者Odia数字数据库,NIT Rourkela,他们获得96.08%使用有限自动机分类器的精度,而在(11)二进制外部对称轴星座(BESAC)特性用于IITBBS Odia字符数据库有7800个数据样本。随机森林分类器的准确性为89.92%,支持向量机分类器是93.77%,和k近邻分类器是95.01%。的合奏方式选择Odia字符的特征以及分类提出了(12]。Husnain et al。13- - - - - -17贡献了他们的工作在Odia字母和数字的识别。研究人员使用神经网络和其他深度学习方法为字符分类领域,作为记录在13,18- - - - - -20.]。在[21),作者贡献的工作基于生成的图像增强对抗网络(甘斯)在拉丁语的ISI加尔各答手写的数据集,孟加拉,梵文字母,奥里萨邦的语言。甘是一个方法,发展人工样本图像数据库,不需要先验知识的可能的样本之间的差异,并获得97.31%的准确性在奥里萨邦(Odia)字符集。类似于Odia HCR,如果我们调查HCR孟加拉等其他地区印度语言,梵文字母,或泰卢固语,大部分工作涉及机器学习方法与手工制作的相关特征提取分类(紧随其后22]。在这里,作者提出一种特征提取技术提取特征对孟加拉复合字符进行分类。180年特征向量的长度是由最长的运行特性(探测器),面向的直方图的梯度(猪)特性,并对角特性。提取的特征被用来训练SVM分类器,它已经达到了88.73%的准确率。的作者(23]提出了一种数字识别的方法称为“(投影”分区图像,计算每个部分的投影和事例的分类器实现了94.1%的准确性。自动特征提取以及类似人类的准确性,研究人员现在倾向于神经网络架构(24,25]。的作者(26)扩大孟加拉Lekha-isolated字符图像样本集和测试他们的工作在CNN模型基础数据集上的字母上有91.81%的准确度和精度95.25%,扩大数据集到200000使用数据增强技术,如图像旋转、缩放、剪切、位置移动,剪切等。

2.1。手写字符识别的应用

手写字符识别是一个视觉的主要应用程序文档的分析:排序或阅读销/ ZIP从邮政信件,银行支票金额,提取数据从任何应用程序形式,OCR对盲人来说,扮演一个重要角色在数字图书馆进入文本信息出现在一个图像转化为数字格式,帮助大量保存历史文献,和许多更多。下面的列表包含一些真正的字符识别系统模型(27- - - - - -31日]。

谷歌的神经机器翻译(NMT)是一个端到端的学习方法来自动的翻译。nmt是众所周知的要求较高的计算成本的培训,使翻译的推论。NMT系统据称不够强劲,特别是当输入短语包含罕见的话说,根据作者的数量。谷歌phrase-based生产系统相比,神经机器翻译(GNMT)技术可以减少翻译错误平均为60%。在京东商城′14 English-to-French和德国的基准,GNMT达到竞争的结果是最先进的。系统的精度优于所有以前公布的发现当测量使用人类并排比较。在深LSTM网络8 8编码器和译码器层,系统模型使用注意链接的网络编码器和译码器残余连接。单词被分成一组小的典型subword单元(称为“零件”)输入和输出,以便更好地处理异常条件(27]。

一个开源OCR引擎创建称为超正方体惠普在1984年和1994年之间。黑色文本可能是第一个被一个OCR引擎很容易处理,根据超正方体。超正方体假定其输入是一个二进制图像,清晰定义多边形文本部分。在这一点上,气泡叠加单独创作概述了在一起。要检查文本blob的比例或定螺距文本。字符细胞立即砍固定螺距。在比例文本词使用明确的分隔和模糊空间。一种自适应分类器接收每个合适的词作为训练数据(29日]。

在现实世界中,德意志,,采用排序字母识别手写的邮政编码的方法。时滞神经网络(TDNN)分类器是用来识别手写数字后机器读过目的地址。不同的分类器中提取每个数字的结构和比较这一系列数字(30.]。

一个OCR。在盲人的盲文:论述了基础的光学字符识别(OCR)盲文代码,盲人使用的书写系统。由国家组织的资助的西班牙盲人,他们创造了这个系统。即使一个A4扫描仪,OCR可以处理表比典型的A4 (31日]。

3所示。方法

在本节中,该方法提供了手写字符和数字识别。特别是,使它简单和容易澄清,本节分为两个部分:CNN Odia语言的体系结构和数据集。

3.1。CNN的架构

CNN算法是最著名和广泛应用领域的深入学习。美国有线电视新闻网有一个明显的优势超过其前任,它发现重要的功能而不需要人工干预。计算机视觉、音频处理、和面部识别的只是几个有cnn的应用程序。的结构类似于一个传统的神经网络,cnn还受人类和动物的大脑神经元。这典型的CNN,类似于一个多层感知器(MLP),包括众多的卷积前二次抽样层(池)层,其次是完全连接(FC)层。

手写字符识别的Odia语言,我们实现了五个不同的CNN模型。深度学习的体系结构模式可以被认为是其层。可以使用不同类型的层的模型。其中每一层都有自己的意义基于其特点。这里所有的CNN架构我们实现了有两个卷积层紧随其后的是一个隐藏的致密层和一个输出层。提取图像的特征可以通过卷积层,第一层的CNN架构。因为像素只有邻近的像素和关闭,相关卷积保存图像的不同区域之间的关系,并缩小图像的过程中通过过滤较小的过滤器。

在CNN,池层经常添加每个卷积层后,最小化空间特征图的大小。这是另一个方法来减少过度拟合。池的方法通过选择最大,平均,或者总在这些像素值。最大池是一种最常用的连接池算法,我们采用卷积后每一步提交工作。

致密层的神经元都耦合层的神经元。致密层用于手写字符识别识别图像基于卷积的输出层。每一层神经网络的神经元计算输入的加权平均和通过它通过一个非线性函数,神经网络的体系结构的一个重要组成部分称为一个激活函数。常用的激活功能包括乙状结肠,棕褐色h阶跃函数、线性函数、指数线性单元,ReLU ReLU,漏洞百出。修正线性单位激活函数,或者ReLU,会产生相同的输出作为输入如果输入是积极的;否则,它将输出零和方程所示(1)。我们选择ReLU作为默认激活我们的构造函数在所有5个CNN模型,因为它更容易训练和提供更多更好的结果。

批标准化是在每一层用作建筑更快和更稳定的通过归一化层的输入重定位和重新调节。

建筑规范提出的五个不同的CNN模型应用于Odia字符数据集(32)在表表示1。特征的数量卷积层和致密层的数量单位改变从一个架构下。模型,输入层的形状是28××28日1,也是最后一层是输出层。贝叶斯优化(33)用于寻找最优值的数量特征,数量的单位,和学习速率。损失函数,选择分类叉,亚当优化器是用于优化器在所有的模型。直言叉基本上是作为损失函数在多类分类的任务。这是适用当有多个类别,系统或模型选择只有一个。亚当是一个更广泛的优化技术用于迭代调整网络权值基于训练数据。这种优化方法是非常有效的和消耗很少的内存处理模型的数据或参数。从1 - 6层主要用于提取输入图像的特性。Layer 7趋于平缓。层8、9和输出层分类输入图像基于特征提取前层。

3.2。数据集Odia语言

Odia,一种印度语言,主要是说在印度Odisha(原名奥里萨邦)。母语Odisha占总人口的82%,而Odia还用于印度恰蒂斯加尔邦等州的部分地区,恰尔肯德邦,西孟加拉邦。由于Odia字母的圆的结构和书写风格因人而异,它是一个具有挑战性的任务人员类似人类的分类精度。设计一个机器学习模型,需要一个标准数据集验证算法。对于我们的研究工作,我们已经使用Odia字符数据集(32),准备在NIT Rourkela (NITROHCS v1.0)和Odia数字数据库(34,准备在ISI,加尔各答。这些数据库是流行,主要用作基准数据库研究团体感兴趣的手写数字或字符识别实验Odia语言。

3.2.1之上。NITROHCS v1.0奥里萨邦汉字手写的数据库

这个数据库包含47类手写字符的320张图片在每一个阶级,即。,总共15040个样本。收集的数据集包含样本来自不同年龄组的共有160人。在不同的时间,每个人都有了两次样品。样例数据库如图字符的字符1

3.2.2。ISI的手写的奥里萨邦数字图像数据库

有356人在这个数据库收集的5000个样本图像的手写Odia数字由10类。共105封电子邮件被用来创建数据库和166份求职申请。整个数据集已经与4970个样本分为训练集和测试集,1000个样本。数字数据集的样本特征如图所示2

4所示。数据增加

数据增强是指技术提高数据访问的数量包括额外的副本的现有数据最小修改或通过生成新的人工数据从现有的数据。深度学习模型,它可以学习特点与多层次的抽象数据,最近改变了很多领域的最先进的。高维深度学习模型的训练像CNN需要添加额外的数据35]。然而,由于如此多的参数必须学会这些深度学习模型,这些方法容易过度拟合。更大的数据集可以作为regularizers并提供更强的模型。但是,收集和手动分配标签,手写的图像可能是一个耗时和昂贵的过程。因此,用户经常需要使用人工的数据用更少的图像增强在使用数据集。在这项工作中,我们采用一个完全卷积神经网络能够进行前沿和研究的优势增加增强图像样本训练集所产生的非线性转换手写的图像。数据扩增方法包括随机转换应用到最初的训练数据,以创建新的观察旋转,翻译等,现有的。图像增强是一种常见的活动在医学成像过程中,包括核磁共振影像(MRI)的处理,x射线计算机断层扫描(CT)和正电子发射断层扫描(PET) (36- - - - - -38]。

所有的样品在这两个数据集已经增强了每个增强技术,和同样的分裂已经使用每一次是正常的数据集的情况下使用。增强的数据库大小在应用各种增强策略如表所示2

4.1。仿射变换

应用数学计算每个点、线、面对象创建一个新的被称为一个“仿射变换”,因此,点之间的共线性将被保留下来39]。线性变换的集合操作提供包括翻译,旋转,缩放,这些仿射变换可以应用到一个图像扩展数据集。我们认为2 d图像 和一个点 然后点 仿射变换的点 ,在哪里 标量值。

以下4.4.1。翻译

翻译使图像沿的XY方向(或两者)不改变形状或角度。 改变的吗 和的值 给出了方程(2)和(3)。图3显示了翻译过程和翻译一些示例ISI图像数据库的图像。的参数值 决定翻译的方向。

我们的假设是,有一个白色背景的图像超出了他们的边界和适当的翻译。这种技术很有用,因为大多数对象可以位于任何地方的形象。这确保了卷积神经网络图像中看起来无处不在。我们只限制翻译小值因为更多的翻译导致绝大部分的字符被删除的图片,这证明了不利于CNN架构的性能。翻译技术的一个参数t,每个图像的数据集是由−翻译t,0和t像素的X方向和由−t,0和t像素的Y方向,增加九倍的数据集的大小。旋转的过程和样本翻译图片所示的数据3(一个)3 (b)。数据集的图像是由−翻译t0,t像素的XY的方向。从表3从实验,很明显,翻译数据集上的模型实现更好的性能比原数据集。

4.1.2。旋转

旋转是把一个图像在其中心的顺时针和逆时针方向的随机数量的度。 改变的吗 旋转后的值 给出了以下方程:

旋转是把一个图像沿顺时针或逆时针方向的中心度。自然,通过定位和提取字符从整个图像,甚至可以得到图像后稍微旋转。cnn的健壮的这些变化,我们通过小角度旋转的图像数据集。图像是由−旋转t,0,t度的一个参数t,这就增加了数据集的大小是由三个因素造成的,和样本图像数据所示4(一)4 (b)。旋转是把一个图像沿顺时针或逆时针方向的中心度。为一个参数r,所有的图像由−旋转r,0,r度。我们旋转图像r,其范围从1到10度,和r= 2、5、9、最大验证准确性实现和显示在表中4

4.1.3。扩展

扩展包括拉伸、压缩或调整原始图像。扩展点 原来的点 和扩展过程和示例图像缩放后如图5

比例涉及调整原始图像。这里,我们缩小原始图像,但添加额外的白色像素周围维持合成图像的维数不变。为一个参数年代我们减少的行数和列数年代,如图5(一个)5 (b)。我们规模图像通过减少字符的大小不改变图像尺寸参数年代,在那里年代参数描述的数量减少。缩放操作的性能如表所示5

4.2。弹性变形

最先引入弹性变换(3]。提出了分布的不变性不仅对弹性变形,结果手不受控制的振荡的抑制的惯性,而且对仿射变换。本文表明,弹性变换改进CNN MNIST数据集上的性能。我们假设,这同样适用于NITROHCS Odia字符数据集,ISI和加尔各答Odia数字数据集,和图6显示了一些示例弹性形变的图像。从表6,很明显,弹性变形提供了相当大的改善性能。

4.3。高斯噪声

高斯噪声统计噪声的概率密度函数(PDF)类似于正态分布。生成的噪音然后添加到图像,这扰乱了灰色的数字图像中所有值。PDF或归一化直方图的高斯随机灰色变量”x“以下方程: 在哪里 标准差和吗 是意思。它会导致数据集的大小增加2倍,和样本图像在应用高斯噪声图所示7。从表7,观察这个变换给出了提高性能通过改变σ的值。

4.4。颜色反转

颜色反转反转每个像素的颜色。例如,白色背景上的黑色字符变成白色的在一个黑色的字符。这有助于增加数据集的大小,和样本图像如图8。从表8,很明显颜色反转了相当大的改善性能。

5。结果与讨论

这部分包含一系列仿真结果描述提出的字符和数字识别算法的性能在不同的基准数据集。我们第一次比较的基准模型正规化CNN模型。此外,我们比较不同的增强技术的影响的性能提出了五种不同的字符和数字识别,CNN模型和我们比较该方法与先进的识别方法。

5.1。基线和正则化模型

所有实验进行了谷歌Colab在GPU环境中,和实验结果报道在本节设计五基线模型M1、M2、M3、M4、M5。NITROHCS v1.0字库没有单独的训练和测试的例子。因此,70%和-30%被用来获得培训和测试的例子,而巴基斯坦三军情报局图像数字数据库分成训练集和测试集,和同样的分裂已经没有任何变化。它是观察从图9基线模型达到100%的训练精度10时代,但其验证准确性停滞在97%左右。这适用于所有5个字符和数字数据集模型。这是一个迹象表明模型过度拟合数据。为了避免过度拟合的模型、L2正规化和空间辍学被添加到模型(40]。它可以观察到,在正则化模型,训练精度和验证准确性之间的差距已经减少了在所有的模型。从表9,很明显,最大精度验证后通过模型增加了正则化的应用。

5.2。数据增强对性能的影响

在我们的实验中,我们运用不同的数据增强技术,即。,tr一个nslation, rotation, scaling, etc. The maximum validation accuracy for two different character and numeral datasets is compared for five different models.

2显示了增强数据库的大小后,应用各种增强策略。表1011比较各种可用的手写字符识别技术的性能的Odia语言NITROHCS v1.0性格和ISI数字图像数据集。

增强技术来扩展数据集的数据很受欢迎在日常生活应用的脸,演讲,或文本识别和分类不同的语言,他们也在医学影像领域也扮演着重要的角色。但不幸的是,从不同的数据非常有限的贡献增大Odia手写字符识别技术被发现。数据增强技术在不同的数据集的性能比较如表所示12

比较在手写字符的识别或分类精度和数字属于不同的印度语言表所示13

6。结论

在这个工作中,五个变种的双层cnn用于手写字符识别Odia字符和数字。五个不同基准的准确性以及正则化模型算出。后测试各种数据的有效性,增强技术Odia字符使用标准的字符和数字数据和提供增强的数据集作为输入五个不同的CNN架构,我们得出结论,当原始数据集是颜色倒置或高斯噪声应用于数据集,产生更好的模型精度,即。98.91%,比正常的数据集。其他技术,如平移和旋转精度也出现了轻微改善。

数据可用性

OHCSv1.0数据用于支持这项研究的结果已经在NIT的沉积,Rourkela,印度、库(DOI: 10.1109 / NCVPRIPG.2015.7490020)。三军情报局Odia数字图像数据用于支持这项研究的结果已经存入ISI加尔各答,印度库(DOI: 10.1109 / ICDAR.2005.84)。

的利益冲突

作者宣称没有利益冲突。