研究文章|开放获取
Pratibha Singh,Ajay Verma,Narendra S. Chaudhari, "Devanagari手写体字符识别的性能改进",应用计算智能和软计算, 卷。2015, 文章的ID193868, 12 页面, 2015. https://doi.org/10.1155/2015/193868
Devanagari手写体字符识别的性能改进
抽象的
本文研究了基于最小最小批量随机梯度下降(SGD)的学习方法在多层感知机中的应用,在孤立的Devanagari手写体字符/数字识别领域。这种技术减少了估计梯度的方差,并经常在现代计算机中更好地利用层次存储器组织。在小批量SGD上增加了重量衰减,以避免过拟合。首先对直接像素强度值作为特征进行实验。然后,对提出的基于柔性区域的梯度特征提取算法进行了实验。在大多数Devanagari字符/数字的标准数据集上,该结果是有希望的。
1.介绍
无论是从行为生物识别的角度,还是从模式识别的角度,对手写文本的识别都是一个具有挑战性的问题。写作是收集、储存和传播信息的最自然的方式。它是人类广泛使用的交流工具,是机器模拟阅读的输入。密集的研究工作领域的字符识别(CR)将在模拟人类阅读的挑战,也由于其潜在的应用,例如,邮政自动化、银行支票的分析和处理,手写的文字转化为盲文,手绘象形图或公式识别,等等。模式识别是一项计算量大、耗时长的任务,需要大量的图像数据和计算步骤。邮局对信件快速分类的巨大需求要求一种快速的自动识别系统。传统的方法通常需要非常高速的计算机或并行计算机系统来完成令人满意和快速的识别。我们不能用简单的数字计算机来满足这些需求。数字计算机擅长处理明确表述的问题,但手写字符识别不是这样的问题。随着神经计算技术的出现,人们对模式识别任务的高效制定进行了大量的研究。 Present study investigates the direction for the improvement of performance in Devanagari CR system.
目前印度宪法接受18种官方语言。12种不同的脚本用于编写这些语言。许多印度文件应该用三种语言书写,即英语、印地语和按照三种语言公式的邦官方语言[1].印地语是印度最普遍使用的语言,也是世界上第三大流行的语言,它是用梵文书写和编码的。不仅是印地语,还有其他语言,如马拉地语、梵语和孔卡尼语,都被编码成梵语文字。Devanagri手稿的基本字符由13个元音和36个辅音组成[2]如图所示1.写作风格是由左往右写。没有大写和小写的概念。辅音后面的元音有一种修饰的形状,称为修饰字。元音修饰语是放在辅音的左边、右边、上面还是下面,修饰语的形状就不同了,如表所示1.在Devanagari脚本中,使用36个辅音中的每一种多于12种不同的形式[3.,从而产生形状的变化。修饰语和复合字符的存在,如图所示2,使得Devanagari脚本的字符识别更加困难。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在Devanagari光学字符识别(OCR)中缺乏持续研究工作的一个关键原因主要是因为数据资源的缺乏。目前缺少了用于单词和字符,在线词典,文本文档的语境,文本文档的语境,可靠的标准化统计分析和评估工具。因此,这些数据资源的创建无疑将为在Devanagari OCR的研究人员提供许多需要的Fillip。孤立的Devanagari字符的主要研究是通过计算机愿景和模式识别(CVPR)单位的印度统计研究所(ISI),加尔各答。基于模糊模型的识别方案由Hanmandlu和Murthy提出[4]对于孤立的Devanagari数字。分类器组合现在广泛应用于Devanagari CR系统,以增加识别准确性[5- - - - - -9].Arora等人提出了利用阴影特征的分类器组合技术[3.,10].MLP和HMM组合方案由Bhattacharya等人提出[6].
模式识别应用程序使用机器学习算法。监督分类领域的机器学习主要包括两个步骤:训练和测试。提高机器学习算法性能的方法之一是使用低偏差算法,并用大数据训练算法,通常称为大数据。但是,使用大数据集进行学习也有它自己的计算问题,每一步都需要进行上百万次的聚合。因此,在梯度下降等最流行的算法中,大量的计算成本需要替代解。本研究主要针对Devanagri的大数据集进行研究。随机梯度下降、在线学习和小批量学习是处理这个问题的一些替代方法。论文的其余部分组织如下2讨论所使用的方法3.提供使用分类器模型的描述,部分4描述了对Devanagari数据集的评价结果,最后的结论在本节中给出5.
2.方法使用
在监督学习模式下,字符识别的设计循环遵循标准模式识别技术的所有步骤。为了训练的目的,使用了由不同研究小组开发的数据集。据我们所知,Devanagari脚本中只有独立的字符和数字数据集可以作为测试平台。这些都是在这项研究中做的实验。本研究使用的设计周期如图所示3..
从基准测试数据集获得的图像分为训练和测试两组。对图像进行各种预处理步骤,如表所示2.预处理模块后的输出由于维数过高,不适合分类器训练。特征提取/选择是降维的重要步骤。在本研究中,我们使用了一个基于梯度的方向特征。从图像样本的9个不同部分获得特征。基于全局和局部直方图的区域边界概念[11]如图所示4,在特征提取之前使用。
|
||||||||||||||||||||||
(一)
(b)
(c)
(d)
2.1.特征提取模块
这些特征是通过使用两种不同的分区方案按分区累积的。例如,(我)标准分区:图像的整个边界框分为区域和梯度累积为每个区域;(2)弹性区划:弹性分区的概念是基于均衡每个区域的密度。我们在这里定义全球或本地分区概念。在全局分区中,区域分离线是基于相等的密度分割,水平和垂直决定的区域分离线,而在本地方法中,图像基于每个区域中的密度均衡水平分割,然后在局部划分上划分垂直边界密度。
2.1.1.梯度功能
梯度特征分解最初被提出用于在线字符识别。该方法适用于机器打印/手写体、二值/灰度以及低分辨率图像。通常,梯度是在图像的每个像素上计算的。在我们的分析中,我们采用了“Sobel”边缘检测算法,计算预处理图像每个像素处的梯度向量。将梯度矢量量化为八个方向,采用两种方法,即角矢量量化和平行四边形规则矢量分解。在第一种方法中,将每个图像像素的梯度大小分配到其最近的方向平面上,在第二种方法中,利用平行四边形向量分割规则将梯度向量分解为两个最近的方向平面。由于平行四边形量化方法的量化误差小,因此我们采用这种方法对梯度向量进行量化。
图像的计算梯度分解成四个,八个或十六个方向平面。对于我们的分析,我们已经持有了八个方向飞机。数字5 (c)将梯度向量分解显示到其最近的矢量平面中。对于每个原始图像的子部分,我们已经累积了八个离散方向的梯度幅度。梯度矢量的组分由以下等式给出:
(一)
(b)
(c)
3.分类器模型
多层感知器被用作分类器。多层感知器(MLP)的结构由输入层、输出层和隐层组成。单隐层感知器在许多模式识别应用中给出了普遍的近似。单层感知器的输出向量是 在哪里,是隐藏层和输出层的偏差向量,,是各个节点的权重矩阵,以及,是激活功能。对于分类问题,如果是训练矢量,在哪里, 一种- 一维训练矢量,和.对于预测功能给出(2),则0 - 1损失函数为 在哪里指示函数是由 在哪里是给定模型的所有参数的集合。训练的目标是使损失函数最小化。但是,0 - 1损失函数是不可微的;因此,我们将损失函数最小化的负对数似然作为训练目标 使用损耗功能定义的误差表面的梯度更新重量。梯度估计训练数据。在这项研究中,随机梯度下降基于学习(表3.)方法应用于MLP。在普通的梯度下降算法中,在一个误差面上向下重复做小的步长,即均方误差。均方误差是权重的函数。随机梯度下降(SGD)的工作原理与普通梯度下降相同,但它通过一次只从几个例子而不是整个训练集估计梯度来进行更快的工作。在最纯粹的形式中,梯度的估计是一次只从一个例子进行的。在梯度下降(GD)和随机梯度下降(SGD)中,我们以迭代的方式更新一组权值,以最小化误差函数。正常GD(表4),训练集的所有样本在更新特定迭代的权值之前必须进行处理,而在SGD中,只有单身在特定的迭代中,使用整个训练集的训练样本对权重进行更新。因此,对于大数据,如果训练样本的数量很大,那么使用梯度下降可能会花费太长时间,因为在每次迭代中,当我们更新参数的值时,我们运行的是完整的训练集。另一方面,使用SGD会更快,因为你只使用一个训练样本,它从第一个样本开始就开始改进自己。SGD的收敛速度通常比GD快得多,但误差函数并没有GD的情况下那么小。通常,在大多数情况下,我们在SGD中得到的参数值的近似就足够了,因为它们达到了最优值并在那里保持振荡。随机梯度下降具有一个与数据集大小无关的收敛速度,因此当我们有一个巨大甚至无限的数据集时,它是适合的。但是,它有两个缺点:
|
||||||||||||||||||||
|
||||||||||||||||
(我)它的收敛速度缓慢:在训练集上获得更快的收敛速度并不有利,因为这将不会转化为测试集的更好的收敛速度[12];(2)它对这两个参数的敏感性,学习率和下降常数。对于深度学习,我们建议的一种变体是使用所谓的“迷你匹配”的随机梯度下降进一步修改。Minibitch SGD(MSGD),在表中解释5,与SGD的工作原理相同,除了我们使用多个训练示例来对梯度进行每个估计。这种技术减少了估计梯度的方差,并经常在现代计算机中更好地利用层次存储器组织。
|
||||||||||||||||||||
在选择迷你批处理大小时需要权衡.宽敞,时间浪费在减少梯度估计量的方差上,这些时间最好花在额外的梯度步骤上。一个最优是模型、数据集和硬件相关的,可以是1到几百个。在机器学习中,当我们从数据中训练模型时,我们试图让它做好准备,在新的例子中表现良好,而不是在它已经看到的例子中。MSGD训练循环没有这种泛化能力,并且有过拟合的趋势。对抗过拟合的方法是通过正规化和尽早停止使用验证。有几种正则化技术;最常用的方法是正规化将在下一节中解释。
3.1。重量腐烂
权值衰减是正则化方法的一个子集。重量衰减的惩罚项,根据定义,惩罚较大的重量。其他正则化方法可能不仅涉及到权值,而且还涉及到输出函数的各种导数。权值衰减惩罚项使权值收敛到更小的绝对值。较大的权值会以两种不同的方式影响泛化。过大的权值会导致隐藏的单位,这可能会导致输出函数过于粗糙,可能会出现接近不连续的情况。如果输出激活函数没有限定在与数据相同的范围内,那么导致输出单位过大的权值可能会导致远超出数据范围的野输出。换句话说,较大的权重会导致输出的过度方差。
3.2。和正则化
和正则化涉及到在损失函数中添加额外的项,这将惩罚某些参数配置。形式上,如果负对数似然损失函数是,那么正规化的损失将得到 这是如下所写的本研究: 在哪里是规范的 是一个封立的计,它控制正则化参数的相对重要性。常用的价值是1和2,因此命名法。如果,则正则化器也称为“权重衰减”。原则上,在损失中添加正则化项将鼓励神经网络中的平滑网络映射(通过惩罚较大的参数值,这减少了网络模型的非线性量)。更直观地说,这两个术语(NLL和)对应于建模数据阱(nll),具有“简单”或“平滑”解决方案。因此,最大限度地减少了理论上的总和,该总和对应于在拟合到训练数据和找到的解决方案的“一般性”之间找到正确的权衡。
4.实验结果
实验将在下一小节中描述的各种数据集上进行。对数据集(训练和测试)中的图像进行预处理。特征提取方法如表所示2采用基于前馈神经网络的分类器,结合正规化和mini-batch。为了实现使用minibatch方法的前馈神经网络,Palm [13]用于matlab。表4中规定的神经网络配置9是一个三层或四层网络。配置的第一个值指定特性的数量,最后一个值指定类的数量,其余的(输入和输出之间)指定隐藏层中存在的单元。实验是在搭载6gb RAM的英特尔酷睿i-3处理器上进行的。在下一小节中,给出了关于各种数据集的信息。
4.1。Mnist DataSet.
MNIST [14数据集由手写数字图像组成,它分为60,000个培训集的示例,以及10,000个测试示例。所有数字图像都尺寸标准化并以固定尺寸的图像为中心,为2828个像素。在原始数据集中,图像的每个像素由0到255之间的值表示,其中0是黑色,255是白色,而介于0和255之间的任何东西都是不同的灰色阴影。图像表示为784(28)的一维数组28)0到1之间的浮子值(0代表黑色和1个白色)。标签在0到9之间的数字,表示图像代表的数字。使用数据集时,我们通常将其划分为小匹匹匹配。
4.2.cpar - 2012数据集
此数据集以来,自2012年以来可用[15],并由Noida智能系统集团(模式分析和识别中心,CPAR)开发。这是可用于手写隔离模式的最大数据集。它由35000幅数字图像和78400幅字符图像组成。该数据收集自印度不同宗教的不同人口阶层的2000名作家。数字数据集在这个数据集中有11个类,因为与数字“9”对应的模式可以用两种不同的方式编写,如表所示7.字符数据集有1000幅训练图像和600幅测试图像,各包含49个类。表格6描述本研究中使用的CPAR-12的每个数字类别类别的模式数量。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 在Devanagari中,数字“9”有两种写法,1对于表格1的同时2表格2。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 在Devanagari中,数字“9”有两种写法,1对于表格1的同时2表格2。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4.3。CVPR-ISI数据集
自2009年以来,此数据集可用于全球研究社区,并由ISI Kolkata的CVPR单元开发。Devanagari数字数据库包括通过专门设计的数据收集的特殊设计从邮件和作业应用程序中收集的样本。数据集由22,556张图像组成(如表所示)8),以tif格式储存,收集自1049位作者。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在本研究中,采用单隐层神经网络(包含200或100个隐藏单元)和两层隐层神经网络(分别包含200和100个隐藏单元)进行实验。输入层由单元数等于生成的特征向量的大小组成。网络被训练为200纪元与一个迷你批大小为100。实验中使用的学习率保持不变,等于1。正则化权值衰减是维持在.隐层的激活函数是双曲正切函数,输出层的激活函数是logistic函数。实验设定的动量等于0.7。使用直接像素值作为特征得到的各种数据集的错误率列于表中9.以特征为直接像素强度的尺寸归一化图像模式得到了结果。网络配置随隐藏层的数量而变化。识别时间包括训练时间和分类时间。
表格10说明了表中描述的各种特征提取算法的性能2基于SGD的MLP学习。所有的样本图像被分成3张3个子图像,但分区的标准是不同的。从每个子图像中提取基于边缘的方向特征,在8个离散方向中定义每种情况下的72D特征向量。MLP采用三层架构,隐藏层有200个节点。其余的nn设置保持与前面的直接像素值实验相同。本例中用于训练和测试的数据样本数量与表中所述相同9(第二栏和第三栏)。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4.4.数字数据集CPAR-2012的性能比较
在Kumar和Ravulakollu进行的实验中[17],报告的平均识别率为95.18%,在单个分类器上排斥一些样品,并在分类器的集合系上的一些样品中排斥一些样品的97.87%。对于相同的数据集,建议的学习策略在没有任何拒绝的情况下给出98.07%的识别率。在CPAR-2012数字数据集上,MLP的SGD学习特征的准确率提高了0.2%.这里需要强调的一点是,我们的结果优于之前的结果,有两个原因:我们没有使用任何拒收样品和我们没有使用分类器集成模型。本文所报道的识别结果是针对单一分类器的。
4.5.字符数据集CPAR-2012的性能比较
Kumar和Ravulakollu [17将分类器集成的方法应用于字符数据集,获得了84.03%的识别率和5.3%的拒绝率。对于同一数据集,采用直接像素值的学习方法,在不排斥模式的情况下识别率为82.79%,采用特征提取方法的识别率为85.11%。对于CPAR-2012特征集,采用该特征集结合MLP上的SGD学习,准确率提高了1.08%.从上一节给出的推理角度来看,我们的结果更好。
4.6。数字数据集ISI-CVPR的性能比较
ISI Devanagari数字的性能比较是与之前三个报告的结果。Das等人报道的结果[18]更好,但它是针对ISI数据的小子集进行测试,而我们的方法是在完整的ISI数据集上进行测试。Bhattacharya和Chaudhuri报告的结果[16在完整的数据集上进行测试,但使用0.24%拒绝研究中使用的模式和特征属于复杂的特征提取算法。同时,他们所使用的分类算法是基于多阶段MLP的分类器,在多阶段MLP中存在最后一阶段所使用模式的拒绝。为单身神经网络(- 最终邻居),由它们建立的基准标记具有准确度97.26%。因此,对于考虑算法的复杂性的ISI数据,我们的结果更好。与Bhattacharya和Chaudhuri开发的方法相比,所提出的方法更好[16在识别速度方面。
结论
小靶机随机梯度用于加速大型数据集的识别速度。识别结果是使用直接像素强度作为MSGD的特征获得的。其次,在MSGD上基于边的方向特征获得结果。从结果显然,如果使用预处理和特征提取以及迷你批量算法,则误差率通过直接像素强度特征减少1-3%。该方法提供了更好/相同的识别准确性,具有可用于Devanagari字符的大多数标准基准。识别时间不能与先前报道的结果比较,因为时间不被视为先前研究中的标准。所提出的方法在正常梯度下降的基础学习中更快,并且它甚至是甚至直接像素强度的良好准确性。所提出的方法的性能改进是以表格6和7列中的表格所示的准确性给出的11.在该表中,第一列给出了关于数据集和与前一个结果相关联的引用的信息。为了显示我们提出的策略的有效性,我们采用了相同的Devanagari字符数据集。第2列总结了之前报告的结果使用的方法,第3列提供了它们使用的特征,第4列给出了之前的研究使用的分类方法,第5列给出了Table11提供了以前其他研究人员报告结果的准确性。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 表中使用的缩写11PCA:主成分分析,KNN: k -最近邻,FNN:前馈神经网络,SVM:支持向量机,MLP:多层感知器,CNN:级联神经网络,PRN:模式识别网络,FFT:函数拟合神经网络。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
数字6表明所提出的结果较现有方法的精度有了提高。
利益冲突
作者声明本文的发表不存在利益冲突。
致谢
作者要感谢智能系统集团Noida和ISI Kolkata的CVPR Unit提供了Devanagari字符/数字数据集。
参考文献
- 官方语言学系,1968年,http://www.rajbhasha.nic.in/golpcontent.aspx?t=endolresolution..
- N. Sharma, U. Pal, F. Kimura, and S. Pal, "使用二次分类器识别脱机手写的devnagari字符",刊于计算机视觉、图形和图像处理:第五届印度会议论文集,2006年,印度,12月13-16日,卷。4338计算机科学课堂讲稿,第805-816页,施普林格,柏林,德国,2006。查看:出版商的网站|谷歌学者
- S. Arora,D.Bhattacharjee,M. Nasipuri,D. K. Basu和M. Kundu,使用MLP和最小编辑距离的组合来识别非复合手写的Devanagari字符,“国际计算机科学与安全杂志,卷。4,不。1,pp。1-14,2010。查看:谷歌学者
- M. Hanmandlu和O. V. R. Murthy,《基于模糊模型的手写数字识别》,模式识别,第40卷,第5期。6,页1840-1854,2007。查看:出版商的网站|谷歌学者
- S. Shelke和S. Apte,“一种新颖的多特征多分类器方案用于无约束手写devanagari字符识别”第12届国际笔迹识别前沿会议论文集(ICFHR’10),页215-219,加尔各答,印度,2010年11月。查看:出版商的网站|谷歌学者
- U. Bhattacharya, S. K. Parui, B. Shaw,和K. Bhattacharya,“人工神经网络和HMM的手写Devnagari数字识别的神经组合”,在第十届国际手写识别前沿研讨会论文集,页613-618,La Baule,法国,2006。查看:谷歌学者
- T. Jindal和U. Bhattacharya,“使用adaboost结合的mlp集成来识别脱机手写数字”第四届多语言OCR国际研讨会论文集,卷。18,华盛顿,直流,美国,2013年8月。查看:出版商的网站|谷歌学者
- S. Kumar,“devanagari手印字符识别的三层方案”世界自然和生物启发计算大会论文集(NABIC’09),第1016-1021页,哥印拜陀,印度,2009年12月。查看:出版商的网站|谷歌学者
- R. Kumar和K. K. Ravulakollu,《关于Devnagari手写字符识别的表现》,世界应用科学杂志第31卷第1期6、2014年。查看:谷歌学者
- S. Arora, D. Bhattacharjee, M. Nasipuri, D. K. Basu,和M. Kundu,“结合多种特征提取技术的手写Devnagari字符识别”第三届工业和信息系统国际会议论文集(ICIIS’08),pp.1-6,IEEE,印度克拉冈州,2008年12月。查看:出版商的网站|谷歌学者
- P. Singh, A. Verma,和N. S. Chaudhari,“基于灵活区域特征的印地语数字分类性能分析”第三届电子计算机技术国际会议论文集(ICECT’11),PP。2011年4月,印度Kanyakumari 292-296。查看:出版商的网站|谷歌学者
- L. Bottou和O. Bousquet,“大规模学习的权衡”,在机器学习优化S. Sra, N. Sebastian和W. Ste, Eds。,pp. 351–368, MIT Press, Cambridge, Mass, USA, 2011.查看:谷歌学者
- r . b .棕榈预测作为学习数据的深度层次模型的候选[M.S.。论文),2012年。
- Y. LeCun, C. Cortes和C. J. C. Burges,手写数字的Mnist数据集, 1998,http://yann.lecun.com/exdb/mnist/.
- r·库马尔,a·库马尔和p·艾哈迈德,Devanagari文档识别研究的基准数据集,WSEAS新闻,LEMESOS,塞浦路斯,2013年。
- U. Bhattacharya和B. B. Chaudhuri,《印度文字的手写数字数据库和混合数字的多级识别》,模式分析与机器智能学报第31卷第1期3,第444-457页,2009。查看:出版商的网站|谷歌学者
- R. Kumar和K.K.Avulakollu,“手写的devnagari数字识别:在新数据集上基准测试,”理论与应用信息技术学报,卷。60,不。3,pp。543-555,2014。查看:谷歌学者
- N. DAS,J.M. Reddy,R. Sarkar等,“一个统计 - 拓扑特征组合,用于识别手写的数字,”应用软计算杂志,第12卷,第2期8, pp. 2486 - 2495,2012。查看:出版商的网站|谷歌学者
版权
版权所有©2015 Pratibha Singh等。这是一篇发布在知识共享署名许可协议如果正确引用了原始工作,则允许在任何媒体中进行无限制使用,分发和再现。