的论文是关于应用迷你minibatch随机梯度下降法(SGD)域的基础学习应用于多层感知器隔离梵文字母/数字识别手写字符。这种技术可以减少方差估计的梯度和常使更好地利用现代计算机分层记忆组织的。gydF4y2Ba
需要认识到手写文本是具有挑战性的问题不仅从行为的角度生物识别技术也在模式识别中。写作是最自然的方式收集、存储和传输的信息。这是一个广泛使用的交流工具在人类和形式的输入模拟机器阅读。密集的研究工作领域的字符识别(CR)将在模拟人类阅读的挑战,也由于其潜在的应用,例如,邮政自动化、银行支票的分析和处理,手写的文字转化为盲文,手绘象形图或公式识别,等等。模式识别是一个计算密集型和耗时的任务由于大量的图像数据和大量的计算步骤。大需求的快速分类信件,邮局需要快速自动识别系统。传统上,传统的方法总是要求一个非常高速的计算机或并行计算机系统执行令人满意和快速识别。我们不能满足这些要求,使用简单的数字计算机。数字计算机擅长处理问题,明确制定,但手写字符识别不是这样的一个问题。随着neurocomputing技术,研究工作一直致力于制定模式识别任务的一种有效方式。 Present study investigates the direction for the improvement of performance in Devanagari CR system.
有18个官方语言接受在目前印度宪法。十二个不同的脚本是用于写这些语言。许多印度文档应该是用三种语言写的,也就是说,英语,印地语,每三个语言公式[国家官方语言gydF4y2Ba
修饰符在梵文字母脚本。gydF4y2Ba
| 元音gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
| 修饰符gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
| 修改后的形状gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
梵文字母脚本的基本特征。gydF4y2Ba
化合物的梵文字母字符。gydF4y2Ba
一个关键原因缺乏持续的研究努力在梵文字母光学字符识别(OCR)是主要是因为数据资源的不足。真实数据对单词和字符,在线词典,语料库的文本文档,可靠的标准化的统计分析,目前缺乏评估工具。所以,这些数据资源的创造无疑会提供急需的刺激梵文字母OCR的研究人员。孤立的梵文字母字符的主要研究是计算机视觉和模式识别(CVPR)单位的印度统计研究所(ISI),加尔各答。提出了模糊模式识别方案Hanmandlu和没吃gydF4y2Ba
模式识别应用程序使用机器学习的算法。机器学习在监督分类领域主要包括两个步骤:训练和测试。的机器学习算法的改进性能的方法是使用一个低偏差算法和训练算法与大数据通常被称为大数据。但学习与大型数据集都有自身的计算问题,在每一步需要一百万聚合。所以,大规模计算成本等最受欢迎的算法的梯度下降法需要替代解决方案。目前的研究主要集中在这个问题上的更大的数据集使用Devanagri。随机梯度下降法、在线学习和minibatch学习的方案来处理这个问题。剩下的纸是组织如下:部分gydF4y2Ba
的设计周期识别的字符之前的所有步骤的标准模式识别技术监督式学习模式。为目的的训练数据集由不同的研究小组使用。我们所知,只有孤立的字符和数字数据集的梵文字母脚本可以测试床。所以,这些都是尝试在这个研究。在这项研究中使用的设计周期图所示gydF4y2Ba
手写识别系统的设计周期。gydF4y2Ba
从基准数据集获得的图像中存在两组,即训练和测试。图像受到各种预处理步骤中描述表gydF4y2Ba
提出的特征提取算法。gydF4y2Ba
| 输入:图像(培训/测试)gydF4y2Ba | 输出:图像的特性gydF4y2Ba |
|---|---|
| 预处理步骤gydF4y2Ba | (1)图像转换成深浅不一的形象gydF4y2Ba |
|
|
|
| 算法1(标准层)gydF4y2Ba | 对于边界图像IM (gydF4y2Ba |
|
|
|
| 算法2:(全局专区)gydF4y2Ba | 对于边界图像IM (gydF4y2Ba |
|
|
|
| 算法3:(本地区域)gydF4y2Ba | 对于边界图像IM (gydF4y2Ba |
(一)标准分区;(b)全球分区;(c)和(d)本地分区。gydF4y2Ba
积累的特性是zonewise分区的使用两种不同的选择。例如,gydF4y2Ba
标准分区:整个图像的边界框分为gydF4y2Ba
弹性分区:弹性分区的概念是基于均衡每个区域的密度。我们在这里定义全局或局部分区的概念。在全球分区,欧元区分离线是决定等于密度划分的基础上,横向和纵向,而在本地方法图像分割水平基于密度均衡在每个区,然后垂直边界决定在当地部门的密度。gydF4y2Ba
梯度功能分解最初提出了在线字符识别。这种方法适用于机器印刷/手写和二进制/灰度,以及低分辨率图像。一般来说,图像的每个像素的梯度计算。在我们的分析中,我们应用“Sobel边缘检测算法来计算每个图像像素的梯度向量图像预处理。梯度向量可以被量化成八个方向使用两种方法,即角矢量量化和向量分解用平行四边形法则。在第一种方法,梯度的大小在每个图像像素分配给最近的方向平面和第二种方法梯度向量分解成两个最近的定向飞机使用平行四边形向量划分规则。平行四边形量化方法提供更少的量化误差,所以我们采取了这种方法量化梯度向量。gydF4y2Ba
图像的梯度计算分解为4、8、16定向的飞机。对于我们的分析,我们采取了八个方向的飞机。图gydF4y2Ba
(一)Sobel垂直梯度的面具;(b) Sobel水平梯度的面具;(c)量化用平行四边形法则。gydF4y2Ba
多层感知器作为分类器。多层感知器(MLP)的体系结构包括输入层、输出层和隐层。单隐层感知器给了许多模式识别应用程序中的通用近似。单层感知器的输出向量是由gydF4y2Ba
随机梯度下降法。gydF4y2Ba
| (gydF4y2Ba |
|
| %承担无限发生器gydF4y2Ba | |
| %可能重复例子(如果只有一个有限的培训损失)gydF4y2Ba | |
| 损失=gydF4y2Ba |
|
| 发现损失对参数的导数%计算梯度gydF4y2Ba | |
| 修改参数通过学习速率*损失对参数的导数gydF4y2Ba | |
| 如果gydF4y2Ba |
|
| 返回参数gydF4y2Ba |
梯度下降法。gydF4y2Ba
| 虽然是真的,gydF4y2Ba | |
| 损失=gydF4y2Ba |
|
| 发现损失对参数的导数%计算梯度gydF4y2Ba | |
| 修改参数通过学习速率*损失对参数的导数gydF4y2Ba | |
| 如果gydF4y2Ba |
|
| 返回参数gydF4y2Ba |
其收敛速度缓慢:这不是有益的训练集上得到更快的收敛速度,因为这将不会被翻译成一个更好的收敛速度的测试集(gydF4y2Ba
两个参数的敏感性,学习速率,减少常数。gydF4y2Ba
Minibatch-SGD。gydF4y2Ba
| (gydF4y2Ba |
|
| %承担无限发生器gydF4y2Ba | |
| %可能重复的例子gydF4y2Ba | |
| 损失=gydF4y2Ba |
|
| 发现损失对参数的导数%计算梯度gydF4y2Ba | |
| 修改参数通过学习速率*损失对参数的导数gydF4y2Ba | |
| 如果gydF4y2Ba |
|
| 返回参数gydF4y2Ba |
有一个权衡minibatch大小的选择gydF4y2Ba
体重衰变是正则化方法的一个子集。惩罚项重量衰变,根据定义,惩罚大重量。其他正则化方法可能涉及不仅权重,而且各种衍生品的输出函数。重量衰变惩罚项使权值收敛于较小的绝对值比他们。大重量可以在两种不同的方式伤害泛化。过分大的重量导致隐藏单位会导致输出函数过于粗糙,可能与断层附近。大量权重导致输出单位会导致野生输出远远超出范围的数据如果输出激活函数是没有边界的范围相同的数据。换句话说,大重量会导致过度输出的方差。gydF4y2Ba
中描述的实验是在不同的数据集执行下一个部分。数据集的图像预处理(培训和测试)。如前所述在表的特征提取方法gydF4y2Ba
MNIST [gydF4y2Ba
此数据集自2012年以来(可用gydF4y2Ba
在CPAR-12数字图像样本数据集的数量。gydF4y2Ba
| 图像gydF4y2Ba | 0gydF4y2Ba | 1gydF4y2Ba | 2gydF4y2Ba | 3gydF4y2Ba | 4gydF4y2Ba | 5gydF4y2Ba | 7gydF4y2Ba | 8gydF4y2Ba | 9gydF4y2Ba1gydF4y2Ba | 9gydF4y2Ba2gydF4y2Ba |
|---|---|---|---|---|---|---|---|---|---|---|
| 训练数据集gydF4y2Ba | 2280年gydF4y2Ba | 2280年gydF4y2Ba | 2280年gydF4y2Ba | 2280年gydF4y2Ba | 2280年gydF4y2Ba | 2280年gydF4y2Ba | 2280年gydF4y2Ba | 2280年gydF4y2Ba | 2280年gydF4y2Ba | 1200年gydF4y2Ba |
| 测试数据集gydF4y2Ba | 1012年gydF4y2Ba | 1012年gydF4y2Ba | 1012年gydF4y2Ba | 1012年gydF4y2Ba | 1012年gydF4y2Ba | 1012年gydF4y2Ba | 1012年gydF4y2Ba | 1012年gydF4y2Ba | 1012年gydF4y2Ba | 880年gydF4y2Ba |
|
|
||||||||||
| 总gydF4y2Ba | 3292年gydF4y2Ba | 3292年gydF4y2Ba | 3292年gydF4y2Ba | 3292年gydF4y2Ba | 3292年gydF4y2Ba | 3292年gydF4y2Ba | 3292年gydF4y2Ba | 3992年gydF4y2Ba | 3292年gydF4y2Ba | 2080年gydF4y2Ba |
有两种形式的书写数字“9”在梵文字母,gydF4y2Ba1gydF4y2Ba形式1段时间gydF4y2Ba2gydF4y2Ba表格2。gydF4y2Ba
图像的样本cpar - 2012手写数字(gydF4y2Ba
| 零gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 一个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 两个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 三个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 四个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 五gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 六个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 七个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 八gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 9gydF4y2Ba1gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 9gydF4y2Ba2gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
有两种形式的书写数字“9”在梵文字母,gydF4y2Ba1gydF4y2Ba形式1段时间gydF4y2Ba2gydF4y2Ba表格2。gydF4y2Ba
这个数据集是对2009年以来的全球研究社区,是由CVPR ISI加尔各答单位。梵文字母数字数据库收集的样本包括邮件件和工作申请表通过特别设计的形式进行数据收集。数据集由22556张图片(如表所示gydF4y2Ba
从CVPR样本图像数据集(gydF4y2Ba
| 零gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 一个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 两个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 三个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 四个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 五gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 六个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 七个gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 八gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
| 9gydF4y2Ba |
|
|
|
|
|
|
|
|
|
|
错误率为各种数据集使用直接的像素值。gydF4y2Ba
| 数据集gydF4y2Ba | 训练样本gydF4y2Ba | 测试样品gydF4y2Ba | 神经网络配置gydF4y2Ba | 包括培训时间的数据集gydF4y2Ba | 误差百分比gydF4y2Ba |
|---|---|---|---|---|---|
| MNIST手写的数字gydF4y2Ba | 50000年gydF4y2Ba | 10000年gydF4y2Ba | 784-100-10gydF4y2Ba | 4846秒gydF4y2Ba | 2.25gydF4y2Ba |
| MNIST手写的数字gydF4y2Ba | 50000年gydF4y2Ba | 10000年gydF4y2Ba | 784-200-100-10gydF4y2Ba | 9471秒gydF4y2Ba | 2.15gydF4y2Ba |
| MNIST手写的数字gydF4y2Ba | 50000年gydF4y2Ba | 10000年gydF4y2Ba | 784-200-10gydF4y2Ba | 7923秒gydF4y2Ba | 2.13gydF4y2Ba |
| ISI数字gydF4y2Ba | 18000年gydF4y2Ba | 3500年gydF4y2Ba | 784-100-10gydF4y2Ba | 1524秒gydF4y2Ba | 3.31gydF4y2Ba |
| ISI数字gydF4y2Ba | 18000年gydF4y2Ba | 3500年gydF4y2Ba | 784-200-100-10gydF4y2Ba | 3239秒gydF4y2Ba | 3.17gydF4y2Ba |
| ISI数字gydF4y2Ba | 18000年gydF4y2Ba | 3500年gydF4y2Ba | 784-200-10gydF4y2Ba | 2767秒gydF4y2Ba | 2.74gydF4y2Ba |
| cpar - 2012字符gydF4y2Ba | 49000年gydF4y2Ba | 29400年gydF4y2Ba | 784-100-49gydF4y2Ba | 3903秒gydF4y2Ba | 21.54gydF4y2Ba |
| cpar - 2012字符gydF4y2Ba | 49000年gydF4y2Ba | 29400年gydF4y2Ba | 784-200-49gydF4y2Ba | 8334秒gydF4y2Ba | 18.6gydF4y2Ba |
| cpar - 2012字符gydF4y2Ba | 49000年gydF4y2Ba | 29400年gydF4y2Ba | 784-200-100-49gydF4y2Ba | 8794秒gydF4y2Ba | 17.21gydF4y2Ba |
| cpar - 2012数字gydF4y2Ba | 26250年gydF4y2Ba | 8750年gydF4y2Ba | 784-200-11gydF4y2Ba | 5422秒gydF4y2Ba | 2.53gydF4y2Ba |
| cpar - 2012数字gydF4y2Ba | 26250年gydF4y2Ba | 8750年gydF4y2Ba | 72-100-11gydF4y2Ba | 2153秒gydF4y2Ba | 2。8gydF4y2Ba |
| cpar - 2012数字gydF4y2Ba | 26250年gydF4y2Ba | 8750年gydF4y2Ba | 784-200-100-11gydF4y2Ba | 5560秒gydF4y2Ba | 2.77gydF4y2Ba |
在这项研究中,实验与单隐层(200年或100年隐藏单位)神经网络和两个隐层神经网络(隐藏单位职责。在200年和100年)。输入层由单位的数量等于生成特征向量的大小。网络是训练了200时代的迷你批大小100。在实验中使用的学习速率常数等于1。正则化的价值权重衰减gydF4y2Ba
表gydF4y2Ba
错误率为不同的数据集使用提出的特征提取方法。gydF4y2Ba
| 数据集gydF4y2Ba | 特征提取方法gydF4y2Ba | 数的功能gydF4y2Ba | 神经网络配置gydF4y2Ba | 训练和测试的时间gydF4y2Ba | 出错率gydF4y2Ba |
|---|---|---|---|---|---|
| cpar - 2012字符gydF4y2Ba | 基于全局专区gydF4y2Ba |
72年gydF4y2Ba | 72-200-49gydF4y2Ba | 1941秒gydF4y2Ba | 14.89gydF4y2Ba |
| cpar - 2012字符gydF4y2Ba | 基于当地的区gydF4y2Ba |
72年gydF4y2Ba | 72-200-49gydF4y2Ba | 1864秒gydF4y2Ba | 16.01gydF4y2Ba |
| cpar - 2012字符gydF4y2Ba | 平等的区gydF4y2Ba | 72年gydF4y2Ba | 72-200-49gydF4y2Ba | 2082秒gydF4y2Ba | 21.35gydF4y2Ba |
| ISI数字gydF4y2Ba | 平等的区域优势gydF4y2Ba | 72年gydF4y2Ba | 72-200-10gydF4y2Ba | 1224秒gydF4y2Ba | 2.03gydF4y2Ba |
| ISI数字gydF4y2Ba | 基于全局专区gydF4y2Ba |
72年gydF4y2Ba | 72-200-10gydF4y2Ba | 1178秒gydF4y2Ba | 1.83gydF4y2Ba |
| ISI数字gydF4y2Ba | 基于当地的区gydF4y2Ba |
72年gydF4y2Ba | 72-200-10gydF4y2Ba | 909秒gydF4y2Ba | 2.14gydF4y2Ba |
| cpar - 2012数字gydF4y2Ba | 基于全局专区gydF4y2Ba |
72年gydF4y2Ba | 72-200-10gydF4y2Ba | 756秒gydF4y2Ba | 2.38gydF4y2Ba |
| cpar - 2012数字gydF4y2Ba | 基于当地的区gydF4y2Ba |
72年gydF4y2Ba | 72-200-10gydF4y2Ba | 785秒gydF4y2Ba | 1.93gydF4y2Ba |
| cpar - 2012数字gydF4y2Ba | 平等的区域优势gydF4y2Ba | 72年gydF4y2Ba | 72-200-10gydF4y2Ba | 956秒gydF4y2Ba | 2.07gydF4y2Ba |
在实验中由Kumar和RavulakollugydF4y2Ba
Kumar和RavulakollugydF4y2Ba
ISI的梵文字母数字性能比较是用三之前报道的结果。结果报道了Das et al。gydF4y2Ba
使用minibatch随机梯度加速识别大型数据集的速度。识别结果获得MSGD使用直接像素强度特性。其次,结果获得了定向功能基于MSGD边缘。从结果很明显,如果使用预处理和特征提取以及迷你批处理算法,1 - 3%的错误率降低直接像素强度特性。该方法提供了更好的/相同的识别准确性的标准基准可供梵文字母字符。识别时间不能相比之前报道的结果不是先前的研究认为是标准的时间。该方法速度在正常梯度下降学习和它给良好的准确性基于甚至直接像素强度。提出的性能改进方法在准确性方面如表6和7列的表gydF4y2Ba
比较方法的性能与以前报道的结果。gydF4y2Ba
| 数据集gydF4y2Ba | 方法使用先前报道的结果gydF4y2Ba | 功能使用之前的报告结果gydF4y2Ba | 所使用的分类器之前报道的结果gydF4y2Ba | 之前报道识别百分比gydF4y2Ba | 识别的方法(直接像素功能)gydF4y2Ba | 该方法识别的百分比(梯度特性)gydF4y2Ba |
|---|---|---|---|---|---|---|
| cpar - 2012gydF4y2Ba |
分类器组合(MV)gydF4y2Ba | 直接像素+简介+梯度+小波变换gydF4y2Ba | CCN、模糊神经网络、打印、资讯、FFTgydF4y2Ba | 97.87%gydF4y2Ba |
97.47gydF4y2Ba |
98.07gydF4y2Ba |
| cpar - 2012字符(gydF4y2Ba |
分类器组合(MV)gydF4y2Ba | 直接像素+简介+梯度+小波变换gydF4y2Ba | CCN、模糊神经网络、打印、资讯、FFTgydF4y2Ba | 84.03%gydF4y2Ba |
82.79%gydF4y2Ba |
|
| ISI梵文字母数字(gydF4y2Ba |
功能组合gydF4y2Ba | PCA / MPCAgydF4y2Ba |
支持向量机gydF4y2Ba | 98.55%gydF4y2Ba |
||
| ISI梵文字母数字(gydF4y2Ba |
多级分类器gydF4y2Ba | 小波gydF4y2Ba | 多级gydF4y2Ba |
99.04与0.24%拒绝gydF4y2Ba |
|
|
| ISI梵文字母数字(gydF4y2Ba |
整体使用演算法gydF4y2Ba | 泽尼克时刻gydF4y2Ba | mlpgydF4y2Ba | 96.80(单)gydF4y2Ba |
略语表gydF4y2Ba
图gydF4y2Ba
该方法的性能与以前报道的结果。gydF4y2Ba
作者宣称没有利益冲突有关的出版。gydF4y2Ba
作者要感谢智能系统集团诺伊达和CVPR ISI加尔各答单位提供梵文字母字符的数据集/数字。gydF4y2Ba