文摘

手写数字识别中扮演着重要的角色在许多用户身份验证应用程序在现代世界。手写的数字是不一样的大小,厚度,风格,和方向,因此,要面临这些挑战来解决这个问题。很多工作已经完成各种非印度语的脚本特别的罗马,但是,以防印度语的脚本,该研究是有限的。介绍一个脚本不变的手写数字识别系统识别数字写在五个流行的印度次大陆脚本,即Indo-Arabic,孟加拉语,梵文字母,罗马,泰卢固语。130 -元素特性集基本上是一个组合的六种不同类型的时刻,即几何,时刻不变,仿射不变矩,勒让德时候,泽尼克时刻,和复杂的时刻,据估计为每个数字样本。最后,技术评估CMATER和MNIST数据库使用多个分类器,执行统计显著性测试后,可以看出多层感知器(MLP)分类器优于别人。令人满意的识别精度达到所有提到的五个脚本。

1。介绍

自动化领域的阅读印刷或手写文档的电子设备被称为光学字符识别(OCR)系统,这是广泛定义为识别的过程打印或手写文本文档图像并将其转换为电子形式。OCR系统可以提供自动化的发展过程,可以提高人与机器之间的交互在许多应用程序中,包括办公自动化、银行支票验证,邮政自动化,和各种各样的业务和数据输入的应用程序。手写数字识别是识别和分类的方法手写数字从0到9没有人工交互(1]。尽管手写数字的识别研究了超过三十年,许多技术与高精度利率已经被开发出来,在这一领域的研究仍在继续,目的是进一步提高识别率。

手写数字识别是一个复杂的问题,因为变异存在于不同作家的写作风格。更具挑战性的现象,使得问题是固有的写作风格的变化在不同的实例。由于这个原因,构建一个通用的识别器的识别手写数字不同的作家写的并不总是可行的(2]。然而,最丰富的特性的提取具有歧视性的能力提高分类精度和降低复杂性仍为这个任务最重要的一个问题。这是一个非常重要的任务的标准数据库,允许不同的方法进行比较和验证。

印度是一个多语言的国家,23日宪法承认的语言写在12个主要脚本(1]。除了这些,数以百计的其他语言使用在印度,每个人的方言。官方认可的语言北印度语,孟加拉语,旁遮普语,马拉地语,古吉拉特语,奥里萨邦,信德语,阿萨姆人的,尼泊尔,乌尔都语,梵文,泰米尔,泰卢固语,埃纳德语,马拉雅拉姆语,克什米尔,曼尼普尔语,贡根语,往往是,Santhali,博多,英语,Dogri。12个主要脚本用来写这些语言梵文字母,孟加拉语,奥里萨邦,古吉拉特语,Gurumukhi,泰米尔,泰卢固语,埃纳德语,马拉雅拉姆语,曼尼普尔语,罗马,乌尔都语。在一个多语言的国家,如印度,它是一个常见的场景,一个文档工作申请表,火车票预订表单等等由不同语言编写的文本内容/脚本以达到更大的横截面的人。不同脚本的变异可能是数字或字母数字的形式在一个文档页面。但文本识别的技术开发通常不包含数字的识别。这是因为文本识别所需的功能可能并不适用于识别数字。

本文的组织结构如下:部分2提出了一个简短回顾之前的手写数字识别方法而在部分3脚本,我们引入独立的手写数字识别系统。部分4描述我们的系统的性能在现实的手写数字的数据库,最后,部分5总结了纸。

Gorgevik和Cakmakov3)开发基于支持向量机(SVM)的手写数字识别系统罗马数字。他们从每个数字图像提取的四种功能:(1)投影直方图,(2)轮廓概要文件,(3)ring-zones,和(4)Kirsch特性。他们报道97.27%的识别精度在国家标准与技术研究院(NIST)手写数字数据库(4]。在[5),陈等人提出了不等式性质后pseudoprobabilities框架罗马手写数字识别。他们从输入图像中提取256维定向功能。最后,这些特性转换成一组128使用主成分分析(PCA)的特性。他们在NIST数据库(识别精度98.76%4]。Labusch et al。6)描述了一种基于稀疏编码的特征提取方法与支持向量机分类器。他们发现99.41%的识别精度MNIST(修改NIST)手写数字数据库(7]。(描述的工作8)结合三识别器多数投票,其中一个是基于Kirsch梯度(四个方向),由PCA降维,并由支持向量机分类。他们的准确率达到95.05%和0.93%的错误在10000年测试的样本MNIST数据库(7]。鬃毛和Ragha9)执行手写数字识别基于eigendeformation使用弹性图像匹配技术,由实际变形的PCA估计弹性匹配的自动选择。他们自己的数据库上实现了94.91%的总体精度收集来自不同个体的不同职业的实验。克鲁兹et al。10)提出了手写数字识别系统。该系统利用多种特征提取方法和分类器。总共六个特征提取算法,即多层的,修改后的边缘地图、结构特征、预测,凹陷了测量,和梯度方向,本文进行了评估。计划使用神经网络作为组合器实现了99.68%的识别率60000图像训练集和测试集10000 MNIST数据库的图像。

Dhandra et al。11调查一个脚本独立的数字识别系统,自动识别埃纳德语,泰卢固语,梵文字母手写的数字。在该方法中,30类被减少到18类提取全球和当地的结构特性,如定向密度估计,水库,最大距离,和fill-hole密度。最后,概率神经网络(并通过分类器是用于识别系统取得了97.20%的准确率2550编写的数字图像埃纳德语,泰卢固语,梵文字母脚本。在[12),杨等人提出监督矩阵分解方法直接使用多级分类器。他们报道的98.71%有监督学习方法的识别精度MNIST数据库(7]。在[13),描述了多级逻辑回归模型的混合物。他们声称印度数字识别的准确性98% CENPARMI[提供的数据库14]。Das et al。15)描述了一种技术创建的本地区域,选择一组最优的当地区域从池中提取最优的手写识别信息孟加拉语数字识别。遗传算法被应用于这些地方区域样本最好的识别功能。这些选择当地区域的特征提取然后用SVM分类和识别精度达到了97%。在[16),基于小波分析的特征提取技术。分类、支持向量机和k最近的邻居(knn)使用和整体识别的准确性97.04%报道MNIST数字数据库(7]。的比较研究[17)是由训练使用反向传播神经网络(BP)算法,并进一步利用PCA特征提取。数字识别终于使用13算法、神经网络算法,费舍尔判别分析(FDA)算法。FDA算法证明了低效率的整体精度为77.67%,而BP算法与PCA特征提取了91.2%的准确性。

在[18),一组结构特点(即数量的洞,水库在四个方向,最大距离在四个方向,和fill-hole密度)k神经网络分类器是用于手写数字的分类和识别。5000年他们报告识别精度96.94%的样本MNIST数字数据库(7]。在[19方面他和Alseid),提出了一个阿拉伯语手写数字识别系统使用动态贝叶斯网络。他们采用基于DCT系数的特征分类。系统进行了测试Indo-Arabic数字数据库(ADBase)含有70000Indo-Arabic数字(20.),平均识别精度为85.26%,取得了10000个样本。Ebrahimzadeh和Jampour21)提出了一个外表面向基于特征的方法使用直方图的梯度(猪)手写数字识别。线性支持向量机用于分类的数字在MNIST数据集和一个整体精度97.25%被意识到。吉尔et al。22)提出了一种新颖的方法使用SVM二元分类器和不平衡的决策树。提出了两种分类器在这项研究中使用的数字特征作为输入,另一个使用整体形象。观察到一个手写数字识别的准确性达到100% MNIST数据库使用整幅图像作为输入。El Qacimy et al。23]调查四个特征提取方法的有效性基于离散余弦变换(DCT),也就是说,DCT左上角(城市)系数,DCT锯齿形系数,基于块的DCT城市系数,和基于块的DCT曲折系数。每个DCT系数的变异作为支持向量机分类器的输入数据,发现基于块的DCT锯齿形特征提取MNIST数据库上的优越的识别精度达到了98.76%。AL-Mansoori [24]MLP分类器实现手写数字识别和预测。5000数据集样本来自MNIST数据库和一个整体精度达到了99.32%。

从上面的文献中,很明显,大部分的工作已经完成罗马脚本,而相对较少的工作(11,15,19)已报告编写的数字识别印度语的脚本。这个进展缓慢的主要原因可能是归因于的形状的复杂性印度语的脚本而不是罗马脚本。的辨别能力的功能利用到现在不容易衡量的;调查实验需要确定新的有效的分类特征描述符复杂的手写数字不同的脚本。描述的方法,它也显示,在文献中,遭受更大的计算时间主要是由于从大型数据集特征提取。此外,上述识别系统无法满足所需的精度当暴露于不同的多脚本的场景。因此,它将有利于语言像印度这样的国家如果有一个方法是独立的脚本和收益合理的识别精度。这激励我们引入一个脚本不变的手写数字识别系统识别数字写在五个流行的脚本,也就是说,Indo-Arabic,孟加拉语,梵文字母,罗马,泰卢固语。提出的方法论的关键模块如图1

3所示。特征提取方法

的基本问题之一在任何模式识别系统的设计选择一组合适的特性提取感兴趣的对象。研究利用对象特征的时刻不变和noninvariant任务近年来得到广泛的重视。描述数字图像的时刻而不是其他更多常用的模式识别功能(中描述21- - - - - -23])意味着全球使用数字图像的属性而不是局部属性。因此,对于目前的工作,我们认为基于在下一小节中描述。

3.1。时刻

时刻是纯粹的统计测量周围的像素分布图像的重心,并允许捕获全局形状信息(25]。他们描述的数值在某种距离参考点或轴。时刻中常用的统计描述随机变量和的分布,同样,在力学描述身体质量的空间分布。

时刻的完整描述功能在单变量函数的类是由豪斯多夫(261921年)。

是一个真正的数字,让我们定义的序列 请注意, 可以被看作是吗 阶的导数

分离定理的充分必要条件是存在一个单调函数 令人满意的系统 线性不等式系统吗 应该满足;也就是说,如果 是一个积极的函数(在图像处理的情况下),然后泛的设置吗 完全描述函数。

必要和充分条件,存在一个函数 有界变差满足(7)序列 应该是有界的。时刻的使用图像分析是非常简单的,如果我们考虑一个二进制或灰度图像分割作为一种二维密度分布函数。它可以假设一个图像可以表示为一个实值可测函数 。通过这种方式,时刻可以用来描述一个图像分割和提取属性,在统计学和力学类比。在图像处理和计算机视觉,图像是某一特定时刻加权平均(时刻)图像像素的强度或一个函数的时候,通常会选择有吸引力的财产或解释。第一个重要工作考虑时刻对胡锦涛模式识别是由(27]。他派生相对和绝对的组合力矩值不变的规模,位置,方向基于不变代数理论处理代数表达式的属性的类一般线性变换下保持不变。基于不变矩的大小来自代数不变量,但可以证明是简单的大小归一化的结果。平移不变性是通过计算时刻负距离被翻译的重心,因此规范化,这样的质心分布在原点(中央的时刻)。

3.2。几何的时刻

被定义为图像的投影几何时刻强度函数 在单项 (25]。的 阶几何矩 灰度的图像 被定义为 在哪里 。注意,单项产品 是这一刻的基函数的定义。一组 包括所有的时刻 的年代 ;一组包含 元素。如果 是分段连续和包含非零值只有在一个有限的地区的 飞机,然后时刻序列 是唯一由 相反, 是唯一由 。考虑到图像段有限区域或在最坏的情况下是分段连续的,所有订单的时刻存在,一套完整的时刻可以计算和使用独特的描述图像中包含的信息。然而,获取图像中包含的所有信息需要无限的时刻值。因此,选择一个有意义的时刻值的子集,包含足够的信息来表征图像为一个特定的应用程序变得非常重要。对于数字图像的大小 的二重积分(6)被一个求和变成这个简化的形式: 在哪里 都是整数。

变化通过转换、旋转或缩放、形象定位可能是这样质量中心(COM)恰逢视野的起源,即( )和( ),然后该对象的时刻计算被称为中央的时刻(25),它是指定的 。中央的简化形式的秩序 定义如下: 在哪里

像素点 COM的形象。的中央的时刻 使用图像的质心计算是等价的 的中心已经转移到图像的质心。因此,中央的时刻翻译是不变的形象。可以通过标准化尺度不变性。规范化中央的时刻 被定义为 在哪里

二阶的时刻, 被称为的转动惯量,可以用来确定一个重要的图像称为取向的特性(25]。在这里,特征值F1 -F3计算的的转动惯量这个词的图片。一般来说,图像描述图像的方向在于视野或轴的方向。的时刻,主轴的方向, ,作为特征值F4,是由 在哪里 是最近的对主轴的角度 设在和范围 。最小和最大距离( )之间的重心和图像的边界也特征描述符。这一比率 被称为伸长偏心(F5),可以定义的中央的时刻如下:

3.3。矩不变量

基于代数不变量理论,胡27)派生相对和绝对的组合规模不变的对的时刻,位置,方向。矩不变量来自代数不变量的方法应用于矩生成函数在一个旋转变换。绝对矩不变量的设置由一组非线性组合下的中心矩值保持不变的旋转。一组7不变的时刻可以基于归一化中央的时刻的订单三个不变的图像比例尺,翻译,和旋转。考虑 这组时刻不变的翻译,规模变化,镜像(减号),旋转。2 d不变矩给七个特性(F6 -F12)被用于目前的工作。

3.4。仿射不变矩

派生的仿射不变矩不变量来翻译,旋转,缩放的形状和二维仿射变换。六个仿射不变矩(28)用于目前的工作定义如下: 总共6特性(F13 -F18)是从每一个手写的数字图像中提取目前工作。

3.5。勒让德的时刻

二维勒让德时刻(29日的订单 对象与强度的函数 定义如下: 在核函数 表示 阶勒让德多项式,给出的 在哪里 自从勒让德多项式在区间[是正交的 ][20.),一个正方形的图像 像素强度函数 , , 在该地区,必须按比例缩小的 , 。前十的图形绘制勒让德多项式数据所示2(一个)- - - - - -2 (b)。当一个模拟图像数字化离散形式,二维勒让德的时刻 ,定义为(14),通常是近似的公式: 在哪里 ,对于一个二进制图像 给药 pswlak的辽、(30.),(17)不是一个非常准确的近似(14)。实现更好的精度,他们建议使用下面的近似形式: 在哪里

计算二重积分 定义为(20.),另一种pswlak辛普森规则提出了辽和扩展。这些值被用来计算二维勒让德的时刻 定义为(19)。因此,这种方法需要大量的计算操作。一个人可以看到, 的帮助下可以表示一个有用的公式,将下面的线性组合 , ,

一组10勒让德时刻(F19 -F28)也可以派生集的基础上不变的时刻发现在前面小节:

3.6。泽尼克时刻

泽尼克多项式是正交的一系列基函数归一化单位圆。这些多项式的复杂性增加而增加多项式阶(31日]。计算泽尼克时刻,图像(或感兴趣的区域)是第一个使用极坐标映射到单位圆盘,在图像的中心单位圆盘的起源。像素在这里不考虑单元盘下跌。然后坐标描述向量的长度从原点坐标点。从笛卡尔到极坐标系的映射定义如下: 在哪里 泽尼克多项式的几何表示的一个重要属性是低阶多项式近似的全球特征形状/表面,而更高阶多项式捕捉当地的形状和表面特性。泽尼克时刻一类正交的时刻,已经被证明是有效的图像表示。

泽尼克多项式引入一组复杂的形成一套完整的正交单位圆的内部;也就是说, 。让这些多项式的设置用 。这些多项式的形式如下: 在哪里 :正整数或零, :积极的和消极的整数约束 甚至, , :从原点到向量的长度 像素, :向量之间的角 设在逆时针方向。正如上面提到的,复杂的泽尼克时刻秩序 与重复 连续图像的功能 定义如下: 图像平面的地方 表明共轭复数。注意,时刻的正交的,必须按比例缩小的图像在一个单位圆中心在原点 在极坐标。旋转的泽尼克时刻图像是由在同一坐标 变化的变量, , 方程(28)表明,泽尼克时刻有简单的旋转变换性质;每个泽尼克时刻仅仅获得一个相移旋转。这个简单的属性导致的结论是,大小的旋转图像函数的泽尼克时刻保持相同的旋转。因此,泽尼克时刻的大小, 可以作为一个底层图像旋转不变的特征函数。实值径向多项式 定义如下: 在哪里 =甚至和

泽尼克时刻也可能来源于传统的时刻 如下: 泽尼克时刻可能更容易来自旋转的时刻, ,通过 当计算泽尼克时刻,如果一个像素的中心落在单位圆的边界 这个像素将被用于计算;否则,像素将被丢弃。因此,时刻计算并不完全覆盖面积的单位圆的面积。泽尼克时刻的优势可以概括如下:(1)泽尼克时刻的大小具有旋转不变的性质。(2)他们强大的噪音和形状变化在某种程度上。(3)由于基础是正交的,他们有最小冗余信息。(4)一个图像可以更好地描述通过少量的泽尼克时刻比任何其他类型的时刻,如几何的时刻。(5)一套相对较小的泽尼克时刻可以描述全球模式的形状。低阶时刻代表全球模式的形状,而高阶时刻代表细节。因此,我们选择泽尼克时刻作为数字识别过程中形状描述符。表1列出了旋转不变的泽尼克时刻特性(F29 -F64)和相应的数字从订单0到10用于现在的工作。

定义的特性在泽尼克时刻只有旋转不变。获得规模和翻译不变性,数字图像是首先受到标准化过程使用其常规的时刻。然后旋转不变的泽尼克特性提取规模和翻译规范化的形象。

3.7。复杂的时刻

复杂的时刻是在[引入的概念32)作为一个简单和直接的技术获得一套不变的时刻。二维复杂的时刻 图像函数 是由 在哪里 非负整数和 。一些优势的复杂时刻可以描述如下:(1)当中央复杂的时刻作为特征,图像的侧向位移的影响可以被消除。(2)一组复杂的矩不变量也可以派生对象的旋转不变。(3)由于复杂的时刻是普通的时刻之间的一个中间步骤和不变量,它是相对简单的计算和更强大的比其他时刻特性在任何模式分类问题。订单(复杂的时刻 )复系数的一个线性组合几何的时刻 令人满意的 。在极坐标下,复杂的时刻 可以写成: 在哪里 表示顺序和重复的复杂的时刻,分别。如果复杂的旋转图像的原始图像,用同样的极坐标 的关系(33它们之间的]给出如下: 在哪里 是原始图像的角度旋转。复杂的力矩特性代表了侧向位移和旋转不变的特性。基于矩不变量的定义,我们知道,随着图像旋转,每一个复杂的时刻经过一个复数的所有可能的阶段,它的大小 保持不变。如果复杂的指数因子是取消,我们将获得其绝对不变的价值,它是图像的旋转不变。旋转不变复杂时刻特性(F65 -F130)和相应的数字从订单0到订单10用于当前工作表中列出2

最后,基于130年的时刻组成的特征向量的特征计算每个手写数字图像属于五个不同的脚本。摘要中使用的基于整体力矩的特性集目前工作列入表中3

4所示。实验研究和分析

在本节中,我们提出了基于详细的实验结果来说明现在的适用性的手写数字识别方法。所有的实验都是在MATLAB中实现2010 Windows XP环境下一个英特尔Core2双核2.4 GHz处理器,1 GB内存和执行灰度数字图像。的准确性,用作测量的性能评估准则提出系统,表达如下:

4.1。详细的数据描述

手写的数字从五个不同的流行的脚本,即Indo-Arabic,孟加拉语,梵文字母,罗马,泰卢固语,在实验中用于调查的有效性基于力矩的特性集相比传统的特性。Indo-Arabic或东部,阿拉伯语广泛用于中东和印度次大陆。另一方面,梵文字母孟加拉语大学排名的前两个受欢迎(母语)的脚本在印度次大陆34]。罗马,最初的进化希腊字母,是口语和世界各地使用。同时,泰卢固语、最古老的和印度的流行的南印度语言,是超过7400万人(34]。它排名第三的数量在印度母语。

目前的方法是测试数据库命名为CMATERdb3,CMATER代表微处理器应用培训教育和研究中心,研究实验室Jadavpur大学计算机科学与工程学系,印度,目前的研究活动。db代表数据库,3代表数值手写数字识别数据库存储在数据库存储库说。测试目前在四个版本的CMATERdb3,即CMATERdb3.1.1、CMATERdb3.2.1之上,CMATERdb3.3.1,CMATERdb3.4.1代表数据库为手写数字识别系统四个主要创建脚本,即孟加拉语,梵文字母,Indo-Arabic,泰卢固语,分别。

每个数字图像首先预处理使用倾斜修正和形态滤波的基本操作25),然后使用一种自适应全局阈值的关键计算的平均最小和最大强度的形象。关键数字图像可能包含噪声像素使用高斯滤波器[已被移除的25]。一个著名的算法称为精明的边缘检测算法(25)然后申请平滑的边缘的关键数字图像。最后,每个数字图像的边界矩形分别归一化到32×32像素。数据库是可用的自由CMATER网站(http://www.cmaterju.org/cmaterdb.htm),在http://code.google.com/p/cmaterdb/

3000位的数据集被认为是为每个样品梵文字母,Indo-Arabic,泰卢固语脚本。对于每一个数据集,2000个样本用于培训目的和其余的样本用于测试目的,而6000个样本的数据集是通过选择600个样本用于手写的每个10位数的类孟加拉语位数。4000个样本的训练集和测试集的2000个样本选择孟加拉语通过考虑相同数量的数字数字样本每个类。为罗马数字6000训练样本的数据集是由随机选择从标准手写MNIST [760000个样本训练数据集的大小。同样,选择4000位样本从MNIST测试数据集的大小10000个样本。这些数字样本用最小边界广场和规范化的32×32像素尺寸。典型的手写数字样本从上述数据库用于评估目前的工作图所示3

4.2。识别过程

实现该方法的有效性,我们综合实验测试进行五个提到的数据集。6000 (梵文字母,Indo-Arabic,泰卢固语脚本)数字已经用于培训目的而其余3000数字从每个脚本的(1000)用于测试目的。为孟加拉语罗马脚本,共有8000个数字从每个脚本(4000)用于训练目的而其余4000数字(2000来自每个脚本)已经被用于测试目的。设计特性集已经单独应用于八个著名的分类器,即朴素贝叶斯、贝叶斯网,中长期规划,支持向量机,随机森林,装袋,多级分类器和物流。对于现在的工作,以下上述分类器与给定设计参数:朴素贝叶斯:朴素贝叶斯分类器:详情,请参考[35]。贝叶斯网:估计量= SimpleEstimator-A 0.5,搜索算法= K2。延时:学习速率= 0.3,动量= 0.2,数量的时代= 1000,minerror = 0.02。支持向量机:使用径向基核的支持向量机( ):详情,请参考[36]。随机森林:系综分类器,由许多决策树和输出类的模式输出的类个人树:详情,请参考[37]。装袋:装袋分类器:对细节,请参考[38]。多级分类器:方法=“1对所有,”randomWidthFactor = 2.0, = 1。物流:LogitBoost是使用简单的回归函数为基础的学习者:详情,请参考[39]。分类器的设计参数选为典型值用于文学或经验。分类器并不是专门针对手头的数据集,尽管他们可能与另一个参数集实现更好的性能,因为我们的目标是设计一个自动化的手写数字识别系统基于分类器的选择集。

目前技术的数字识别性能使用这些分类器和相应的成功率达到95%置信水平数据所示4(一)- - - - - -4 (b),分别。从图可以看出4最高数字识别准确性已经通过向MLP分类器被发现是99.3%,99.5%,98.92%,99.77%,98.8%Indo-Arabic,孟加拉语,梵文字母,罗马,泰卢固语脚本,分别。性能分析包括两个参数,即模型建立(MBT)和识别时间(RT)。MBT是基于训练所需的时间系统在给定的训练样本而RT是基于认识到给定的测试样品所需的时间。所需的MBT和RT上述分类器在所有五个数据库数据所示5(一个)- - - - - -5 (b)

4.3。统计显著性测试

统计显著性检验的基本方法验证多个分类器的性能使用多个数据集。为此,我们进行了安全弗里德曼和健壮的非参数测试(40与相应的事后测试Indo-Arabic数据库脚本。目前实验设置,数据集的数量( )和分类器的数量( )分别设置为12和8。这些数据集随机选择从测试集。在不同的数据集分类器的性能如表所示4。的基础上,这些表演,然后排名分别为每个数据集分类器,表现最好的算法得到了1级,第二个最好的排名2,等等(见表4)。在关系的情况下,平均排名被分配到分类器打破了领带。

的排名 th分类器在 数据集。然后,意味着的行列 分类器在所有 数据集将计算如下: 零假设,分类器是等价的,所以他们的行列 应该是平等的。来证明它,弗里德曼统计(40计算如下: 根据目前的实验,这个数据是根据分发的 (= 7)自由度。使用(37)的价值 30.46计算。表的关键值(见任何标准统计书),的价值 7自由度是14.0671 ( 被称为显著性水准)。可以看出,计算 的标准有很大区别 。所以,零假设被拒绝。

辛格et al。40)派生一个更好的统计数据使用下面的公式: 分布式根据吗 分布与 (= 7)和( )( )(= 77)的自由度。使用(38)的价值 8.0659计算。的临界值 (77) = 0.05是2.147(见任何标准统计书)显示了一个重要的标准和计算值之间的差异 。因此,弗里德曼和伊曼等人拒绝零假设的统计数据。

零假设被拒绝,事后测试称为Nemenyi测试(40)进行了两两比较最好的和最差的分类器。两个分类器的表现明显不同,如果相应的平均排名相差至少(CD)的关键区别是表示如下: Nemenyi测试的价值 8个分类器(见表3.031 (一)(41])。所以, 是计算 ,3.031,使用(39)。因为之间的区别意味着最好和最差的分类器远远大于 (见表3),我们可以得出结论,有执行能力的分类器之间的显著差异。比较所有分类器控制分类器(MLP)说,我们应用Bonferroni-Dunn测试(40]。对于这个测试, 使用相同的计算(39)。但是这里的价值 8个分类器(见表2.690 (b) (41])。所以, Bonferroni-Dunn测试是按照2.690计算 ,也就是2.690。是任何的平均排名分类器之间的差异和MLP总是大于 (见表3),选择控制分类器性能明显优于其他分类器Indo-Arabic数据库。图形表示上述事后测试比较的八个不同的数据集分类器在# 1图所示6。同样,它也可以显示孟加拉语,梵文字母,罗马,泰卢固语数据库,选择分类器(MLP)执行明显比其他七种分类器。

4.4。比较在时刻的基础功能

理由的特性集用于目前的工作,六种不同类型的不同组合的时刻,即几何矩(F1 -F5)、不变矩(F6 -F12),仿射不变矩(F13 -F18)、勒让德时刻(F19 -F28),泽尼克时刻(F29 -F64)和复杂的时刻(F65 -F比较130),通过考虑所有可能的组合。这样做是为了测量个人的歧视力量时刻特性和他们的组合基于互补信息。这些可以列出如下:(一)几何时刻+ +仿射不变矩不变(F1 -F18)。(b)勒让德时刻(F19 -F28)。(c)几何矩+时刻不变+仿射不变矩+勒让德(F1 -F28)。(d)泽尼克时刻(F29 -F64)。(e)几何矩+不变矩+仿射不变矩+勒让德时刻+泽尼克(F1 -F64)。(f)勒让德时刻+泽尼克(F19 -F64)。(g)复杂的时刻(F65 -F130)。(h)泽尼克时刻+复杂(F29 -F130)。(我)几何矩+时刻不变+仿射不变矩+勒让德+泽尼克时刻+复杂(F1 -F130)。图形比较相应的数字识别精度通过MLP分类器在同一测试设置如图7。它可以看到从图7,当前时刻的组合特性优于其他所有可能的组合。

4.5。详细评价MLP分类器

在目前的工作,详细的误差分析对不同的参数,即Kappa统计,平均绝对误差(MAE)、均方根误差(RMSE),真阳性率(TPR),假阳性率(玻璃钢),精度,记得, 测量、马修斯相关系数(MCC)和面积ROC (AUC)计算。表5- - - - - -9提供了手写数字识别的统计测量说写的Indo-Arabic,孟加拉语,梵文字母,罗马,泰卢固语脚本,分别。

5。结论

印度是一个多语言和多脚本国家组成的12种不同的脚本。但是没有能力做了手写数字识别的工作印度语的脚本。以下问题是观察与手写数字识别系统:(1)他们大多工作在有限的数据集。(2)培训和测试时间都未提及在大多数的作品。(3)大部分的工作已经完成了罗马因为像MNIST获得更大的数据集。(4)识别系统印度语的脚本主要是集中在单一的脚本。(5)限制一些特征提取方法也存在;也就是说,他们是当地的一个特定的脚本/语言,而拥有一个全局范围。在这项工作中,我们验证了基于瞬间的手写数字识别方法的有效性问题,包括几何,时刻不变,仿射不变矩,勒让德时候,泽尼克时刻,和复杂的时刻。目前方案已经测试了五种不同的流行的脚本,也就是说,Indo-Arabic,孟加拉语,梵文字母,罗马,泰卢固语。这些方法评估了CMATER和MNIST数据库使用多个分类器。最后,MLP分类器被发现产生识别精度最高的99.3%,99.5%,98.92%,99.77%,98.8%Indo-Arabic,孟加拉语,梵文字母,罗马,泰卢固语脚本,分别。结果表明,应用基于矩的方法导致更高的精度与同行相比。最重要的,这种特征提取算法的一个优势是,它是更少的计算昂贵,大多数发表的工作需要更多的计算时间。这些特性也非常简单的实现与其他方法相比。很明显,为了进一步提高系统的性能,我们需要调查更多的错误的来源。潜在的力矩特性提出的可能也存在。

进一步提高性能,未来可能的工作如下:(1)尽管目前基础功能执行总体上互补的特性,如凹度分析可以帮助识别复杂的数字。例如,Indo-Arabic数字“2”和“3”可以更好的被分离之前考虑到原始大小归一化。(2)分类器设计,最好选择模型参数(由交叉验证分类器结构)而不是经验在我们的实验完成。(3)结合多个分类器可以提高识别精度。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者感谢微处理器应用培训教育和研究中心(CMATER)和项目的存储检索和理解视频多媒体(SRUVM)计算机科学与工程系,Jadavpur大学期间提供基础设施的工作进展。目前的工作,在这里报道,部分由大学卓越的潜力(UPE),第二,UGC,印度政府。