发展全面Devnagari数字和字符数据库离线手写字符识别

文摘

在手写字符识别中,基准数据库中扮演一个重要的角色在评估各种算法的性能,各种研究人员获得的结果。在Devnagari脚本中,缺乏这样的官方基准。本文着重于一代的离线基准数据库Devnagari手写数字和字符。目前工作为数字和字符生成的5137年和20305年孤立样本数据库,分别从750年所有年龄段的作家,性别,教育和职业。离线样本图像存储在TIFF图像格式,因为它占用更少的内存。此外,数据提出了二进制级别,这样内存需求进一步减少。它将促进研究手写识别Devnagari脚本通过自由访问人员。

1。介绍

随着计算能力的发展,机器模拟人类的阅读已经成为一个严重的主题研究。光学字符识别(OCR)和文档处理已成为需要的时间与桌面出版的普及和互联网的使用。OCR包括识别的字符从数字化的图像光学扫描文档页面。人物因此承认从文档页面编码与美国信息交换标准代码(ASCII)或其他标准如UNICODE编码存储在一个文件中,这可以进一步被编辑和其他文件创建一些文字处理软件。很多研究已经完成英语在发达国家,欧洲,中国语言。但有一个缺乏需要在印度语言进行研究。这项研究的一个常见的问题是基准数据库的需要。促进统一的数据结果集,几个文档处理研究小组收集了大量数字和字符数据库,使其可用的世界各地的研究人员。然而,这样的现有数据库只提供一些语言,如英语,日语,和中国1]。这些标准数据库包括MNIST、雪松(2用英语,CENPARMI。一些工作也做孟加拉等印度脚本(3,埃纳德语4],Devnagari [5- - - - - -8]。印度是一个多语言和多脚本与22个国家拥有超过12亿人口的宪法和10个不同的脚本语言。Devnagari是印度最受欢迎的脚本。说印地语,印度的民族语言,全世界有超过5亿人口,写在Devnagari脚本。此外,印度是世界上第三大最受欢迎的语言9]。Devnagari也用于写作马拉地语、梵语、贡根语,尼泊尔的语言。

在印度这样的发展中国家和新兴超级大国,需要自己的语言技术的研究和开发。印度的信息技术部门、政府,开始在技术开发一个程序对印度语言(10]在语言方面的研究和开发。另一个政府事业发展中心先进的计算(11)积极参与开发的印度语言字体、翻译。由于这样的倡议,各种研究适用于印刷/手写字符的自动识别各种印度脚本都在进步。一些开创性的作品印刷印度脚本包括(4,12孟加拉语),(13埃纳德语),(14]Devnagari光学字符识别系统。存在一些研究手写字符的一些印度脚本包括(15- - - - - -20.]Devnagari字符。研究评论Devnagari字符识别也可以包括(9,21,22]。

研究报告的基础上不同的数据库收集在实验室环境中或从有关人口的较小的团体。手写识别的有效研究工作严重受阻,因为印度的脚本不可用的标准/基准数据库,和那些可能用于测试的算法和比较的结果(3]。

介绍一种尝试生成一个全面的数据库手写Devnagari数字和字符。这个数据库开发与视图,使其可以自由研究者社区作为基准数据库手写识别研究。的印刷形式Devnagari数字、元音和辅音数据所示4,5,6。收集的样本手写形式包含数字和字符一个作家如图1。摘要组织如下。部分2描述了离线数据库生成的细节。部分3讨论了这项工作的统计分析。结论和进一步研究方向进行了讨论4。

(一)空白格式

(b)示例数据

2。Devnagari离线数据库生成的细节

2.1。数据收集

样本A4尺寸表在空白框设计。人不同年龄、性别、教育和职业要求写出Devnagari数字和字符。唯一强加限制的字符或数字中风不应该接触的边界框板和垂直线在每一行的第一个盒子。没有强加的限制对于油墨的颜色,厚度,字符序列,和类型的笔像圆珠笔或墨水/中性笔。如果没有笔的作家,从一组随机提供不同类型的钢笔。收集的数据来自750名作者包括学校和学院的学生、职员、工人、家庭主妇、和高级公民。作家都是精心挑选,使数据库的代表。各种语言和教育背景的人就像马拉地语,印地语都写在空白表。收集的数据也被人在铁路预订中心和医院,包括前面提到的所有类别的混合物。选择披露个人信息是由作家以使它们不受压力,写作必须合法。 Figure1显示了示例手写数据由一个作家写的。

2.2。数据准备

A4大小的纸张在不同作家所写的数据(图1 (b))是数字化使用佳能Canoscan利德100平板扫描仪在300 dpi。图像存储在JPG格式。是繁琐和耗时的任务单独孤立的扫描图像的符号。因此,各种软件模块开发的Matlab来执行这个任务。整个过程在下面说明。在所有的750个样本,床单被用于这项工作。扫描图像的原始纸张也保存在原始的形式,以供将来使用。(1)灰度图像转换为二进制为简单起见。在模式识别中,我们关心的是物体的形状和大小,而不是颜色或灰度细节。这也降低了数据存储需求以及计算时间。(2)孤立像素(噪声)移除。(3)数字和字符周围的边界被用简单的逻辑,它是第一个和最大的连续的对象。其他孤立像素视为理想的数据组。(4)各种行分段使用水平直方图方法(23]。零像素直方图显示分离的各种行。每一行分别处理。每一行始于垂直线为第一个对象,这是忽略了。这是专门用于保护点作为性格的一部分 871834. fig.009”src= 在Devnagari脚本。否则,这个角色很像 871834. fig.0010”src= 和所有的画面 871834. fig.0011”src= 是输了。(5)有用的字符分割存储在单个文件中。TIFF格式是用于此目的。(6)分隔符号视觉检查适当的形状分类和储存在适当的文件夹。形成60文件夹用于存储10数字数据库和50字符数据库。几个孤立的数字和字符从目前的样本数据库如图2。(7)各种图像符号文件为进一步方便使用连续编号。图7显示了每一个数字,数字数据库的大小和图8显示了每个字符大小的数据库。

(一)有效数字数据库

(b)有效的字库

3所示。生成的数据统计

有些Devnagari复合字符不是广泛应用于现代写作(例如, 871834. fig.0012”src= 和 871834. fig.0013”src= )。一些字符都写在一个以上的方式,例如, 871834. fig.0014”src= 作为 871834. fig.0015”src= , 871834. fig.0016”src= 作为 871834. fig.0017”src= , 871834. fig.0018”src= 作为 871834. fig.0019”src= 。数据库主要包含数字的第一个形式,因为它是由大部分的作家写的。第二种性格也很少有作家写的是保存在数据库中。研究者可能单独的这些数据按照他/她的需要。

理想的Devnagari脚本由曲线和连接线路。行不是孤立的从主的象征。但在实践中,手写文档和中风是无意中孤立的数量由于不准确的写作的作家。这造成了严重的问题进一步文档分割和识别。在字符分割阶段,孤立的中风修饰符被错误地认为是单独的象征,因此单独存储。正确分割数字和字符如图2。手写文档中孤立的中风和符号在图所示3(一个)。这些俘虏中风被拒绝后目视检查和从数据库删除。同时,模糊的数字或字符可能属于多个类别从数据库删除。图3 (b)显示了这种可能的字符。各种字符包含打开曲线和线条。这样的字符不能唯一地分类。因此,他们也拒绝了。一些字符不当作家写的。这样的人物也拒绝了所有的750个样本,所有的符号都处理。由于上文中提到的原因,各种数据库不同频率如图7和8。

(一)无效的孤立的中风

(b)的字符

它可以很容易地看到,这些符号的组合曲线和开放行(例如, 871834. fig.0020”src= , 871834. fig.0046”src= , 871834. fig.0022”src= , 871834. fig.0023”src= , 871834. fig.0024”src= , 871834. fig.0025”src= , 871834. fig.0026”src= , 871834. fig.0027”src= , 871834. fig.0028”src= , 871834. fig.0029”src= , 871834. fig.0030”src= , 871834. fig.0031”src= , 871834. fig.0032”src= , 871834. fig.0033”src= , 871834. fig.0034”src= , 871834. fig.0035”src= )有更多的歧义和错误的机会。这样错误的中风和模棱两可的字符从最终的数据库。可以指出,对前面提到的字符识别效率可能是贫穷。

一些字符有错误的分割是另一个有效字符分割算法的限制,例如, 871834. fig.0036”src= 作为 871834. fig.0037”src= , 871834. fig.0038”src= 作为 871834. fig.0039”src= , 871834. fig.0046”src= 作为 871834. fig.0041”src= 。因此,它可以观察到从图7数字的频率 871834. fig.0042”src= 更比其他数字。相反,频率的性格 871834. fig.0043”src= 降低(见图8)。它也可以观察到从图8的频率 871834. fig.0044”src= 更比任何其他字符(878)而频率 871834. fig.0045”src= 和 871834. fig.0046”src= 少得多(195年和92年,分别地)。它可能是值得注意的频率 871834. fig.0047”src= 比这更实际的数据集扫描(750张照片)。

一些字符 871834. fig.0048”src= , 871834. fig.0049”src= , 871834. fig.0050”src= , 871834. fig.0051”src= 在现代写作中很少使用。因此,许多作家跳过写这些字符的空白提供数据表。所以,之前的字符的频率很低。

这个角色 871834. fig.0052”src= 不是一个Devnagari数据库的一部分,而是马拉地语的语言使用Devnagari脚本的一部分。为这个角色也是开发数据库,这样可能会有用的识别研究马拉地语的语言。

因此数字和字符的数量在每个类别的数据库减少和从不同的数字7和8。它也可以观察到,象征废品率低数字比字符。因此,数字识别的效率会比字符识别效率。

4所示。结论和未来的工作

在本文中,我们已经生成了一个全面的数据库Devnagari数字和字符。5137符号为数字生成的数据库,和数据库20305生成符号字符。发现一些符号需要被拒绝获得许多人的著作不是由视觉识别的检查。不可能等计算机软件识别符号。数据存储在二进制级和TIFF格式图像有效的存储和计算需求。这个数据库将进一步增长更多的样本不同的作家。此外,数据库将分为训练集和测试集随机在不久的将来。这个数据库将免费提供http://code.google.com/p/devnagari-database/。这肯定会帮助研究社区基准测试他们的研究结果。

确认

作者要感谢太太Rupali Dongre,先生Jitendra Bangari, Prashant Kelzare先生帮助在数字化和数据库的排序。他们还要感谢所有作者的贡献在这个数据库。

引用

t .斋藤、h·山田和k .山本”数据库ELT9手上打印字符JIS汉字及其分析,“事务研究所的日本电子和通信工程师,J.68-D卷,不。4,第764 - 757页,1985年(日本)。视图:谷歌学术搜索
j·j·赫尔,“手写文字识别研究数据库”IEEE模式分析与机器智能,16卷,不。5,550 - 554年,1994页。视图:出版商的网站|谷歌学术搜索
比比乔杜里,”一个完整的手写数字的数据库Bangla-a主要印度的脚本,“CVPR单位,印度统计研究所,印度加尔各答- 108。视图:谷歌学术搜索
巴塔查里亚和比比乔杜里,”印度手写数字的数据库脚本和多级识别混合数字,”IEEE模式分析与机器智能没有,卷。31日。3、444 - 457年,2009页。视图:出版商的网站|谷歌学术搜索
巴塔查里亚和比比乔杜里,”数据库的手写字符识别研究印度脚本”第八届国际会议文档的程序分析和识别(ICDAR ' 05)2005年9月,页789 - 793。视图:出版商的网站|谷歌学术搜索
“印度脚本手写字符的数据库”,2012年,http://www.isical.ac.in/放进/下载/ database.html。视图:谷歌学术搜索
r . Sarkar: Das,巴苏,m .茶室,m . Nasipuri d·k·巴苏,“CMATERdb1:无约束手写的孟加拉语和Bangla-English混合数据库脚本文档图像,”国际期刊文档分析和识别,15卷,不。1,第83 - 71页,2012。视图:出版商的网站|谷歌学术搜索
m·p·库马尔·r·Kiran a . Nayani c . v . dina和p . j .时称,“印度脚本工具开发ocr,”程序的计算机视觉和模式识别车间(CVPRW ' 03),33-38,2003页。视图:谷歌学术搜索
美国朋友,比比乔杜里。”印度脚本字符识别:一项调查,”模式识别,37卷,不。9日,第1899 - 1887页,2004年。视图:出版商的网站|谷歌学术搜索
TDIL, 2012,http://www.tdil.mit.gov.in/。
CDAC, 2012,http://www.cdac.in/。
比比乔杜里和美国朋友,”一个完整的印刷孟加拉OCR系统”,模式识别没有,卷。31日。5,531 - 549年,1998页。视图:谷歌学术搜索
a . Aleai p Nagbhushan,美国朋友,“基准埃纳德语手写文档数据库及其细分,”国际会议文档的程序分析和研究(ICDAR 11),第145 - 141页,2011年。视图:谷歌学术搜索
诉邦萨尔和r . m . k . Sinha”,梵文字母文字识别系统集成知识来源”,IEEE系统,人,控制论的一部分,30卷,不。4、500 - 505年,2000页。视图:出版商的网站|谷歌学术搜索
r·巴贾杰l . Deym,乔杜里,“Devnagari数字识别多个联结主义的分类器结合决定,”成就法,27卷,不。1,59 - 72年,2002页。视图:出版商的网站|谷歌学术搜索
巴塔查里亚和比比乔杜里,“多数投票方案多分辨率识别手打印数字,”第七届国际会议的程序文档分析和识别(ICDAR ' 2003),2003年。视图:谷歌学术搜索
c . v . dina j.p.孔雀舞库马尔,s . s . Ravi Kiran”双语OCR Hindi-Telugu文档及其应用,”第七届国际会议的程序文档分析和识别(ICDAR ' 2003),2003年,页1 - 7。视图:谷歌学术搜索
r . j . Ramteke p·d·博卡,s . c . Mehrotra“孤立的马拉地语手写数字识别:一个不变矩的方法,”《国际会议上认知和认可,第489 - 482页,2005年。视图:谷歌学术搜索
t . k . Bhowmik s . k . Parui,罗伊,“歧视与GA HMM训练手写体识别”19国际会议的程序模式识别(ICPR 2008)美国IEEE,佛罗里达州的坦帕,2008年12月。视图:谷歌学术搜索
b . v . Dhandra r . g .胡麻,m . Hangarge”卡纳达语、泰卢固语和Devnagari与概率神经网络的手写数字识别:一个新颖的方法,”国际期刊的计算机应用程序2010年,页83 - 88,IJCA特刊上最近的趋势在图像处理和模式识别,RTIPPR。视图:谷歌学术搜索
v . j . Dongre和v . h . Mankar”的研究评论Devnagari字符识别中,“国际期刊的计算机应用程序,12卷,不。2,页地位,2010年(0975 - 8887)。视图:谷歌学术搜索
b·辛格,a米塔尔,d . Ghosh”不同的特征提取和分类器的评估脱机手写Devnagari字符识别中,“模式识别研究杂志》上,2卷,第277 - 269页,2011年。视图:谷歌学术搜索
v . j . Dongre和v . h . Mankar Devnagari文档分割使用直方图方法,”国际期刊的计算机科学、工程和信息技术,1卷,不。3,46-53,2011页。视图:谷歌学术搜索

应用计算智能和软计算

文摘