应用计算智能和软计算

PDF
应用计算智能和软计算/2014年/文章

研究文章|开放获取

体积 2014年 |文章的ID 896128年 | https://doi.org/10.1155/2014/896128

Sk Md Obaidullah Anamika Mondal Nibaran Das, Kaushik罗伊, 脚本识别从印度印刷文档图像使用不同的分类和性能评价”,应用计算智能和软计算, 卷。2014年, 文章的ID896128年, 12 页面, 2014年 https://doi.org/10.1155/2014/896128

脚本识别从印度印刷文档图像使用不同的分类和性能评价

学术编辑器:埃里希·彼得·克里门
收到了 2014年6月18日
接受 2014年11月18日
发表 2014年12月07

文摘

脚本从文档图像的识别是一个活跃的研究领域在文档图像处理多语言/多脚本像印度这样的国家。本文的现实生活问题打印脚本识别从印度官方文档图像被认为是和表演不同的著名的分类器进行评估。两个重要的评价参数,即AAR(平均准确率)和MBT(模型建立时间),计算性能分析。实验进行了459年印刷文档图像5倍交叉验证。简单的逻辑模型显示在所有AAR最高98.9%。BayesNet和随机森林模型的平均准确率96.7%和98.2%相应MBT最低为0.09。

1。介绍

自动脚本识别文档图像处理下一个活跃的研究领域。工作特别适用于多脚本像印度这样的国家。22现在正式语言和脚本(131)是用来写这些语言。用英语图23。自动文档处理帮助现实世界物理文档转化为数字文本形式,它可以是非常有用的等进一步处理的存储、检索和索引的大量的数据。在我们国家有许多语言使用相同的脚本编写。例如,在印度梵文字母是一个著名的脚本用于编写语言,像印地语,马拉地语、梵语、等等而孟加拉是另一个流行的脚本,用于编写语言,像孟加拉语,阿萨姆邦的,曼尼普尔人。多语言文档在我们的日常生活中是很常见的,包括邮政文档,预印表格,等等。光学字符识别(OCR)为特定语言不会为这种多语言文档工作。因此,要做一个成功的多语种OCR,脚本运行单个OCR前识别是非常重要的对于一个特定的语言。在这种情况下,脚本识别问题的解决。

印刷类别下的所有脚本识别技术可以分为四大组,即,(我)文档脚本识别水平,(2)块级别脚本识别,(3)线路电平脚本识别,和(iv)词级脚本识别。文档级别脚本识别比另一类快得多,因为这里整个文档是美联储脚本识别系统不执行细分割成块,线,或词级别。Ghosh et al。2)提出了一个评估,技术开发的脚本识别文档图像处理研究人员从印刷和手写文档提到。一些报告文学作品印刷印度的脚本识别。有时non-Indic脚本也被认为是在数据库中与印度的脚本。其中,施皮茨(3]在他的作品中发现了拉丁,汉族,中国、日本、和韩国的脚本通过使用功能,如向上凹度分布、光学字符密度,等等。他完成了他的工作在文档级别。林等。4)确定一些non-Indic脚本使用水平投影轮廓,高度分布,圆,椭圆,存在垂直行程等等功能。业务等。5)确定6个脚本,即阿拉伯语、亚美尼亚,梵文字母,中文,斯拉夫字母,和缅甸,使用一些基于文本的符号特性。周et al。6)确定孟加拉语和英语脚本使用基于组件的连接特性从印刷和手写的文件。普拉萨德et al。7)确定印刷古吉拉特语脚本使用基于集群的模板。帕蒂尔和Subbareddy8)提出了一个triscript识别技术在英语,埃纳德语,印地语使用基于神经网络的分类方法。在单词层面他们执行他们的工作。Elgammal和伊斯梅尔9)提出了一个块级和行级脚本识别技术从阿拉伯语和英语脚本使用水平投影概要文件和运行长度的柱状图分析。Dhandra et al。10)提出了一个从埃纳德语单词级别脚本识别技术,北印度语,英语,乌尔都语使用形态学分析。乔杜里和朋友11)提出了基于线脚本识别技术从罗马,手镯,梵文字母脚本。谭et al。12)提出了混合脚本识别技术考虑中国,拉丁,泰米尔使用基于向上凹性的特性。乔杜里和Sheth13)提出基于伽柏过滤脚本识别技术从英语,印地语,泰卢固语,马拉雅拉姆语脚本。他们在块级别执行工作。在另一个工作莲花和Vijaya [14)提出了一个使用基于小波变换的特性考虑七个印度语系和non-Indic脚本,即英语、中国、希腊、西里尔文、希伯来语、北印度语和日语。使用基于多通道记录伽柏滤波器特性Joshi et al。15)提出了一个阻止脚本识别技术水平英语,印地语,泰卢固语,马拉雅拉姆语,古吉拉特语,埃纳德语,Gurumukhi,奥里萨邦,泰米尔语和乌尔都语脚本。Dhanya et al。16)提出一个字级别脚本识别技术从罗马和泰米尔脚本使用多通道伽柏过滤器和离散余弦变换(DCT)的基础功能。

一些报告文学作品也考虑手写文档图像。在周的工作等。6)确定孟加拉语和英语脚本使用基于连接组件配置文件的功能。他们执行的工作行、单词和字符的水平。Singhal et al。20.确定了罗马,梵文字母,孟加拉语,泰卢固语脚本从线路电平手写文档图像。他们为他们的工作使用纹理分类算法。业务等。21)确定六个印度语系和non-Indic脚本,即阿拉伯语、汉语、西里尔,梵文字母,日语,和拉丁,使用水平和垂直重心等一些特性,球形,长宽比,白洞等等。他们表现在文档级别的工作。在另一个工作罗伊et al。22)确定六个印度脚本流行,即孟加拉,梵文字母,马拉雅拉姆语,乌尔都语,奥里萨邦,和罗马,使用基于组件的特性,基于分形维数的特性,基于循环的功能,等等。这是第一种工作涉及六个印度脚本。在一块级别脚本识别技术Basu et al。23]发现拉丁,梵文字母,孟加拉语,乌尔都语手写数字脚本使用基于类似的形状的数字模式的特性。Singhal et al。24)提出了一种技术来识别四个印度脚本,即梵文字母,孟加拉语,泰卢固语,拉丁语。他们使用旋转不变纹理特性使用多通道伽柏过滤和灰度同现矩阵。使用基于分形特性穆萨et al。25]发现阿拉伯和罗马脚本从线路电平手写文档。在最近的一个工作Hangarge et al。26]提出一个字水平方案基于定向基于DCT特征来定义六个印度脚本,即罗马,梵文字母、卡纳达语、泰卢固语,泰米尔语,马拉雅拉姆语。王妃et al。27)提供一个技术使用伽柏滤波器和基于梯度特征和支持向量机分类器识别Gurumukhi和罗马脚本。这项工作是在人物等级。

所有上述作品使用只有一个执行标准模型分类的目的。也观察到至今为止没有工作是所有官方印度脚本进行考虑。目前的工作是为了确定任何一个十流行的印度的脚本和评估的性能不同的著名的分类器对不同标准的测量参数。图1显示了一个框图模型的当前工作。

本文的组织结构如下:简要概述关于印度的语言和脚本中提供了部分2。节3数据收集和预处理进行了讨论。部分4处理特征提取技术。实验结果讨论了部分5。结论是节6和承认部分是结论部分。终于在最后一节可以提供参考。

2。印度的语言和脚本

印度是一个多元化文化的国家,社会,宗教,和语言。有22种官方语言(总1]在印度和13个脚本用于写他们。用英语数变成23。在下面的部分中简要概述关于印度的官方语言和脚本提供。在图2地图显示不同的语言和脚本提供了不同的州。

2.1。罗马的脚本

它是用来写英语是国际语言。这个脚本是一个古老的原始印欧语系语言家族的后裔。我国大约有3.28亿人使用这种语言作为沟通的媒介。

它还用于编写Santali语言,它正在Austro-Asiatic语系。大约有620万人生活在印度东部主要使用这种语言的不同部分。

2.2。梵文字母

印地语是印度最流行的语言之一,它使用这个脚本。这种语言是印欧语系。在印度大约有1.82亿人主要居住在北部使用这种语言作为沟通的媒介。

马拉地语的语言是印欧语系。大约6810万名印度人使用这种语言。马拉地语是马哈拉施特拉邦的国家语言。

大约050万印度人主要生活在阿萨姆邦南部,一些领域的曼尼普尔邦,梅加拉亚邦,Jalpaiguri,库奇舞比哈尔,西孟加拉邦和大吉岭地区。这语言是在汉藏语系语言的家庭。

贡根语属于印欧语系。大约有760万人使用这门语言。果阿的官方语言。

梵文是印欧语系家族集团下的语言。梵文是主要用作宗教仪式的语言。大约有003万的印度人使用这种语言。

信德语语言是印欧语系。信德语被许多人居住在中央邦,安得拉邦,北方邦,古吉拉特邦,泰米尔纳德邦,马哈拉施特拉邦,拉贾斯坦邦,德里、比哈尔邦和奥里萨邦。大约有2140万人使用这门语言。

尼泊尔语言属于印欧语系的语言。大约有1390万人生活在印度东部使用这种语言作为沟通的媒介。

往往是它的起源在印欧语系。人们使用的语言主要是生活在比哈尔邦。大约有3470万人使用这门语言。

2.3。孟加拉的脚本

孟加拉语言是印度最受欢迎的语言之一。它是1.81亿人口的印度生活主要在西孟加拉邦。是源于印欧语系的语言。

阿萨姆人的可分为印欧语系的语言。阿萨姆邦的语言。大约有1680万的印度人使用这门语言。

曼尼普尔语起源于汉藏语系语言集团。曼尼普尔邦的人主要是运用语言。它也被运用于不同地区的阿萨姆邦,特里普拉邦,等等。大约有1370万人使用这门语言。

2.4。泰卢固语脚本

这个脚本使用泰卢固语语言和德拉威语群下分类语言的家庭。安德拉邦的语言。大约6980万印度人居住在安得拉邦和附近的国家使用这种语言作为沟通的媒介。

2.5。泰米尔脚本

泰米尔语语言使用脚本编写。泰米尔纳德邦的国家语言。这种语言是起源于德拉威语的语言。大约有6570万的印度人使用泰米尔作为沟通的媒介。

2.6。乌尔都语脚本

乌尔都语脚本是用来写乌尔都语的语言。这种语言是源于印欧语系语言的家庭。查谟和克什米尔的国家语言。大约6060万印度人口使用这种语言作为沟通的媒介。

2.7。古吉拉特语脚本

古吉拉特语语言是印度最受欢迎的语言之一。大约4650万印度人主要居住在古吉拉特邦、马哈拉施特拉邦、拉贾斯坦邦,中央邦使用这种语言作为沟通的媒介。古吉拉特语语言属于印欧语系。

2.8。马拉雅拉姆语脚本

大约3590万印度人的生活主要在喀拉拉州和附近两侧使用这门语言。达罗毗荼语系语言属于组。

2.9。奥里萨邦脚本

奥里萨邦奥里萨邦所使用的脚本语言。这种语言是源于印欧语系语言的家庭。奥里萨邦也是国家的语言国家奥里萨邦。约有3170万人口生活在印度东部主要使用这种语言作为沟通的媒介。

2.10。克什米尔脚本

克什米尔语言使用克什米尔剧本写作和源于印欧语系。大约有560万人生活在查谟和克什米尔,克什米尔山谷,旁遮普,德里和北方邦使用这种语言作为沟通的媒介。

2.11。Dogri脚本

Dogri语言属于印欧语系。大约有380万人生活在查谟和克什米尔的面积,昌迪加尔,西孟加拉使用这种语言作为沟通的媒介。

2.12。埃纳德语脚本

这个脚本使用埃纳德语语言。大约363万印度人民主要居住在美国的安得拉邦,泰米尔纳德邦,马哈拉施特拉邦使用这种语言作为沟通的媒介。这种语言属于语言的德拉威人组家庭。

2.13。Gurumukhi脚本

这个脚本使用旁遮普语语言属于印欧语系语言的语言。这是国家语言的旁遮普和大约105万印度人使用这个语言作为沟通的媒介(表1)。


序列号 语言 演讲者(M) 脚本 作家(M)

1 阿萨姆人的 16.8 孟加拉语 211.50
2 孟加拉语 181年
3 曼尼普尔语 13.7

4 博多 0.5 梵文字母 328.23
5 北印度语 182年
6 贡根语 7.6
7 往往是 34.7
8 马拉地语 68.1
9 尼泊尔 13.9
10 梵文 0.03
11 信德语 21.4

12 Santhali 6.2 罗马 334.20
13 英语 328年

14 Dogri 3所示。8 Dogri 03.80

15 古吉拉特语 46.5 古吉拉特语 46.50

16 埃纳德语 3.63 埃纳德语 03.63

17 克什米尔 5.6 克什米尔 05.60

18 马拉雅拉姆语 35.9 马拉雅拉姆语 35.90

19 奥里萨邦 31.7 奥里萨邦 31.70

20. 旁遮普语 1.05 果鲁穆奇语 01.05

21 泰米尔 65.7 泰米尔 65.70

22 泰卢固语 69.8 泰卢固语 69.80

23 乌尔都语 60.6 乌尔都语 60.60

3所示。数据收集和预处理

标准数据库的可用性是最重要的一个问题,任何模式识别研究工作。至今没有标准的数据库对所有官方印度脚本可用。现实生活中印刷脚本收集来自不同数据源的数据像书页面,文章,等等。总459页打印文档收集上述来源。然后使用惠普平板扫描器收集文档数字化。459文档页60孟加拉,60梵文字母,60罗马,20奥里萨邦,60泰卢固语,古吉拉特语,58 60埃纳德语,22克什米尔,29马拉雅拉姆语,和30乌尔都语脚本图像。图3显示了示例脚本的图像数据库。

最初在灰色的基调和数字化图像使用惠普平板扫描仪300 dpi。数字化后的预处理。基于两阶段方法用于将图像转换为二进制图像(0和1)或两个基调。在第一阶段prebinarization [18)是通过使用一个基于本地窗口算法,以了解不同地区的利益(ROI)。然后运行长度平滑方法(RLSA)是应用于prebinarized形象。这将克服局部二值化方法的局限性。由于创建的流浪/空心区域固定窗口大小转换成一个单独的组件。最后,选择标签使用组件,每个组件和原始灰度图像映射到各自区域的原始图像。最后一个二进制图像是通过应用基于直方图的全局二值化算法(18这些地区)/组件的原始图像。

后预处理特征提取过程进行构建特征向量。主要功能是目前工作中讨论部分4

4所示。特征提取

特征提取是适当的识别图像的组件的和独特的特征。预处理后的图像输入脚本完成,下一阶段是进行提取和选择不同的特性。这是一个非常重要的阶段识别系统。计算好的特性是一个具有挑战性的任务。“好”这个词意味着足够健壮的特性集捕捉最大的差异仍然类的内部类内的最小变化和计算简单。首先,视觉观察是在印度的脚本学习的本质不同的字母不同的脚本。目前工作完成专注于基于图像的结构组件的特性。除了这几个数学和形态学特征也在印度脚本计算观察其效用。英特尔OpenCV(开源计算机视觉)库(19)已经使用在这个过程中提取这些特征。

4.1。结构特征

结构或形状分析是一个全球性的测量图像的组件是作为礼物的一个重要特性实验。最初的内外轮廓组件计算;然后不同的结构特点像循环,成长方形,凸性,链码等等为每个组件计算轮廓。成分分析发现小分量的存在是非常有用的识别脚本和乌尔都语一样,数量小的组件非常盛行超过其他脚本。Freeman链码方向直方图像孟加拉区分是很有用的脚本,天城体由于其自然使用“马特拉”或“Shirorekha”(图4)。

循环特性是非常有用的识别一些脚本就像马拉雅拉姆语,奥里萨邦由于其自然循环。这个功能可以计算全球所有的脚本学习哪些脚本最圆和最小。这些全球值存储在特征向量。

下面讨论其中的一些特性。

以下4.4.1。成分分析

维度是成分分析的一个重要措施。在目前的图像组件分为三大类,即(i) LC(大组件),(2)MC(介质组件),(3)SC(小部件)。基于这些类别和不同的组件大小计算这些值存储在特性表(参见算法1)。计算的算法组件维度下面的小节中提供默认阈值被认为是5。

初步制定SC = 0;
使用组件分析每个组件被认为是和像素计数。
如果数量的像素(NOP) < =预定义的阈值
SC + +;
结束

十个脚本中可以看出认为目前工作乌尔都语脚本盛行较小的组件被认为是比其他脚本。

4.1.2。基于链码的功能

存在不同的定向中风(水平/垂直/向左或向右斜)脚本中识别的重要特征。“马特勒”或“Shirorekha”是一条水平线出现在上部的孟加拉语和梵文字母脚本是一个特色。我们使用cvFindContours()函数在OpenCV19]CV_CHAIN_CODE模式识别这些行是一个整数序列如图5。从左到右定向水平线礼物在一个脚本将生成一系列的“2”cvFindContours()函数。OpenCV链生成的代码的一个例子是相同的图所示。

4.1.3。组件基于循环的功能

结构分类的一个关键特性是一个组件的循环。字母的脚本和奥里萨邦,马拉雅拉姆语等等比其他人有更多的自然循环。下面是该算法的计算组件的循环。

下面的算法计算图像组件的循环。(我)起初,最低封闭循环。这种封闭循环将覆盖组件最小。封闭的圆的半径是存储在一个变量中 (2)然后圆拟合。这个操作将适合一圈组件在尽可能最低的方式。拟合圆的半径是存储在一个变量中,说 (3)两个半径的差异 是存储在一个变量中,说什么 。这个值的 组件的表示圆的距离。在理想情况下的价值 将零这意味着绝对的圆形组件。

事实上完全或几乎完全循环组件将没有区别两个半径或将趋于零(图有区别6)。

4.1.4。组件成直角

另一个维度测量是为每个脚本组件的成长方形。边界矩形是画在内部和外部轮廓图像的每个组件和高度和宽度的长度的比率是衡量确定组件是广场( )、水平( ),或垂直( )。这些全球测量存储和作为一个重要的特征(图7)。

4.1.5。凸包

凸包计算理解组件的形状。船体计算为每个选定的组件的内部和外部轮廓的方法。最小和最大周围的内外轮廓组件的计算。他们的平均值和方差也计算。在OpenCV [19]cvConvexHull()函数将一个数组的点,将指数点凸壳顶点(图8)。

4.2。其他重要的功能

目前的工作重点是收集基于组件的结构特点。除了其他一些特性基于伽柏滤波器结构特点和形态学重建也计算。伽柏过滤器是纹理分析的成功而形态学重建与不同的用户定义的内核是用来捕捉不同的定向中风出现在不同的脚本。伽柏特征提取与不同方向构造一个滤波器组。方向角是选择实验。形态学特征计算使用不同用户定义内核的水平和垂直和左和右斜类型。

5。实验

目前工作的主要目标之一是分析不同分类器的表现现实生活的脚本识别问题。Weka [28)是一个流行的软件中使用机器学习分类不同的脚本的工作后计算的所有特性。机器学习在这个软件提供了一个非常简单的易于使用的GUI界面来执行不同的任务。它包含各种工具等不同的应用程序分类、聚类、数据处理、回归分析等等。现在工作的贝叶斯、功能、基于规则的和基于树的分类器。主要评估参数考虑分类器的性能度量平均准确率(AAR)和模型构建时间(MBT)。以下部分提供了关于分类的简要概述了。

5.1。实验协议和分类器

在实验期间 倍交叉验证之后。这里最初是分为459个样本图像 不同的子集。出了 验证数据的子集,子集保存测试模型和剩余的子集( 数)作为训练数据。重复这个过程 次或 每一个折叠 用作验证测试数据子集。在我们实验的价值 选择经验5(图9)。

5.1.1。贝叶斯分类器

(我)BayesNet。受欢迎的贝叶斯分类器使用贝叶斯网络学习使用不同的搜索算法和质量参数(29日]。这个分类器的基类提供了数据结构(条件概率分布,网络结构等)和设备常见的贝叶斯网络学习算法K2和b实验BayesNet给平均准确率为96.7%。快速构建模型在0.09 s。

5.1.2中。功能分类器

(我)LibLINEAR。LibLINEAR是一个很好的线性分类器基于功能模型数据和大量的实例或特性。它有我们的数据集的聚合速度超过其他分类器的Weka。我们使用了L2-loss支持向量机(双)作为支持向量机的类型参数LIBLINEAR偏差和成本参数设置为1.0。每股收益(终止判据的公差)是0.01。更多细节,请参见[30.]。LibLINEAR发现平均准确率为97.6%在0.38年代和构建模型。

中长期规划(2)。延时(18)是一个分类器,使用反向传播算法对实例进行分类。这是一个分层的前馈网络,可以表示为一个DAG(有向无环图)。每个节点的延时称为人工神经元。重量/标签在每个导演弧代表两个神经元之间的突触连接的强度/能力和信号流的方向。中长期规划中有一个输入和输出层。输入层的神经元数的数量是一样的特性选择特定的模式识别问题,而输出层的数量是一样的目标类的数量。隐层和输出层的神经元计算s型函数的和产品的输入和权值对应的每个神经元连接。训练过程的简要涉及优化的优势向MLP突触连接,这样可以正确地响应每一个输入值从训练集的总数。隐藏层和隐层神经元的数量在每个训练过程中应该确定。

对于这个工作,特点是62 -维和脚本的数量是10,所以输入层和输出层的神经元数量是62。隐层神经元的数目是自动选择(默认值)的MLP分类器Weka [28]。平均准确率发现使用延时是98.4%没有任何排斥。的时间来建立分类器是比别人高一点35.3秒。

(3)RBFNetwork。在径向基函数(RBF)网络隐层处理元素的静态高斯函数作为非线性。函数工作为中心的小区域的输入空间31日]。网络的实现取决于高斯函数的中心(32,33]。主要的功能取决于高斯中心是派生的,他们作为输入隐藏层的权重。高斯函数的宽度计算取决于他们的邻居的中心。更快的收敛性判据是这个网络的优势之一。这是因为它仅更新权重从隐藏到输出层。所有Weka工具的径向基函数神经网络分类器参数设置为默认值这个工作像MINSTDDEV(最小标准差)已经被设置为0.1。发现了这个分类器平均准确率为95.6%。该模型建立在5.9 s。

(iv)简单的物流。这是一个分类器构建线性逻辑回归模型(14]。LogitBoost是简单的回归函数为基础的学习者使用合适的物流模式。LogitBoost迭代的最优数量执行旨在,这有助于自动选择的属性。这个分类器给所有在我们的实验中准确率最高是98.9%,它被发现在一些早期的研究也22]。时间构建模型是8.36秒。

5.1.3。基于规则的分类器

(我)FURIA。模糊无序规则归纳算法(FURIA)是一个fuzzy-rule-based分类器,用于获得模糊规则。FURIA最近被开发成著名的开膛手的扩展算法。而不是传统的规则和规则列表学习模糊规则和无序的规则集。而且它使用一个有效的规则延伸计划处理发现的例子(34]。所有参数FURIA Weka工具的分类器将其默认值为这个工作像MINNO(最小总重量的实例规则)被设置为2.0。在这里找到平均准确率为93.8%,该模型是建立在0.69年代非常快。

(2)部分。它是一个类生成决策列表的一部分。它使用separate-and-conquer方法。然后它构建一个部分C4.5决策树在每一次迭代,使最好的叶子一个规则(28]。平均准确率发现使用的是91.7和0.19的模型需要时间。

5.1.4。树分类器

(我)NBTree。这是一个基于树分类器在Weka [28]。它包含类生成一个决策树与叶子的朴素贝叶斯分类器。这棵树分类器显示平均准确率为93.8%。

(2)随机森林。随机森林(RF)是一个分类器,由许多决策树和输出类类的模式输出的单独的树木。更多细节请参考[35]。使用射频我们获得91.1%的平均准确率。随机森林分类器的性能是很有前途的在我们的实验中。发现平均准确率为98.2%,该模型是建立在0.09年代中最快的。

2提供了比较不同分类器基于两个参数AAR和MBT。人们已经发现,简单的逻辑分类器是属于功能性分类器执行最好的在所有。目前实验平均98.9%的准确性。MBT BayesNet和随机森林执行最好的相比。表3显示了混淆矩阵使用简单的逻辑分类器的准确率最高98.9%被发现(表23,数据10,11,12,13)。


类型 分类器 AAR (%) MBT (s)

贝叶斯 BayesNet 96.7 0.09

功能 LibLINEAR 97.6 0.38
中长期规划 98.4 35.3
RBFNetwork 95.6 5.9
简单的逻辑 98.9 8.36

基于规则的 FURIA 93.8 0.69
部分 91.7 0.19

树的基础 NBTree 93.8 31.01
随机森林 98.2 0.09


被分类为 B D R G O Te Ks U

B 60 0 0 0 0 0 0 0 0 0
D 0 59 0 0 0 0 0 0 1 0
R 0 2 57 0 1 0 0 0 0 0
G 0 0 0 58 0 0 0 0 0 0
O 0 0 0 0 19 0 0 0 1 0
Te 0 0 0 0 0 60 0 0 0 0
0 0 0 0 0 0 60 0 0 0
Ks 0 0 0 0 0 0 0 22 0 0
0 0 0 0 0 0 0 0 29日 0
U 0 0 0 0 0 0 0 0 0 30.

B:孟加拉,D:梵文字母R:罗马,G:古吉拉特语,O:奥里萨邦,Te:泰卢固语,Ka:埃纳德语,Ks:克什米尔,马拉雅拉姆语、U:乌尔都语。

样本分类错误的实例。一些实例分类错误的样本显示不同的分类器。图12显示分类错误的实例使用不同的分类器获得在(a)使用简单的逻辑分类器奥里萨邦脚本并被错误地归类为马拉雅拉姆语和(b)使用MLP分类器乌尔都语脚本并被错误地归类为克什米尔。这个错误是由于存在视觉上类似的字母在这些脚本,存在噪音,偏态和不必要的工件在原始脚本。

5.2。统计性能分析

在目前的工作详细的误差分析对不同的参数,即Kappa统计,平均绝对误差,相对绝对错误,TP, FP率、精度,回忆,和F-measure计算。表4统计性能分析提供了一个关于说参数显示的所有类的加权平均值。


分类器 KS TP率 FP率 精度 回忆 测量

BayesNet 0.9631 0.007 3.9702 0.967 0.004 0.969 0.967 0.967
LibLINEAR 0.9729 0.0048 2.7033 0.976 0.003 0.977 0.976 0.976
中长期规划 0.9828 0.007 3.9239 0.985 0.002 0.985 0.985 0.985
RBFNetwork 0.9509 0.0101 5.6777 0.956 0.005 0.960 0.956 0.957
简单的逻辑 0.9877 0.0059 3.3448 0.989 0.001 0.989 0.989 0.989
FURIA 0.9277 0.0198 7.2849 0.941 0.013 0.941 0.941 0.940
部分 0.9065 0.0177 9.9616 0.917 0.010 0.917 0.917 0.916
NBTree 0.9312 0.0159 8.978 0.939 0.008 0.940 0.939 0.939
随机森林 0.9729 0.0248 13.9833 0.976 0.003 0.976 0.976 0.975

参数考虑:KS: Kappa统计,梅:平均绝对误差,RAE:相对绝对误差和TP, FP率、精度,记得, 测量。

Kappa统计。它衡量预测的协议与真正的类。

平均绝对误差。这是测量的平均差异输出或预测结果和目标或实际结果在所有的测试用例。

相对的绝对误差。它是绝对误差相对于如果预测错误是什么简单的平均目标值。

TP率。真阳性率被定义为测试样本的比例在所有分类正确的他们应该所属目标类。

FP率。它是相反的TP率。假阳性率比例的测试样本属于某个类,但错误分类到不同的类中。

精度。它被定义为测试样本的比例,真正被分类到特定类中所有那些被分类,类。所以精度TP /数量(TP数+ FP数)。

回忆。回忆可以被定义为召回数量= TP / (TP数+ FN数)。这里FN号码是错误的负数。

F-Measure。这是一个组合测量的精度和召回。它被定义为F测量精度= 2 * *回忆/(精度+召回)(表4)。

6。结论

在这篇文章中,一个脚本识别技术提出了官方印度脚本。十流行的脚本被认为是目前的工作。一些计算简单和健壮的特性计算和不同知名分类器被用于评估性能。细节错误和统计性能分析与不同的标准参数。这种脚本识别系统的必要性已经在介绍性的部分讨论。如前所述,至今没有这样的系统可以考虑所有官方印度脚本鼓励我们做现在的工作。除此之外,有一个标准数据库的可用性问题上官方印度脚本。我们的一个未来的计划是开发印度的官方数据库脚本在不同层次上像文档,块,行字等等印刷和手写的域。目前的工作是进行打印文档,但更如果手写文档被认为是挑战。这是由于几个原因如以下:(我)不同的写作风格多元化的文化背景的人在全球范围内,(2)不对称手写字符相比,对称的印刷字符的本质,(3)斜主要出现在线路电平,有时在词的层面上,识别和文档级别的脚本,(iv)有时存在不同的角色在一个词从一个作家,(v)不同的间距不同的词、字符和行手写文档比打印文档。

一些即将到来的研究领域在脚本识别人物等级脚本识别、基于视频的脚本识别、基于移动脚本识别、文字识别的场景图像,等等。在人物等级脚本标识脚本需要确定从一个词在人物等级存在多个脚本。图13显示了这样的话一词是使用多个脚本写的。

基于视频的脚本识别可以帮助自动基于内容的信息检索和索引。这可以适用于该地区像电影搜索基于演员名字,比赛得分基于团队/球员名字,发现基于位置的一个场景名称,等等。有挑战和范围为开发脚本识别算法为基于移动设备。等场景图像可以有多个应用程序的脚本识别跟踪从行驶车辆车牌,司机更少的自动化工具的发展,构建软件为盲人自由行走在路上,构建生物识别设备,从谷歌地图中提取GPS信息,等等。迄今为止,鼓励工作没有找到在这些领域需要如此关注。

利益冲突

作者宣称没有利益冲突有关的出版。

承认

论文的第一作者是非常感谢亲爱的'ble Aliah大学的副校长扩展他的鼓励和支持开展工作除了常规的学术和管理职责。

引用

  1. s . m . Obaidullah s . k . Das和k·罗伊,“手写系统脚本识别文档从印度,”模式识别研究杂志》上,8卷,不。1、1 - 12,2013页。视图:谷歌学术搜索
  2. d . Ghosh、t·杜布和a . Shivaprasad“脚本识别作为审查,”IEEE模式分析与机器智能,32卷,不。12日,第2161 - 2142页,2010年。视图:出版商的网站|谷歌学术搜索
  3. a·l·施皮茨,”脚本的决心和语言内容的文档图像,”IEEE模式分析与机器智能,19卷,不。3、235 - 245年,1997页。视图:出版商的网站|谷歌学术搜索
  4. j·l·Lam叮,c . y .孙”区分东方和欧洲的脚本通过统计特性,”模式识别与人工智能》国际期刊上,12卷,不。1,第79 - 63页,1998。视图:出版商的网站|谷歌学术搜索
  5. j . Hochberg p·凯利、t·托马斯和l . kern”自动脚本识别使用基于集群的模板,从文档图像”IEEE模式分析与机器智能,19卷,不。2、177 - 181年,1997页。视图:出版商的网站|谷歌学术搜索
  6. l .周y,和c l . Tan“孟加拉语/英语脚本识别分析的基础上连接组件配置文件,”第七届国际会议的程序文档分析系统(DAS 06年)卷,3872在计算机科学的课堂讲稿,第254 - 243页,2006年。视图:谷歌学术搜索
  7. j·r·普拉萨德,美国诉Kulkarni和r·s·普拉萨德,“模板匹配Gujrati字符识别的算法,”第二届国际会议上新兴的工程和技术趋势(ICETET ' 09)那格浦尔,页263 - 268年,印度,2009年12月。视图:出版商的网站|谷歌学术搜索
  8. b·帕蒂尔和n . v . Subbareddy”在印度脚本识别文档的基于神经网络的系统,”成就法一部分i1,卷。27日,第97 - 83页,2002年。视图:谷歌学术搜索
  9. a . m . Elgammal和m·a·伊斯梅尔”语言识别技术混合Arabic-English文档图像,”《IEEE 6日国际会议文档分析和识别,第1104 - 1100页,2001年。视图:谷歌学术搜索
  10. b . v . Dhandra p . Nagabhushan m . Hangarge r . Hegadi和v . s . Malemath”脚本识别基于文档图像,形态学重建”18学报》国际会议模式识别(ICPR 06年),卷2,页950 - 953,香港,2006年8月。视图:出版商的网站|谷歌学术搜索
  11. 比比乔杜里和美国朋友,”一个OCR系统读取两个印度语言脚本:孟加拉语和梵文字母(印度语)”学报》第四届国际会议文档分析和识别(ICDAR 97),卷2,页1011 - 1015,乌尔姆,德国,1997年8月。视图:出版商的网站|谷歌学术搜索
  12. c . l . Tan, p . y .梁和他,“语言识别多语言文档,”2003年。视图:谷歌学术搜索
  13. 乔杜里和r . Sheth“印度语言识别策略,可训练的脚本”第五届国际会议上文档的程序分析和识别(ICDAR ' 99),第660 - 657页,1999年。视图:谷歌学术搜索
  14. m . c .莲花和p . a . Vijaya”识别、基于小波包的质地特性自动脚本”图像处理的国际期刊,4卷,不。1,2010。视图:谷歌学术搜索
  15. gdp Joshi s Garg和j . Sivaswamy“脚本从印度文档识别”学报》第七届国际研讨会文档分析系统七世卷,3872在计算机科学的课堂讲稿纳尔逊,页255 - 267年,2000年,新西兰。视图:出版商的网站|谷歌学术搜索
  16. d . Dhanya a·g·Ramakrishnan, p . b . Pati“脚本打印双语文档中识别,”成就法第1部分,卷。27日,第82 - 73页,2002年。视图:谷歌学术搜索
  17. http://commons.wikimedia.org/wiki/File States_of_South_Asia.png
  18. k·罗伊,美国朋友,A·巴纳吉”word-wise手写文字识别系统对印度邮政自动化”学报第一IEEE INDICON印度年会2004年12月,页266 - 271。视图:出版商的网站|谷歌学术搜索
  19. a . Kaehler和g·r·Bradski学习OpenCVO ' reilly Media, 2008。
  20. 诉Singhal:纳文,d . Ghosh”基于脚本的分类手写文本文档在多语言的环境中,”第13届国际研讨会研究学报》问题数据工程:多语种信息管理研究问题,在数据工程,47-54,2003页。视图:谷歌学术搜索
  21. j。k .凉亭、m .大炮和p·凯利,“脚本和语言识别手写文档图像。”国际期刊文档分析和识别,卷2,不。2 - 3,45-52,1999页。视图:谷歌学术搜索
  22. k·罗伊,s .茶室Das和s . m . Obaidullah“脚本识别从手写文档”第三国家会议在计算机视觉、模式识别、图像处理和图形(NCVPRIPG 11)卡纳塔克邦,页66 - 69年,Hubli,印度,2011年12月。视图:出版商的网站|谷歌学术搜索
  23. 美国苏:Das, r . Sarkar m .茶室,m . Nasipuri d·库马尔苏,“小说框架自动排序的邮政文件multi-script地址块,”模式识别,43卷,不。10日,3507 - 3521年,2010页。视图:出版商的网站|谷歌学术搜索
  24. 诉Singhal:纳文,d . Ghosh”基于脚本的分类手写文本文档在多语言的环境中,”第13届国际研讨会研究学报》问题数据工程:多语种信息管理(RIDE-MLIM ' 03)2003年3月,页47-54,。视图:出版商的网站|谷歌学术搜索
  25. s b·穆萨a . Zahour a . Benabdelhafid和a . m . Alimi”Fractal-based系统对于阿拉伯语/拉丁,印刷/脚本识别手写的,”19国际会议的程序模式识别(ICPR ' 08)2008年12月,页1 - 4,IEEE,。视图:谷歌学术搜索
  26. m . Hangarge k . c,桑托什,r . Pardeshi“手写的脚本识别方向离散余弦变换,”12日国际会议文档的程序分析和识别(ICDAR 13)华盛顿特区,页344 - 348,美国,2013年8月。视图:出版商的网站|谷歌学术搜索
  27. r .王妃,r,迪尔和g s Lehal”脚本识别pre-segmented字体字符和数字,”12日国际会议文档的程序分析和识别2013年8月,页1150 - 1154。视图:出版商的网站|谷歌学术搜索
  28. m·霍尔·e·弗兰克,g .福尔摩斯b . Pfahringer p . Reutemann和i . h .威滕”WEKA数据挖掘软件:一个更新”,SIGKDD探索卷。11日,10 - 18,2009页。视图:谷歌学术搜索
  29. n . Friedman, d .盖革,m . Goldszmidt“贝叶斯网络分类器,”机器学习卷,29号2 - 3、131 - 163年,1997页。视图:出版商的网站|谷歌学术搜索
  30. R.-E。风扇,K.-W。Chang C.-J。谢长廷,X.-R。王,C.-J。林,“LIBLINEAR:图书馆对于大型线性分类,“机器学习研究杂志》上9卷,第1874 - 1871页,2008年。视图:谷歌学术搜索
  31. m·d·Buhmann径向基函数:理论和实现、剑桥专著应用和计算数学(12),剑桥大学出版社,2003年,英国剑桥。
  32. 美国诉Chakravarthy和j . Ghosh Scale-based集群使用径向基函数网络。”IEEE神经网络,7卷,不。5,1250 - 1261年,1996页。视图:出版商的网站|谷歌学术搜索
  33. a·j·豪厄尔和h·巴克斯顿,“RBF网络方法进行人脸检测和注意力框架,“神经处理信件,15卷,不。3、197 - 211年,2002页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
  34. j . Huhn和大肠Hullermeier FURIA:模糊规则归纳算法无序,“数据挖掘和知识发现,19卷,不。3、293 - 319年,2009页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  35. l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学

版权©2014 Sk Md Obaidullah et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点4244年
下载1136年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读