科学的规划

在这一页上

文摘介绍结论数据可用性的利益冲突引用版权相关文章

特殊的问题

科学编程方法为源代码转换深度学习

把这个特殊的问题

评论文章|开放获取

体积2021年| 文章的ID6624397| https://doi.org/10.1155/2021/6624397

分析大量草书语言的分类技术数据:概述

μ香港 ,^1、2 沙纳齐尔 ,³ 张说,^2、4 和王关^2、4

学术编辑器: 默罕默德Arif沙

收到了 2020年12月28日

修改后的 2021年1月26日

接受 08年2月2021年

发表 2021年2月23日

文摘

文本在在线和离线的显著增长成为一个具有挑战性的问题,需要进一步研究探索。地区和文化变化的多样性造就了不同的语言的沟通。变化的风格是现有手写的文本这是由于不同的写作风格。文字识别的研究领域是成熟这增加了许多领域的研究方向。现有文献的详细报告可以帮助从业人员和研究人员需要使用现有证据和草书语言的识别提供新的解决方案和优化识别草书文本的能力。为促进研究者和实践者提供了现有文献的深入分析,提出研究提供一个详细的报告,研究人员可以通过得到好处的文献和设计新的解决方案。本研究是基于各种流行的库搜索识别相关资料与拟议中的相关研究。

1。介绍

随着时间的流逝,一个重要的文本出现在在线和离线的增长。这种增长已经成为一个具有挑战性的问题,研究人员需要考虑进一步的研究。不同形式的多样性存在地区和文化的变化,产生了不同的语言进行交流。计算设备的发展和便利的低成本获取网络提出了新的方向从数字图书馆检索信息1]。在积累,图像、音频和视频归档,文档的收集数字记录的重要组成部分。在过去的几年,一些组织已经数字化文档集合和让他们网上便于检索和社区使用。这些文件的问题是,他们大多是在既可编辑,也可搜索的图像格式。这些文件可以占领更多的存储空间比文本格式。另外,如果这些图片通过互联网访问/处理,它将需要更多的带宽。将针对这一问题,研究人员所期望的将这些图像转换成文本格式,然后可以轻松地访问和处理。

光学字符识别(OCR)系统可以促进文档图像的转换成文本格式。进步,许多脚本语言的OCR系统的早期研究。这些语言包括乌尔都语,普什图语,波斯语,阿拉伯语,和许多其他人。的帮助下手写识别(HWR),书面文本可以转换成一个象征性的描述。这种转变可以促进人类和计算机应用的交互邮件排序,支票验证,图像识别,办公自动化,人机的交互2- - - - - -4]。拉丁和中国的语言识别的手写识别研究,取得了重大的成功。平行于这,研究在其他语言像HWR乌尔都语,阿拉伯语,波斯语和普什图语较少。原因在于,有更多的写作风格和复杂的变化。手写识别可以分为离线和在线系统。离线文字识别是很难识别的原因是因为这些是可用的图像以书面文字的形式,而在线识别的文字很容易;在这样的系统,没有必要序列或写作的顺序(5]。

文字识别领域的成熟,有放大的方向的研究领域。现有文献是可取的的细节可以帮助从业人员和研究人员使用现有的证据和草书语言的识别提供新的解决方案和优化识别草书文本的能力。为促进研究者和实践者提供了现有文献的深入分析,提出研究提供一个详细的报告,研究人员可以通过得到好处的文献和设计新的解决方案。

本文的组织如下:部分2显示了相关工作的草书和语言识别,方法,技术和方法。部分3显示了与文本相关的分析现有的工作认可。本文的结论部分4。

2。方法对草书的认可

研究人员正在试图设计算法,识别新方法和解决方案的草书和语言。谢赫和谢赫6)提出了一个算法的并行细化草书或noncursive语言通过定义一套定制的保护规则通过像素布置网格模板,产生强烈的限制噪音和速度。实验的结果显示显著成就其他草书信德语等语言乌尔都语和阿拉伯语和noncursive语言如汉语、英语和数字。Dhande和Kharat7]提出的方法对草书语言识别手写的英语。大多数情况下,在英语的草书的书写脚本中,这个词字符连接到对方。所以英语的特征提取和分割草书是很困难的。使用的方法有水平和垂直投影的方法进行分割。凸包的算法用于提取特征,并使用支持向量机作为识别和分类算法。中文被认为是世界各地广泛使用的语言。中国的脚本是最具特色的传统文化和中国的书法艺术。需要研究其连接草书写识别文本图像。秦et al。8)提供了一个方法,草书文本检测的数据集和被称为SE-seglink。图像的特征提取是通过这种方法增强。作者设计了一个数据集包含523张图片为中国草书的文本。可用的方法相比,提出的方法是执行更好的认识到草书图像。方法的有效性通过执行测试对比实验。

植木等。9)提出了一个方法连续识别Kuzushiji字符通过多个候选区域作为神经网络的输入。评估通过数据库的图像连续三Kuzushiji字符证实所提出的方法相比有更大的速度精度的字符图像裁剪的方法根据边界检测。汉和塞提10)提出了一个方法,使用启发式规则集来确定可能的边界曲线在图像信字。启发式规则之间现有的关系基础上保证网络拓扑和几何特性和英语语言的特点。细分已经建成的系统集成提出了系统对邮政地址进行分割图像。各个步骤中涉及的预处理提取手写文字从邮政信封和标准化的步骤允许笔厚度变化和知晓的倾斜。实验的结果表明,方法是有效的,可以准确定位在草书字母单词的边界。金和李11]提供了一个统一网络的方法识别手写文本的不同的语言。系统可用于任何分组的拼音文字系统,如日本、阿拉伯语,Tai。

Sternby和弗里12)提供了一个方法交互识别的在线词典的草书。的帮助下分割图,对应的所有可能的路径检索词在字典的有效途径。这项研究还涉及二次中风的治疗在网络分割图。庞大的数据的方法进行了测试,效果很好。Ahmad et al。13)提出了一个方法找出替代的单位在普什图语的草书。可供选择的其他主要结扎和结扎。2313736字的普什图语的语料库中提取的不同来源的网络,和19268独特的绷带被确定在普什图语的草书。结果表明,7000个哨卡显示91%部分的语料库的普什图语单词,和7681年主要联结被确定代表所有哨卡的形状。哈桑(14)提出了一个系统识别的草书阿拉伯语写作。问题由于个人态度,风格变化,和各种写作的水平。该系统是基于层次战略的识别。结合了语法和解析器,语言识别开发的一个系统。Hashemi et al。15)设计了一个波斯文本识别系统。的系统包含一个阶段细分到单独的字符组成。这个阶段有利于斜体或高度拒绝拉丁文本。这项研究提出了一种分割算法有两个步骤。在第一步中,nonoverlapped和单独的孤立的角色分离,而第二步段非伴生字符重叠。现实世界的方法是测试脚本并显示99.7%的准确性。

3所示。分析现有的研究对草书/语言

以下部分的相关工作和分析草书/语言。

3.1。现有研究支持的草书

识别草书语言的有效途径成为研究人员和从业人员具有挑战性的问题。提出了不同的方法来解决这个问题的草书语言从不同的角度。埃尔多安和Ozge16)提出了一个研究分析可能的草书书法小学教师的易读性的观点。研究视角的性质,目的是将可用的状态,利用定性方法。研究包括130名潜在的小学教师,要求复制的文本研究人员利用草书笔迹。通过“草书书法草书书法是检查地下室形式。“研究表明,教师的笔迹是足够清晰。Samanta et al。17)提出了一个隐马尔科夫模型在线无约束词识别的手写样本。系统所涉及的关键步骤的笔迹分割成substrokes,从substrokes提取特征和识别。分割的任务,提出了离散曲线进化的策略。然后各种线性和角度特性从substrokes样本中提取词和模仿为特征向量的产生从混合物中分布。Baum-Welch参数估计的算法是用于处理球面线性隐马尔可夫模型构建相关数据。最后,手写的字样本的识别分类器的设计。结果表明,孟加拉语和拉丁语脚本有良好的建议方案,识别的性能。Camastra [18)提出了草书字符识别器的方法在识别模块的草书字分割和识别方法的基础上。支持向量机和神经的帮助下气体,字符的分类。为验证各种字母的大小写版本,神经气体,识别的字符时,使用支持向量机。数据集的训练和测试的57293个字符被认为是草书识别器的字符。结果显示良好的性能通过使用支持向量机和显示更好的效率。

达尔维什和ELgohary19]提供了一个为打印机取证仿生学研究专家系统的方法,将结构的特点和小生境遗传搜索选择有效的足够的最小特性集合。再邻居的方法被用于区分打印机品牌它的简单。研究结果表明,分类的方法有精度高,可以花更少的时间。温家宝et al。(20.)提出了一个模型的层次结构描述在线草书汉字变形的变形。的方法包括两个层面:首先,匹配两个序列的转点提取描述匹配的参考和输入字符的中风。然后,限制抛物线变换用于减少正确匹配的中风之间的区别。结果表明,体系的变形方法是有效减少草书汉字的变形计算成本。李和胆量21)提出了一种新的二元分割算法减少连锁故障风险问题的验证和提高分割的准确性。二元分割算法是一种组合分割方法包括验证和过分割。研究的有效性进行了雪松的基准数据库,和结果显示更好的性能。莎姆和GUINDI22)设计了一个对阿拉伯语的文本识别系统。识别的方法分割阶段包含阿拉伯语草书字打字的。系统显示99%的识别率。Bhunia et al。23)提供了一个跨语言的方法识别和定位平台的手写的字。脚本的方法给出了较低的资源,培训是用巨大的数据集的访问脚本和测试完成脚本。测试的方法在三个印度脚本包括梵文字母,孟加拉,Gurumukhi。

Chandio et al。24)提出了一个数据集的检测乌尔都语的文本,自然场景图像和识别进行了分析。收集超过2500自然场景图像为开发数据集通过数码相机和移动相机。三个数据集开发包括裁剪单词图片,孤立的乌尔都语字符图像和端到端文字识别。重点是乌尔都语的文本实例。方法可用于执行检测和识别乌尔都语的文本以及端到端识别在自然场景。这些数据集的发展可以提供帮助在发展中波斯和阿拉伯语自然场景文本识别和检测。Aisyah et al。25)进行了研究设计和开发为学生学习日语的学习材料和马来西亚Kebangsaan大学外国语言。商业化生产的进行的一项调查研究课本和试制阶段关注学生的需求分析。Abuhaiba [26)提供了一个方法识别草书脚本语言或离散封装在一个图像文件。方法是基于提取的全球模板之间共享语言和脚本与常见的符号的形状。它节省时间的处理和内存中程序的执行要求。一维标准化执行的方法保留的宽高比。作者推荐的方法具有良好的精度和速度为商业使用OCR产品表1显示的一些方法用于识别草书/语言/方法从不同的角度。

3.2。分析文学草书识别

识别草书/语言被认为是重要的不同的目的。这个识别图像的草书可以节省时间和存储记忆。随着这些文本格式,提出了不同的方法。方面他et al。37)使用的隐马尔可夫模型基于离线文本的识别。三个阶段参与的方法包括预处理、特征提取和分类。最初,文字脚本的输入是分割和归一化,然后从分段特性提取单词,然后这些特性集成分类的目的。使用干扰素/意大利国家旅游局的数据库包含32492个单词的阿拉伯语手写笔记。交付的方法更好的性能比现有的方法。Abu-Ain et al。38)提出了一个基线和直线度检测方法的文本草书手写笔记。这种方法是基于方向特性的分析和提取subwords文本的骨架。阿拉伯语的文本被认为是作为一个案例研究。结果表明,方法是有效地工作在阿拉伯语和测试数据集。Mouhcinea et al。39)提出了一个阿拉伯语手写的草书方法基于隐马尔科夫模型的文本。实验结果图片的干扰素/意大利国家旅游局数据库基准测试表明,提出的方法增强识别。Manjusha et al。40)提出了一个方法,目的是为构建手写字符图像的数据库脚本的马拉雅拉姆语语言。手写的样本收集从77年马拉雅拉姆语本土作家。轮廓基于模型的图像分割算法用于提取手写字符图像的数据表。特征提取技术用于提取特征。散射卷积网络特征描述符实现了识别精度最高的91.05%中可用的特性描述符。纳兹等人。41)回顾了相关文献OCR乌尔都语草书脚本。普什图语,乌尔都语和信德语语言,重点描述了青年'liq和Naskh的脚本。

除了上述文献,ScienceDirect等各种流行的库,IEEE,施普林格,威利在线被用来搜索实现最相关的材料。这些库的原因只考虑是由于这些只是出版同行评审和质量研究。图1显示的搜索过程的初步结果提到库。图显示更多的材料得到图书馆Springer ScienceDirect紧随其后。

最初ScienceDirect图书馆搜索,结果中描述的数据。图2显示了出版物标题与文章的数量。

图3代表了在图书馆给定类型的文章。

图4给定的年代表文章的数量。

图5显示了给定的主题领域库。

IEEE的图书馆搜索和文章的主题图所示6。

这篇文章类型如图7大部分论文和会议论文发表。

会议举行的地点是在研究确定。图8描述了会议的地点举行。

之后,施普林格的图书馆寻找相关材料的识别和分析。图9代表了不同学科的文章。图显示更多的文章发表在《计算机科学的领域。

图10显示区域的分支的出版物。

文章类型被确定在给定的程序库。图11显示了出版物的数量的基础上,文章类型。

的研究还集中在语言出版物。图12显示文章的语言总数。

图13描述了威利的在线图书馆出版物的类型。

图14代表论文发表文章的数量。

4所示。结论

最近的现代科技的进步和创新领域的机器翻译,文本的一个重要增长出现在在线和离线脚本。这种增长已经成为一个具有挑战性的问题,研究人员需要考虑进一步的研究和探索。多样性存在地区和文化变化的形式。地区和文化变化的多样性产生了不同的语言的沟通。风格存在手写文本的差异,是由于不同的写作风格。文字识别的研究领域是成熟这增加了方向的研究领域的探索。现有文献的详细报告是必要的从业人员和研究人员可以支持使用现有文献证据和草书语言的识别提供新的解决方案和优化识别草书文本的能力。目前的研究提供了一个详细的报告,研究人员可以获得好处的文献和设计新的解决方案。这项研究进一步促进研究者和实践者提供了现有文献的深入分析。

数据可用性

没有数据是可用的。

的利益冲突

作者宣称没有利益冲突。

引用

a . Bhardwaj a . Thomas y傅,诉Govindaraju”检索手写作风格:一个基于内容的手写文档检索方法,”第二届国际会议在手写识别领域(ICFHR10),页265 - 270,加尔各答,印度,2010年11月。
视图: 谷歌学术搜索
美国阿尔玛'Adeed、c·希金斯和d Elliman“离线识别手写的阿拉伯语词汇使用多个隐马尔可夫模型,”基于知识的系统,17卷,第79 - 75页,2004年。
视图: 谷歌学术搜索
y Kessentini、t . Paquet和a . m . Benhamadou”Multi-script手写识别与n-streams低水平特征,”《互联网19。相依模式识别(ICPR)2008年12月,美国佛罗里达州坦帕市。
视图: 谷歌学术搜索
m·r·哈吉·l·Likforman-Sulem, c . Mokbel”结合slanted-frame分类器改进HMM-based阿拉伯语手写识别,”IEEE模式分析与机器智能31卷,第1177 - 1165页,2009年。
视图: 谷歌学术搜索
答:阿明,“离线阿拉伯语字符识别”,模式识别没有,卷。31日。5,517 - 530年,1998页。
视图: 出版商的网站 | 谷歌学术搜索
n . A .谢赫和z . A .谢赫“广义稀释草书和non-cursive语言脚本的算法,”学报2005年巴基斯坦部分Multitopic会议,页1 - 4,卡拉奇,巴基斯坦,2005年12月。
视图: 出版商的网站 | 谷歌学术搜索
p . Dhande和r . Kharat草书英语手写字符的识别,”《2017年国际会议上趋势在电子和信息(ICEI)Tirunelveli,页199 - 203年,印度,2017年5月。
视图: 出版商的网站 | 谷歌学术搜索
x秦,j .江w .风扇,c .元,“中国草书字符检测方法,”《华尔街日报》的工程,卷2020,不。13日,626 - 629年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
植木k, t .小岛,r . Mutou r . s . Nezhad y Hagiwara,“承认日本连接草书汉字使用多个softmax输出,”学报2020年IEEE会议多媒体信息处理和检索(MIPR),页127 - 130,广东,中国,2020年8月。
视图: 出版商的网站 | 谷歌学术搜索
h·柯和i . k . Sethi“离线手写体笔迹分割,”学报》3日国际会议文档分析和识别Montral,页894 - 897年,加拿大,1995年8月。
视图: 出版商的网站 | 谷歌学术搜索
j·h·金和j·j·李”,一个统一的基于网络的方法识别手写体笔迹的混合语言:一个案例研究在韩语和罗马混合物,”《IEEE讨论会的笔迹和触控笔输入设备,页6/1-6/4,伦敦,英国,1994年3月。
视图: 谷歌学术搜索
j . Sternby和c·弗里识别graph-language独立适应在线草书识别,”第八届国际会议文档的程序分析和识别(ICDAR ' 05),页14 - 18,2005年8月,韩国,首尔。
视图: 出版商的网站 | 谷歌学术搜索
r·艾哈迈德·m·阿夫查z s f·拉希德·m·Liwicki a . Dengel和t . Breuel“OCR识别的单位在普什图语语言,”学报2015年第13次国际会议文档分析和识别(ICDAR)突尼斯,页1246 - 1250年,2015年8月突尼斯。
视图: 出版商的网站 | 谷歌学术搜索
n .哈桑“承认阿拉伯语草书书法,”程序的几何建模和成像——新趋势(GMAI 06年),页135 - 140,伦敦,英国,2006年7月。
视图: 出版商的网站 | 谷歌学术搜索
m . r . Hashemi o .法特米,r .影响,“波斯草书识别”诉讼第三国际会议文档的分析和识别加拿大蒙特利尔,页869 - 873,,1995年8月。
视图: 出版商的网站 | 谷歌学术搜索
t·埃尔多安和埃尔多安o .草书书法的易读性的分析未来的小学教师,”Procedia——社会和行为科学,46卷,第5218 - 5214页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
o . Samanta罗伊,s . k . Parui和巴塔查里亚,”一个嗯框架基于球形线性特性在线花体字手写识别,”信息科学卷,441年,第151 - 133页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
f . Camastra“基于手写体字符识别器,”模式识别,40卷,不。12日,第3727 - 3721页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
s·m·达尔维什和h . m . ELgohary构建一个打印机取证专家系统:一个新的打印机识别模型基于小生境遗传算法美国新泽西州霍博肯市威利,2020年。
W.-T。陈和T.-R。周,”在线草书的分层变形模型识别,”模式识别,27卷,不。2、205 - 219年,1994页。
视图: 出版商的网站 | 谷歌学术搜索
h·李和b Verma”英语花体字手写识别、二元分割算法”模式识别,45卷,不。4、1306 - 1317年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
t·s·莎和r . m . Guindi”,阿拉伯语草书的计算机识别,”模式识别,21卷,不。4、293 - 302年,1988页。
视图: 出版商的网站 | 谷歌学术搜索
a . k . Bhunia p p·罗伊·a . Mohta和美国朋友,“跨语言词识别和发现印度脚本框架,“模式识别卷。79年,12-31,2018页。
视图: 出版商的网站 | 谷歌学术搜索
答:a . Chandio m . Asikuzzaman m·皮克林和m . Leghari”的:综合数据集的端到端乌尔都语自然场景文本识别图像,”简单的数据ID 105749条,卷。31日,2020年。
视图: 谷歌学术搜索
a . Aisyah n . Hieda m . Nezu n·易卜拉欣,“设计平假名UKM日语课程,学习材料”Procedia-Social和行为科学59卷,第458 - 451页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
i s i Abuhaiba“离散脚本或草书语言识别的文档图像,”沙特国王大学工程科学杂志》上,16卷,不。2、253 - 268年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
Hellige和m .亚当森,“半球的差异处理手写的草书☆”,大脑和语言,卷102,不。3、215 - 227年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
a . Jalali和m·李,“高草书传统亚洲字符识别使用综合自适应约束合奏densenet和初始模型,”模式识别的字母卷,131年,第177 - 172页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
w·曹S.-W。李,j·h·金”建模和识别草书字隐马尔可夫模型,”模式识别,28卷,不。12日,第1953 - 1941页,1995年。
视图: 出版商的网站 | 谷歌学术搜索
纳兹,ai Umar, r·艾哈迈德et al .,“离线草书Urdu-Nastaliq脚本使用多维复发性神经网络识别,”Neurocomputing卷,177年,第241 - 228页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
m . Schambach“经常性的摘要和草书手写识别图,”学报2009年10日国际会议文档分析和识别西班牙巴塞罗那,页1146 - 1150,,2009年7月。
视图: 出版商的网站 | 谷歌学术搜索
t·g·罗斯和l . j . Evett”大型词汇语义分析草书识别,”学报第二国际会议文档分析和识别(ICDAR筑波,页236 - 239年,日本,1993年10月。
视图: 出版商的网站 | 谷歌学术搜索
Kannan r . j . r .角色,r . m .苏雷什“离线草书手写的泰米尔字符识别,”2008年国际会议上安全技术学报》上海南岛,页159 - 164年,中国,2008年12月。
视图: 出版商的网站 | 谷歌学术搜索
答:a . Chandio m . Asikuzzaman, m·r·皮克林“手写体字符识别在自然场景图像,采用多级卷积神经网络融合”IEEE访问,8卷,第109070 - 109054页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j .丹娜·d·Massendari、b . Furnari和s . Ducrot”的最佳观看位置效应在印刷和草书字:阅读成本草书字体的证据,”Acta Psychologica卷,188年,第121 - 110页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
Verma b和h·李,”段在意二元分割(渣打银行)草书手写的话说,“专家系统与应用程序,38卷,不。9日,第11175 - 11167页,2011年。
视图: 出版商的网站 | 谷歌学术搜索
方面他,j . h . j . Ren j .江和h . Al-Muhtaseb“脱机手写阿拉伯语草书文字识别使用隐马尔科夫模型和评估,”模式识别的字母,32卷,不。8,1081 - 1088年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
t . Abu-Ain s n h·s·阿卜杜拉,b . Bataineh w . Abu-Ain和k·奥马尔,“文本为手写的草书标准化框架语言通过检测和直线度写基线,”Procedia技术11卷,第671 - 666页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
r . Mouhcine a·穆斯塔法和m . Zouhir”的草书阿拉伯语手写文本使用嵌入式培训根据摘要,“电气系统和信息技术杂志》上,5卷,不。2、245 - 251年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
k . Manjusha m·a·库马尔,k . p .索曼“马拉雅拉姆语语言开发手写字符图像数据库的脚本,”工程科学与技术、国际期刊,22卷,不。2、637 - 645年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
纳兹,k .‘m·伊姆兰Razzak m·瓦格瓦尔s . a . Madani和美国汗”Urdu-like草书的光学字符识别,”模式识别卷,47号3、1229 - 1248年,2014页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

466年

下载

566年

引用