文摘
文本在在线和离线的显著增长成为一个具有挑战性的问题,需要进一步研究探索。地区和文化变化的多样性造就了不同的语言的沟通。变化的风格是现有手写的文本这是由于不同的写作风格。文字识别的研究领域是成熟这增加了许多领域的研究方向。现有文献的详细报告可以帮助从业人员和研究人员需要使用现有证据和草书语言的识别提供新的解决方案和优化识别草书文本的能力。为促进研究者和实践者提供了现有文献的深入分析,提出研究提供一个详细的报告,研究人员可以通过得到好处的文献和设计新的解决方案。本研究是基于各种流行的库搜索识别相关资料与拟议中的相关研究。
1。介绍
随着时间的流逝,一个重要的文本出现在在线和离线的增长。这种增长已经成为一个具有挑战性的问题,研究人员需要考虑进一步的研究。不同形式的多样性存在地区和文化的变化,产生了不同的语言进行交流。计算设备的发展和便利的低成本获取网络提出了新的方向从数字图书馆检索信息1]。在积累,图像、音频和视频归档,文档的收集数字记录的重要组成部分。在过去的几年,一些组织已经数字化文档集合和让他们网上便于检索和社区使用。这些文件的问题是,他们大多是在既可编辑,也可搜索的图像格式。这些文件可以占领更多的存储空间比文本格式。另外,如果这些图片通过互联网访问/处理,它将需要更多的带宽。将针对这一问题,研究人员所期望的将这些图像转换成文本格式,然后可以轻松地访问和处理。
光学字符识别(OCR)系统可以促进文档图像的转换成文本格式。进步,许多脚本语言的OCR系统的早期研究。这些语言包括乌尔都语,普什图语,波斯语,阿拉伯语,和许多其他人。的帮助下手写识别(HWR),书面文本可以转换成一个象征性的描述。这种转变可以促进人类和计算机应用的交互邮件排序,支票验证,图像识别,办公自动化,人机的交互2- - - - - -4]。拉丁和中国的语言识别的手写识别研究,取得了重大的成功。平行于这,研究在其他语言像HWR乌尔都语,阿拉伯语,波斯语和普什图语较少。原因在于,有更多的写作风格和复杂的变化。手写识别可以分为离线和在线系统。离线文字识别是很难识别的原因是因为这些是可用的图像以书面文字的形式,而在线识别的文字很容易;在这样的系统,没有必要序列或写作的顺序(5]。
文字识别领域的成熟,有放大的方向的研究领域。现有文献是可取的的细节可以帮助从业人员和研究人员使用现有的证据和草书语言的识别提供新的解决方案和优化识别草书文本的能力。为促进研究者和实践者提供了现有文献的深入分析,提出研究提供一个详细的报告,研究人员可以通过得到好处的文献和设计新的解决方案。
本文的组织如下:部分2显示了相关工作的草书和语言识别,方法,技术和方法。部分3显示了与文本相关的分析现有的工作认可。本文的结论部分4。
2。方法对草书的认可
研究人员正在试图设计算法,识别新方法和解决方案的草书和语言。谢赫和谢赫6)提出了一个算法的并行细化草书或noncursive语言通过定义一套定制的保护规则通过像素布置网格模板,产生强烈的限制噪音和速度。实验的结果显示显著成就其他草书信德语等语言乌尔都语和阿拉伯语和noncursive语言如汉语、英语和数字。Dhande和Kharat7]提出的方法对草书语言识别手写的英语。大多数情况下,在英语的草书的书写脚本中,这个词字符连接到对方。所以英语的特征提取和分割草书是很困难的。使用的方法有水平和垂直投影的方法进行分割。凸包的算法用于提取特征,并使用支持向量机作为识别和分类算法。中文被认为是世界各地广泛使用的语言。中国的脚本是最具特色的传统文化和中国的书法艺术。需要研究其连接草书写识别文本图像。秦et al。8)提供了一个方法,草书文本检测的数据集和被称为SE-seglink。图像的特征提取是通过这种方法增强。作者设计了一个数据集包含523张图片为中国草书的文本。可用的方法相比,提出的方法是执行更好的认识到草书图像。方法的有效性通过执行测试对比实验。
植木等。9)提出了一个方法连续识别Kuzushiji字符通过多个候选区域作为神经网络的输入。评估通过数据库的图像连续三Kuzushiji字符证实所提出的方法相比有更大的速度精度的字符图像裁剪的方法根据边界检测。汉和塞提10)提出了一个方法,使用启发式规则集来确定可能的边界曲线在图像信字。启发式规则之间现有的关系基础上保证网络拓扑和几何特性和英语语言的特点。细分已经建成的系统集成提出了系统对邮政地址进行分割图像。各个步骤中涉及的预处理提取手写文字从邮政信封和标准化的步骤允许笔厚度变化和知晓的倾斜。实验的结果表明,方法是有效的,可以准确定位在草书字母单词的边界。金和李11]提供了一个统一网络的方法识别手写文本的不同的语言。系统可用于任何分组的拼音文字系统,如日本、阿拉伯语,Tai。
Sternby和弗里12)提供了一个方法交互识别的在线词典的草书。的帮助下分割图,对应的所有可能的路径检索词在字典的有效途径。这项研究还涉及二次中风的治疗在网络分割图。庞大的数据的方法进行了测试,效果很好。Ahmad et al。13)提出了一个方法找出替代的单位在普什图语的草书。可供选择的其他主要结扎和结扎。2313736字的普什图语的语料库中提取的不同来源的网络,和19268独特的绷带被确定在普什图语的草书。结果表明,7000个哨卡显示91%部分的语料库的普什图语单词,和7681年主要联结被确定代表所有哨卡的形状。哈桑(14)提出了一个系统识别的草书阿拉伯语写作。问题由于个人态度,风格变化,和各种写作的水平。该系统是基于层次战略的识别。结合了语法和解析器,语言识别开发的一个系统。Hashemi et al。15)设计了一个波斯文本识别系统。的系统包含一个阶段细分到单独的字符组成。这个阶段有利于斜体或高度拒绝拉丁文本。这项研究提出了一种分割算法有两个步骤。在第一步中,nonoverlapped和单独的孤立的角色分离,而第二步段非伴生字符重叠。现实世界的方法是测试脚本并显示99.7%的准确性。
3所示。分析现有的研究对草书/语言
以下部分的相关工作和分析草书/语言。
3.1。现有研究支持的草书
识别草书语言的有效途径成为研究人员和从业人员具有挑战性的问题。提出了不同的方法来解决这个问题的草书语言从不同的角度。埃尔多安和Ozge16)提出了一个研究分析可能的草书书法小学教师的易读性的观点。研究视角的性质,目的是将可用的状态,利用定性方法。研究包括130名潜在的小学教师,要求复制的文本研究人员利用草书笔迹。通过“草书书法草书书法是检查地下室形式。“研究表明,教师的笔迹是足够清晰。Samanta et al。17)提出了一个隐马尔科夫模型在线无约束词识别的手写样本。系统所涉及的关键步骤的笔迹分割成substrokes,从substrokes提取特征和识别。分割的任务,提出了离散曲线进化的策略。然后各种线性和角度特性从substrokes样本中提取词和模仿为特征向量的产生从混合物中分布。Baum-Welch参数估计的算法是用于处理球面线性隐马尔可夫模型构建相关数据。最后,手写的字样本的识别分类器的设计。结果表明,孟加拉语和拉丁语脚本有良好的建议方案,识别的性能。Camastra [18)提出了草书字符识别器的方法在识别模块的草书字分割和识别方法的基础上。支持向量机和神经的帮助下气体,字符的分类。为验证各种字母的大小写版本,神经气体,识别的字符时,使用支持向量机。数据集的训练和测试的57293个字符被认为是草书识别器的字符。结果显示良好的性能通过使用支持向量机和显示更好的效率。
达尔维什和ELgohary19]提供了一个为打印机取证仿生学研究专家系统的方法,将结构的特点和小生境遗传搜索选择有效的足够的最小特性集合。再邻居的方法被用于区分打印机品牌它的简单。研究结果表明,分类的方法有精度高,可以花更少的时间。温家宝et al。(20.)提出了一个模型的层次结构描述在线草书汉字变形的变形。的方法包括两个层面:首先,匹配两个序列的转点提取描述匹配的参考和输入字符的中风。然后,限制抛物线变换用于减少正确匹配的中风之间的区别。结果表明,体系的变形方法是有效减少草书汉字的变形计算成本。李和胆量21)提出了一种新的二元分割算法减少连锁故障风险问题的验证和提高分割的准确性。二元分割算法是一种组合分割方法包括验证和过分割。研究的有效性进行了雪松的基准数据库,和结果显示更好的性能。莎姆和GUINDI22)设计了一个对阿拉伯语的文本识别系统。识别的方法分割阶段包含阿拉伯语草书字打字的。系统显示99%的识别率。Bhunia et al。23)提供了一个跨语言的方法识别和定位平台的手写的字。脚本的方法给出了较低的资源,培训是用巨大的数据集的访问脚本和测试完成脚本。测试的方法在三个印度脚本包括梵文字母,孟加拉,Gurumukhi。
Chandio et al。24)提出了一个数据集的检测乌尔都语的文本,自然场景图像和识别进行了分析。收集超过2500自然场景图像为开发数据集通过数码相机和移动相机。三个数据集开发包括裁剪单词图片,孤立的乌尔都语字符图像和端到端文字识别。重点是乌尔都语的文本实例。方法可用于执行检测和识别乌尔都语的文本以及端到端识别在自然场景。这些数据集的发展可以提供帮助在发展中波斯和阿拉伯语自然场景文本识别和检测。Aisyah et al。25)进行了研究设计和开发为学生学习日语的学习材料和马来西亚Kebangsaan大学外国语言。商业化生产的进行的一项调查研究课本和试制阶段关注学生的需求分析。Abuhaiba [26)提供了一个方法识别草书脚本语言或离散封装在一个图像文件。方法是基于提取的全球模板之间共享语言和脚本与常见的符号的形状。它节省时间的处理和内存中程序的执行要求。一维标准化执行的方法保留的宽高比。作者推荐的方法具有良好的精度和速度为商业使用OCR产品表1显示的一些方法用于识别草书/语言/方法从不同的角度。
3.2。分析文学草书识别
识别草书/语言被认为是重要的不同的目的。这个识别图像的草书可以节省时间和存储记忆。随着这些文本格式,提出了不同的方法。方面他et al。37)使用的隐马尔可夫模型基于离线文本的识别。三个阶段参与的方法包括预处理、特征提取和分类。最初,文字脚本的输入是分割和归一化,然后从分段特性提取单词,然后这些特性集成分类的目的。使用干扰素/意大利国家旅游局的数据库包含32492个单词的阿拉伯语手写笔记。交付的方法更好的性能比现有的方法。Abu-Ain et al。38)提出了一个基线和直线度检测方法的文本草书手写笔记。这种方法是基于方向特性的分析和提取subwords文本的骨架。阿拉伯语的文本被认为是作为一个案例研究。结果表明,方法是有效地工作在阿拉伯语和测试数据集。Mouhcinea et al。39)提出了一个阿拉伯语手写的草书方法基于隐马尔科夫模型的文本。实验结果图片的干扰素/意大利国家旅游局数据库基准测试表明,提出的方法增强识别。Manjusha et al。40)提出了一个方法,目的是为构建手写字符图像的数据库脚本的马拉雅拉姆语语言。手写的样本收集从77年马拉雅拉姆语本土作家。轮廓基于模型的图像分割算法用于提取手写字符图像的数据表。特征提取技术用于提取特征。散射卷积网络特征描述符实现了识别精度最高的91.05%中可用的特性描述符。纳兹等人。41)回顾了相关文献OCR乌尔都语草书脚本。普什图语,乌尔都语和信德语语言,重点描述了青年'liq和Naskh的脚本。
除了上述文献,ScienceDirect等各种流行的库,IEEE,施普林格,威利在线被用来搜索实现最相关的材料。这些库的原因只考虑是由于这些只是出版同行评审和质量研究。图1显示的搜索过程的初步结果提到库。图显示更多的材料得到图书馆Springer ScienceDirect紧随其后。
最初ScienceDirect图书馆搜索,结果中描述的数据。图2显示了出版物标题与文章的数量。
图3代表了在图书馆给定类型的文章。
图4给定的年代表文章的数量。
图5显示了给定的主题领域库。
IEEE的图书馆搜索和文章的主题图所示6。
这篇文章类型如图7大部分论文和会议论文发表。
会议举行的地点是在研究确定。图8描述了会议的地点举行。
之后,施普林格的图书馆寻找相关材料的识别和分析。图9代表了不同学科的文章。图显示更多的文章发表在《计算机科学的领域。
图10显示区域的分支的出版物。
文章类型被确定在给定的程序库。图11显示了出版物的数量的基础上,文章类型。
的研究还集中在语言出版物。图12显示文章的语言总数。
图13描述了威利的在线图书馆出版物的类型。
图14代表论文发表文章的数量。
4所示。结论
最近的现代科技的进步和创新领域的机器翻译,文本的一个重要增长出现在在线和离线脚本。这种增长已经成为一个具有挑战性的问题,研究人员需要考虑进一步的研究和探索。多样性存在地区和文化变化的形式。地区和文化变化的多样性产生了不同的语言的沟通。风格存在手写文本的差异,是由于不同的写作风格。文字识别的研究领域是成熟这增加了方向的研究领域的探索。现有文献的详细报告是必要的从业人员和研究人员可以支持使用现有文献证据和草书语言的识别提供新的解决方案和优化识别草书文本的能力。目前的研究提供了一个详细的报告,研究人员可以获得好处的文献和设计新的解决方案。这项研究进一步促进研究者和实践者提供了现有文献的深入分析。
数据可用性
没有数据是可用的。
的利益冲突
作者宣称没有利益冲突。