一个高效的倾斜行草书OCR的分割技术

文摘

分割的草书文本仍然是具有挑战性的阶段识别的文本。在OCR系统中,文本的识别精度直接依赖于分割的质量。在草书文本OCR系统中,手写的乌尔都语语言文本的分割是一个复杂的任务,因为上下文的敏感性和diagonality的文本。介绍直线分割算法乌尔都语手写和打印文本和随后哨卡。在拟议的技术,计算像素的方法是用于修改标题和基线检测,系统首先删除的文本的偏态页面,然后在页面转换成线条和绷带。算法评估手动打印或手写的数据集生成的乌尔都语。该算法测试分别在手写和印刷文本,分别显示线精度96.7%和98.3%。此外,提出线正确分割算法提取线测试时阿拉伯文字。

1。介绍

OCR系统的标准措施,不同的类型,和丰富的历史。乌尔都语语言中广泛使用和理解主要是南亚国家。其庞大的使用相比,几乎没有改进了识别的脚本(1]。脚本为乌尔都语印刷和手写文本识别系统最近接触的OCR系统相比其他脚本。这空白的研究主要是由于缺乏基准数据集,字典,和其他必要的因素。

近年来,OCR系统吸引了很多研究者的注意力转向草书文本脚本,而语言乌尔都语和阿拉伯语的文本仍远远落后于在获得令人信服的准确性(2]。任何语言的写作模式的主要原因是高还是低文字识别的准确率。在这种背景下,草书文本(阿拉伯语、乌尔都语等)有更多的准确性问题。线的分割和识别的草书是一个艰巨的任务,因为他们的话形状和成分。表中提到的草书脚本1。ocr草书语言不是很成熟,仍有改善的空间精度。乌尔都语手写OCR是非常有益的,但我们不能实现它的好处,直到我们克服分割的问题。

在模式识别和图像处理领域,英语文本OCR系统达到良好的精度。在OCR系统中,分割是最错误生成参与草书乌尔都语和阿拉伯语。这就是为什么segmentation-free方法用于处理这个问题在某种程度上。但在大型数据集,这种方法还未能给出令人满意的精度。作为替代,我们有有效的方法。

除了上述动机,本研究的目的也是提高分割精度和进步的最先进的方法。乌尔都语的主要目的是解决分割精度OCR,从文本行分段结扎分割。在草书脚本,一个文本图像的偏态也影响细分阶段。分割重叠和倾斜文本行是一个障碍在实现分割精度高3]。因此,在本研究工作中,倾斜检测和基线检测也提升了分割方法。最后,本文讨论了结扎分割方法也完全覆盖分割阶段,实现通过该方法识别精度高。在草书,字符分割,旁边线分割部分原因也是错误生成下列问题。

重叠的文本行:在草书,邻线互相重叠。这个问题发生在手写和打印文本。有些字与词的相邻线路在分割过程中,部分分段。因此,有一个高概率损失的信息。

不平等的行高:这个问题发生在只有手写的文本。由于没有标准编写整个文档,文字的高度不同,没有统一的立场的话,和人物在垂直和水平方向传播;由于这个原因,一条线不能保持直线。

不一致的行间距:在乌尔都语的手写文字,没有标准文本的基线。在整个文档文本行之间的空间变化。在这种情况下,基线水平不直顺;它可能是一条曲线或振荡形状。例如,在某些情况下,在一开始,开始行间距小,年底相邻线路,它们之间有明显的空间导致偏斜问题分段文本行。

点/变音符号重叠:在乌尔都语,点/变音符号主要是传播之间的空白行。在这些情况下,总是有一个机会,一个点/可区别的可能与相邻段线。

这项研究导致了以下方向:(我)首先,印刷和手写的乌尔都语的文本数据集生成以及地面真理(通过删除下一页的偏态)。之后,页面转换为线条和绷带。(2)其次,该方案评估手动打印或手写的数据集生成的乌尔都语,80年由乌尔都语手写的页面(687行)和48个印刷页(495行)。(3)第三,提出了框架解决存在的问题在文本行细分变量文本大小,线条之间的差距的矛盾,和偏斜度的文本行。(iv)最后,测试该算法分别在手写和打印文本,分别显示线精度96.7%和98.3%。

结果验证,该线路正确分割算法提取线测试时阿拉伯文字。

直到现在,我们已经讨论了OCR系统,不同类型的文本,和他们的问题。部分2包括研究的相关工作。部分3包含该方法的研究。然后,结果和讨论解决4,最后,本文的结论部分5。

OCR系统的模式可以根据输入文本分类可以离线或在线的图像采集、写作模式,可以打印或手写,最后导致字体的字体变化约束,由一个识别系统的支持下分割过程。在本节中,我们将回顾现有技术印刷的文本切分和手写的草书脚本。

投影轮廓线的广泛使用的分割方法分割。该方法从图像自动识别线区域。在这种技术中,信息是用于文本行分割,而这种技术不给好的结果图像不一致的行间距和偏态也会影响精度。倾斜图像发展小山峰,使投影轮廓困惑于适当的文本行;这个问题解决了通过使用本地或分片投影资料(4]。修改后的投影轮廓作为一种自适应技术,部分线分数是用于开发投影5]。在[6),使用投影轮廓段绑扎线分割阶段而Y-histogram投影用于线分割。基于投影轮廓的方法也用于(7]基线检测和连接组件,然后分工词划分为绳索通过垂直投影。我们的方法也用垂直投影技术从行结扎分割。

穆纳Ayesh et al。8)提出了一个算法部分阿拉伯语的文本行。在阿拉伯语中,线分割问题主要是由于变音符号的位置。作为附加符号不遵循任何基线,他们合并与周边线。作者提出了一种线和附加符号分割算法测试43000行,给99.5%的准确率。投影轮廓的方法是使用一个配置文件振幅过滤器(9阿拉伯语的文本行,单词和字符分割。该算法是对打印文档无论大小和字体。行分割算法在两步工作。首先,粗略分割使用水平剖面方法;之后,该技术有多个规则应用于粗分割得到最终的分割结果。

在[2),作者提出了一种分割方法使用链代码。在这种方法中,稀释后的检测到起始点。通过Freeman链码,分段点标记,而HMM模型用于识别作为一个字符或可区别的每一部分。行分割(重叠)和结扎分割(中小学)算法提出了在10]。混合自顶向下方法(投影)用于线分割,而自底向上的方法是结扎分割,提取连接组件和收集结扎提取。之后,变音符号和绑扎分为主要和次要组件。这种技术给出了一个在结扎分割的准确性99.02%和99.11%行分割。

Moysset et al。11)使用的一个最近的递归神经网络模型的分割。six-layer深层神经网络使用,四个LSTM层和剩下的两个卷积层。这种方法解决了文本的位置线。小说线分割技术是使用像素的信息能量用于段文本行。人物也通过使用一个人工神经网络分割。线分割的方法给出了95%的准确率为94%,字符分割。

戴的棕榈叶部分手稿,通用电气彭et al。12)基于HMM算法,用于评估所有切分路径。在另一项研究中,广一和李13]提出的多语种文本线分割的方法,在训练完全传统的网络(FCN)是用来找出文本行模式。通过FCN、线划图提取的初始分割完成后,这条线,邻接图是用于处理之间重叠线。这给了98.6%的准确率上icdar - 2013。

在水流方法中,文档的角度(左右和自上而下地)用于假设的水流。该算法适用于这个假设假设情况。行提取,带un-wetted地区使用。假设线之间的空间填满,形成潮湿的地区后标签图像分成两部分,湿和non-wetted地区,湿地区包含空格和其余un-wetted地区包含文本行。达科Brodi 'c [14)修改一个线性水流算法,通过改变其幂函数的线性函数。水流处理线性直线;在这个修改算法,边界框添加到处理文本的角度尺寸。

涂的方法被认为是最早的方法用于线分割。模糊方法指的是模糊的概念之间的所有连续的黑像素沿水平方向线。然后,白色黑色像素内的空间里充满了黑色像素。通过这个,黑色像素覆盖大面积的文本。这个黑色像素生长区域封闭独立的文本行(15]。近年来,RLSA算法引入了基于模糊技术。新颖的绘画方法提出了诽谤的前景部分形象;这种方式,前景与背景分离像素这个方法用于文本行分割。

概率算法用于随机方法。该方法实现非线性路径之间的重叠的文本行。嗯是用于提取这些文本行和图像划分成小单位。在接触组件的情况下,一个高概率路径穿过触摸组件用最小的黑像素,尽管这种方法精度下降在文本有大量黑色像素接触点的文本(16,17]。

Kumar和超18英语草书)提出了一个算法。这个算法垂直段的绑扎连接词。首先,得到单像素笔划宽度的扫描图像的倾斜角校正和变薄。算法部分人物的基础上他们的几何形状。该方法是在本地数据集上进行了测试。在[19不同的分割算法相比),研究人员。实验进行的CCC基准数据集。水平和垂直投影法为95.65%分割精度而霍夫变换技术显示,98.9%准确的分割。

在[20.),纳兹等人隐式分割用于乌尔都语的文本分割。水平投影概要文件集成到页面划分为行。基于文本的不同特性,如区域统计措施和链码,等等,然后计算识别的神经网络训练。该方法评估UPTI数据集。线和结扎分割算法介绍21]。

在[22),作者提出了一套规则,导出一些搜索字符边界的草书验证通过使用一个神经的信心。拉赫曼(23)引入了一个新概念等核心区域分割困难的倾斜的手写的字。还在24),Qaroush等人基线检测方法用于识别的字符分割和CNN的字符。

Mullick et al。25)提出了一种新颖的方法来段台词手写孟加拉文档图像。在这种方法中,首先模糊单词之间的空格(这样模糊词与词之间的空格后,只剩下的空白行)之间。这种方式,最突出的像素仍然是分离的点。

在[26),多语种小说基线方法用于手写文本行分割,明显的轮廓的提取的曲线。取向不变的特性曲线是用来确定提取的区域是一个基线的文本行。SVM训练使用的方向不变的特征曲线,然后训练支持向量机用于从文本图轮廓。这种方法有89.6%的基线精度。

在[27),Surinta等人提出了一个算法来段台词历史文献。这种方法的新颖性是人工代理负责处理异常的历史文本。在这种方法中,每一行的两端使用平滑水平检测油墨密度直方图。该算法使用不同的成本函数保持距离墨水像素和计算它们之间最短的距离检测线路。这种方法给圣Gall数据集线分割精度99.9%。

3所示。提出的方法

乌尔都语草书文本,近几十年来,许多研究已经开展乌尔都语印刷(Nastaliq)脚本。但在乌尔都语手写文本的情况下,很多工作都需要开发一个算法,导致理想的OCR系统。本文提出了一种倾斜校正的方法和线分割的印刷和手写的文件。提出的方法在下列顺序的步骤:(1)预处理(2)倾斜校正(3)文本行分割(4)结扎\分词

本文的重点主要是在预处理和分割的阿拉伯语/乌尔都语带脚本的OCR。在分段文本之前它的基本形状,系统预处理吵闹的和倾斜的图像。本文反映了分割技术随着投影技术。本文反映了一个增强的基于像素计数稳健算法独立于任何脚本特定知识。此外,修改标题和基线检测技术(28)用于直线分割算法。

基于像素的方法主要是缺乏检测噪声和倾斜文本图像。我们克服缺点的头和基线方法方法采用自适应阈值方法噪声检测和小说的倾斜检测算法。的图形表示方法如图1。

3.1。预处理

预处理是一个非常重要的阶段更好的分割结果。预处理,使用自适应阈值方法,给出噪声图像作为输入。自适应阈值应用到输入图像基于图像的强度。灰度图像包含图像像素强度。RGB图像,图像转换成YCbCr颜色空间,Y包含强度(黑白像素),8位深度(灰度),和24位深度(RGB)图像可以在这个方法中使用。将图像转化为灰度后,应用自适应阈值算法1)。

	输入:灰度图像或RGB。
	输出:干净的形象。
	/ /开始
	步骤1。/ /如果RGB图像,转换成YCbCr颜色空间。
	YCbCr←RGB
	步骤2。/ /消除CBCR。和图像变成灰度。
	步骤3。/ /应用自适应阈值。
	步骤4。应用全球形象使用大津阈值的方法。
	第5步。自适应(平均\中位数)过滤器来突出图像的特征。
	步骤6。然后,应用大津阈值分割和生成一个二进制图像。
	/ /结束

给出了一个输入图像灰度或RGB格式,进行处理转换成一个二进制图像(黑白图像)。文本图像主要两种颜色:(1)文本颜色和(2)的背景颜色。通过转换成二进制图像,图像的对比增加和全球使用大津阈值的方法很简单29日]。

一种自适应局部阈值算法分离背景与非均匀亮度图像的前景。应用自适应(意思是/中位数)过滤器来突出图像的特征,然后应用大津阈值生成一个二进制图像。人们已经发现,大津阈值的文本数据产生了很好的效果。better-preprocessing结果,使用二值化技术,像素超过指定的强度将被转换成白色像素;否则,他们将被转换成黑色像素;因此,图像转换成黑白像素。方程如下: 在哪里P我是概率和强度的吗l箱子的数量。之后,单像素边缘厚一个边界(在整个图像)是为每个角色创建从一个精明的边缘检测器(auto-thresholding)。根据我们所知,精明的边缘检测器用于预处理,去除噪声点与低通滤波器。在这一点上,应用Sobel过滤,然后使用nonmaximal抑制最好选择像素为边缘当有不同地方的可能性。

3.2。倾斜检测

提出行分割依赖于算法2,倾斜校正算法。一条直线分割算法需要减少扭曲图像的良好表现。拟议的倾斜校正算法在图像的像素强度信息。该算法的主要思想是提取文本行之间的区域,适合一条直线。

	输入:无噪声图像倾斜。
	输出:Skew-less形象。
	/ /开始
	步骤1。输入文本图像转换成灰度图像。
	步骤2。扫描文档和提取roi。/ /投资回报率=区域之间的文本行。
	步骤3。找到所有像素之间的文本行(除了文字像素)。
	步骤4。加入这些像素符合一条线(有相同的斜率作为文本)。
	第5步。每个安装线的中心。
	步骤6。找到安装之间的角线和水平线的页面。
	步骤7。旋转区域。
	/ /结束

找到空格(如果背景是白色的),上面有字母的定义线之间的区域。而不是寻找文本,我们会发现之间的空白行。然后,我们将从第一spaceline的中心的中心下一个,直到最后的页面。在这种方法中,倾斜校正是在页面级别。最后,找到线的倾斜角度和旋转图像的中心点。

3.3。行分割

无噪声和skew-less图像提供给系统进行进一步处理。输入的关键图像是倒让图像我'HXW白色背景上的黑色文字。然后,像素强度(P)计算的黑色文本文档中。

这个像素强度(P)决定了文本图像的阈值;它随图像,图像。行有暗像素大于提取文档的标准偏差值。文本行连续行的结合,提取出像素(P)躺在页眉和页脚。

上面的方程表示的标准分配头和基线到一个特定的文本行。两条线在文本当黑色像素行不到自适应阈值在整个文档的行,“白色空间”,如图所示2。这个白色像素作为一个边境两个文本行。

随着这种技术集中在文本的开始和结束,这就是为什么它被称为“头和基线检测”技术。文本行提取通过使用两个参数文本的线,线的起点和基线(线)的最后一行。头和基线是由黑白像素的行数的文本图像。连续超过阈值的黑色像素行标记为文本行而重复的白色像素行是两行之间的分离区域(图中所示2)。图示的分割算法如图3。

在拟议的方法中,自适应阈值的页面设置通过计算文本像素的标准差(黑色,白色背景),这决定了文本像素在一个页面上的多样性。它作用于更高价值的标准偏差意味着更大的线之间的距离。这个连续自适应阈值确定最小数量的文本行线。在阿拉伯语/乌尔都语的文本的情况下,附加符号的文本出现在一行,包含更少的像素。在某些情况下,这些行黑色像素小于最低阈值影响识别文本像素不探测点/线变音符号。算法3地址与所有缩写表建议的方法2。

	输入:规范化de-skewed形象
	输出:分段线。
	/ /开始。
	步骤1。/ /预处理:图像二值化(使用自适应阈值)。
	步骤2。/ / De-skew图像(如果需要)。
	步骤3。/ /扫描图像行,行。
	确定每个像素的强度(0或1)。
	步骤4。/ /计算图像的标准差(作为最低黑色像素在文本行)。
	第5步。如果(Black_Pixels > Std)
	Black_Row =行
	步骤6。其他的
	Space_Row =行
	步骤7。(从1开始st_black_row:直到Last_space_Row)
	步骤8。如果(Height_Row > Min_ Height_Row)
	/ /考虑这些连续的文本行作为文本行,直到任何white_row发生。
	第9步。如果(Space_Row发生)
	第10步。如果(Space_Row > Min_Height_Row)
	打破text_line第11步。
	步骤11。其他的
	去第七步
	步骤12。其他的
	寻找下一个black_text_row
	步骤13。其他的
	去第十步
	/ /结束


缩写	描述

性病	图像的标准差
Black_Pixels	连续的黑像素
Black_Row	有黑色文本行像素大于阈值
Space_Row	文本行之间的空间
Space_Row	文本行之间的空间
1 st_black_row	最后space_row页面
Height_Row	数量的连续black_text_rows
Min_ Height_Row	最低阈值的连续黑行

这种技术完全取决于计算像素的方法。这种技术的主要思想是,行页面包含更大数量的黑色像素比线之间的空间。高阈值用于分段线的高度。在考虑阈值设置根据页面。如果是等值线之间的空间,那么该算法调整修复阈值根据线之间的空间,而如果线相邻行之间的距离不断变化,那么该算法必须能够自适应的阈值。

结扎分割的投影轮廓分割方法用于文本行而行转换成通过垂直剖面的方法。在该方法、乌尔都语handwrote或印刷文本页面,插入作为输入。首先,页面分割成几个文本行和进一步输入一个字/行结扎分割算法分为最小的绳索。按顺序算法部分单词,绑扎自动按顺序排列。

3.4。数据集生成

乌尔都语的手写的数据集是由24合作的作家。每个参与者写一个不同的数字的话,线,和页面有687行结合起来形成80页。在一条线的字数,页面上的行数不同整个数据集。样本数据是多才多艺的几乎所有类型的写作问题,使复杂的数据集,减少算法的准确性;例如,每个作家都有自己的写作风格有不同的难度水平的认可,和每个参与者都有一个不同的文本大小。这些手写的文本图像使用了高分辨率的数码相机,扫描后以jpg格式存储。手写的样本数据集在图所示4。数据集展示在表的细节3和网上GitHub (https://github.com/saud00/Urdu-text-dataset)。

(一)

(b)

(c)


数据集的细节	统计数据

手写的页面总数	80年
作家的总数	28
由一个作家写的页面数	3(平均)
每个页面的文本行数	9文本行(平均)
倾斜的页面	12
总数量的行	687年
倾斜的线	97年
约。每页的字数	103年
约。行数的一个作家	27
约。行数的一个作家	306年
约。每行的字数	12
单词的总数	8208年

在乌尔都语OCR评估算法,我们提出一个多样化的和全面的乌尔都语手写的数据集。数据集是用蓝色和黑色圆珠笔和指针笔使用,这样数据集包含所有类型的写作强度。然后,这个数据集扫描并转换为二进制图像(白色和黑色)。十八岁老师和十个学生(男性和女性)导致了数据集。他们被告知要写段落(没有任何限制的内容)。他们写道:不同数量的线在不同用不同的笔。样品如图4。地面真理也是手动创建一个手写的数据集。他们没有训练,所以,这个数据库反映了挑战的真正本质真实的数据库。

乌尔都语Nastaliq打印生成的数据集也从三个不同的来源和收集数据。(我)27页从网上收集书籍(通过截图,然后种植通过漆)(2)10页的报纸(从相机扫描)(3)11页的摘要(从相机扫描)

保持数据集的多样性,从三个不同的来源收集数据。首先,27页的在线图书(该Nama)收集(图4(c)),以27页的截图,然后通过漆种植它们。27页总共包含275行。其次,十个段落的报纸收集通过数码相机,然后扫描(图供进一步使用4(a))。十段报纸包含86行。最后,随机从消化(图10页扫描5 (b)),其中包含131行。

(一)

(b)

(c)

4所示。结果分析和讨论

above-generated数据集测试来评估该方法。它是保证数据集包含所有著名的图像可能格式:jpg, png,灰度,等编译结果,使用MATLAB 2017。这个项目的代码可以在GitHub (https://github.com/saud00/Line_and_Word_Segmentation_URDU)数据集和输出图像。

提出线分割的准确性依赖于倾斜校正的准确性。行分割算法需要skew-less形象的良好表现。提出了斜算法作用于图像的像素强度信息。

结果生成的分割阶段,后来用于识别率。首先,预处理技术应用于去除噪声,处理错误的线检测;之后,如果图像是倾斜的无论哪种方式,它是通过应用倾斜检测算法。De-skewed图像输入线分段线的分割算法。

4.1。结果分析

拟议的框架是测试的准确性是贴有标签的文本行图像地面真理。数据集包含495个印刷和681份手写线图像以及手动创建的快照地面真理。作为一个框架的一部分,数据集开发和手动标记。结扎标记图像的字符数计算并与几个公认的人物找到识别精度在哪里R代表正确的线路和认可l输入标签线图像。分段线从输入页面与地面实况图像找到线识别精度。评估结果,我们使用精度,回忆,和F-measure矩阵定义如下:

精度相关的分段线的分数在检索行中,而召回相关线路的一部分,检索到的总量相关行。倾斜的倾斜检测算法检测图像通过使用的文本提出了倾斜校正算法。图6 (b)显示了倾斜校正算法的输出。倾斜校正算法评估是基于真正的线分割。总共13倾斜图像检测算法,从中真正de-skewed 11图像。

(一)

(b)

以下4.4.1。手写的文件

测试框架在手写和乌尔都语印刷文本。数据集的80页(687行)是评估在文本行分割算法。线分割算法正确段687行,8线under-segmented形成和不正确的18行而过分割问题影响4文本行。分割算法有96.7%的线665年正确定位精度手写的文本行。结果如表所示4。


文本类型	不。行	检测到行	正确检测到行	精度	回忆	F-measure

手写的	687年	681年	665年	97.6	96.79	97.3
印刷	495年	491年	487年	99.18	98.38	98.74

4.1.2。打印文件

乌尔都语Nastaliq打印数据集上的测试算法从3种不同的媒介网络收集书籍,报纸,和消化。从共有48页,27页是取自一个在线图书,10页的报纸,和11个扫描页面从消化收集表所示5。对于打印数据,共48页(495行)测试。打印数据集的结果在表5显示98.38%的准确率由共检测487行495行。


源	页面	行	正确检测到行	精度

在线图书	27	275年	272年	98.9
报纸	10	86年	84年	97.7
消化	11	131年	131年	One hundred.
整体	48	495年	487年	98.38

在三种数据类型中,算法检测到行轻松消化,显示100%的准确率。我们美联储11页的消化有131行;这些都是正确地识别。从275年行在线图书,只有3误导了熟练程度,显示98.9%的识别率。

从整个48页打印,报纸股价11页86行。该算法检测84行。但是,有很多段落的报纸(图之间的区别5(一个)(图)和段落的消化5 (b))。

在报纸上的页数和消化几乎是相同的但是有很大差异的行数。算法正确检测到所有的131行消化和达到100%的准确率。图7显示整个连续的过程(从左到右),算法首先删除的图像(图的偏态7 (b)),然后细分成线。页面线分割后,投影轮廓分割方法用于文本行而行转换成通过垂直剖面的方法。每个连接的黑暗区域的边界轮廓提取的分离区域。绑扎/ subwords分割算法的输出,如图所示8 (b)。

(一)

(b)

(c)

(一)

(b)

4.2。与以前的工作相比较

尽管在乌尔都语OCR普遍的贡献,没有通用的数据集用于文本行分割涵盖手写和打印文本。

表6与他们的精度显示之前的相关工作。光学字符识别领域的大多数作品没有使用任何可用的数据集;(所21,32,33),他们用他们的数据集。因此,算法的准确性取决于他们的数据集。主要在乌尔都语的文本,点/变音符号分配和倾斜检测是两个问题。提出的算法(21]处理点/变音符号分配问题但不适合斜文件。该算法克服了这个问题,通过使用算法2。


源	的页面数量	共线	检测到行	文本类型	精度(%)

尤尼斯等人。30.]	90年	1000年	940年	手写的	94年
喧嚣et al。31日]	30.	310年	306年	印刷	98.7
Ahmad et al。21]	47	607年	602年	印刷	99.17
该方法	80年	687年	674年	手写的	96.7
该方法	48	495年	491年	印刷	98.3

4.3。结果的讨论

倾斜检测算法容易纠正图像的偏态如果线之间的角度是相同的或有一个小变化。分割的结果受线之间的角度变化时整个图像如图9(一个)。不旋转的算法单独每一行,整个图像旋转,如图9 (b)。

(一)

(b)

主要有两种类型的问题发生在线分割,针对医学和错过/欠分割。部分分段线视为错误的检测。分割精度计算“检测到线”或“没有检测到行,”因为当一行错误地划分为两条线(图10),然后在后期不认可。

Inter-line偏态会导致欠分割。如果段落multi-skewed线,该算法绕过这些线,因为算法无法检测multi-skewed线和段线为一行。这个问题导致的错误分割线路如图11。

针对主要是因为点和附加符号的存在。在该算法中,当黑像素的数量超过了阈值限制,那么它被认为是一个文本行。鉴于,如图10,一行是算法;这些线是错误检测到线路和视为错误的分段线。通过这种方式,一行是划分为两个或两个以上的线。这个错误的行被称为过分割的分割。

在这个研究中,我们专注于处理手写文本(有或没有偏态)。这种技术在分段过程限制点,正确区分标志。

5。结论

最近,许多script-dependent算法提出了线和结扎。但在这个研究中,我们将努力一步提出一个高效的算法,用于处理印刷和手写的文本。该算法适用于打印或手写的乌尔都语两个文档。在手写文本、线不直,有一个变量的大小。特别是对于手写的文本,该算法处理页面和倾斜管道尺寸变量文本。在拟议的方法中,使用一种自适应阈值技术预处理的页面。然后,如果是倾斜和旋转图像的de-skewed图像分割。提出行分割算法是基于计算像素密度(黑色和白色)。文本的标题行和基线确定行和分段。行分割后,投影轮廓技术用于从分段行段绳索。 The proposed line segmentation algorithm shows promising results on handwritten and printed Urdu text. We make this approach more flexible for handwritten text so that dot/diacritics will remain in the concerned line and not be part of adjacent lines. In this paper, we mainly deal with Urdu text. In the future, we will expand this work as a general technique so that this approach will be applicable to all OCR systems.

数据可用性

所有的数据用于支持本研究的结果包括在手稿中。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢沙特国王大学的支持,沙特阿拉伯,通过研究者支持项目RSP-2020/184数量。

引用

s a·马利克·m·Muazzam a Farhan et al .,”乌尔都语的一种有效的分割技术光学字符识别器(OCR)”未来的信息和沟通会议施普林格,柏林,德国,2019年。视图:谷歌学术搜索
a . f . Ganai和f . r .孤独的”字符分割Nastaleeq乌尔都语OCR:复习一下,”学报》国际会议电气、电子和优化技术(ICEEOT)IEEE,钦奈,TN,印度,2016年3月。视图:谷歌学术搜索
k·Keisham和武断的话,“识别手写的英语文本U最小化,”信息系统设计和智能应用程序施普林格,页607 - 614年,柏林,德国,2016年。视图:谷歌学术搜索
m . Arivazhagan h . Srinivasan和美国斯里赫里手写线分割的统计方法。在文档识别和检索十四。学报学报,页6500 t - 6501 t, 2007年1月,美国圣何塞。视图:谷歌学术搜索
i . bar yosef et al .,“行分割为退化的手写的历史文献,”学报第十届国际会议文档分析和识别ICDAR ' 09IEEE,巴塞罗那,西班牙,2009年7月。视图:谷歌学术搜索
c·帕特尔,r·帕特尔和p·帕特尔,“使用神经网络的手写字符识别,”国际科学与工程研究杂志》上,卷2,不。5、1 - 6,2011页。视图:谷歌学术搜索
z . a .沙”Urdu-Nastaleeq字体,结扎建立光学字符识别”《国际多主题会议摘要。INMIC 2002IEEE,卡拉奇,巴基斯坦,2002年2月。视图:谷歌学术搜索
m . Ayesh k .穆罕默德·A . Qaroush s Agaian和m . Washha”一个健壮的阿拉伯语印刷文本行分割算法与变音符号,”电子成像,卷2017,不。13日,42-47,2017页。视图:出版商的网站|谷歌学术搜索
m·a·Mousa m . s .赛义德,阿布达拉,”阿拉伯语字符分割使用基于投影的方法概要的振幅过滤器,”2017年,http://arxiv.org/abs/1707.00800。视图:谷歌学术搜索
g . s . Lehal”乌尔都语OCR结扎分割,”第12届国际会议上学报》上。文档分析和识别(ICDAR), 2013年IEEE,华盛顿,美国,2013年8月。视图:谷歌学术搜索
b . Moysset k . Christopher w .基督教et al .,“段落文本分割成线与复发性神经网络,”第13次国际会议文档的程序分析和识别(ICDAR), 2015年2015年8月,IEEE,突尼斯,突尼斯,。视图:谷歌学术搜索
h·p·g . Peng Yu李et al .,“文本行分割使用维特比算法戴的棕榈叶的手稿,”《2016年国际会议上音频,语言和图像处理(ICALIP),IEEE,上海,中国,2016年2月。视图:谷歌学术搜索
问:n .签证官和g·李”密度预测文本行手写文档中分割图像”《IEEE国际会议上图像处理(ICIP)美国IEEE,凤凰城,阿兹,2016年8月。视图:谷歌学术搜索
d . Brodić“文本与水流线分割算法基于幂函数,“《电气工程,卷66,不。3、132 - 141年,2015页。视图:谷歌学术搜索
Marinai和p内西,”音乐表,基于投影分割”第五次国际会议文档的程序分析和识别ICDAR 99IEEE,班加罗尔,印度,1999年10月。视图:谷歌学术搜索
d . Brodić和z Milivojević”,水流算法用于文本线分割的新方法,”通用计算机科学杂志》上,17卷,不。1,30-47,2011页。视图:谷歌学术搜索
r .学生,“脱机手写的埃纳德语文本识别使用支持向量机使用泽尼克时刻,”IJCSNS,11卷,不。7,128年,页2011。视图:谷歌学术搜索
A超和诉Kumar”,一个健壮的技术手写单词分割成单个字符,”语言处理人机通信施普林格,页99 - 106年,柏林,德国,2018年。视图:谷歌学术搜索
p . Dhande和r . Kharat分割和特征提取草书英语手写识别,”IJETT,1卷,不。2、2017。视图:谷歌学术搜索
纳兹,r·伊姆兰·伊姆兰et al .,“Ocr系统打印青年'liq脚本:基于市场细分的方法,”IEEE学报》17日国际Multi-Topic会议(INMIC)IEEE,卡拉奇,巴基斯坦,2014年12月。视图:谷歌学术搜索
艾哈迈德,x, r·李·m·艾哈迈德和r . Ullah”线和结扎分割乌尔都语Nastaleeq文本”,IEEE访问5卷,第10940 - 10924页,2017年。视图:出版商的网站|谷歌学术搜索
a·拉赫曼,”一个非线性的神经网络分割重叠草书的“国际计算机视觉和机器人技术杂志》上,10卷,不。4、275 - 288年,2020页。视图:出版商的网站|谷歌学术搜索
“草书重叠Rehman,字符分割:一个增强的方法,“2019年,http://arxiv.org/abs/1904.00792。视图:谷歌学术搜索
a . Qaroush a . Abdalkarim m·默罕默德和z Malik,”有效,omnifont印刷阿拉伯语字符识别没有字体识别,”沙特国王大学计算机与信息科学杂志》上,2020年。视图:谷歌学术搜索
k . Mullick、美国Banerjee和巴塔查里亚,”一个有效行手写的孟加拉文档图像分割方法,”学报》2015年第八届国际会议上的进步模式识别(ICAPR)IEEE,加尔各答,印度,2015年3月。视图:谷歌学术搜索
d . Chakraborty和美国朋友,”基线检测多语种不受约束的手写的文本行,”模式识别的字母卷,74年,第81 - 74页,2016年。视图:出版商的网站|谷歌学术搜索
o . Surinta l . Schomaker m .水坝et al .,“线分割的手写文档的路径规划,”学报》2014年第14届国际会议在手写识别领域(ICFHR)2014年12月,IEEE,伊拉克里翁、希腊、。视图:谷歌学术搜索
s . Palakollu r,迪尔和r .王妃”的新技术分割手写的印地语的文本行,”国际杂志的特刊的计算机应用程序5卷,第8887 - 0975页,2011年。视图:谷歌学术搜索
大津,“从灰度直方图的阈值选择方法,”IEEE系统,人,控制论,9卷,不。1,第66 - 62页,1979。视图:出版商的网站|谷歌学术搜索
m·尤尼斯和y Abdellah分割的阿拉伯语手写文本行,”Procedia计算机科学卷,73年,第121 - 115页,2015年。视图:出版商的网站|谷歌学术搜索
即美国喧嚣,z Malik Siddiqi,美国哈立德,“行和结扎乌尔都语印刷文档中分割图像,”应用环境和生物科学杂志》上》第六卷,没有。3、114 - 120年,2016页。视图:谷歌学术搜索
f . Shafait d大尺度,t . m . Breuel“乌尔都语的布局分析文档图像,”《Multitopic INMIC 06年的会议IEEE,伊斯兰堡,巴基斯坦,2006年12月。视图:谷歌学术搜索
f s s。布哈里Shafait t . m . Breuel“高性能布局分析阿拉伯语和乌尔都语文档图像,”学报2011年国际会议文档分析和识别(ICDAR)2011年9月,IEEE,北京,中国,。视图:谷歌学术搜索

科学的规划