研究文章|开放获取
Toufik纱丽,Abderrahmane Kefali, Halima Bahi, ”从历史文档图像文本提取几种阈值技术的结合”,多媒体的发展, 卷。2014年, 文章的ID934656年, 10 页面, 2014年。 https://doi.org/10.1155/2014/934656
从历史文档图像文本提取几种阈值技术的结合
文摘
本文提出一种新的历史文档图像的二值化方法特点是恶化和损害赔偿若干层次的自动处理困难。该方法是基于混合阈值结合全球和本地的优点的混合方法和几个二值化技术。两个阶段都包括在内。在第一阶段,应用全局阈值对整个图像和两个不同的阈值确定的图像像素分为前景或背景。在第二阶段,分配给其余像素前景或背景基于局部分析类。在这个阶段,一些局部阈值方法相结合,最后每个剩余像素的二进制值是最可能的选择。拟议的技术已经大量的测试标准和合成文档并与著名的方法使用标准的措施,被证明是更强大的。
1。介绍
二值化是一个重要的步骤在文档的过程中分析和识别。它作为目标图像分割成两个类(前景和背景的文档图像)。由此产生的图像是一个二进制图像在黑色和白色,黑色代表了前景和背景的白色代表。事实上,文档图像二值化是至关重要的,坏的分离会导致相关信息的损失和/或添加无用的信息(噪音),产生错误的结果。这个困难增加旧文件,各种类型的损失和退化的数字化过程本身,老化的影响,湿度、标志、真菌,污垢,等等,使这些材料的自动处理困难的几个层面。
许多技术已经在文献中提出的灰度或彩色文档图像的二值化,但它们之间还没有一个通用的、高效的为所有类型的文档。
灰度图像的二值化技术可分为两大类:全局阈值和局部阈值(1,2]。另一个类别的混合方法可以添加(3]。全局阈值方法广泛应用于许多文档图像分析应用程序的简单性和效率。然而,这些方法都是强大的只有当原始文档质量好,对比和有一个明确的双峰模式,分离前景文本和背景。历史文档通常噪声和图像质量差,全局阈值方法变得不适合,因为没有一个阈值能够完全独立的前景从背景图像由于没有足够的区别的灰色背景和前景像素的范围。这种文档需要更详细的分析,这可能是由当地担保方法。当地的方法计算每个像素的不同的阈值基于社区的信息。这些方法对不均匀照明更健壮,对比度较低,比全球的和不同的颜色,但他们是很耗费时间的,因为一个单独的阈值对图像的每个像素计算考虑它的社区。这个计算就变得缓慢增加社区的大小。相比之下,混合方法结合全局和本地信息对图像的分割。
在本文中,我们提出一种新的混合binarizing历史文献的图像的阈值技术。该方法使用混合阈值的方法,它结合了两个家庭的优势技术:计算速度和效率。本文的其余部分组织如下。节2,我们介绍一些现有的二值化方法。然后在节3,我们描述了建议的方法。实验,结果将显示在执行部分4,在结束之前。
2。国家的艺术
根据(4),现有的图像二值化的方法可能被划分在两个主要策略:基于分组的和基于阈值的。基于阈值的方法使用全局或局部阈值(s)的文本与背景分离。在基于分组的方法我们区分两类:基于区域的分组和基于聚类分组方法。基于区域的分组方法主要是基于空间域地区增长或分裂和合并。同时,基于聚类分组方法是基于分类的强度或颜色值作为一个同质性标准的函数。然而,一些技术已经用来达到这一分类:k - means人工神经网络算法,等等。
Sezgin和Sankur5)建立了一个二值化方法根据信息分类,他们利用在6类。(我)基于直方图方法:这个类的方法进行阈值基于直方图的形式。(2)Clustering-based方法:这些方法分配图像像素的两个集群:对象和背景。(3)Entropy-based方法:这些算法利用信息理论获得的阈值。(iv)对象属性的方法:他们发现了阈值基于一些原始和二进制图像之间的相似性度量。(v)空间二值化方法:他们发现最优阈值考虑空间的措施。(vi)局部自适应方法:这些方法是为了给每个像素的新阈值。存在几种自适应方法。我们发现方法基于局部灰度范围,当地的变化,等等。
本节我们提出一些二值化方法,最频繁引用的文献中,我们只考虑基于阈值的方法。
2.1。全球的方法
请注意灰度图像的强度从0(黑色)到1(白色)其强度的柱状图。灰度的像素数量表示为。
2.1.1。大津的方法
大津的方法(6试图找到阈值以最佳方式所分割的灰度直方图分成两段(这段间方差最大化或最小化intrasegments方差)。组内的或组内方差的计算是基于归一化直方图图像的,。
为每个灰度组内的方差是由 这样
2.1.2。ISODATA方法
阈值使用ISODATA [7]在于找到一个分离迭代阈值的灰度直方图分成两类,与先验知识与每个类相关联的值。该方法首先将null值的间隔直方图分成两个等距的部分,和明年我们和每个类的算术平均数。重复,直到收敛的计算最优阈值作为最接近的整数和更新两个平均值和。
2.1.3。Kapur等的方法
Kapur et al .的方法(8)是基于熵的方法考虑了前景的可能性分布和背景分布的可能性在划分熵的决心。二值化阈值选择的价值是最大的,这样 在哪里发生的概率是灰度吗的形象和。
2.1.4。全球的阈值迭代(IGT)
该方法选择全局阈值对整个图像基于迭代过程(9]。在每一次迭代执行以下步骤:(一)计算平均灰度()的形象;(b)减去从图像的所有像素;(c)直方图均衡化来扩展像素灰度级在整个区间。
该算法停止时。
2.2。本地方法
当地的方法计算每个像素的局部阈值通过滑动一个正方形或长方形的窗口在整个图像。
2.2.1。Bernsen的方法
这是一个自适应本地方法(10]。因此每个像素的坐标的阈值
这样和最低和最高的灰色的水平,分别在一个平方窗口吗集中在像素。
然而,如果当地的对比低于一个阈值,然后社区由一个类:前景或背景。
2.2.2。Niblack的方法
局部阈值计算使用的意思吗和标准偏差所有像素的窗口(邻域像素的问题)11]。因此,阈值是由
这样是一个参数用于确定边缘像素视为对象像素的数量和需要一个负值(是固定−0.2作者)。
2.2.3。Sauvola Pietikainen的方法
Sauvola和Pietikainen的算法3)是一种改性的Niblack为了给更多的表现在文档包含光纹理的背景或太变异和不均匀的照明。修改Sauvola,局部二值化阈值是由 在哪里标准偏差的动态范围吗和参数需要积极的价值观在区间[0.2,0.5]。
2.2.4。尼克的方法
这种方法大大提高了点燃的图像的二值化和低对比图像,通过向下移动,二值化的阈值2]。阈值计算完成如下:
这样是Niblack因素和−−0.1和0.2之间变化根据应用程序的需要,平均灰度,像素的灰度是吗,是像素的总数。在他们的实验中,作者使用了窗口的大小。
2.2.5。纱丽等的方法
这个方法使用一个多层感知器(MLP)类型的人工神经元网络对图像像素进行分类分为两类:前景和背景(12]。有一个隐藏层,向MLP 25输入,一个输出。指定一个新值(黑色或白色)像素,延时将作为输入向量25值对应的像素强度的5×5集中在处理像素的窗口。延时参数(结构、输入数据等)已被选定几个实验。
2.3。混合的方法
2.3.1。改善糖耐量受损的方法
这种方法(13[]是一个改善IGT技术9),它由两个传递。在第一遍,全局阈值是应用于整个图像和第二通过当地地区仍然包含噪声阈值过程。要做到这一点,造成的二进制图像全局阈值分为若干段的大小对于每个段的频率黑色像素计算。部分满足以下标准:这样和表示黑色像素的均值和标准差的频率,和是一个常数(等于2根据作者)。对于每个检测区域,IGT方法应用到原始图像中对应的区域。区域的大小根据作者给好的结果。
2.3.2。Gangamma Srikanta的方法
Gangamma和Srikanta14]提出的方法基于一个简单而有效的组合空间过滤器与灰度形态学操作来删除历史文档图像的背景和提高质量的棕榈脚本。这种技术的第一步是应用自适应直方图均衡化(AHE)克服文档图像的光照不均的问题。生成图像,应用形态学开操作和打开图像与直方图均衡图像是后来添加的。之后,形态合闸操作应用于图像平滑。平滑图像的直方图均衡图像中减去,结果减去从之前的形象。随后应用高斯滤波器来去除噪声。最后一个改进是通过添加最后一个图像与直方图均衡图像。最后,全局阈值(大津算法)需要单独的文本背景。
2.3.3。阈值的背景减法
提出了该技术在15),它包括三个步骤。背景建模是通过消除原始图像的笔迹通过应用关闭小磁盘作为一个结构化元素。之后,从原始图像减去背景只有前台。最后,生成图像分割使用大津算法乘以一个经验常数。
2.3.4。Tabatabaie Bohlool的方法
它是一种非参数方法提出了不良照明文档图像的二值化(16]。在这种方法中,使用形态学合闸操作解决背景光照不均问题。事实上,关闭可能产生一个合理的背景估计,如果我们使用合适的结构元素。实验表明,结构元素的大小等于两次中风大小提供了最好的结果。合适的结构元素大小估计如下。全局阈值是第一个应用于原始图像。然后我们寻找最大的黑方块大小的每个像素,我们这些值保存在一个矩阵。最大的价值在每个连接的一组像素计算和分配的其他元素集。在那之后,S-histogram 是由从矩阵。的价值在点等于元素的数量有价值。最后,我们决定的最大价值,与令人满意的 结构元素的大小。
3所示。提出技术
正如我们前面说的,全球的阈值技术通常是简单的和快速的计算一个阈值,以消除所有背景像素和保留所有前景像素。不幸的是,这些技术只适用于当原始文档质量好,对比,双峰直方图。图1显示了一个示例。
(一)灰度图像
(b)它的直方图
(c)和大津阈值结果的方法
当质量差的文档,包含不同类型的损害(污渍,透明效果,等等),纹理背景和光照不均匀或前景像素的灰度值和背景像素的灰度值接近,不可能找到一个完全的阈值分割图像的前景从背景(图2)。
(一)原始图像
(b)大津阈值的结果
(c)对应的直方图
在这种情况下,需要更多的详细分析,我们求助于当地的方法。本地方法更准确,可能适用于变量背景,很暗或对比度较低,但是他们非常缓慢,因为阈值计算,根据当地社区信息,完成对图像的每个像素。这与较大的滑动窗口的计算变得缓慢。
为了解决这个问题,我们提出一种混合阈值方法,将快速,同时有效的以及当地的方法,那就是通过结合两者优点的二值化方法的家庭。该技术使用两个阈值和它运行在两个传球。在第一遍,全局阈值是为了执行类的像素的图像。所有像素灰度高于删除(变成白色)因为他们代表背景像素。所有像素灰度低于被认为是前景像素,因此他们保持和颜色黑色。剩下的像素是留给第二步他们本地的关键结合几种局部阈值方法的结果选择最可能的值。
我们在以下处理步骤的细节。
3.1。估计两个阈值和
二值化过程的第一步是两个阈值的计算和。自从阈值的目的是将图像分成两个类:前景和背景,从一个阈值是无法完成这一任务,使用更多的分离阈值似乎是一个完美的解决方案。
这两个阈值估计从原始图像的灰度级直方图和代表的平均强度前景和背景,分别。
获得这两个阈值,我们首先计算全局阈值使用全局阈值算法,可以首先进行算法,卡普尔,或其他任何全球算法。在我们的方法中,我们选择了大津算法,因为这种技术已经显示出其效率,克服了全球其他方法在几个比较研究[17,18]。将图像的灰度级直方图分成两类:前景和背景。
和估计从。注意的是前台的平均强度之间的最小距离是由上半年的直方图和的平均强度背景由下半年表示:
3.2。全球形象阈值使用和
后两个阈值的估计和,所有像素灰度高于变成了白色,消除了大部分的图像背景,和那些灰度小于在黑色的颜色。请注意由此产生的图像。这些像素当然前景像素。由此产生的图像仍然包含了一些噪音,但是所有的前台信息保存。
3.3。局部阈值的像素
像素未加工前一步中(那些之间的灰度和)从前景和可能因此必须保存;同样他们可能背景或噪声的像素和应该被删除。决定分配剩下的像素的两类:前景或背景使用本地执行过程通过检查这些像素的邻域。保证一个更正确的分类,我们建议应用几种局部阈值方法。在我们的实验中,我们选择了以下方法:Niblack, Sauvola,排名和尼克,因为这些方法都是在第一个地方在几个以前的比较研究[2,19,20.]。
为每个像素的没有分类,我们计算本地新二进制值(0为黑色和1白色)获得通过应用Niblack, Sauvola,尼克的方法,因此我们获得三次临时图像,,,分别。每一个当地的三个方法计算每个剩余像素的二元价值通过
与LT1,LT2,LT3被当地阈值计算使用Niblack Sauvola,分别和尼克的方法。
最后的二进制值剩余的每个像素是导致至少两三个方法:
4所示。实验和结果
实验已经进行以评估我们的方法的性能。我们应用该技术在大型测试集,并将结果与著名的方法,包括全球、地方、和混合方法。比较会估计二值化质量和执行时间。
首先,对参数化的方法进行了一系列的实验以设定最优参数值。请注意一个特定的阈值方法的参数设置。例如,,,等等。我们试图找到的最优值给的二值化结果最接近地面实况图像。一个特定范围的值首先为每个参数定义。改进过程的准确性,我们使用每一个参数的初始范围宽。每个例子,Niblack的方法参数的范围被定义为。在那之后,我们运用二值化方法的不同的值从预定义的范围在一节中描述的测试集4.1。我们比较地面实况图像的二值化结果使用详细的评估措施部分4.2。排名结果然后分别根据每个措施执行。通过计算排名的总和,我们可以推断出最优的一组参数值,导致高层。最优参数值的参数化方法在表中做了总结1。
4.1。试验基地
有两种测试集的评价方法。首先是一组公共文档图像组成的四个集合的上下文中提出比赛DIBCO 2009 (http://users.iit.demokritos.gr/ bgat / DIBCO2009 /基准/),H-DIBCO 2010 (http://www.iit.demokritos.gr/ bgat H-DIBCO2010 /基准),DIBCO 2011 (http://utopia.duth.gr/ ipratika DIBCO2011 /基准),H-DIBCO 2012 (http://utopia.duth.gr/ ipratika HDIBCO2012 /基准)。这四个集合包含一共有50个真正的文档图像(37手写和13印刷)来自几个库的集合,与地面相关联的真实图像。所有的图像包含代表经常出现的退化(如变量背景强度,阴影,涂片,涂抹,低对比,和渗滤)。图3从这些收藏展示了一些照片。
(一)
(b)
(c)
(d)
第二组图片是一种合成集由150合成图像的文档由15种不同背景的融合(图10二进制图像4)。融合是通过应用混合叠加的图像拼接技术(21]。如下:我们开始一些图像文件在黑色和白色,它代表了地面真理,和一些背景提取旧文件和我们融合过程适用于许多不同的图像的旧文件。然而,在[言等。22,提出了混合两种不同的技术:最大平均强度和图像。我们采用使用图像平均技术以更自然的结果。
(一)
(b)
(c)
4.2。评价措施
除了执行时间、执行定性评估的五个标准评估措施用于DIBCO 2009, H-DIBCO 2010年DIBCO 2011,和2012年H-DIBCO测量、PSNR MPM, DRD全国抵抗运动。
请注意,,,真正积极的,真正的负面,假阳性和假阴性值,分别。
4.2.1。准备测量
首先介绍了测量Chinchor (23]: 在哪里
4.2.2。PSNR值
PSNR是两幅图像之间的相似性度量。然而,更高的PSNR值,相似度越高的两张图片24,25]: 在哪里
和代表了两个图像匹配。和分别有高度和宽度。前景和背景之间的区别。
4.2.3。全国抵抗运动(负度规率)
全国抵抗运动是基于pixelwise地面实况和关键的图像之间的不匹配26]。它结合了NR假阴性率FN和NR的假阳性《外交政策》。它是表示如下:
与
相反测量和PSNR值,获得了更好的二值化质量降低全国抵抗运动的价值。
4.2.4。MPM(误分类代价度量)
误分类代价度量MPM计算二值化结果对地面实况object-by-object基础上(26]: 在哪里
和表示的距离假阴性和th假阳性的轮廓像素分割地面真理。归一化因子是所有pixel-to-contour距离地面真理的对象。低MPM的分数表明这个算法是擅长识别对象的边界。
4.2.5。DRD互惠失真度量(距离)
DRD客观失真测量为二进制文档图像,这是陆等人提出的在25]。这一措施正确与人类视觉感知和畸变的措施翻转像素点如下: NUBN是不均匀的8×8块的数量在GT的形象。
的扭曲th翻转像素的坐标使用5×5计算归一化权重矩阵。最后一个定义在[25)如下: 这样 与和。
给出如下:
4.3。结果与讨论
测试图像的平均结果总结表2。最后的排名方法相比如表所示3,也总结了部分的每个方法根据各评价指标和等级的总和。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
从表2和3,很明显,我们的方法是完全排名第一,有最好的演出一切二值化质量的措施。它超过了当地的方法,如著名的Sauvola和Pietikainen方法,这在我们的实验中排名第三,甚至其他混合动力技术。事实上,三个局部阈值技术的结合使一种更健壮的二进制值的确定每个像素通过最可能的值。
关于执行时间,我们的方法是非常快的本地方法相比(约52倍Sauvola Pietikainen的方法),使我们获得超过98%的执行时间。这是合乎逻辑的,因为只有一个部分的像素(两者之间的灰度阈值和)是在本地进行了分析。
5。结论
在本文中,我们解决问题的前景/背景图像分离的历史文献。我们提出了一个混合方法退化的文档图像二值化。该方法运行在两个传递。首先,全球使用大津阈值的算法是应用于整个图像,并确定了两种不同的阈值。所有像素低于第一阈值被保存和像素大于第二阈值消除他们肯定代表背景像素。然后剩下的像素处理本地基于邻居信息。在这一步中,三个局部阈值方法相结合,以获得更准确的决定。由于本地处理的像素数量是非常小的像素的总数相比,大大减少了二值化所需的时间没有减少表演。来验证我们的方法,我们用最先进的方法相比,从文学和结果在标准和合成集合是鼓励和确认我们的方法。
利益冲突
作者宣称没有利益冲突有关的出版。
引用
- n阿里卡,f . t . Yarman-Vural字符识别的概述专注于脱机笔迹,”IEEE系统,人与控制论C部分:应用程序和评论没有,卷。31日。2、216 - 233年,2001页。视图:出版商的网站|谷歌学术搜索
- k .得以i Siddiqi、c·福尔和n .文森特”比较Niblack古代文献的二值化方法的启发,”16日国际会议文档识别和检索,诉讼相比,加州圣何塞,美国2009年1月。视图:出版商的网站|谷歌学术搜索
- j . Sauvola和m . Pietikainen“适应性文档图像二值化,模式识别,33卷,不。2、225 - 236年,2000页。视图:出版商的网站|谷歌学术搜索
- b .费尔南多和美国Karaoglu极值理论基础和自然场景文本二值化文档,”学报》第三届IEEE国际会议上机器视觉(ICMV 10)香港,页144 - 151年,2010年12月。视图:谷歌学术搜索
- m . Sezgin和b . Sankur”,在图像阈值技术和定量绩效评估调查,“电子杂志的成像,13卷,不。1,第168 - 146页,2004。视图:出版商的网站|谷歌学术搜索
- 大津,“从灰度直方图的阈值选择方法,”IEEE系统,人,控制论,9卷,不。1,第66 - 62页,1979。视图:出版商的网站|谷歌学术搜索
- f·r·d·Velasco“使用ISODATA聚类算法的阈值,IEEE系统,人,控制论,10卷,不。11日,第774 - 771页,1980年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j . n . Kapur p . k . Sahoo, A . k . c .黄”的一种新方法灰度图像阈值使用直方图的熵,”计算机视觉、图形和图像处理卷,29号3、273 - 285年,1985页。视图:出版商的网站|谷歌学术搜索
- 大肠Kavallieratou”,一个专门的文档图像二值化算法和照片,”第八届国际会议文档的程序分析和识别2005年9月,页463 - 467。视图:出版商的网站|谷歌学术搜索
- j . Bernsen“动态阈值的灰度级图像,”第八届国际会议模式识别学报》上,页1251 - 1255年,巴黎,法国,1986年。视图:谷歌学术搜索
- w·Niblack介绍了数字图像处理美国新泽西,Prentice Hall,恩格尔伍德悬崖,1986。
- t .纱丽,a . Kefali和h . Bahi”MLP binarizing图像旧手稿。”学报13前沿国际会议上手写识别(ICFHR 12)巴里,页247 - 251年,意大利,2012年9月。视图:出版商的网站|谷歌学术搜索
- 大肠Kavallieratou和言,“历史文档图像的自适应二值化”18学报》国际会议模式识别(ICPR 06年),3卷,页742 - 745,香港,2006年8月。视图:出版商的网站|谷歌学术搜索
- b . Gangamma和m . k . Srikanta”增强退化的历史埃纳德语文件”,国际期刊的计算机应用程序卷,29号11、1 - 6,2011页。视图:谷歌学术搜索
- g .等到c .严k . Takru j . h . n . Tan和l .面”的比较一些阈值算法对文本/文档图像背景sgmentation困难,”学报》第七届国际会议文档分析和识别,第864 - 859页,2003年。视图:谷歌学术搜索
- s . A . Tabatabaei和m . Bohlool”小说的二值化方法严重照亮文档图像,”学报17 IEEE国际会议上图像处理(ICIP 10),页3573 - 3576,香港,中国,2010年9月。视图:出版商的网站|谷歌学术搜索
- p . k . Sahoo s Soltani, A . k . c . Wong“阈值技术的一项调查,”计算机视觉、图形和图像处理第41卷。。2、233 - 260年,1988页。视图:出版商的网站|谷歌学术搜索
- m·a·Ramirez-Ortegon r·罗哈斯,“无监督评价方法基于局部gray-intensity差异历史文献的二值化”20国际会议的程序模式识别(ICPR 10),页2029 - 2032,IEEE计算机协会,伊斯坦布尔,土耳其,2010年8月。视图:出版商的网站|谷歌学术搜索
- a·j·o·特里尔,“有目的的二值化方法,评价”IEEE模式分析与机器智能,17卷,不。12日,第1201 - 1191页,1995年。视图:出版商的网站|谷歌学术搜索
- a . Kefali t纱丽,m . Sellami”评价的几个古老的阿拉伯语文档图像,二值化技术”程序的复杂系统的建模和实现国际研讨会康斯坦丁,阿尔及利亚,2010年。视图:谷歌学术搜索
- l·g·布朗,图像配准技术的调查,“ACM计算调查,24卷,不。4、325 - 376年,1992页。视图:出版商的网站|谷歌学术搜索
- p .言、大肠Kavallieratou和n . Papamarkos”二值化算法对历史文献的评估调查,”19国际会议的程序模式识别2008年12月,页742 - 745。视图:谷歌学术搜索
- n . Chinchor“MUC-4评价指标”4日消息的程序理解会议,11月,1992页。视图:谷歌学术搜索
- b他是k Ntirogiannis, i Pratikakis”DIBCO 2009:文档图像二值化比赛。”国际期刊文档分析和识别,14卷,不。1,35-44,2011页。视图:出版商的网站|谷歌学术搜索
- h . Lu, a·c·科特和施y .问:,“Distance-reciprocal失真测量为二进制文档图像,”IEEE信号处理信件,11卷,不。2、228 - 231年,2004页。视图:出版商的网站|谷歌学术搜索
- j·阿奎莱拉,h . Wildenauer m . Kampel m . Borg, d . Thirde和j .摆渡者”飞机活动监测、评估运动分割质量”第二届联合IEEE国际研讨会的可视化监控和绩效评估跟踪和监视(VS-PETS ' 05)2005年10月,页293 - 300。视图:出版商的网站|谷歌学术搜索
版权
版权©2014 Toufik纱丽等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。