研究文章|开放获取
莫雷拉天使,天使桑切斯何塞•弗朗西斯科维Ana Belen莫雷诺, ”性别和构型预测使用卷积神经网络从离线笔迹”,复杂性, 卷。2018年, 文章的ID3891624, 14 页面, 2018年。 https://doi.org/10.1155/2018/3891624
性别和构型预测使用卷积神经网络从离线笔迹
文摘
人口handwriting-based分类问题,如性别和偏手性分类,现在有趣的应用程序在法医生物识别技术等学科。这个作品描述了一个试验研究深层神经网络的适用性三个自动人口问题:性别、构型,分别和结合gender-and-handedness分类。我们的研究进行了两个公共手写数据库:我数据集包含英语文本和KHATT阿拉伯文字。考虑问题呈现出高内在的困难当提取特定的相关特性识别相关子类。我们的解决方案是基于卷积神经网络由于这些模型已经证明更好的能力来提取相比,手工的良好特性。我们的工作也描述了第一种方法gender-and-handedness预测相结合,没有被其他研究人员之前解决。此外,该解决方案设计使用一个独特的网络配置三认为人口问题,简化了设计的复杂性的优势和调试这些深架构在处理相关的书写问题。最后,实现结果的比较与相关工作介绍的那些显示最好的平均精度性别考虑数据集的分类问题。
1。介绍
尽管目前的技术进步,但仍没有算法允许电脑记录任何“困难”手写文档的内容(例如,一个历史文档)。一般手写识别问题提出了许多困难产生的人际和内心的变化,当写作,书法草书的特性,使用不同类型的笔,或者纸的存在与嘈杂的背景(1]。斯里赫里et al。2)研究和确定与科学严谨的个性笔迹。对于手写识别问题,有两种变体:离线和在线识别(1]。离线的问题在于识别手写的文字曾被写在纸上然后数字化。在线手写问题旨在识别的文本使用的是某种电子数字化仪装置。这个设备的传感器也记录一组动态措施如何写作产生(如写作压力、笔高度和方位)。近年来,已经有更多的进展在线模式,但离线仍远远要解决一个无限制的方式(3]。
存在额外的复杂的笔迹识别问题。个人自动分类到不同的人口类别(4- - - - - -6)使用手写了有趣的应用程序在法医生物识别技术等领域,心理学,人机交互,或生物安全7,8]。例如,当一个匿名块手写文本是在犯罪现场发现的,它可以自动识别,本文作者是“左撇子的女人,这可以减少调查的嫌疑人。心理学也可以受益于研究书法的风格,因为它有可能确定的笔迹和个性属性之间的相关性的作家。人机交互领域的,如果用户的性别和/或构型可以自动预测,计算机应用程序可能为他/她提供更多个性化的交互(例如,近日广告)。生物安全也可以受益于书法预测由于这个事实可以结合其他生物模式以提高安全当访问计算机系统。
这些handwriting-based人口预测问题包括性别、构型、年龄范围,甚至国籍的人(9]。这组监督学习问题可以看作二进制或多类问题。最常见的二元问题是性别预测(手写文本可以分为由男性或女性)和构型预测(手写文本可以分为由右手或左手作家)。在多类问题,能辨别之一写的文本包含在不同年龄的间隔,在特定的人类种族,甚至在民族群体。所有这些问题是他们的属性可以是平衡(即。,在哪里approximately half of the population belong to each class) as in the case of gender classification or unbalanced as in the case of the handedness classification (where the “left-handed” class only includes approximately 10% of the individuals). In general, these demographic classification problems are very complex, even for humans, since it is quite difficult to find which handwriting features properly characterize each involved class. An example of this occurs in the classification of gender. Although it is accepted that feminine writing is rounder and neater than masculine one, there are some cases where masculine writing may have a “feminine” appearance and vice versa. Figure1说明了不同的笔迹写的文本行“右手男性,”一个“左撇子男性,”“右撇子的女性,”和“左撇子女性”使用两个不同的字母(拉丁语和阿拉伯语、职责)。在这篇文章中,我们另外的目标来分析性别和构型的笔迹特征之间的关系。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
1.1。相关工作
有相对较少的文学作品在这些问题上(主要是二进制的)已开始调查最近在一个自动形式(9- - - - - -11]。一个重要的问题是,很少有笔迹与注释的人口统计信息数据库的作家。其他方面阻碍这一问题提出的类似一般手写识别问题(例如,草书功能)。
神经网络(NN)已经应用多年的分析高维、非线性、复杂的分类问题(12),自动手写识别的情况下(1]。笔迹的问题多年以来一直在研究使用不同类型的神经网络(13,14)对在线和离线情况下(1),甚至还从拉丁字母不同(例如,阿拉伯语(15])。
两个主要的情况下可以区分文本的自动脱机手写识别:首先,孤立的字符的识别,这实际上是解决与错误率低于1%16];第二,组连接字符的识别(例如,话语或文本补丁),那里的成功率仍然远离这个值。传统上,连续手写识别(17]从数字化文档遵循一系列阶段包括预处理、分割、特征提取和分类18]。手写字符分割是一个特别复杂的问题,因为它有时是不可能确定一个字母记录从何处结束以及下一个开始的地方。为了克服这个困难,最近提出了整体的方法,处理每个词作为一个整体。这些解决方案通常是基于隐马尔可夫模型(HMM) [19)或神经网络(NN) [3]。近年来,这改变了算法的出现,使得培训深度网络呈现多个隐藏层能够提取更复杂和相关特性。因为每个隐层之前计算的非线性转换层,深层网络可以大大增强(即表征能力。,它可以比浅网络学习更复杂的函数)。塔迦尔在2015年的一项调查显示,帕特尔和(18)指出,100%的成功率还远未形成连续手写识别的问题。整体方法消除需要执行复杂的分割任务的笔迹。2016年,Bluche [20.)提出了一个系统,使用一个修改的短期记忆(LSTM)神经网络执行完整的段落的处理和识别。然而,这些方法限制可能出现在文本的词汇。出于这个原因,只有得到了良好的识别效果有限的词汇表(18]。打破这条线减少词汇表,一些作者成功运用等循环网络联结主义时间分类(CTC) [20.,21]。
对于考虑人口使用手写的文本分类问题(22,23),最解决性别预测。Graphonomics和心理学研究在上个世纪以来非自动的形式(24,25]。第一个自动分类方法的性别从离线笔迹是1996年由检验员26]。使用手写96男性和96女性和自动像素强度的统计数据,作者实现了整体分类率为71.5%。2003年,柯柏走和合作者27)使用自动学习算法与手稿文件从英国国家语料库中提取(BNC) [28]。每个文档是由特征向量的特征,其维数降低了消除无关的特性。他们的实验产生的平均正确分类高于85%性别分类。2004年,Tomai et al。29日应用一个最近的邻居(资讯)分类器微地形特征提取从雪松信数据库离线字符(2多样化的人口问题,报道性别分类的结果70%左右。Liwicki et al。10)提出了两种在线性别分类的方法,分别基于SVM分类器和高斯混合模型(GMM)。实验进行评价与我进行了数据库,并显示一个正确的预测62%的SVM和67%在性别与GMM分类。这些作者在2011年(30.),再使用GMM,获得全球67.57%的精度结果离线和在线使用我性别识别数据库。阿尔Maadeed和Hassaine (2014) (9]他们的研究关注的问题自动性别预测从线下手稿使用两种方法。在第一个,所有个人写相同的文本,而在第二个,每个人写一个不同的文本。从每个文档,他们中提取一组形状特性(例如,曲率、链码或中风方向),使用随机森林分类(RF)和内核判别分析(KDA)。系统的评估了使用QUWI数据库(31日)通过不同的实验与阿拉伯语文献、英文文本,以及两者的结合。最好的预测结果通过结合两种语言手写文本是相同的,与射频的准确性达69.8%和72.3% KDA,分别。Bouadjenek和合作者(2015)(11)解决性别分类问题使用面向直方图特征的梯度(猪)和支持向量机分类器。他们评估了使用我和KHATT数据库,其中包含手写文件用英语和阿拉伯语,分别实现的平均精度为KHATT我为75.45%和68.89%。Siddiqi et al。(2015)发表了一项关于性别分类的研究从笔迹32]关注功能基于偏/定位、分隔/曲率,整洁/易读性,和写作结构。这些特性是用安和SVM分类和评估QUWI和MSHD数据库。最好的分类结果两个数据库是通过使用倾斜和弯曲特性的支持向量机分类器(MSHD QUWI为68.75%和73.02%,分别地)。2016年,两项研究关于性别分类问题在ICDAR会议上发表。第一项研究,殿下et al。33),使用纹理特征提取多尺度和使用银行multiorientation伽柏过滤器,和这些特性与前馈神经网络分类。最好的实验结果报道这些作者只通过使用阿拉伯语QUWI数据集的文本。另一项研究中,由谭和合作者34),提出了提取多个几何(例如,当地的曲率中风)和转换(如傅里叶系数)的特性和使用互信息来选择一个最优的特征子集分类作者的性别。本研究报告平均67.2%使用ICDAR 2013和RDF数据的准确性。2017年,阿克巴里et al。35)提出了一个有效的方法来预测性别,手写的图像转换成一个变形分解为各种各级次能带。这些部分波段用于构造概率有限状态自动机(交换树脂),生成特征向量。用向量的话,他们训练神经网络(NN)和支持向量机。评估这两个分类器,text-dependent和text-independent测试执行QUWI和MSHD [36)数据库。他们的实验显示正确的与SVM分类结果的77.8%和79.3%在QUWI数据集的情况下,神经网络而MSHD数据集这些结果,分别与NN SVM和79% 79.9%。最后,同样是在2017年,Bouadjenek et al。37而面向梯度直方图(猪)与局部二进制模式(LBP)作为性别分类的特征提取器在我的数据集。使用单独的猪和LBP特征一个支持向量机分类器,提取猪产生更好的正确的性别预测(74%比70%)。
偏手性分类的问题从笔迹也被最近研究以自动方式(24,38]。根据萨兰et al。39),有可能歧视偏手性基于字母的中风和斜坡方向(即。,left-handed writers produce strokes in right-to-left direction and the slope of letters is backwards, whereas right-handed ones produce opposite features).
Bandi和斯里赫里(4)在2005年提出了一个在线基于钢笔压力和写作偏手性系统运动的分类结果为74.4%。2007年Liwicki et al。10)提出了一个在线偏手性检测方法使用SVM和GMM分类使用我的数据库和报告结果的62%与GMM SVM和84.6%,分别。Al-Maadeed等(40)研究了2013年(即离线偏手性分类问题。从笔迹),而不使用动态信息。他们从中风提取形状和曲率的特性,使用资讯分类器,报告的结果71.5% QUWI数据库(英文和阿拉伯语的文本)。2015年由Bouadjenek等工作。11)应用于手性预测相同的离线系统,用于性别分类(即。,HOG for feature extraction and SVM as classifier) on the KHATT dataset (also with English and Arabic texts) reporting 83,93% of success. More recently, Al-Maadeed et al. [41)提出了一种新颖的框架偏手性检测,使用离线笔迹和模糊逻辑。这些作者收集的数据库手写文本(阿拉伯语和英语)从121年作家和大量的形状特征提取文本。减少一个降维阶段,基于模糊概念运用Lukasiewicz含义,是包括在内。分类阶段使用资讯的方法,执行生产平均83.43%的数据集的结果。
最近的作品呈现的结果不止一个人口问题使用手写(例如,他们分别处理性别和偏手性问题;见,例如,(10])。最近其他论文另外一些多类问题包括年龄范围预测(11,42)和国籍(9]。
1.2。建议的方法
一般来说,有一个内在的困难,确定最好的特性来区分子类(例如,男性和女性)在人口统计学分类问题基于手写(29日]。某些类型的深层网络像卷积神经网络还可以自动找到良好的特性和执行分类任务。卷积神经网络已经证明能力更好地提取相关的笔迹特征相比,使用手工的自动文本转录问题。
在本文中,我们描述一个详细实验研究的应用这些深层神经网络根据笔迹几个自动统计分类问题。特别是,我们解决人口问题的三种类型:性别,偏手性,结合“gender-and-handedness”分类。为了测试我们的提议,两个公共使用手写数据集:我用英语文本和KHATT包含阿拉伯语的文本。
我们所知,我们的工作也提出了第一种方法gender-and-handedness预测相结合,没有被其他研究人员之前解决。此外,这种性别和多级方法偏手性问题产生更好的平均精度结果比处理先后两个二进制的问题。我们的解决方案展示通用的行为,因为它有一个独特的卷积神经网络配置三认为人口问题。
1.3。贡献和论文的大纲
这项工作的主要贡献如下:(我)这是第一篇关于深层网络的应用程序从笔迹人口分类问题。另外一个问题是识别一个作家使用深度学习模型,从他/她的笔迹,最近研究了邢和乔43]。此外,尽管存在其他深度学习方法预测性别,这些都是基于输入模式不同于其他类型的笔迹。例如,巴图和郑44文体信息在计算机使用博客,李维和Hassncer [45使用面部图像。(2)除了性别和手性分离从笔迹分类问题,我们引入gender-and-handedness问题相结合,在四个子类定义:右手男性,左撇子男性,右撇子女性,分别和左撇子女性。这部小说多类问题,这不是由以前的作品,是更复杂的比单独的二进制性别和构型,和法医生物识别技术感兴趣的应用程序8]。(3)为了简单起见,在提出解决方案,我们设计了一个独特的卷积神经网络的配置,与特定的参数值为每个三认为人口问题。(iv)我们的预测方法仍然相对强劲的多个认为字母(即。,Latin and Arabic), and it achieved competitive classification results in two of the most used datasets for these problems: IAM and KHATT.
本文组织如下。部分2描述了本研究中使用的方法和材料。部分3描述了实验装置,介绍了成果的人口问题,并讨论了这些结果。最后,部分4总结了工作的结论。
2。材料和方法
在本节中,我们总结一些深度学习原理和卷积神经网络。接下来,拟议的卷积模型的共同特征,用于所有认为handwritten-based的人口问题。我们继续预处理的描述应用于训练数据。接下来,卷积网络的特定特性应用到各自的性别,偏手性,结合分类问题是解释说。最后,两个数据库用于我们的实验进行了总结。
2.1。深度学习和卷积神经网络
深度学习的本质是学习问题的应用程序包含超过两个隐藏层的人工神经网络。深度学习产生了非凡的进展困难的计算问题,反对人工智能社区的尝试在几十年。这种新的模式被用来发现高维数据中复杂的结构(46]。深入学习是目前应用于许多科学领域,特别是图像识别问题,殴打其他机器学习技术(46]。
卷积神经网络(CNN或事先)是一种专门研究深度学习建筑的灵感来自于自然视觉感知机制。勒存和合作者13)在1990年提出了CNN的框架,他们创建了一个名为LeNet-5的多层网络能够手写的数字进行分类。这种类型的神经网络包括三种类型的层:卷积,池(或二次抽样)和完全连接(或密度)层。卷积的学习特性表示的输入层的目的。他们每个人都是由几个卷积内核用于计算不同的特征图谱。地图的每个神经元功能是连接到一个地区的邻居上一层的神经元。新功能映射首先计算卷积的输入学习内核,然后应用非线性激活函数卷积的结果以聪明元素(47]。注意,内核由输入的所有空间位置共享。得到完整的特征图谱通过使用几种不同的内核。每个池层搜索实现移不变性,降低特征图的分辨率。它通常是放在两个卷积层之间。最后,经过几个栈的卷积和池层,出现一个或多个完全连接层,执行最终的分类任务。像其他多层网络,cnn被训练使用类型的反向传播算法。
然而,由于需要大量的训练数据和计算能力的缺乏,这些原始LeNet-5网络不能很好地运行在复杂的问题。2012年,Krizhevsky et al。48)提出了一种新的CNN模型与一个更深层次的结构,叫做ImageNet,它对其他图像分类方法有显著改善。它包括数据增加扩大训练数据集,“辍学”(即。,dropping out a percentage of neuron units, both hidden and visible) for reducing overfitting, ReLU activation function for reducing the effect of gradient vanishing during backpropagation, and the use of GPUs for accelerating the overall training process. Moreover, the application of proposed good practices [48)在设计和培训卷积网络实现有效的结果也很重要。
CNN的输入顺序3张量(即为我们的考虑问题。,monochannel形象行和列)。处理这些输入顺序通过所有网络层和生产作为输出维向量的分类问题类。使用一些数学符号,在位置的值 在th特性的地图th网络层,表示为: ,可以计算如下: 在哪里和各自的重量和偏见的向量th的过滤器th层和是这个位置的本地输入区域和层。网络重量面具(定义卷积核)共享,从而减少训练时间。像其他类型的神经网络,以识别的非线性特性,计算的价值(1)通过ReLU激活函数:
这些结果,生产后的输入通过卷积的层,然后由池处理层(即。,它可以是一个max-pooling层,放置两个卷积层)之间为了达到不变性,减少特征图的大小。新中间值计算如下: 在哪里 代表一个地方附近的位置 注意内核层可以检测较低的低级功能内核在更高层次检测高级特性。最后,经过几个卷积和汇聚层,存在一个或多个完全连接层,最后一个是分类的输出层的输入测试图案为一个预定义的类别(即。监督分类)。
2.2。提出了人口问题深度学习体系结构框架
本节描述了我们的解决方案的共同特征是人口问题使用手写的文本。接下来,在后续部分中,我们指出每个特定问题的特定方面,即性别分类,偏手性分类,并结合gender-and-handedness分类。预测子类的三个问题,我们使用相同的CNN架构如图2。一般提出神经模型具有6可教育的层次,分为2成堆的卷积和二次抽样(或max-pooling)层,和2最后的致密层。网络接收输入图像的空间分辨率 。经过几次试验中,我们使用内核的大小 的卷积层和大小 二次抽样层。这些实验表明,较小的内核产生坏的结果,更大的内核没有显著改善结果。参数 , ,和在这个图中,分别对应的数量特征图第一卷积层特征图的数量第二卷积层,和输出神经元的数量(即最后一层。的问题子类)为每个三个人口问题。这些参数对应的值为每个考虑问题详细的节2。4。
在卷积层,我们使用零填充保护空间大小,所有隐藏层包括非线性整流单元(ReLU)和输出层使用SoftMax激活功能。辍学正规化值为0.25应用于每一个卷积层和价值为0.5第一个致密层。二进制模式被训练使用随机梯度下降法(SGD)和多级亚当被训练使用优化算法,分别学习速率值为0.001和网络体重衰减值的 。所有这些参数值都是通过实验确定。
图3草图的人口分类预测方法之前解决所有问题。每个数据集,由手写的分离线的集合(每一个相关的人口统计信息),是划分子集的文字图片:培训、验证和测试的,分别。之间也存在着分离的“训练”和“测试”个人为了防止CNN模型从“学”的具体每个人的笔迹。给定一个手写的线,它是自动分裂到组件“单词”(即。文本补丁),预处理后,将输入到网络。提取的“单词”在文本行计算,首先应用形态学膨胀线,然后从产生的扩张二进制图像中提取的轮廓,最后计算的边界矩形轮廓连接。
CNN模型可以预测对于一个给定的未知词在每个子类考虑问题。最后,预测结果的测试的话,包含到一个文本行,由多数表决方案相结合来确定最终的预测结果考虑测试线。这种方法的优点是提供网络更多的训练样本(即。,thus allowing it to achieve internal representations of smaller pieces of text when analyzing the involved graphisms). Moreover, we use a Learn-on-Demand method [49)当训练CNN模型,从而避免提前生成所有可能的网络训练样本。
2.3。训练数据的预处理
使用深度学习神经网络在分类问题时,有必要大量的训练数据(在某些情况下,数百万),这样网络能够正确区分不同类别之一。数据增强是一个优雅的解决方案,它包括将数据转换成新的数据在不改变他们的本性。一些常见的数据扩增方法(47)几何转换(如标准化、旋转、转移或重新调节),形态学操作和各种光度转换。当然,这些转换可以先后应用于相同的输入图像50]。
伪代码1总结我们的数据扩增方法,应用于任何训练单词形象 。
|
||||||||||||||||||||||||||||
使用伪代码1,我们生产合成图像,如图4。这些生成的图像是新CNN训练输入分类器。
(一)
(b)
(c)
2.4。具体模型特征性别、构型和组合分类
关于我们解决二进制卷积网络性别问题,使用架构配置呈现在图2各自的参数值 (即。,number of feature maps for the first convolutional layer), (即。,number of feature maps for the second convolutional layer), and (最后的输出神经元或子类层)。培训时代这个问题的数量是200。在每一个时代的100000年合成训练和20000验证字(从原始的使用该算法的伪代码1)提出了网络。合成训练集和验证集的一半单词对应于男性作家和其他女性的一半。
也是一个二进制问题(即偏手性预测。,“right-handed” and “left-handed” subclasses), where the number of original patterns in both subclasses is unbalanced for most of available datasets. In general, the databases have around 90% of samples for right-handed writers and 10% for left-handed ones, which is approximately the proportion of both subclasses in the world. The CNN architecture configuration used is the same shown in Figure2各自的参数值 , , 。培训时代这个问题的数量是200。在每个时代中,总共有100000合成训练和25000验证字(从原始的使用该算法的伪代码1)提出了网络。一半的综合训练和验证词与右撇子作家和左撇子的另一半。
合并后的多类分类问题结合性别与构型的子类。特别是,它需要以前的分区数据集的个体对应“右撇子的人,”“左撇子男性,”“右撇子的女人,”和“left-handed-women”,分别。关于卷积网络解决方案,我们还使用了CNN架构配置呈现在图2的参数值 , , ,分别。培训时代这个问题的数量是250。在每个时代,130000合成训练和20000验证字(也从最初的使用该算法的伪代码1)提出了网络。四分之一的综合训练和验证词与右撇子阳刚,左撇子男性,右撇子女性化,分别和左撇子女性作家。
我们所有的算法编码在Python中使用OpenCV计算机视觉库对神经网络和Keras高级API。我们模型训练和测试使用NVIDIA GeForce GTX泰坦黑色GPU 6 GB的帧缓冲内存。
2.5。我和KHATT数据库
我的数据库(51- - - - - -53)是由计算机视觉和人工智能在伯尔尼大学的研究小组(瑞士)。这个数据集包括一个在线和离线版本。数据库是特别设计的训练和测试文本识别器,以及作家进行识别和验证实验。
我的笔迹数据库的完整版本3.0结构如下。657年的作家贡献他们的笔迹样本。5685年有1539页的扫描文本,孤立和标记的句子,孤立和标记的文本行,13353和115320孤立和标记词。这个数据集包含形式的无约束手写文本,进行扫描,分辨率为300 DPI和保存为PNG图像256灰色的水平。从每个作家,以下信息是存储在数据库:性别,母语和其他特性等相关分析如果他/她是右撇子还是左撇子的作家。
在我们的实验中,我们只使用离线句子的数据集的一个子集(这里命名为“离线我”)。表1显示了用于每个类的培训和测试行数为离线我数据集和考虑的问题。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
KHATT数据库(54,55)是由法赫德国王大学的一个研究小组(沙特阿拉伯)。它包含离线手写阿拉伯文字大约1000个作家来自不同国家,性别,书法和教育水平。该数据库可用于识别问题的作家,二值化技术和消除噪音,手写识别和线分割技术。的1000个作家,677名男性和323名女性,写了四个段落包含了一个共同的部分所有作家和一个免费的部分,每一个写一个不同的文本。共有4000个段落划分为文本行了大约200000个不同的字。此外,928年的作家都是右撇子,72是左撇子。数据库还包含相关信息的作家如姓名、年龄、性别、或构型。所以,它可以是非常有用的在使用数据为一个特定的人口问题。表2显示了用于每个类的培训和测试行数和问题考虑KHATT数据集。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3所示。结果与讨论
本节描述两个使用的数据库上的实验和相应的结果:离线我和KHATT分别。接下来,这些结果相比,提出的相关工作。最后,分析和讨论了结果也包括在内。
为了评估我们的方法,我们使用一些二进制和多级分类的标准性能指标。这些措施,这是计算每个子类的一个给定的人口问题,精度,回忆,测量。它们被定义为一个二进制的问题和给定的子类所给出的 在哪里 ,分别是真阳性,假阳性、假阴性和课吗 。
二进制的总体精度模型可以直接计算任何两类 ,因为它有相同的值由于交换阳性和阴性两类属性(56]。这个精度值计算如下:
前面的公式可以扩展到多类分类问题(56]。的定义和现在适应四级人口问题相结合。鉴于混淆矩阵 对应于我们的多类问题,现在这些指标计算如下:
的表达测量每个类的多类问题是计算使用(6),但准确度和精度值,分别计算(8)。最后,多类问题的平均精度(56可以计算如下: 在各自的精度值类( )是平均的。
在我们的情况下,一个子类的精度正确分类的数量之间的商是手写的文本行到子类和总数量的文本行分为这个子类 。一个子类的回忆正确分类的数量之间的商是手写的文本行到子类和文本的行数,真正属于这个班 。的测量精度和召回和结合反映了召回的相对重要性的精度。最后,平均精度代表全球每个考虑衡量分类器的性能问题。所推荐的(56为二进制和多级分类,前面的评价措施应用于确定我们的提议的性能。
3.1。使用离线我和KHATT实验数据集
前面的评价措施应用于确定我们在考虑人口预测模型的性能问题使用英语和阿拉伯语的文本。表3,4,5分别提出了计算分数(%)的性别,偏手性,并结合使用离线我数据集问题,根据给出的措施(4)- (9)。
|
|||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
注意,如果两个二进制性别和偏手性问题是独立处理,联合平均精度产生的相应的分类模型应该个人精度的产物。这将产生,使用整体精度值表3和4,平均精度为73.21%。这个结果比83.19%(见表5)获得当我们训练一个独特的四级分类系统相结合。这一事实,加上经济在训练时期,表明两个考虑的问题的提出了多级相结合的方法是更有效的比独立解决一个二进制的问题和第一个分类应用第二个(即。,以分层的方式)。
由于大幅降低原来的训练图像数在KHATT数据库中,我们应用了转移学习技术(也称为归纳培训或pretraining)为了提高这类数据集分类结果。这个pretraining只是应用于手性和结合gender-and-handedness问题。CNN代替随机初始化权值连接,我们使用了pretrained离线我数据库和模型建立,在那之后,训练和他们各自的网络与相应KHATT数据集的训练模式。这样,美国有线电视新闻网获得的知识,与我在学习识别手写单词转移到KHATT网络。这些网络的这种做法是很常见的(例如,ImageNet),因为许多数据集没有足够大的规模使得卷积网络生产好的分类结果中提取相关特征。
表6,7,8分别提出了计算分数(%)的性别、构型,并使用KHATT数据集(即组合问题。,阿拉伯脚本),根据给出的措施(4)- (9)。
|
|||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
注意,相同的事实对提出了KHATT数据库组合分类情况。如果两个二进制性别和偏手性问题是独立处理的平均精度(获得值表6和7)为48.86%。这个结果比70.84%获得当我们训练一个独特的四级分类系统相结合。通过平均提高准确率的离线我和KHATT数据库,我们的多级方法相比分别提高了准确性29.26%,先后处理二元问题。也许,当训练卷积网络独立的两个人口问题,网络不能够发现笔迹特征的获取个人问题之间的联系。此外,当训练结合多级的网络问题,这些相关的手写特征更好的发现。
对所需的培训时间卷积网络模型使用我的数据集,使用100000年的性别问题训练样本图像和其他25000的验证(培训)。这些步骤是在200年时期(即执行。大约61小时)。类似的培训时间需要使用我的其他两个考虑的问题集。当为KHATT数据集训练模型,训练时间明显增加,因为作为解释,我们首先应用pretraining的卷积网络与我的图像数据集。
3.2。与相关的工作
比较我们的研究成果发表的那些在同一性别和构型问题使用相同的数据集是困难的,因为在实验方面的差异以及分类结果报道的方式。实验方面的差异如下:不同数量和分布的培训类别之间的原始图像,验证,和测试的分类系统;不同的字母使用;使用相同的文字写的所有的作家或为每个作家不同的文本;和/或是否有任何预处理的原始数据集的图像。关于公布结果,有几个工作(9,35],只有报告整体精度的结果为每个分类方法中使用的问题。在不平衡类的常见的情况是“左撇子”偏手性问题,整体精度是不适当和具体措施/每个类更方便。
考虑前面的评论,我们将我们的结果与报告(10,11,30.)使用相同的数据库和相同的性能措施每个类。分析结果展示在表9,他们表明,我们的方法产生最好的成绩性别问题我和KHATT数据库,而中给出的结果(11)是最好的的手性问题被认为是数据集。
3.3。分析和讨论
我们的实验结果的分析这三个考虑handwritten-based人口问题我和KHATT数据集提出了以下几方面:(我)性别和偏手性问题的提出结合多级方法产生更好的平均精度结果比处理先后两个二进制的问题。(2)我们共同的卷积架构框架的三个人口问题产生了可接受的预测结果,即使对合并后的gender-and-handedness预测问题,在训练文本行涉及较少的地方子类。(3)分类结果KHATT数据库比相应的离线我数据库。这可以减少数量的原始训练造成的例子在阿拉伯的数据集。尽管应用数据增加和转移学习优化技术对提高分类结果的卷积网络,我们注意到,当有更多的原始训练样本(即减少的数量。数据集提供的,那些没有数据增大),预测结果更糟。(iv)我们必须注意转移的重要性学习(或pretraining)训练卷积网络问题时减少了每个类的原始样本数量。这是“左撇子”的情况下KHATT数据库。(v)一些论文解决人口问题从笔迹报告全球分类精度的结果。然而,这些结果并不是每个子类有价值,当模式的数量是高度不平衡(例如,“左撇子”)。更重要的是每个类(即报告正确的预测结果。,使用精度和召回措施)。
接下来,讨论的结果是在几个方向:完成模型的复杂性尊重古典方法,数据的必要性,分别和计算时间。对于该模型的复杂性(即对经典方法。,feature-based ones), from a developer’s viewpoint using convolutional neural networks (CNN) is simpler than determining which features are the best ones for discriminating each class. Differently from other analyzed feature-based proposals (see, e.g., [11,35,40]),当使用CNN一个没有发现相关特性(即解决问题。,这种方法替代手工特征描述符)。因为这些良好的内部表示现在发现的网络模型更简单和强大的在同一时间。关于数据增加,的确,这些网络需要很高的训练示例学习的相关课程。这些例子得到综合,通过创建图像通过应用与不同的参数组合多个转换原始训练图像。在我们的方法中,考虑转换是随机的左/右倾斜,垂直/水平扩展和形态侵蚀/膨胀。关于培训时间,尽管cnn的进步这些模型仍然非常耗费时间。然而,作为是一种常见的实践,我们已经大大降低了神经网络的训练时间使用gpu集群。
4所示。结论
本文提出了一个详细的实验研究深层神经网络的应用根据笔迹几个自动统计分类问题。特别是,我们有解决三个问题:性别,偏手性,结合“gender-and-handedness”分类。我们测试了我们的建议在两个公共手写数据集(我用英语文本和KHATT包含阿拉伯语的文本)。卷积神经网络已经证明能力更好地提取相关的笔迹特征相比,使用手工的自动文本转录问题。我们的工作也解决gender-and-handedness预测相结合,没有被其他研究人员之前解决。此外,这种多级相结合的方法对性别和偏手性问题产生更好的平均精度结果比处理先后两个二进制的问题。我们的解决方案展示通用的行为,因为它有一个独特的卷积神经网络配置三认为人口问题。最后,这些结果的比较其他连接工程表明,我们的解决方案产生最好的结果准确性性别分类问题在两个笔迹测试数据库。
总之,我们的建议的优点和小说方面如下:(1)我们所知,这是第一篇论文的应用深度网络从笔迹人口分类问题。(2)我们引入和有效地解决多类“gender-and-handedness”的问题。(3)我们的方法只使用一个独特的卷积神经网络的配置,具体参数值三认为人口问题。(4)最后,提出性别/偏手性预测方法仍然相对强劲的多了一个字母,它达到竞争最常用的两个数据集分类结果在这个问题:我和KHATT。
未来的工作将包括本研究的扩展额外手写数据集包含在其他字母文字。我们也有兴趣学习新的额外的多级handwritten-based问题,尤其是年龄预测。另一个计划未来的研究是为了适应我们的建议框架从作家预测某些类型的人口信息,存在于历史中手写的文件。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究支持了西班牙Ministerio de隐藏y Competitividad (MINECO),根据项目tin2014 - 57458 r和tin2017 - 85221 r。
引用
- r . Plamondon s . n .斯里赫里,“联机和脱机手写识别:一个全面的调查,“IEEE模式分析与机器智能,22卷,不。1,第84 - 63页,2000。视图:出版商的网站|谷歌学术搜索
- 斯里赫里、工程学系。Cha, h . Arora,李,“个性的笔迹,”法医科学杂志》卷,47号4、856 - 872年,2002页。视图:谷歌学术搜索
- ,的坟墓和j .。施密德胡贝尔表示“与多维复发性神经网络离线手写识别,”21 Intl学报》上。相依的神经信息处理系统(少量的08年),第552 - 545页,2008年。视图:谷歌学术搜索
- k . r . Bandi和s . n .斯里赫里,”作家人口分类使用装袋和刺激,”Intl的诉讼。Graphonomics社会会议(IGS 05),第137 - 133页,2005年。视图:谷歌学术搜索
- 工程学系。Cha s . n .斯里赫里,“先验算法子范畴分类分析笔迹,”学报第六届国际会议文档分析和识别,ICDAR 2001IEEE,页1022 - 1025年,西雅图,佤邦,2001年9月美国。视图:出版商的网站|谷歌学术搜索
- 哈米德和k . m . Loewenthal”推断性别在乌尔都语和英语,书法”《社会心理学》杂志上,卷136,不。6,778 - 782年,1996页。视图:谷歌学术搜索
- j . Chapran“生物作家标识:特征分析和分类,“模式识别与人工智能》国际期刊上,20卷,不。4、483 - 503年,2006页。视图:出版商的网站|谷歌学术搜索
- l·巴拉德d Lopresti, f . Monrose“评估笔迹生物识别技术的安全,”Proc学报》,第466 - 461页,2006年。视图:谷歌学术搜索
- 美国艾尔Maadeed和a . Hassaine”自动预测年龄,性别,国籍在离线笔迹,”Eurasip杂志在图像和视频处理卷,2014篇文章。10日,2014年。视图:出版商的网站|谷歌学术搜索
- m . Liwicki a . Schlapbach p . Loretan h .煤仓,“自动检测在线手写的性别和构型,”《13相依Intl Graphonomics社会,2007年。视图:谷歌学术搜索
- n . Bouadjenek h . Nemmour, y Chibani”的梯度直方图的作家的性别、构型和年龄预测”《创新国际研讨会智能系统和应用程序,INISTA 2015IEEE,西班牙马德里,2015年8月。视图:出版商的网站|谷歌学术搜索
- g·p·张,”神经网络分类:一项调查,”IEEE系统,人,控制论,C部分:应用程序和评论,30卷,不。4、451 - 462年,2000页。视图:出版商的网站|谷歌学术搜索
- 勒存y . et al .,“手写数字识别反向传播网络,”先进的神经信息处理系统2404年,页396 -摩根Kaufmann出版社,1990。视图:谷歌学术搜索
- b . Gosselin“多层感知相结合应用于手写字符识别中,“神经处理信件,3卷,不。1,3 - 10,1996页。视图:出版商的网站|谷歌学术搜索
- m . t .首脑和s . A·马哈茂德·离线阿拉伯语手写文本识别:一项调查,”ACM计算调查,45卷,不。2,货号。23日,2013年。视图:出版商的网站|谷歌学术搜索
- 迈耶,d . c . Cireşan l . m . Gambardella,的和j。施密德胡贝尔表示“更好的数字识别与一个简单的神经网络,委员会”学报》第11届国际会议文档分析和识别,ICDAR2011年9月,页1250 - 1254。视图:出版商的网站|谷歌学术搜索
- a . l . Koerich r . Sabourin, c . y .孙”大型词汇脱机手写识别:一项调查,”模式分析与应用》第六卷,没有。2、97 - 121年,2003页。视图:谷歌学术搜索
- 塔迦尔·m·帕特尔和s p”,英文手写字符识别:一项调查,”国际先进的计算机和通信工程的研究》杂志上,4卷,不。2、345 - 350年,2015页。视图:谷歌学术搜索
- t . Plotz和g·a·芬克手写识别的马尔可夫模型,施普林格内裤在计算机科学中,激飞,伦敦,英国,2011年。视图:出版商的网站
- t . Bluche”端到端联合行分割和转录手写识别、段”30日研讨会论文集在神经信息处理系统(捏16)西班牙巴塞罗那,艾伦人工智能研究所,2016。视图:谷歌学术搜索
- o .尼娜联结主义时间为脱机手写文字识别分类,杨百翰大学会议中心,2016年。
- r . j . Klimoski和a . Rafaeli”通过笔迹分析推断个人品质,”职业心理学杂志卷,56号3、191 - 202年,1983页。视图:出版商的网站|谷歌学术搜索
- t . Dziedzic”,右手写与左手写的一个人。比较研究”,研究Z Zagadnien Sadowych卷,94年,第577 - 564页,2013年。视图:谷歌学术搜索
- r·a·胡贝尔和a·m·亨德里克笔迹鉴定:事实和基本面美国佛罗里达州波卡拉顿,CRC新闻,1999年。
- e·s·格拉、m . f . Zanuy和j . r . Alcobe“性别分类通过在线大写书写:text-dependent allographic方法,”认知计算,8卷,不。1、15 - 29,2016页。视图:出版商的网站|谷歌学术搜索
- r·赫克“性别差异的科学考试,”Proc。Fifty-Fourth年会文档审查员提出质疑,美国社会的1996年。视图:谷歌学术搜索
- m·柯柏走美国Argamon, a . r . Shimoni“自动分类写文本作者的性别,”文学与语言学计算,17卷,不。4、401 - 412年,2003页。视图:谷歌学术搜索
- a·g·Burnage g . Baguley,英国国家语料库,图书馆和信息简报,1996年,http://www.natcorp.ox.ac.uk/archive/papers/gblibs.html。
- c . i Tomai d Kshirsagar,斯里赫里、“集团歧视性的手写字符的力量,”文档识别和检索,Proc. SPIE-IS & T电子成像卷,5296年,第123 - 116页,2004年。视图:谷歌学术搜索
- m . Liwicki a Schlapbach h .煤仓,“自动性别检测使用在线和离线信息,”PAA。模式分析与应用,14卷,不。1,第92 - 87页,2011。视图:出版商的网站|谷歌学术搜索|MathSciNet
- 美国Al Maadeed w . Ayouby a . Hassaine和j·m·Aljaam”QUWI:阿拉伯语和英语书法为离线数据集作家身份,”学报》第13届国际会议在手写识别领域,ICFHR 2012,页746 - 751,意大利,2012年9月。视图:出版商的网站|谷歌学术搜索
- 即Siddiqi c . Djeddi a Raza, l . Souici-meslati“性别分类,自动分析笔迹”模式分析与应用,18卷,不。4、887 - 899年,2015页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- 答:殿下,m . Moetesum i Siddiqi, c . Djeddi“性别分类使用结构特性,从离线笔迹图像”学报》第15届国际会议在手写识别领域,ICFHR 2016IEEE,页395 - 398年,深圳,中国,2016年10月。视图:出版商的网站|谷歌学术搜索
- n . j . Tan Bi, c . y .孙和n .高贵的“笔迹的特征选择性别认同使用互信息,”学报》第15届国际会议在手写识别领域,ICFHR 2016IEEE,页578 - 583年,深圳,中国,2016年10月。视图:出版商的网站|谷歌学术搜索
- y阿克巴里,k .努里·j .距首都普里什蒂纳c . Djeddi i Siddiqi,“小波性别检测使用概率有限状态自动机,脱机手写文档”图像和视觉计算卷,59岁,相当于17 - 30,2017页。视图:出版商的网站|谷歌学术搜索
- c . Djeddi a . Gattal l . Souici-Meslati Siddiqi, y Chibani,和h . El Abed”LAMIS-MSHD: multi-script脱机手写数据库”学报》第14届国际会议在手写识别领域,ICFHR 2014IEEE,页93 - 97年,伊拉克里翁,希腊,2014年9月。视图:出版商的网站|谷歌学术搜索
- n . Bouadjenek h . Nemmour, y Chibani”作家的性别分类使用猪和LBP特征,“课堂讲稿电气工程卷,411年,第325 - 317页,2017年。视图:出版商的网站|谷歌学术搜索
- r·n·莫里斯法医笔迹鉴定:基本概念和原则美国马萨诸塞州剑桥,学术出版社,2000年。
- 诉萨兰,s·库马尔,a·k·古普塔和s·艾哈迈德,“分化偏手性的作家根据中风和特征,“法医研究期刊》的研究,4卷,不。5、文章ID 1000204, 1 - 3, 2013页。视图:谷歌学术搜索
- s . Al-Maadeed f . Ferjani s Elloumi a . Hassaine和a . Jaoua“从离线笔迹自动偏手性检测,”学报2013年第七届IEEE GCC会展,GCC 2013IEEE,页119 - 124年,多哈,卡塔尔,2013年11月。视图:出版商的网站|谷歌学术搜索
- s . Al-Maadeed f . Ferjani s Elloumi, A . Jaoua“偏手性检测的新方法使用模糊概念还原,从离线笔迹”Eurasip杂志在图像和视频处理,卷2016,不。1,货号。1、1 - 14,2016页。视图:出版商的网站|谷歌学术搜索
- n . Bouadjenek h . Nemmour, y Chibani”年龄,性别和构型预测使用梯度特性,从书法”第13次国际会议文档的程序分析和识别,ICDAR 2015IEEE,页1116 - 1120年,突尼斯,突尼斯,2015年8月。视图:出版商的网站|谷歌学术搜索
- l .邢和y俏”,进行多流深”DeepWriter: CNN text-independent作家识别”学报》第15届国际会议在手写识别领域,ICFHR 201610月,页584 - 589,中国,2016。视图:出版商的网站|谷歌学术搜索
- a·巴图和j .郑”与深度学习性别分类,”斯坦福cs224d课程项目报告,2015。视图:谷歌学术搜索
- g·李维和t . Hassncer”,年龄和性别分类使用卷积神经网络,”《IEEE计算机视觉与模式识别会议研讨会,CVPRW 2015页34-42 IEEE,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
- y LeCun (y Bengio g·辛顿,“深度学习”,自然,卷521,不。7553年,第444 - 436页,2015年。视图:出版商的网站|谷歌学术搜索
- Albelwi和A·马哈茂德”的框架设计深度卷积神经网络的架构,”熵,19卷,页1 - 2017。视图:谷歌学术搜索
- a . Krizhevsky i Sutskever, g·e·辛顿“ImageNet分类与深卷积神经网络,”Proc。先进的神经信息处理系统(捏12)25卷,第1105 - 1097页,2012年。视图:谷歌学术搜索
- f . Khosrowshahi“创新在人工神经网络学习:Learn-On-Demand方法,”自动化建设,20卷,不。8,1204 - 1210年,2011页。视图:出版商的网站|谷歌学术搜索
- 张,c .张,杨问:“数据准备,数据挖掘,”应用人工智能,17卷,不。5 - 6,375 - 381年,2003页。视图:出版商的网站|谷歌学术搜索
- U.-V。马蒂和h .煤仓,“IAM-database:一个英语句子为脱机手写识别数据库,”国际期刊文档分析和识别,5卷,不。1,39-46,2003页。视图:出版商的网站|谷歌学术搜索
- m . Liwicki和h .煤仓IAM-OnDB -在线英语句子从手写文本在白板上,获得的数据库”第八届国际会议文档的程序分析和识别IEEE,页956 - 961年,汉城,韩国,2005年9月。视图:出版商的网站|谷歌学术搜索
- 我的主页,http://www.fki.inf.unibe.ch/databases/iam-on-line-handwriting-database。
- s . a·马哈茂德·艾哈迈德,m . Alshayeb et al .,“KHATT:阿拉伯语脱机手写文本数据库,”学报》第13届国际会议在手写识别领域,ICFHR 2012IEEE,页449 - 454年,巴里,意大利,2012年9月。视图:出版商的网站|谷歌学术搜索
- KHATT主页,http://khatt.ideas2serve.net。
- m . Sokolova和g . Lapalme”绩效指标的系统分析分类任务,”信息处理与管理,45卷,不。4、427 - 437年,2009页。视图:出版商的网站|谷歌学术搜索
版权
版权©2018莫雷拉天使等。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。