人工智能技术的迅速发展,多任务处理文本翻译吸引了越来越多的关注。特别是在深度学习技术的应用,多任务翻译文本检测和识别的性能都得到很大的提高。然而,由于多任务包含翻译文本所面临的干扰问题,有很大的识别性能和实际应用需求之间的差距。针对多任务处理和翻译文本检测,提出了一种基于多通道多尺度检测文本定位方法最大的稳定的极值区域和级联过滤。本文选择适当的颜色通道和规模提取最大稳定极值区域作为人物候选人区域和设计一个级联滤波器从粗到细的删除错误的检测。粗过滤器是基于一些简单的形态学特征和笔划宽度特征,和细滤器由two-recognition卷积神经网络训练。其余字符候选区域合并成水平或多向字符串通过图模型。文本数据集上的实验结果证明了改进的有效性深入学习网络角色模型和文本含义翻译的可行性分析方法基于这个模型。其中,翻译文本包含字符识别结果证明该模型具有良好的描述能力。模型确定该方法的特点是不敏感的滑动窗口的规模,因此执行比现有的典型方法检索任务。
这是一个非常具有挑战性的话题检测多任务中包含的文本翻译,而不是传统的扫描纸,名片,身份证,等等,也有很高的应用价值
文字识别预处理后提取文本特征的文本和识别文本中的信息文本基于这些特性,提供一些必要的语义信息对文本分析和环境感知
不同于传统文本文档,多任务意味着翻译文本有不同的字体形状和颜色的特点,复杂多变的背景,和众多的干扰。本文结合深度学习技术,传统的多任务的含义翻译文本检测方法改进,和多任务含义翻译文本检测方法基于多通道,多尺度,提出了级联滤波。我们提取的最大稳定极值区域面积的人物候选人合适的渠道和规模。一个级联滤波器从粗到细的目的是消除错误的检测。粗过滤器是基于一些简单的形态学特征,精细过滤器是由一个训练有素的two-recognition卷积神经网络。其余字符候选区域合并成字符串通过图模型。实验结果表明,该方法可以有效地模型字符。模型是一种生产模式,生产模型固有的优势让它执行在检索任务。此外,由于该模型是基于局部特征和独立描述了汉字的结构特点,该模型在结构特点有更明显的性能优势。
本文的其余部分组织如下。部分
的大概念中人工智能、机器学习是最常用和广泛使用。人工智能有三个主要研究方向:符号学校试图模拟人类思维,模拟了大脑结构连接学校,学校可以模拟人类行为的行为。这对应于三个不同的研究结果:知识表示方法,神经网络,智能机器人。
机器学习分为三种方法:监督机器学习,非监督机器学习,semisupervised机器学习。他们在原理和结构是不同的,和他们的特点也不同。监督学习是一种常见的技术广泛用于神经网络的训练。监督学习需要学习一个函数(模型参数)从一个给定的训练数据集。这样做的目的是,当有新的输入数据,监督学习网络可以预测输出数据结果基于训练模型参数。与监督学习相比,无监督学习不标记的输入数据,样本数据的类别是未知的,这意味着它是不可能培养一个模型参数,可以用来预测结果与监督学习一样,但它需要基于输入数据。相似度识别样本集。与监督学习不同,它有自己的训练集和测试样品,无监督学习需要找到类唯一的输入数据之间的区别。
与上述两种学习方法相比,semisupervised学习的主要应用范围略有不同。它主要应用于输入数据的情况下的一小部分识别标记,和大多数的数据并不明显,但他们不符合手工标记的要求。因此,当使用semisupervised学习,核心思想是设计一个特定的查询算法查询的一部分数据根据一些特定的条件和要求专家马克最后使用的查询示例数据识别。
在监督学习中,训练样本越多,更准确的可以提取的特征值。换句话说,训练样本越多,最终的结果就越好。在这个阶段,大多数应用程序在人工智能领域仍基于监督学习。无监督和semisupervised学习需要进一步发展。
人工神经网络是一种重要的机器学习方法实现。尽管提出了许多年来,世界各地的研究人员仍在不断创新和构建新的结构和算法实现的目标更好的实现人工智能。
人工神经网络是一个网络由大量的结构类似于神经元的连接。在施工过程中,人工智能领域是现代生物学和现代神经科学的有机结合,它简化了人类大脑的基本特征。生物神经元是大脑组织的最基本的单位,包括身体、轴突、树突突触,其他部分。当有信号输入从外面的世界,兴奋的从树突突触,分析了人体细胞,沿着轴突传送到下一个神经元细胞。类似于生物神经元,人工神经元也人工神经网络的最基本的组成部分,如图
神经元模型结构。
人工神经网络有三个要素,即神经元网络模型特点,拓扑结构和规则的培训。一旦确定这三个要素,也是决定特定的人工神经网络模型。上面提到的神经元模型是人工神经网络的基本单元,和神经元特征独特的神经元模型。它包含三个基本要素,即一组连接权重求和单元和非线性激活函数。
神经网络结构是由大量的神经元,这是主要区别不同的神经网络。从连接方法,主要分为两种类型:前馈神经网络和反馈神经网络。前馈神经网络是一种广泛使用的神经网络。按层次结构排列的神经元,神经元层之间相互连接,和神经元在同一层是平行的,无关的,分为输入层根据输入层和隐层的功能。输入层的主要功能是输入外部数据和传输数据到一个或多个隐藏层进行处理;隐层处理后,数据与更多的特色被传输到输出层为下一步数据处理输出数据。一般来说,是最常见的单隐层结构;三层或基础课网络偶尔出现,主要为特殊的数据处理,和更多的层结构通常是没有问题,如处理时间和低效率使用。网络不同于前馈网络的反馈。在其结构中,任何两个神经元可以连接,每个神经元可以执行的任务的输入和输出。 The input data are passed through each neuron in the network.
神经网络的训练规则通常可以被称为学习方法,它主要分为上述三种学习方法。每一种都有其优点和缺点,但处理数据的目的是达到目的通过调整自身的参数根据某一预先确定的测量。
与传统的电脑相比,人工神经网络在信息处理和输入数据有一定的优势。
与传统计算机所使用的串行方法相比,人工神经网络的神经元并行连接,大大提高了计算能力和效率。
有别于传统的计算机处理系统,神经网络可以不断调整自己的网络的参数的过程中处理数据,最后实现效率最大化的目标。
在神经网络中,所有的参数都分布在每个神经元。一旦神经元有故障问题,它只会降低性能和处理效率的一个网络的一部分,不会整个网络瘫痪。
卷积神经网络是目前应用最广泛的深入学习网络。它最初是用于手写识别,取得了很好的结果。与其他普通神经网络相比,卷积神经网络包含一个功能器由一个卷积层和一个二次抽样层。在每个卷积层,所有的神经元在每个特性平面分享重量,也就是说,卷积核的卷积层。网络训练过程中,重量值变化从小型到大型,最后,一个值将获得适合数据特征提取,和神经元在同一层共享这个值,从而减少不同层次之间的联系。
卷积神经网络输入层,包括卷积层、汇聚层,完全连接层和输出层。其中,卷积层、汇聚层和完全连接层通常统称为隐层,如图
卷积神经网络的工作原理。
卷积层是由多个回旋的单元组成的。卷积神经网络的核心,它负责提取的特征输入数据。也是实现的一部分的主要想法卷积神经网络(
如果激活函数是忽视,每一层的输出数据处理是一个线性映射的输入数据。不管有多少卷积层叠加,最终的输出数据是线性映射的原始输入数据。中间隐层的结果是一致的,并提取特征值的函数。
池层也叫downsampling层后,通常使用卷积层。通过卷积的作用层,输入数据的大小将大大增加,很难执行下一个操作(
池有两种主要方法:最大池和平均池。最大池方法是采取的最大大小值输入数据的大小值输出数据,和平均池方法是取平均值。汇聚层的影响后,输出数据的参数的数量将大大减少输入数据相比,特征值将保持不变,防止过度拟合。
完全连接层通常出现在过去几层的结构。这一层的神经元连接神经元的上层。目的是为了整合当地卷积层中的特征信息获取和汇聚层。
剩余网络类似于卷积神经网络在网络结构、基本输入层、隐藏层和输出层,如图
剩余网络结构的框图。
与传统网络相比,剩余的培训目标网络已经改变了。原始的输入数据
多任务之间的颜色或灰度强度意味着翻译图片中的人物往往是不同的,但对于一个字符,其灰度强度或颜色通常是制服,和强度差异的背景和性格是非常大的,所以每个字符可以被认为是一个女士,所以女士作为一个角色可以提取候选区域。然而,MESR基于进行像素级操作,因此对噪声非常敏感或损坏一个像素。基于连接组件的文本检测系统分析方法,主要目的是为了发现尽可能多的实际字符区域,因为很难恢复以前失去了后续处理的字符。这里,我们设置阈值Δ女士的最小值为1,这样它可以应付各种具有挑战性的情况下尽可能多的。虽然低阈值将引入大量的虚假检测,它使探测器足够健壮以检测各种具有挑战性的角色,从而确保人物等级高召回率,进一步确保这个词的水平。
传统的女士检测主要是对灰度文本。灰度通道是色调的加权和。当提取字符候选区域在这个频道,将在翻译中包含各种干扰多任务,这是更健壮的区别。一些人物的对比下灰色渠道相对较低,容易错误检测,错过了检测和不完全性。
在多任务隐含的翻译文本,不可避免地存在一些特殊字符,如大字体,点阵字体,低对比度的角色。这些人物是很难使用女士检测器提取完整的字符在原来的规模。此外,由于低Δ值,一个更大的角色很容易分裂成几个部分。出于这个原因,我们建议检测女士作为一个字符候选区域规模的0.125倍。该方法可以有效地聚集在分段区域和处理低对比度和半透明的字符。小尺度比例,检测速度非常快,和计算复杂度不会增加太多。规模小,由于缩放,字符的颜色变得更加统一和原先分离的部分将会合并在一起,这大大减少了非均匀光照等因素的影响。
在多通道、多尺度和低Δ女士发现,大量的角色得到候选区域,不仅包含文本区域,还介绍许多错误的检测。由于大部分人物和背景之间的差异非常大,一个粗过滤器可以根据简单的形态特征的女士和中风的字符特征,可以迅速和有效地过滤掉大量的错误检测。
作为初步的补充粗过滤基于简单的形态学特征,另外介绍笔划宽度和变异系数等特性进行进一步的粗过滤。对于一个角色,其笔划宽度的变化通常是相对较小,但笔划宽度在后台区域将有更大的改变。一个角色可以用滑动的画笔宽度近似的中风沿着它的骨架。所以,我们可以近似的笔划宽度和变异系数提取字符候选区域的骨架。
近似笔划宽度的计算公式
其中,
提取自女士在不同渠道和不同的尺度,这是不可避免的,许多真正的字符或背景会反复检测。即使上述粗过滤,仍会有大量的重复字符候选区域将被保留。因此,我们需要删除重复的字符候选区域。这一步将不仅减少随后的细滤器识别器的负担也加快定位。如果任何两个字符之间的重叠比候选人区域大于87%,他们被认为是重复的字符候选区域。
在本节中,我们培养一个强大的two-recognition文字/背景卷积神经网络(CNN)识别器来进一步过滤掉错误的检测难以去除的粗过滤。
通过本地感知、本地信息的输入文本。这些地方特色将反复出现在文本中。例如,某些文本的中风和拐点可能出现在不同的字符。因为这一原则,当地的特性可用于整个图片的位置。CNN使用这一原则来使用相同的本地连接权重不同位置的文本;,在每一层神经元之间的连接权值和神经元在前一层都是一样的。这是重量共享,可以进一步减少参数数量。
由于本地感知和重量共享、卷积内核通常只能提取一个特性。为了解决这个问题,卷积内核与设计不同的权重来提取不同的特征在文本。例如,对于同一个人,提取的特征图谱由不同的卷积核是不同的。一些有很高的响应头部,而一些有更高的反应到躯干。
在机器学习中,该模型预测的结果之间的差异和实际标签被称为成本函数。有很多方法可以得到代价函数的最小值,最常用的是梯度下降法。梯度下降法计算当前的梯度参数每一次,然后提出了参数一小段距离相反的方向的梯度,并重复这直到最后的梯度是接近于零。这时,获得的参数模型一般只会使代价函数最小。
使用梯度下降方法学习参数,对整个数据集,成本函数
其中,正确的词代表之间的均方误差模型的预测值和样品标签,剩下的项代表了正则化项,用于防止过度拟合。其中,
反向传播算法包括两个部分,正向传播和反向传播。上述公式的本质是将总体损失函数的偏导数的和单一样本损失函数的偏导数。反向传播算法可以有效地计算偏导数损失函数的一个示例。对于一个特定的示例,在向前传播,每个神经元节点将计算加权和的连接节点,然后使用非线性函数输入下一层。这是向后传递,最后输出结果与实际结果之间的剩余的样本计算输出层。然后,链式法则是用来计算剩余的导数相对于上一层的输出。使用反向传播可以有效降低操作的复杂性。
基于训练two-recognition文本/背景CNN识别器,粗过滤字符候选区域可以精细过滤。只有在较高的频道对比人物候选人地区可以更好的提取。识别还需要更好的对比。为了确保识别的准确性,你让这个角色的候选人地区输入CNN第二提取通道的识别模型。然而,如果这个角色的候选人区域直接放大,然后输入到CNN第二识别器,错误会发生在某些情况下。例如,对于人物”
词包含语义信息高于字符,字符必须被组合成一个字符串。我们使用形态学特征和几何位置找到相邻字符候选人,然后利用图模型集群这些相邻字符候选人为文字或文本行,并进一步去除错误的检测。这种方法增加了笔划宽度和骨架颜色距离等特性。此外,不同参数设置一些相同的特性。在图模型中,这个角色的候选人地区没有相邻字符被丢弃,因为它可能是噪音,可以进一步提高精度。
提取女士的时候,我们可以用同样的标准提取椭圆拟合二阶中心矩作为女士。椭圆的长轴之间的夹角和
多向字符串的合成,限制规则是水平方向的相同字符串合成、添加了额外的字符方向限制。
我们寻找相邻字符候选人根据上述规则,还利用图模型集群相邻字符候选区域,保持集群有超过两个字符候选区域,然后使用最小的矩形区域作为最后的文本检测框。在文本检测,可以获得字符串的方向同时,长轴之间的角度,最小面积的矩形和水平方向。
一个有效字符是字符识别和定位的基础模型。基于字符的字符文本样本74 k的数据集,本节进行角色模型训练和检验算法的收敛性和执行效率的学习过程。自学习算法的输入是地方特色的集合,使用局部特征检测和描述算法并没有一个强大的与学习算法的性质之间的关系。
为了使演示清晰,混合模型是不习惯在这一节中,也就是说,模型中的子的数量设置为1时,和高斯内核的数量对应于每个部分也设置为1。在初始化过程中,为了避免隐藏变量的初始值的影响
基于上述参数设置,EM学习算法对提高深层学习网络角色模型在Matlab环境中实现。具体地说,使用100个字符样本的学习过程,每个样本中包含和地方特色的数量是6至20(选择)。角色模型训练在PC主频率为2.7 Ghz双核。的最大迭代数设置为60倍,平均培训时间是212.1秒。在实验的过程中,这两个指标的变化趋势,平均信息熵的向量
趋势图的平均信息熵和可能性的价值越来越多的迭代。
图
本节使用一种改进的深度学习网络模型进行特征检测在文本的翻译。包括ICDAR 2003使用的实验数据和字符74 k测试集。其中,Char 74 k数据集包含英文字符的文本含义的翻译,包括312文本含义翻译。图
文本翻译的例子字符检测74 k Char数据集。
根据上面的数据,我们还说,最终的测试中使用的数据和不完整的信息包括354个英语单词和1917个字符。由于数据的限制,所有62种字符不包括在上面的数据。图
分布的样本中字符类的数目。
因为翻译文本中包含的内容更为复杂,地方特色的数量
图
实验结果文本含义的字符检测翻译:(a)比较的方法基于改进的深度学习网络模型和方法基于随机字符74 k测试集;(b)比较的方法基于改进的深度学习网络模型和基于随机的方法2003年ICDAR测试集。
从实验结果的原因partial-based模型具有更好的性能在检索任务模型的规模变化不敏感滑动窗口。因为基于随机化的方法使用全局特征,滑动窗口的大小是非常高的。此外,人物有很强的结构,所以他们更容易找到在检测过程中根据当地特点,和改进的深度学习网络模型具有更好的处理阻塞。这些原因都确保基于改进的深度学习网络模型的方法在检测过程中有更好的结果。相应地,在识别任务中,角色的准确边界以来,基于改进的深度学习网络模型的方法没有区别的学习过程,准确率低。基于上述情况,可以得出结论,partial-based模型更适合候选人字符检测过程的集成方法,并基于全局特征的方法适用于识别阶段的方法。
本节进行文本含义翻译字符识别实验,比较了基于改进的文本含义翻译字符识别方法深度学习网络模型和几个典型的识别方法,并主要探讨了模型的区别的能力。的绩效评估不同的方法使用的平均准确率所有测试样本。
在实验中使用的数据包括字符74 k和ICDAR 2003数据集。其中,Char 74 k数据集包含一个62年共有7705个文本样本类别,ICDAR 2003数据集包含11615个样本。字符类别包括英文字符(
角色模型训练过程中,使用混合的角色模型,每个模型包含三个子(经验值)。由于字符类的复杂性,不同部件的数量
根据上述参数设置,选择的模型与最佳效果验证设置字符识别实验。实验结果如图所示
字符识别的实验结果基于改进的深度学习网络模型。
结果在图
孤立的字符识别的基础上,我们实现了基于图结构的词识别方法,并比较了改进的深度学习与其他典型的网络角色模型的方法。在比较过程中,因为不同的方法使用不同的增强信息来提高识别的准确性(二进制字符之间的关系等),在实验中在这一节中,我们不使用上述信息来获得一个公平的评价结果。其中,预定的词汇学习获得的数据从数据样本。结果在图
实验结果的词识别基于改进的深度学习网络模型。
比较词识别的结果和字符识别的结果,可以发现,改进的深度学习网络模型的性能在这个词识别任务是更好。这主要是由于先天的语言知识的引入,大大提高了整体识别精度,同时隐藏基本特征分类器之间的差异在很大程度上。此外,改进的深度学习网络模型的性能优于丛+ ICDAR方法。原因是不敏感的滑动窗口的规模,可以更准确地定位文本中的人物。
本文介绍了多任务含义翻译文本定位法结合多通道多尺度女士,而且级联滤波。女士是提取字符候选区域在不同渠道和尺度,从而有效地检测大多数字符在文本。使用人物的形态特征和近似的中风和宽度变化粗过滤,大量的虚假检测可以快速删除,然后删除字符候选区域。CNN网络精细过滤器其余字符候选区域。从粗到细的层叠滤波后,大部分的错误检测可以有效地移除。剩余字符之间的几何位置特征候选区域用于查找周边人物候选人,和图模型相结合,融合成水平或多向字符串,以实现多任务的定位翻译文本。在复杂的文本含义的翻译,往往很难获得准确的结果从文本区域检测,导致性能下降的整个文本含义翻译分析系统。本文提出一种基于改进的文本分析方法深入学习网络角色模型。本地特性的模型使用一个集合来描述整个性格和使用概率模型模型外观信息和位置关系的地方特色,然后计算这个角色的出现的概率。与基于全局特征的方法相比,改进的深度学习网络角色模型更加灵活,可以更有效地处理复杂的文本中包含的文本内容。
使用的数据来支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突。