一种改进的深度学习网络结构对于多任务文本含义翻译字符识别

文摘

人工智能技术的迅速发展,多任务处理文本翻译吸引了越来越多的关注。特别是在深度学习技术的应用,多任务翻译文本检测和识别的性能都得到很大的提高。然而,由于多任务包含翻译文本所面临的干扰问题,有很大的识别性能和实际应用需求之间的差距。针对多任务处理和翻译文本检测,提出了一种基于多通道多尺度检测文本定位方法最大的稳定的极值区域和级联过滤。本文选择适当的颜色通道和规模提取最大稳定极值区域作为人物候选人区域和设计一个级联滤波器从粗到细的删除错误的检测。粗过滤器是基于一些简单的形态学特征和笔划宽度特征,和细滤器由two-recognition卷积神经网络训练。其余字符候选区域合并成水平或多向字符串通过图模型。文本数据集上的实验结果证明了改进的有效性深入学习网络角色模型和文本含义翻译的可行性分析方法基于这个模型。其中,翻译文本包含字符识别结果证明该模型具有良好的描述能力。模型确定该方法的特点是不敏感的滑动窗口的规模,因此执行比现有的典型方法检索任务。

1。介绍

这是一个非常具有挑战性的话题检测多任务中包含的文本翻译,而不是传统的扫描纸,名片,身份证,等等,也有很高的应用价值1,2]。这是一个许多计算机应用基于愿景。文本属于相对高层语义信息的视觉信息,它起着巨大的作用的理解翻译内容中包含的文本(3]。除了传统的像素、颜色和结构特点,文本信息也有明确的和有针对性的语义信息。在计算机视觉领域,除了一些低级特征如纹理、边缘线,角点,等等,更重要的是描述文本信息通过结合高层语义与底层特征。同时有大量的文本信息含义翻译,和这些文本信息起到很好的辅助作用在文本的翻译内容的表达含义(4]。如果文本信息内容可以从多任务获得隐含的翻译文本,可以在更高的语义理解的文本。

文字识别预处理后提取文本特征的文本和识别文本中的信息文本基于这些特性,提供一些必要的语义信息对文本分析和环境感知5]。与文本定位和分割相比,较少注意识别,主要是因为当前光学字符识别(OCR)识别技术非常成熟。许多研究人员发送定位和分割的结果直接在OCR软件识别预处理后(6]。预期的目标可以实现。目前,主要分为两类,一是通过OCR识别软件,另一种是直接使用一些搜索策略来检测候选字符在文本,然后结合图匹配或一些判别模型。例如,CRF模型完成候选字符的识别(7]。相关学者从收集到的文本中提取筛选功能,然后直接比较他们与模板字符在字典里,然后用投票标准和几何验证方法修改比较结果得到最终的识别结果(8]。研究人员使用高斯过滤器或基本尺度和粗糙尺度上改善猪的特性,从收集到的文本中提取提高猪的特性,并结合一些识别器识别文本中的字符(9,10]。文本分割的准确性将直接影响到文字识别的准确性。文本分割技术也同时翻译文本识别的一个重要组成部分。文本分割是指将字符从定位文本行一个接一个。多任务包含翻译文本的文本分割技术主要包括两个内容:文本和背景分离和分段文本行。多任务意味着翻译文本分类的关键内容是文本和背景的分离11]。有两种主要类型的文本行分割技术。第一类是基于连通域分割或投影法分割。这种类型的方法的核心技术是一个字符是一个连接区域,经常是一不同字符,字符间距和文本分为单个字符(12]。第二类是使用公认的字符分割方法。这种类型的分割方法将文本行划分为单个字符通过人物的语言特点13]。采用滑动窗口机制行文本分解成多个字符组合,和识别结果是用来找到最合理的分界线。然而,同样的这两种类型的分割方法的先决条件是需要单独的文本行背景(14]。用于字符识别的识别器包括结构特征识别器,支持向量机,卷积神经网络,随机森林,演识别器(15,16]。类似于结构特征的提取,使用结构的识别器是形成结构特点的基础上(17]。这种类型的识别器的特点是精度高和鲁棒性差。支持向量机的识别模型是在最近的研究仍然经常使用。主要原因是SVM具有较好的对模式识别的影响,回归问题,特征选择。与其他识别器相比,它具有更好的鲁棒性。卷积神经网络识别模型具有超级高精度识别问题,可说,打开一个新的人工智能之旅(18]。随机森林模型在识别和识别不是很常见,但是作为一个代表强大的识别器,它有很强的识别能力19]。其核心在于多个决策树来做出判断而不过度拟合。常用的演算法识别器也是强大的识别器(20.]。结合多个特性的描述,每一个弱识别器投票通过投票获得更高的准确率。

不同于传统文本文档,多任务意味着翻译文本有不同的字体形状和颜色的特点,复杂多变的背景,和众多的干扰。本文结合深度学习技术,传统的多任务的含义翻译文本检测方法改进,和多任务含义翻译文本检测方法基于多通道,多尺度,提出了级联滤波。我们提取的最大稳定极值区域面积的人物候选人合适的渠道和规模。一个级联滤波器从粗到细的目的是消除错误的检测。粗过滤器是基于一些简单的形态学特征,精细过滤器是由一个训练有素的two-recognition卷积神经网络。其余字符候选区域合并成字符串通过图模型。实验结果表明,该方法可以有效地模型字符。模型是一种生产模式,生产模型固有的优势让它执行在检索任务。此外,由于该模型是基于局部特征和独立描述了汉字的结构特点,该模型在结构特点有更明显的性能优势。

本文的其余部分组织如下。部分2讨论了相关理论和技术。部分3构建了一个基于多通道深度学习网络模型,多尺度和级联滤波。部分4对实验结果进行了分析。部分5总结了全文。

2.1。机器学习

的大概念中人工智能、机器学习是最常用和广泛使用。人工智能有三个主要研究方向:符号学校试图模拟人类思维,模拟了大脑结构连接学校,学校可以模拟人类行为的行为。这对应于三个不同的研究结果:知识表示方法,神经网络,智能机器人。

机器学习分为三种方法:监督机器学习,非监督机器学习,semisupervised机器学习。他们在原理和结构是不同的,和他们的特点也不同。监督学习是一种常见的技术广泛用于神经网络的训练。监督学习需要学习一个函数(模型参数)从一个给定的训练数据集。这样做的目的是,当有新的输入数据,监督学习网络可以预测输出数据结果基于训练模型参数。与监督学习相比,无监督学习不标记的输入数据,样本数据的类别是未知的,这意味着它是不可能培养一个模型参数,可以用来预测结果与监督学习一样,但它需要基于输入数据。相似度识别样本集。与监督学习不同,它有自己的训练集和测试样品,无监督学习需要找到类唯一的输入数据之间的区别。

与上述两种学习方法相比,semisupervised学习的主要应用范围略有不同。它主要应用于输入数据的情况下的一小部分识别标记,和大多数的数据并不明显,但他们不符合手工标记的要求。因此,当使用semisupervised学习,核心思想是设计一个特定的查询算法查询的一部分数据根据一些特定的条件和要求专家马克最后使用的查询示例数据识别。

在监督学习中,训练样本越多,更准确的可以提取的特征值。换句话说,训练样本越多,最终的结果就越好。在这个阶段,大多数应用程序在人工智能领域仍基于监督学习。无监督和semisupervised学习需要进一步发展。

2.2。人工神经网络

人工神经网络是一种重要的机器学习方法实现。尽管提出了许多年来,世界各地的研究人员仍在不断创新和构建新的结构和算法实现的目标更好的实现人工智能。

人工神经网络是一个网络由大量的结构类似于神经元的连接。在施工过程中,人工智能领域是现代生物学和现代神经科学的有机结合,它简化了人类大脑的基本特征。生物神经元是大脑组织的最基本的单位,包括身体、轴突、树突突触,其他部分。当有信号输入从外面的世界,兴奋的从树突突触,分析了人体细胞,沿着轴突传送到下一个神经元细胞。类似于生物神经元,人工神经元也人工神经网络的最基本的组成部分,如图1。当有一个从外面兴奋或抑制信号输入,它将由一个加权函数,分析了胞体的影响。如果输出超过阈值,兴奋或抑制信号将被传送到下一层的人工神经元。

人工神经网络有三个要素,即神经元网络模型特点,拓扑结构和规则的培训。一旦确定这三个要素,也是决定特定的人工神经网络模型。上面提到的神经元模型是人工神经网络的基本单元,和神经元特征独特的神经元模型。它包含三个基本要素,即一组连接权重求和单元和非线性激活函数。

神经网络结构是由大量的神经元,这是主要区别不同的神经网络。从连接方法,主要分为两种类型:前馈神经网络和反馈神经网络。前馈神经网络是一种广泛使用的神经网络。按层次结构排列的神经元,神经元层之间相互连接,和神经元在同一层是平行的,无关的,分为输入层根据输入层和隐层的功能。输入层的主要功能是输入外部数据和传输数据到一个或多个隐藏层进行处理;隐层处理后,数据与更多的特色被传输到输出层为下一步数据处理输出数据。一般来说,是最常见的单隐层结构;三层或基础课网络偶尔出现,主要为特殊的数据处理,和更多的层结构通常是没有问题,如处理时间和低效率使用。网络不同于前馈网络的反馈。在其结构中,任何两个神经元可以连接,每个神经元可以执行的任务的输入和输出。 The input data are passed through each neuron in the network.

神经网络的训练规则通常可以被称为学习方法,它主要分为上述三种学习方法。每一种都有其优点和缺点,但处理数据的目的是达到目的通过调整自身的参数根据某一预先确定的测量。

与传统的电脑相比,人工神经网络在信息处理和输入数据有一定的优势。

2.2.1。并行性

与传统计算机所使用的串行方法相比,人工神经网络的神经元并行连接,大大提高了计算能力和效率。

2.2.2。自组织

有别于传统的计算机处理系统,神经网络可以不断调整自己的网络的参数的过程中处理数据,最后实现效率最大化的目标。

2.2.3。鲁棒性和容错性

在神经网络中,所有的参数都分布在每个神经元。一旦神经元有故障问题,它只会降低性能和处理效率的一个网络的一部分,不会整个网络瘫痪。

2.3。卷积神经网络

卷积神经网络是目前应用最广泛的深入学习网络。它最初是用于手写识别,取得了很好的结果。与其他普通神经网络相比,卷积神经网络包含一个功能器由一个卷积层和一个二次抽样层。在每个卷积层,所有的神经元在每个特性平面分享重量,也就是说,卷积核的卷积层。网络训练过程中,重量值变化从小型到大型,最后,一个值将获得适合数据特征提取,和神经元在同一层共享这个值,从而减少不同层次之间的联系。

卷积神经网络输入层,包括卷积层、汇聚层,完全连接层和输出层。其中,卷积层、汇聚层和完全连接层通常统称为隐层,如图2。卷积层的主要功能是在输入数据中提取特征,并通过自学习控制参数在卷积内核提取特征值,重量共享方法大大减少了参数的数量和确保网络的稀疏。汇聚层的功能是减少维度输出数据输出的卷积核,这可以减少它的大小,同时保留完整的数据功能;完全连接层主要发挥作用的识别和结合的特性完全输入数据到输出层。

2.3.1。卷积的层

卷积层是由多个回旋的单元组成的。卷积神经网络的核心,它负责提取的特征输入数据。也是实现的一部分的主要想法卷积神经网络(21- - - - - -23]。卷积层得到的特征值输入数据通过卷积操作的输入信息和输出后后续操作。其中,卷积内核中扮演一个重要的角色作为卷积的核心组件层。

如果激活函数是忽视,每一层的输出数据处理是一个线性映射的输入数据。不管有多少卷积层叠加,最终的输出数据是线性映射的原始输入数据。中间隐层的结果是一致的,并提取特征值的函数。

2.3.2。汇聚层

池层也叫downsampling层后,通常使用卷积层。通过卷积的作用层,输入数据的大小将大大增加,很难执行下一个操作(24,25]。汇聚层的目的是减少大型数据输出的大小从卷积的层,从而降低完全连接层的参数。

池有两种主要方法:最大池和平均池。最大池方法是采取的最大大小值输入数据的大小值输出数据,和平均池方法是取平均值。汇聚层的影响后,输出数据的参数的数量将大大减少输入数据相比,特征值将保持不变,防止过度拟合。

2.3.3。完全连接层

完全连接层通常出现在过去几层的结构。这一层的神经元连接神经元的上层。目的是为了整合当地卷积层中的特征信息获取和汇聚层。

2.4。深残余网络

剩余网络类似于卷积神经网络在网络结构、基本输入层、隐藏层和输出层,如图3。然而,与卷积神经网络不同,剩余网络的隐层残余网络基本结构独特,即残块。它由两个卷积层和一层池和其他结构,使用快捷键相连。输入数据可以在卷积处理分支,和其他池分支输入数据直接传输到输出数据。真正的输出数据是通过添加的输出,输出通过完全连接层。

与传统网络相比,剩余的培训目标网络已经改变了。原始的输入数据x被添加到原来的吗f(x)。这也是最基本的想法ResNet网络。反映在数据,输入数据的特征值仍保留残余结构后的输出数据。传统卷积网络将梯度消失的问题和网络恶化当传输信息,导致无法继续训练网络结构时太深。为了解决这个问题,直接ResNet需要输入信息的输出信息和保留特征信息的输入信息的完整性。

3所示。深入学习网络模型基于多通道,多尺度和级联滤波

3.1。提取字符候选区域基于多通道和多尺度

多任务之间的颜色或灰度强度意味着翻译图片中的人物往往是不同的,但对于一个字符,其灰度强度或颜色通常是制服,和强度差异的背景和性格是非常大的,所以每个字符可以被认为是一个女士,所以女士作为一个角色可以提取候选区域。然而,MESR基于进行像素级操作,因此对噪声非常敏感或损坏一个像素。基于连接组件的文本检测系统分析方法,主要目的是为了发现尽可能多的实际字符区域,因为很难恢复以前失去了后续处理的字符。这里,我们设置阈值Δ女士的最小值为1,这样它可以应付各种具有挑战性的情况下尽可能多的。虽然低阈值将引入大量的虚假检测,它使探测器足够健壮以检测各种具有挑战性的角色,从而确保人物等级高召回率,进一步确保这个词的水平。

传统的女士检测主要是对灰度文本。灰度通道是色调的加权和。当提取字符候选区域在这个频道,将在翻译中包含各种干扰多任务,这是更健壮的区别。一些人物的对比下灰色渠道相对较低,容易错误检测,错过了检测和不完全性。

在多任务隐含的翻译文本,不可避免地存在一些特殊字符,如大字体,点阵字体,低对比度的角色。这些人物是很难使用女士检测器提取完整的字符在原来的规模。此外,由于低Δ值,一个更大的角色很容易分裂成几个部分。出于这个原因,我们建议检测女士作为一个字符候选区域规模的0.125倍。该方法可以有效地聚集在分段区域和处理低对比度和半透明的字符。小尺度比例,检测速度非常快,和计算复杂度不会增加太多。规模小,由于缩放,字符的颜色变得更加统一和原先分离的部分将会合并在一起,这大大减少了非均匀光照等因素的影响。

3.2。基于形态学的粗过滤

在多通道、多尺度和低Δ女士发现,大量的角色得到候选区域,不仅包含文本区域,还介绍许多错误的检测。由于大部分人物和背景之间的差异非常大,一个粗过滤器可以根据简单的形态特征的女士和中风的字符特征,可以迅速和有效地过滤掉大量的错误检测。

作为初步的补充粗过滤基于简单的形态学特征,另外介绍笔划宽度和变异系数等特性进行进一步的粗过滤。对于一个角色,其笔划宽度的变化通常是相对较小,但笔划宽度在后台区域将有更大的改变。一个角色可以用滑动的画笔宽度近似的中风沿着它的骨架。所以,我们可以近似的笔划宽度和变异系数提取字符候选区域的骨架。

近似笔划宽度的计算公式 ,笔划宽度变异系数z和骨架的颜色距离d如下:

其中,n代表字符骨架像素的数目c_红外,c_搞笑,c_iB代表骨架像素的强度值我三个颜色通道的R,G,B,分别。基于经验和大量的测试ICDAR2013训练集上的门槛年代设置为小于0.25 h,在哪里h代表人物候选区域的高度。为R通道,其将小于0.77,其他频道设置为小于0.41。设置适当的阈值特性,比如笔划宽度及其变异系数可以有效地执行进一步的粗过滤剩余字符候选区域。

提取自女士在不同渠道和不同的尺度,这是不可避免的,许多真正的字符或背景会反复检测。即使上述粗过滤,仍会有大量的重复字符候选区域将被保留。因此,我们需要删除重复的字符候选区域。这一步将不仅减少随后的细滤器识别器的负担也加快定位。如果任何两个字符之间的重叠比候选人区域大于87%,他们被认为是重复的字符候选区域。

3.3。精细过滤基于卷积神经网络

在本节中,我们培养一个强大的two-recognition文字/背景卷积神经网络(CNN)识别器来进一步过滤掉错误的检测难以去除的粗过滤。

通过本地感知、本地信息的输入文本。这些地方特色将反复出现在文本中。例如,某些文本的中风和拐点可能出现在不同的字符。因为这一原则,当地的特性可用于整个图片的位置。CNN使用这一原则来使用相同的本地连接权重不同位置的文本;,在每一层神经元之间的连接权值和神经元在前一层都是一样的。这是重量共享,可以进一步减少参数数量。

由于本地感知和重量共享、卷积内核通常只能提取一个特性。为了解决这个问题,卷积内核与设计不同的权重来提取不同的特征在文本。例如,对于同一个人,提取的特征图谱由不同的卷积核是不同的。一些有很高的响应头部,而一些有更高的反应到躯干。

在机器学习中,该模型预测的结果之间的差异和实际标签被称为成本函数。有很多方法可以得到代价函数的最小值,最常用的是梯度下降法。梯度下降法计算当前的梯度参数每一次,然后提出了参数一小段距离相反的方向的梯度,并重复这直到最后的梯度是接近于零。这时,获得的参数模型一般只会使代价函数最小。

使用梯度下降方法学习参数,对整个数据集,成本函数

其中,正确的词代表之间的均方误差模型的预测值和样品标签,剩下的项代表了正则化项,用于防止过度拟合。其中,δ代表一个参数两个项目之间的妥协。为了使成本函数J( ,b)取得最小值,我们需要成本函数的偏导数,然后使用梯度迭代法获得局部最小值:

θ代表了学习速率(即。,步长)。非线性识别器的识别效果在很大程度上取决于训练样本的数量和质量,从这些样本中提取的特点。在多任务处理隐式转换图像,由于非文本背景的数量远远大于文本,如果数据集是根据这个比例设计,它将导致过度拟合,如果数据集是设定在一个一对一的比例,这将导致培训不足。为了解决这个问题,我们设置一个不平衡的数据集的文本/非文本比一到两个训练CNN网络。

反向传播算法包括两个部分,正向传播和反向传播。上述公式的本质是将总体损失函数的偏导数的和单一样本损失函数的偏导数。反向传播算法可以有效地计算偏导数损失函数的一个示例。对于一个特定的示例,在向前传播,每个神经元节点将计算加权和的连接节点,然后使用非线性函数输入下一层。这是向后传递,最后输出结果与实际结果之间的剩余的样本计算输出层。然后,链式法则是用来计算剩余的导数相对于上一层的输出。使用反向传播可以有效降低操作的复杂性。

基于训练two-recognition文本/背景CNN识别器,粗过滤字符候选区域可以精细过滤。只有在较高的频道对比人物候选人地区可以更好的提取。识别还需要更好的对比。为了确保识别的准确性,你让这个角色的候选人地区输入CNN第二提取通道的识别模型。然而,如果这个角色的候选人区域直接放大,然后输入到CNN第二识别器,错误会发生在某些情况下。例如,对于人物”我”和“,”如果他们仅仅是规模扩展到32×32岁,他们都将成为实心方块。尽管他们属于完全不同的人物,他们都将被视为误测,丢弃。为了解决上述问题,字符候选区域的周边地区是增长了0.1倍,它的高度介绍上下文信息,然后它是比例,可以有效地避免这个问题。使用这个精心训练two-recognition CNN识别器,其余无法区分背景部分粗过滤后可以有效地过滤掉。

3.4。字符串合成和筛选

词包含语义信息高于字符,字符必须被组合成一个字符串。我们使用形态学特征和几何位置找到相邻字符候选人,然后利用图模型集群这些相邻字符候选人为文字或文本行,并进一步去除错误的检测。这种方法增加了笔划宽度和骨架颜色距离等特性。此外,不同参数设置一些相同的特性。在图模型中,这个角色的候选人地区没有相邻字符被丢弃,因为它可能是噪音,可以进一步提高精度。

提取女士的时候,我们可以用同样的标准提取椭圆拟合二阶中心矩作为女士。椭圆的长轴之间的夹角和x设在被认为是女士的方向,也就是说,近似的倾斜方向的性格。

多向字符串的合成,限制规则是水平方向的相同字符串合成、添加了额外的字符方向限制。

我们寻找相邻字符候选人根据上述规则,还利用图模型集群相邻字符候选区域,保持集群有超过两个字符候选区域,然后使用最小的矩形区域作为最后的文本检测框。在文本检测,可以获得字符串的方向同时,长轴之间的角度,最小面积的矩形和水平方向。

4所示。实验结果和分析

4.1。学习实验模型

一个有效字符是字符识别和定位的基础模型。基于字符的字符文本样本74 k的数据集,本节进行角色模型训练和检验算法的收敛性和执行效率的学习过程。自学习算法的输入是地方特色的集合,使用局部特征检测和描述算法并没有一个强大的与学习算法的性质之间的关系。

为了使演示清晰,混合模型是不习惯在这一节中,也就是说,模型中的子的数量设置为1时,和高斯内核的数量对应于每个部分也设置为1。在初始化过程中,为了避免隐藏变量的初始值的影响P(H),初始值的出现概率的事件集H被设置为一个均匀分布。

基于上述参数设置,EM学习算法对提高深层学习网络角色模型在Matlab环境中实现。具体地说,使用100个字符样本的学习过程,每个样本中包含和地方特色的数量是6至20(选择)。角色模型训练在PC主频率为2.7 Ghz双核。的最大迭代数设置为60倍,平均培训时间是212.1秒。在实验的过程中,这两个指标的变化趋势,平均信息熵的向量P(H)和平均产量(值)可能性模型的训练样本,检查迭代过程。图4显示了上述变量的值的变化趋势的模型过程中迭代次数训练字符“f”

图4表明该算法迭代收敛后大约10和达到60迭代后的退出条件。其中,平均信息熵的概率P(H)随迭代次数的增加,收敛于最小后一定数量的迭代。这种现象意味着随着算法的进步,提高不断隐藏变量的确定;也就是说,概率P(H)从平均变化到一个或多个地方特色的结合。同时,模型对训练样本的似然值随迭代的数量。当隐藏的变量P(H)收敛,可能价值也收敛于最小值。上述结果表明,在训练样本学习算法能收敛,收敛是模型的有效性学习的基础。

4.2。字符检测实验

本节使用一种改进的深度学习网络模型进行特征检测在文本的翻译。包括ICDAR 2003使用的实验数据和字符74 k测试集。其中,Char 74 k数据集包含英文字符的文本含义的翻译,包括312文本含义翻译。图5显示了一个示例文本翻译的品质检测。

根据上面的数据,我们还说,最终的测试中使用的数据和不完整的信息包括354个英语单词和1917个字符。由于数据的限制,所有62种字符不包括在上面的数据。图6显示了每种类型的字符的数量分布在实验样本。

因为翻译文本中包含的内容更为复杂,地方特色的数量米获得往往是相对较大的,它仍然是计算很难直接找到一个匹配文本的可能性更大。为了提高计算效率,我们使用多尺度滑动窗口类似于丛+ ICDAR扫描目标文本在这一节中。除了过滤地方特色,我们也使用当地的规模的比例特性来消除地方特色的窗口大小,不需要考虑当前的规模。

图7显示了每种类型的字符的f值在2003年ICDAR和Char 74 k基于改进的深度学习网络角色模型和基于随机方法。结果在图7 (b)和7(一)显示性能的基于改进的深度学习网络模型的方法在识别任务是高于基于随机同步的方法,及其在检索性能的任务是比方法基于随机同步方法。

(一)

(b)

从实验结果的原因partial-based模型具有更好的性能在检索任务模型的规模变化不敏感滑动窗口。因为基于随机化的方法使用全局特征,滑动窗口的大小是非常高的。此外,人物有很强的结构,所以他们更容易找到在检测过程中根据当地特点,和改进的深度学习网络模型具有更好的处理阻塞。这些原因都确保基于改进的深度学习网络模型的方法在检测过程中有更好的结果。相应地,在识别任务中,角色的准确边界以来,基于改进的深度学习网络模型的方法没有区别的学习过程,准确率低。基于上述情况,可以得出结论,partial-based模型更适合候选人字符检测过程的集成方法,并基于全局特征的方法适用于识别阶段的方法。

4.3。字符和单词识别实验

本节进行文本含义翻译字符识别实验,比较了基于改进的文本含义翻译字符识别方法深度学习网络模型和几个典型的识别方法,并主要探讨了模型的区别的能力。的绩效评估不同的方法使用的平均准确率所有测试样本。

在实验中使用的数据包括字符74 k和ICDAR 2003数据集。其中,Char 74 k数据集包含一个62年共有7705个文本样本类别,ICDAR 2003数据集包含11615个样本。字符类别包括英文字符(一个∼Z,一个∼z)。在上面的实验数据,一些字符类ICDAR 2003数据集样本不足。在这方面,人工生成样本通过添加噪音和失真原始样品补充样品的数量。在实验过程中,上述字符样本分割的文本含义翻译根据标签信息,和每个样品都有一个明确的类别标签。

角色模型训练过程中,使用混合的角色模型,每个模型包含三个子(经验值)。由于字符类的复杂性,不同部件的数量n在子模型也随不同的类。为了避免落入陷阱的学习算法的局部极值,随机性引入的随机初始化隐藏变量的初始值P(H在培训过程。

根据上述参数设置,选择的模型与最佳效果验证设置字符识别实验。实验结果如图所示8。

结果在图8显示识别的字符在文本翻译的准确性基于改进的深度学习网络模型比其他方法好。这一现象的主要原因是提高深学习网络生产模型,模型中包括歧视学习学习过程,所以,分类能力是相对强劲的。因此,在分割孤立字符的识别任务,基于改进方法的优点深学习网络角色模型是更加明显。

孤立的字符识别的基础上,我们实现了基于图结构的词识别方法,并比较了改进的深度学习与其他典型的网络角色模型的方法。在比较过程中,因为不同的方法使用不同的增强信息来提高识别的准确性(二进制字符之间的关系等),在实验中在这一节中,我们不使用上述信息来获得一个公平的评价结果。其中,预定的词汇学习获得的数据从数据样本。结果在图9显示的准确性比较方法并没有太大的区别,没有额外的信息。改进的深度学习网络角色模型执行更好的词识别任务比丛+ ICDAR和猪+ RBF方法。

比较词识别的结果和字符识别的结果,可以发现,改进的深度学习网络模型的性能在这个词识别任务是更好。这主要是由于先天的语言知识的引入,大大提高了整体识别精度,同时隐藏基本特征分类器之间的差异在很大程度上。此外,改进的深度学习网络模型的性能优于丛+ ICDAR方法。原因是不敏感的滑动窗口的规模,可以更准确地定位文本中的人物。

5。结论

本文介绍了多任务含义翻译文本定位法结合多通道多尺度女士,而且级联滤波。女士是提取字符候选区域在不同渠道和尺度,从而有效地检测大多数字符在文本。使用人物的形态特征和近似的中风和宽度变化粗过滤,大量的虚假检测可以快速删除,然后删除字符候选区域。CNN网络精细过滤器其余字符候选区域。从粗到细的层叠滤波后,大部分的错误检测可以有效地移除。剩余字符之间的几何位置特征候选区域用于查找周边人物候选人,和图模型相结合,融合成水平或多向字符串,以实现多任务的定位翻译文本。在复杂的文本含义的翻译,往往很难获得准确的结果从文本区域检测,导致性能下降的整个文本含义翻译分析系统。本文提出一种基于改进的文本分析方法深入学习网络角色模型。本地特性的模型使用一个集合来描述整个性格和使用概率模型模型外观信息和位置关系的地方特色,然后计算这个角色的出现的概率。与基于全局特征的方法相比,改进的深度学习网络角色模型更加灵活,可以更有效地处理复杂的文本中包含的文本内容。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

引用

j . Memon m·萨米r·a·汗和m . Uddin“手写的光学字符识别(OCR):一个全面的系统的文献综述(SLR)”IEEE访问,8卷,第142668 - 142642页,2020年。视图:出版商的网站|谷歌学术搜索
陈x, y朱、t . Wang l·金和c罗,“引起场景文本识别、自适应嵌入门”Neurocomputing卷,381年,第271 - 261页,2020年。视图:出版商的网站|谷歌学术搜索
r . Ptucha f . Petroski这样,s .皮拉伊f . Brockler诉辛格(manmohan Singh)和p . Hutkowski“智能使用完全卷积神经网络字符识别,”模式识别卷,88年,第613 - 604页,2019年。视图:出版商的网站|谷歌学术搜索
l .邵m, l .元,g . Gui“InMAS:深入学习设计智能制造系统,”IEEE访问7卷,第51111 - 51104页,2019年。视图:出版商的网站|谷歌学术搜索
z Al-Makhadmeh和a . Tolba”自动仇恨言论检测使用杀手自然语言处理优化整体深度学习的方法,”计算,卷102,不。2、501 - 522年,2020页。视图:出版商的网站|谷歌学术搜索
w·e·张问:z, a . Alhazmi和c·李,“敌对攻击深度学习模型在自然语言处理中,“ACM智能交易系统和技术,11卷,不。3,1-41,2020页。视图:出版商的网站|谷歌学术搜索
c罗、l·金和z太阳,”莫兰:多目标纠正关注网络场景文本识别,”模式识别卷,90年,第118 - 109页,2019年。视图:出版商的网站|谷歌学术搜索
a . Atutxa公元de Ilarraza k . Gojenola m . Oronoz和o . Perez-de-Vinaspre”可判断的深度学习诊断文本映射到icd - 10编码,“国际医学信息学杂志》上卷。129年,49-59,2019页。视图:出版商的网站|谷歌学术搜索
郑y, b . k . Iwana和美国田”矿业max-pooling位移的文本识别,”模式识别卷,93年,第569 - 558页,2019年。视图:出版商的网站|谷歌学术搜索
问:a . Akram和侯赛因,“改善乌尔都语使用基于字符的nastalique书法的艺术特征,识别”IEEE访问7卷,第8507 - 8495页,2019年。视图:出版商的网站|谷歌学术搜索
m . Arsalan和a . Santra”字符识别在air-writing基于网络的雷达人机界面,“IEEE传感器杂志,19卷,不。19日,8855 - 8864年,2019页。视图:出版商的网站|谷歌学术搜索
黄y, z, l·金和c罗,“EPAN:关注网络有效部分场景文本识别,”Neurocomputing卷,376年,第213 - 202页,2020年。视图:出版商的网站|谷歌学术搜索
h . El Bahi和a . Zatni”智能手机获得的文本识别在文档图像卷积和递归神经网络的基础上,“多媒体工具和应用程序,卷78,不。18日,第26481 - 26453页,2019年。视图:出版商的网站|谷歌学术搜索
x Cai、美国盾和j .胡“深度学习模型结合词性和自匹配关注中国电子医疗记录的命名实体识别,”BMC医学信息学和决策,19卷,不。2、101 - 109年,2019页。视图:出版商的网站|谷歌学术搜索
k . p .凿和z . m .级”字符分割和识别缅甸警告招牌图像,”国际期刊的网络化和分布式计算,7卷,不。2,59 - 67年,2019页。视图:出版商的网站|谷歌学术搜索
a . Yadav和d . k . Vishwakarma”情绪分析使用深度学习架构:复习一下,”人工智能审查,53卷,不。6,4335 - 4385年,2020页。视图:出版商的网站|谷歌学术搜索
g .香港“历史文献的翻译和使用人工智能韩国历史的研究,“韩国历史的国际期刊,24卷,不。2、71 - 98年,2019页。视图:出版商的网站|谷歌学术搜索
v . s .马可·b·泰勒z, Wang和y Elkhatib”优化深度学习推理在嵌入式系统通过自适应模型的选择,”ACM交易嵌入式计算系统,19卷,不。1、28页。2020。视图:出版商的网站|谷歌学术搜索
h . Ghulam f .曾庆红,w·李,y,“深上优于罗马乌尔都语的文本情感分析,“Procedia计算机科学卷,147年,第135 - 131页,2019年。视图:出版商的网站|谷歌学术搜索
d . NguyenVan s, s .田n . Ouarti和m . Mokhtari称,“基于池的场景文本建议技术场景文本阅读在野生环境中,“模式识别卷,87年,第129 - 118页,2019年。视图:出版商的网站|谷歌学术搜索
美国Ram, s·古普塔和b•阿加瓦尔”使用深卷积神经网络,使用Devanagri字符识别模型”《统计与管理系统,21卷,不。4、593 - 599年,2018页。视图:出版商的网站|谷歌学术搜索
n·h·汗和a . Adnan”乌尔都语光学字符识别系统:现在贡献和未来方向,”IEEE访问》第六卷,第46046 - 46019页,2018年。视图:出版商的网站|谷歌学术搜索
唱s·g·李,y, y . g . Kim et al .,“变种AlexNet GoogLeNet提高韩语字符识别性能,”杂志的信息处理系统,14卷,不。1,第217 - 205页,2018。视图:谷歌学术搜索
d·a·桑切斯·g . Bulon l·莫雷诺et al .,“字符自动识别在瓷器,”Acta Technica Napocensis卷,59号3、8 - 12,2018页。视图:谷歌学术搜索
k . Manjusha m . Anand Kumar和k . p .索曼”积分散射特征图谱与卷积神经网络马拉雅拉姆语手写字符识别中,“国际期刊文档分析和识别(IJDAR),21卷,不。3、187 - 198年,2018页。视图:出版商的网站|谷歌学术搜索

复杂性

认知计算解决方案在计算社会系统复杂性问题

文摘

1。介绍

2.1。机器学习

2.2。人工神经网络

2.2.1。并行性

2.2.2。自组织

2.2.3。鲁棒性和容错性

2.3。卷积神经网络

2.3.1。卷积的层

2.3.2。汇聚层

2.3.3。完全连接层

2.4。深残余网络

3所示。深入学习网络模型基于多通道,多尺度和级联滤波

3.1。提取字符候选区域基于多通道和多尺度

3.2。基于形态学的粗过滤

3.3。精细过滤基于卷积神经网络

3.4。字符串合成和筛选

4所示。实验结果和分析

4.1。学习实验模型

4.2。字符检测实验

4.3。字符和单词识别实验

5。结论

数据可用性

的利益冲突

引用

版权

更多相关文章

相关文章

复杂性

认知计算解决方案在计算社会系统复杂性问题

一种改进的深度学习网络结构对于多任务文本含义翻译字符识别

文摘

1。介绍

2。相关理论和技术

2.1。机器学习

2.2。人工神经网络

2.2.1。并行性

2.2.2。自组织

2.2.3。鲁棒性和容错性

2.3。卷积神经网络

2.3.1。卷积的层

2.3.2。汇聚层

2.3.3。完全连接层

2.4。深残余网络

3所示。深入学习网络模型基于多通道,多尺度和级联滤波

3.1。提取字符候选区域基于多通道和多尺度

3.2。基于形态学的粗过滤

3.3。精细过滤基于卷积神经网络

3.4。字符串合成和筛选

4所示。实验结果和分析

4.1。学习实验模型

4.2。字符检测实验

4.3。字符和单词识别实验

5。结论

数据可用性

的利益冲突

引用

版权

更多相关文章

相关文章