焦CTC损失中国光学字符识别不平衡的数据集

文摘

在这篇文章中,我们提出一个新颖的深模型基于字符识别采用焦损失分布不平衡,联结主义时间分类(CTC)函数。作品利用传统CTC来计算预测损失。然而,一些数据可能由极其不平衡样本,如中国。换句话说,两个训练集和测试集,包含着大量的低频子样本。低频子样本对模型训练中非常有限的影响。为了解决这个问题,我们修改传统CTC融合焦点损失,从而使模型处理低频子样本在训练阶段。为了证明该方法的优势,我们对两种类型的数据集进行实验:合成和真实图像序列数据集。两个数据集上的结果表明,该焦CTC损失函数在不平衡数据集达到所需的性能。具体地说,我们的方法优于传统的CTC平均3至9百分比的准确性。

1。介绍

最近,深卷积神经网络(DCNN)在各种计算机视觉任务都取得了极大的成功,如图像分类和目标检测(1- - - - - -6]。这样的成功应该有助于大规模数据,辍学(7),和正规化8- - - - - -12)技术。图像序列的识别,可以被视为一种变体的对象检测,仍是一个挑战,由于难以检测类似于序列的对象。不同的分类和检测问题,预测整个图像或一个地区,一个品牌序列识别需要计算输入图像的序列标签,如图1。

在这种情况下,我们不能轻易应用深卷积神经网络(DCNN) (13,14)类似于序列的识别任务因为DCNN只能生成标签序列在固定长度取决于输入序列。这种限制限制了它的应用场景,需要预测各种长度的序列。

传统的方法包括(15,16)是基于detection-recognition策略。单个字符是首先发现,然后认识到形成一个完整的句子。然而,检测一个字符是挑战特别是汉字。不同于英语,很多汉字左右顺序组成的结构部分。这一现象限制detection-recognition方法的应用。

一个常用的方法是通过乱砍滥伐的输入序列切片并认识到他们通过递归神经网络(RNN)。与上述detection-recognition方法相比,该方法之前削减成很多片喂成一个基于RNN的识别模型。由于大国记住过去的信息,不需要定位字符RNN模型。最终结果预计通过记忆融合到当前状态的信息。还有一个挑战中国基于图像序列的识别,即。,the unbalance of training set. Different from small lexicon language datasets, large lexicon language datasets, such as Chinese, suffer from severe unbalanced sample distribution. Most words except for the small part are rarely used in everyday scenes. In this paper, we refer to the commonly used samples as简单的样品和其他人一样艰难的样品。

现有的序列识别方法可以分为两个分支:seq2seq时尚(17,18)和CTC基于损失函数模型(19]。以上考虑unbanlanced数据集工作,特别是在中国基于图像序列识别任务。数据集将导致严重的过度拟合的unbanlance方便样品和underfitting困难样本。为了解决简单和困难在训练样本之间的不平衡问题,我们建议焦CTC损失函数,以防止模型忘记努力训练样本。我们所知,这是第一个工作序列识别试图解决不平衡的问题。

2.1。文字识别基于手工设计的图像特征

以前的工作主要集中在发展中一个强大的字符分类器与手工设计的形象特征。小王提出了一个猪的性格分类特性与随机蕨丛发达(20.]。诺伊曼提出新的面向中风字符检测和分类(21]。手动设计图像特征总是局限于低层次的极限性能。李发达的中等水平的代表人物有识别力的功能池(22]。么发达一个名叫Strokelets的中层特征描述的部分字符(23]。其他有趣的作品带来了深刻的思想提出了嵌入文字图像在一个共同的矢量子空间和词识别转换成一个检索的问题24,25]。一些作品利用RNN的提取一组几何或iamge特征从手写文本的序列图像特征(26]。一些其他方法27)治疗场景文本识别作为一个图像分类问题和分配一个类标签每个英语单词(总共90 k字)。

2.2。CTC基于损失函数序列识别

联结主义的分类(CTC)提出了19),提出了一种CTC损失函数训练RNNs标签不分段直接序列。CTC广泛用于语音识别(28,29日]。在本文中,我们专注于应用CTC图像序列中识别应用程序。坟墓提出第一次尝试结合递归神经网络和CTC的脱机手写识别(30.]。复兴后的神经网络,深卷积神经网络一直致力于基于图像序列的认可。哈桑应用双向多空词记忆(BLSTM)架构CTC识别印刷乌尔都语文献[31日]。提出一种新的神经网络结构,集特征提取、建模、序列和转录成一个统一的框架(32,33]。深TextSpotter [34)列车两个文本检测和识别在一个端到端过去。他开发了一种深度文本反复网络(DTRN)作为场景文本阅读一个序列标签问题35]。

2.3。基于Seq2seq序列识别

seq2seq和关注框架普遍在机器翻译研究(36]。最近,这样的框架是采用基于图像序列识别。英航递归神经网络提出了一种深与强化学习培训,参加最相关的区域的输入图像和模型学习本地化和识别多个对象,尽管只有类标签在训练(37]。李提出了递归复发性神经网络与关注建模lexicon-free光学字符识别在自然场景图像(18]。徐介绍了一个基于注意力的模型,自动学习来描述图像的内容(38]。另一个有趣的工作空间变压器网络(39引入一个新的可学的模块),空间变压器。它显式地允许数据在网络的空间操作。焦损失提出了重塑address类不平衡的标准交叉熵损失,这样它downweights well-classified例子的损失分配一个对象检测框架(40]。李提出了递归复发性神经网络与关注建模(R2AM) lexicon-free光学字符识别在自然场景图片(41]。

3所示。体系结构

我们提出的模型通过扩展架构设计(32),由三个组件:卷积,复发,转录层。架构的概述如图2。我们采用残余网络(42),其中包含51层作为卷积层和双向多空词记忆(43- - - - - -45复发性层)。转录层主要是基于CTC或我们的焦点CTC函数。

类似于许多CNN建立计算机视觉应用中,卷积层用于生成给定图像的特征图谱。已经证明了一些检测文献,如Fast-RCNN Faster-RCNN,可以定位和识别对象的特征图谱pretrained CNN模型。因此,这种策略很容易采用基于图像序列识别任务。具体地说,我们第一次过调制特性映射到多个片。每一个部分都可以视为边界框的表示。这些片特征图形成一个固定长度的序列。然后我们养活这个序列变成RNN-based层预测变长序列标签。注意的深层结构ResNet能够提供足够的接受域的小面积覆盖相应的字符。所以RNN不是基于图像序列识别任务的必要条件。尽管如此,我们仍然使用LSTM预测标签序列由于其优秀的保留能力和丢弃以前的信息。 The transcription layer is responsible for translating the output of hidden unit of LSTM to labels and finding the label sequence that has the highest probability conditioned on the per-slice predictions. We employ a fully connection layer to interface with the output of LSTM hidden units. Then we calculate the probability of each label through a softmax layer. Finally, we calculate the CTC loss through our focal loss based CTC layer with the predicted and ground truth label sequences as input.

3.1。特征提取

为了获得一个合适的代表一个给定的图像,许多CV模型使用pretrained CNN生成特征图。事实上,cnn的优势比其他传统的特征提取方法是,他们可以通过不同的过滤器捕捉当地的纹理。由于这个原因,一个训练有素的CNN模型可以方便地通过图像序列识别任务。在我们的例子中,我们使用剩余网络,称为ResNet,提取视觉特征图。它是由他在[等人首次提出42解决分类问题和赢得1日ImageNet检测任务的地方,ImageNet本地化,可可检测和可可分割。与其他先前提出的深CNN模型相比,ResNet深层但低复杂性。的优雅表现ResNet应该导致深层残留学习框架的介绍。我们简要地说明这种结构在图3。残余的制定学习可以看作是快捷连接插入普通的前馈网络。事实上,快捷的连接只是执行标识映射和输出添加到输出以下层(图3)。假设剩余学习的输入块表示 ,学习过程可以作为优化制定一个剩余函数 : 在哪里表示一个潜在的映射被几个适合堆叠层。注意的大小和的输出应该是一致的吗。

在我们的实验中,残余网络由四个瓶颈: , , ,和。两块连接瓶颈,11过滤快捷键插入过滤器尺寸一致。

我们把最后一个CNN的输出层ResNet特征图,对应于整个图像。我们过调制特性映射到片。类似于快速RCNN或RCNN更快,每个块包含当地的原始图像的信息。

3.2。标签序列预测

基于特征的地图图像片,我们预测基于双向LSTM网络标签序列。RNN [43)是一类神经网络有效建模动态时间序列的行为通过定向循环单元之间的连接。每个单元能够保持内部隐状态被认为包含之前的信息。一般来说,RNN可以看作是隐马尔可夫模型的扩展。尽管优势在处理连续的信号,传统RNN单位遭受消失梯度问题[46),这限制了范围的上下文可以存储,从而使得训练过程困难。为了解决这个问题,多空词记忆(LSTM), RNN的变种,提出。它能够捕捉时间依赖性比传统的长期和短期RNN单位。具体来说,LSTM RNN延伸通过添加三个盖茨RNN神经元:忘记门控制在多大程度上应该是保留当前的信息;一个输入通道决定多少影响当前输入应该隐藏状态;一个输出门限制当前可用内存输出的信息隐藏状态。这些盖茨使LSTM解决长期依赖问题在序列识别任务。更重要的是,LSTM更容易优化这些门帮助输入信号通过周期性的隐状态有效地传播在不影响输出。图4是一个示意图说明LSTM单位。LSTM也减轻RNN的梯度消失或爆炸问题47]。在我们的例子中,我们制定的操作LSTM单位(8)。为了方便起见,我们忽略向前或向后的标志层。在哪里乙状结肠激活函数,计算所有盖茨的概率。代表忘记门,输入通道和输出通道分别th一步。存储当前最后细胞状态的信息。代表隐藏单位的连续两个步骤。和重量和偏见,这两个向量转换成一个共同的空间。在文献[48),纠正线性单元(ReLU)也用作激活函数。

在我们的例子中,通过双向LSTM标签序列预测。隐藏单位的大小是128。每个标签融合计算隐藏状态向前和向后隐藏层。在th一步,和结合通过连接层一层全连通紧随其后。最后的结果,以概率分布的形式,通过一个softmax层。

4所示。转录

转录是用于转换的预测每个片由双向LSTM标签序列。在本节中,我们首先简要回顾一下CTC损失的定义,然后介绍我们提出焦CTC损失。CTC损失函数,首次提出在19),旨在模型标签序列的条件概率的概率分布预测每个标签。从本质上讲,一个CTC层应该是一种损失函数,而不是一个网络层。出于这个原因,术语的CTC层是不准确的,可能导致对CTC的误解。焦CTC损失函数主要是受焦点策略对象检测应用程序。本文的主要贡献是,采用焦点策略,CTC损失函数可更有效地优化整个模型。

4.1。标签序列的概率

让和是一个实数组和一个标签组,分别总是命名为词汇。让输入的特征空间, 标标签空间 , , 代表特征维度,时间序列,分别和标签长度。以前的方法后,输入过调制到片。每个片应该包含一些单一的一小部分标签字符,暗示。CTC损失函数可以被看作是建模的联合概率分布和 ,表示为。

CTC损失函数的输入softmax层(49]。我们添加一个空白标签来因此获得一个新的标签。一个输入序列转换到另一个序列通过将softmax层。我们表示激活输出装置在时间作为。然后被解释为观察标签的概率在时间 ,它定义了一组分布在的长度序列的词典。文献[19)是指的元素路径和表示它们。我们假设的分布网络的输出是条件独立的。然后路径的概率可以表示如下:

sequence-to-sequence映射函数是定义在序列。地图到通过首先删除重复和空白标签。例如,地图”B1BB1B220”到“1120”。然后通过求和计算条件概率的概率所映射的到 :

天真的方式来计算的时间复杂度的条件概率(4)指数为路径存在。文献[19)提供了一个有效的动态规划算法计算条件概率。以来的CTC损失显然是可微的条件概率只包含加法和乘法操作。

4.2。焦CTC损失

在[40),焦损失的交叉熵的定义如下: 在哪里的概率是地面真理将softmax输出分布。和hyperparameters用于平衡损失。焦损失的一个直观的理解,它可以被视为交叉熵乘以 (微型计算机属于交叉熵: )。很容易发现,越接近方法 ,焦损失越小。所以焦损失将减少的影响但更多关注负面的例子在训练样本。

焦点理论,重新定义我们的焦点CTC损失如下: 在哪里上面提到的条件概率。负对数函数最大化问题的优化过程转换为一个最小化问题,以采用梯度像样的算法。通过这种方式,我们可以专注损失缺乏训练样本和样本训练过度“忽略”。

5。评价

5.1。数据集

在本节中,我们评估焦CTC损失合成和真实的数据集。我们建立两个合成数据集通过连接5 MNIST [13)图像的大小在轴长图像的分辨率。我们把字母” “成两个子字母表” ”和“ “相同的大小。第一个数据集的不平衡比率10:1由两部分组成,一个包含1000000长图像由5连接图像随机抽样从“ ”,另一个包含100000长图像连接5图像随机从“ ”。第二个数据集的不平衡比率100:1由1000000名长图像由5连接图像随机抽样从“ “和10000年长图像连接5图像随机从“ ”。我们使用一个包含10000张图片数据集测试精度。高频和低频字符的比率将在训练中我们使用短语。我们现在的标签数据集在图的分布5。

(一)

(b)

我们也测试焦点CTC损失一个真正Chinese-ocr数据集(50),由3607567年的5000年培训和测试样本。每个人都是一个像素图像与10 -汉字标签。词的频率如图6。

5.2。培训战略评价指标

我们实现焦损失函数在tensorflow框架中,这被称为一个灵活的架构支持复杂计算机器学习更深的学习。一个典型的CTC损失函数可以制定如下: 在哪里和表示标签序列从地面真理和输出RNN单位,分别。受到限制的长度都是整数标量。这个功能已经实现Tensorflow框架。因此我们首先容易计算通过调用(7)中定义的特遣部队。然后我们计算焦损失根据(5)。我们总结整个过程如下:

我们训练我们的模型之前,我们设置学习速率和批量大小和 ,分别。初始化所有参数除了CNN抽样从高斯分布。CNN的权重是抄袭ResNet培训期间,保持不变。我们优化我们的模型使用随机梯度下降法(SGD) Nesterov动量(51)将。我们运行所有的实验在一个NVIDIA M40 GPU。整个培训过程中描述的算法1。

需要RNN的参数: ,学习速率 ,批量大小
1:为 ; ; 做
2: ;
3: ;
4:
5:
6:
7: ;
8:
9:结束了

我们评估我们的模型的两个指标:天真的准确性和soft_accuracy。天真的一个意味着预测序列只能被视为积极的时候是一样的地面真理。soft_accuracy指容忍1从预测到标签的编辑距离。两个序列之间的编辑距离和被定义为最小数量的插入、替换,和删除需要改变吗成。

5.3。结果

结果不同和如表所示1和2为合成数据集和不平衡比率100:1 10:1,分别。最好的收益这两个数据集,以粗体突出显示在表中1和2,都是和 ,分别。此外,焦CTC不仅提高了低频的准确性,这是一个自然的结果,但也增强了10:1的高频精度数据集。100:1数据集的改进主要是由于增强低频数据。然而一些选择和执行不良坏等和 100:1数据集。为 ,高频精度大幅下降。至于 ,低频的准确性是不太好。10:1的准确性对高频和低频的样本数据集达到不错的效果。类似的,相同的问题发生在100:1数据集。此外,一些选择和也导致表现不佳等 ,和。


		精度	高频	低频

CTC		0.538	0.739	0.337

0.99	0.5	0.587	0.753	0.421
0.99	1	0.531	0.765	0.296
0.99	2	0.511	0.742	0.280

0.75	0.5	0.628	0.755	0.501
0.75	1	0.538	0.709	0.368
0.75	2	0.501	0.704	0.297

0.5	0.5	0.525	0.741	0.310
0.5	1	0.500	0.731	0.269
0.5	2	0.504	0.722	0.287

*0.25*	*0.5*	*0.614*	*0.731*	*0.498*
0.25	1	0.590	0.728	0.451
0.25	2	0.508	0.685	0.331


		精度	高频	低频

CTC		0.657	0.711	0.603

0.99	0.5	0.667	0.721	0.613
0.99	1	0.636	0.729	0.543
0.99	2	0.703	0.745	0.662

0.75	0.5	0.684	0.709	0.659
0.75	1	0.641	0.715	0.567
0.75	2	0.631	0.716	0.546

0.5	0.5	0.667	0.741	0.593
0.5	1	0.680	0.722	0.638
0.5	2	0.682	0.728	0.635

*0.25*	*0.5*	*0.723*	*0.753*	*0.694*
0.25	1	0.724	0.751	0.697
0.25	2	0.707	0.763	0.650

然而,一个坏的选择和会损害准确性发现吗至少达到一个退出推广在两个数据集,尽管高频和低频数据的存在。我们在粗斜体字体突出显示这些结果表1和2。

我们目前的结果真正的数据表3。最好的提高精度,以粗体突出显示, 。这是一个令人激动的改进对于现实生活应用程序。另外,我们观察到升职了这也是一个相当大的提高。


		精度	soft_accuracy

CTC		0.723	0.926

0.99	0.5	0.730	0.933
0.99	1	0.764	0.946
0.99	2	0.631	0.913

0.75	0.5	0.692	0.918
0.75	1	0.724	0.926
0.75	2	0.704	0.930

0.5	0.5	0.733	0.936
0.5	1	0.655	0.908
0.5	2	0.641	0.913

*0.25*	*0.5*	*0.759*	*0.937*
0.25	1	0.690	0.926
0.25	2	0.667	0.919

为了观察不同的收敛情况 ,我们把测试准确性和Soft_Accuracy通过改变曲线的真实数据集。我们可以看到,所有的培训过程中,焦CTC的损失达到最好的准确性和收敛比Soft_Accuracy,如图7。焦CTC的损失执行不好。

(一)

(b)

与上面的结果在合成和真实的数据集,我们可以得出结论,焦CTC损失 ,和给出了一个相当大的改进与CTC的损失。其他的选择和可能获得更多的相当大的改进。所以在现实生活中应用,我们可以选择和不平衡数据集。

5.4。定性结果

我们提供了一些合成和实际数据集在图的例子8。CTC预测的序列或焦CTC标记为红色和绿色,分别。所有图像采样测试分裂。一般来说,预测与焦CTC损失明显改善。由于汉字的极端不平衡分布,从图可以看出8(一个)一些非同寻常的使用单词不能有效地检测到基于CTC模型但我们建议焦CTC模型。至于合成数据集,有趣的是,CTC和焦CTC都适合10:1的数据集。然而,CTC的性能下降情况下,我们使角色的分配更加不平衡。

(一)

(b)

(c)

6。结论

在本文中,我们提出一个焦点CTC损失函数,它可以平衡容易和困难样本在训练之间的损失。我们测试各种hyperparameters和在合成和真实的数据集。结果表明,设置和达到了相当大的改进合成和真实的数据集。此外,我们还指出,一些选择可能会导致糟糕的性能。在某种程度上,我们建议的焦CTC损失函数缓解不平衡的大词典识别序列。

数据可用性

之前报道的实验中使用的数据集和数据集的研究,已被引用。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作在一定程度上支持中国科技资金(不。61772158也没有。61472103)和中国科技资金的关键程序(没有。U1711265)。

引用

l ., a . a·穆罕默德·r·柴郑,和吴,“自动乳腺diffusion-weighted乳腺mri分割,深度学习方法”医学成像学报,2019。视图:谷歌学术搜索
l . Zhang r·柴s . w . Dooman Arefan,和j . Sumkin“肿瘤在乳房dce-mri分割,深度学习方法”医学成像学报,2019。视图:谷歌学术搜索
d·谢·l·张,l·巴姨,“深度学习在视觉计算和信号处理”,应用计算智能和软计算ID 1320780条,卷。2017年,13页,2017。视图:谷歌学术搜索
l z, j . Shin, s . Gurudu m . Gotway和j .梁”微调卷积神经网络生物医学图像分析:积极和增量,”《30 IEEE计算机视觉与模式识别会议,CVPR 2017,页4761 - 4772,美国,2017年7月。视图:谷歌学术搜索
张勇l . Zhang f·杨,y, y . j .朱”道路裂缝检测使用深卷积神经网络,”学报》第23届IEEE国际会议上图像处理、ICIP 2016凤凰,页3708 - 3712年,阿兹,美国,2016年9月。视图:谷歌学术搜索
y气,张,l .秦et al .,“对冲深度视觉跟踪特性,”IEEE模式分析与机器智能, 2018年。视图:谷歌学术搜索
n .斯利瓦斯塔瓦辛顿,a . Krizhevsky Sutskever,和r . Salakhutdinov”辍学:一个简单的方法来防止神经网络过度拟合,“机器学习研究杂志》上,15卷,不。1,第1958 - 1929页,2014。视图:谷歌学术搜索|MathSciNet
r . Tibshirani“回归通过套索收缩和选择,”英国皇家统计学会杂志》:系列B(统计方法),卷。58岁的没有。1,第288 - 267页,1996。视图:谷歌学术搜索|MathSciNet
p . Buhlmann和s . van de吉尔高维数据的统计数据,施普林格系列统计,施普林格,纽约,纽约,美国,2011年。视图:出版商的网站|MathSciNet
n·m·Nasrabadi”模式识别和机器学习电子杂志的成像,16卷,不。4 p。049901年,2007年。视图:出版商的网站|谷歌学术搜索
答:Christmann D.-X。周,”鲁棒性的正规化成对学习方法基于内核,“杂志上的复杂性37卷,1-33,2016页。视图:出版商的网站|谷歌学术搜索|MathSciNet
Abhishake和美国Sivananthan Multi-penalty正规化在学习理论中,“杂志上的复杂性36卷,第165 - 141页,2016年。视图:出版商的网站|谷歌学术搜索|MathSciNet
y LeCun (l . Bottou y Bengio, p . Haffner“Gradient-based学习应用于文档识别,”IEEE学报》,卷86,不。11日,第2323 - 2278页,1998年。视图:出版商的网站|谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”学报》第26届年会在神经信息处理系统(捏12)太浩湖,页1097 - 1105年,内华达州,美国,2012年12月。视图:谷歌学术搜索
d . j . t . Wang, a·科茨和a . y . Ng”与卷积神经网络的端到端文字识别,”21国际会议的程序模式识别(ICPR 12)2012年11月,页3304 - 3308。视图:谷歌学术搜索
a . Bissacco m·康明斯y Netzer, h .乃文“PhotoOCR:在不受控制的条件下,阅读文章”学报》2013年第14 IEEE计算机视觉国际会议上,ICCV 201312月,页785 - 792,澳大利亚,2013年。视图:谷歌学术搜索
y邓、a . Kanervisto和a . m .,“你得到的是你看到的:一个视觉标记反编译器,”2016年,https://arxiv.org/abs/1609.04938v1。视图:谷歌学术搜索
彭译葶。李和s . Osindero”递归网与关注建模OCR复发在野外,”学报2016年IEEE计算机视觉与模式识别会议,CVPR 2016,页2231 - 2239,美国,2016年7月。视图:谷歌学术搜索
坟墓,s·费尔南德斯、f·戈麦斯和,的j。施密德胡贝尔表示“联结主义时间分类:标签不分段序列数据与复发性神经网络”ICML学报2006:23日国际会议上机器学习美国,页369 - 376年,2006年6月。视图:谷歌学术搜索
b . k . Wang Babenko, s . Belongie“的端到端场景文本识别”《IEEE计算机视觉国际会议(ICCV 11)IEEE,页1457 - 1464年,巴塞罗那,西班牙,2011年11月。视图:出版商的网站|谷歌学术搜索
l·纽曼和j . Matas”面向场景文本定位和识别中风检测”学报14 IEEE计算机视觉国际会议(ICCV 13)2013年12月,页97 - 104。视图:出版商的网站|谷歌学术搜索
彭译葶。李,a . Bhardwaj w . Di,诉Jagadeesh这位和r . Piramuthu”场景文本识别,提出歧视功能池”美国27日IEEE计算机视觉与模式识别会议,CVPR 2014美国,页4050 - 4057年,2014年6月。视图:谷歌学术搜索
x呗,c .姚明,w . Liu”学会了多尺度表示场景文本识别,”《IEEE计算机视觉与模式识别会议,第4049 - 4042页,2014年。视图:谷歌学术搜索
j . Almazan a Gordo a·福尔和e . Valveny”与嵌入属性,发现和识别”IEEE模式分析与机器智能,36卷,不。12日,第2566 - 2552页,2014年。视图:出版商的网站|谷歌学术搜索
j . A . Rodriguez-Serrano A . Gordo和f . Perronnin”标签嵌入:文字识别的节俭的基线,”国际计算机视觉杂志》上,卷113,不。3、193 - 207年,2015页。视图:出版商的网站|谷歌学术搜索
答:坟墓,m . Liwicki费尔南德斯,r . Bertolami h .煤仓和,的j。施密德胡贝尔表示“小说联结主义无约束手写识别系统”,IEEE模式分析与机器智能没有,卷。31日。5,855 - 868年,2009页。视图:出版商的网站|谷歌学术搜索
m . Jaderberg k . Simonyan a Vedaldi, a . Zisserman”阅读文本与卷积神经网络在野外,”国际计算机视觉杂志》上,卷116,不。1,1,2016页。视图:出版商的网站|谷歌学术搜索|MathSciNet
a . Hannun c, j·卡斯珀et al .,“深演讲:扩大端到端语音识别”,https://arxiv.org/abs/1412.5567。视图:谷歌学术搜索
d . Amodei s Ananthanarayanan r . Anubhai et al .,“深演讲2:端到端在英语和普通话语音识别,”国际会议上机器学习,第182 - 173页,2016年。视图:谷歌学术搜索
,的坟墓和j .。施密德胡贝尔表示“与多维复发性神经网络离线手写识别,”《22日年会在神经信息处理系统中,少量的200812月,页545 - 552,加拿大,2008。视图:谷歌学术搜索
a . Ul-Hasan s b·艾哈迈德·拉希德,f . Shafait和t . m . Breuel“脱机打印乌尔都语nastaleeq脚本识别与双向LSTM网络”12日国际会议文档的程序分析和识别,ICDAR 2013美国,页1061 - 1065年,2013年8月。视图:谷歌学术搜索
b .史,x呗,c .姚明,“基于图像序列的端到端可训练的神经网络识别及其应用场景文本识别,”IEEE模式分析与机器智能,39卷,不。11日,第2304 - 2298页,2017年。视图:出版商的网站|谷歌学术搜索
b .史,x呗,c .姚明,“基于图像序列的端到端可训练的神经网络识别及其应用场景文本识别,“CoRR abs / 1507.05717,https://arxiv.org/abs/1507.05717。视图:出版商的网站|谷歌学术搜索
m . Busta l·诺伊曼和j·马塔斯“深TextSpotter:端到端可训练的场景文本定位和识别框架,”学报16 IEEE计算机视觉国际会议上,ICCV 2017,页2223 - 2231,意大利,2017年10月。视图:谷歌学术搜索
p .他黄w . y .乔,c . c .阿来和x唐,“阅读场景文本深陷卷积序列,”学报30 AAAI会议上人工智能,AAAI 2016,页3501 - 3508,美国2016年2月。视图:谷歌学术搜索
d . Bahdanau k .赵,y Bengio”神经由共同学习对齐和翻译,机器翻译”https://arxiv.org/abs/1409.0473。视图:谷歌学术搜索
j .英航诉Mnih, k . Kavukcuoglu“多个物体识别与视觉注意力,”https://arxiv.org/abs/1412.7755。视图:谷歌学术搜索
k .徐j·l .英航r . Kiros et al .,”节目,参加并告诉:神经图像标题代视觉注意力,”美国第32机器学习国际会议上,ICML 2015,页2048 - 2057,法国,2015年7月。视图:谷歌学术搜索
m . Jaderberg k . Simonyan a Zisserman, k . Kavukcuoglu“空间变压器网络”学报》第29届年会在神经信息处理系统中,少量的201512月,页2017 - 2025,加拿大,2015。视图:谷歌学术搜索
林t, p . Goyal r . Girshick k .他和p .美元,“焦损失密集的对象检测,”学报2017年IEEE计算机视觉国际会议(ICCV)威尼斯,页2999 - 3007年,2017年10月。视图:出版商的网站|谷歌学术搜索
彭译葶。李和s . Osindero”递归网与关注建模ocr复发在野外,”IEEE计算机视觉与模式识别会议(CVPR),2016年。视图:谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”学报2016年IEEE计算机视觉与模式识别会议,CVPR 20162016年7月,页770 - 778。视图:谷歌学术搜索
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
f . a .蒙古包,n . n . Schraudolph,,的j。施密德胡贝尔表示“学习与LSTM复发性网络精确计时,”机器学习研究杂志》上,3卷,不。1,第143 - 115页,2003。视图:出版商的网站|谷歌学术搜索|MathSciNet
j .周和w·许”,端到端使用复发性神经网络学习的语义角色标注,”协会学报》第53届计算语言学和第七届国际联合会议上自然语言处理(卷1:长论文),第1137 - 1127页,北京,中国,2015年7月。视图:出版商的网站|谷歌学术搜索
y Bengio、p . Simard和p . Frasconi”学习与梯度下降的长期依赖性是困难的,”IEEE神经网络和学习系统,5卷,不。2、157 - 166年,1994页。视图:出版商的网站|谷歌学术搜索
r . Pascanu t Mikolov, y Bengio“递归神经网络,训练的难度”学报》第30届国际会议在机器学习,ICML 2013美国,页2347 - 2355年,2013年6月。视图:谷歌学术搜索
g·e·达尔t . n . Sainath g·e·辛顿,“改善深层神经网络使用纠正LVCSR线性单元和辍学”学报》第38届IEEE国际会议音响、演讲,和信号处理(ICASSP 13)2013年5月,页8609 - 8613。视图:出版商的网站|谷歌学术搜索
j·s·马缰绳,“前馈网络分类输出的概率解释的关系统计模式识别”Neurocomputing (Les弧,1989)卷,68年,页227 - 236,Neurocomputing,施普林格,柏林,德国,1990年。视图:谷歌学术搜索
y晨光,“chinese_ocr”, 2018年,https://github.com/YCG09/chinese_ocr。视图:出版商的网站|谷歌学术搜索
Sutskever, j . Martens g·达尔,g .辛顿”在初始化和动量在深度学习的重要性,”国际会议上机器学习2013年6月,页1139 - 1147。视图:谷歌学术搜索

复杂性