文摘
工业商品包装的标签通常包含重要数据,如生产日期、厂家和其他大宗商品相关信息。因此,这些标签是必不可少的对于消费者购买商品,帮助商品监管,揭示潜在的产品安全问题。因此,包装标签检测、产品标签标识的先决条件,是一个非常有用的应用程序,在过去的几十年中取得了可喜的成果。然而,在复杂的工业场景,传统检测方法往往不能满足要求,受到许多准确性和效率低的问题。在本文中,我们提出一个multifeature快,引起算法使用建议和语义分割的结合区域。该算法是一种引起有效和快速multifeature文本检测器(称为AEMF)。该方法是由融合彼此分割的树枝和检测。基于原始算法只能检测文本在任何方向,可以检测不同形状有更好的精度。与此同时,该算法还对文字检测效果更好。算法评估使用ICDAR2015、CTW1500 MSRA-TD500公共数据集。 The experimental results show that the proposed multifeature fusion with self-attention module makes the algorithm more accurate and efficient than existing algorithms. On the MSRA-TD500 dataset, the AEMF algorithm has an F-measure of 72.3% and a frame per second (FPS) of 8. On the CTW1500 dataset, the AEMF algorithm has an F-measure of 62.3% and an FPS of 23. In particular, the AEMF algorithm has achieved an F-measure of 79.3% and an FPS of 16 on the ICDAR2015 dataset, demonstrating the excellent performance in detecting label text on industrial packaging.
1。介绍
近年来,随着工业的不断发展,商品的质量和安全,吸引了越来越多的关注。因此,从产品标签文本信息需要确认。特别是,生产日期的信息,制造商和位置是至关重要的指标抽样监督管理机构监督或监管产品生产标准。因此,工业产品标签上的文本检测在确保工业产品中起着重要作用的安全监督和保护。
至于阅读产品标签上的字符,传统方法适用于有经验的工人的体力劳动,而标签数据然后手动输入电脑。这种检测方法是低效的,劳动密集型的,包含了许多错误,未能满足流水线操作和自动化生产发展的需要。随着自动化技术的出现,比如深度学习,标签检测自动化变得可靠和有效的。文本检测技术是至关重要的图像信息的分析和提取。关键在于区分和定位复杂的文本区域和背景区域分开。传统的文本检测算法通常采用手工特征,如边缘梯度,梯度方向直方图,和局部二值化候选区域划分成文本和非文本区域。然而,这些手工制作的特性无法准确地描述或捕获复杂自然场景文本域。与此同时,现有的方法也有限的文本定位在复杂的工业环境。
为了克服这些问题,本文提出了一种新的检测算法基于区域的建议和语义分割,通过multimodel集成。而前者是用来预测候选文本框,后者是检测候选文本区域。最后,我们生成预测结果通过聚合结果获得最终的文本框。本文的贡献然后总结如下:(我)与现有的算法相比,表现为长文本,该算法提高了后面的通道数量卷积层,长文本,提高了检测能力。(2)分割的算法由分支机构和检测部门。更准确地说,细分部门基于self-attention策略,而检测部门利用多分辨率特性融合(8]。最后,两个分支的相互融合是用于检测图像中的文本更快更有效率。(3)该算法结合了区域建议和语义分割为测试检测,从而提高检测精度和速度。
2。相关工作
场景文字检测收到越来越多的关注在计算机视觉中,文本检测的技术引入工业产品标签检查。目前,许多方法已经提出了标签检测任务,它主要分为两个方面:角色定位(基于面积的建议)和角色定位(使用语义分割)。对于自然场景文本检测,提出了一种网络结构基于Faster-RCNN [2]。算法由旋转区域建议(RRP),旋转的池(RRoIP)和交叉联盟(借据)增强倾斜文本的检测;后,text-attentional CNN应用于改善候选文本组件的分类,从候选文本组件中提取卷积功能区域,而不是手工制作的功能。另一个工作(3)利用高、低维特征同时检测不同大小的文本片段,这提高了检测的鲁棒性对于大型和小型的文本。此外,廖et al。11)提出了一个可调网络结构(文本框)文本检测不同大小比率。网络结构可以有效地检测不同字体大小根据不同的卷积层的多尺度特征。
然而,大多数现有的方法,基于文本区域的建议或文本组件建议,仅限于检测固定矩形文本字段或四边形区域(5]。另一个问题是,通常在自然场景文本有不同的形状,字体大小(纵横比),和候选人帧大小。然而,传统方法无法近似匹配实际文本实例,而他们的工作框架回归只能作细微调整候选框的位置,从而减少了检测性能。
提出了一些方法来解决自然场景文本检测使用的概念语义分割。例如,张、张(16)充分利用卷积网络(FCNs)预测文本分割图,然后女士的文本检测方法应用于过滤和获得更精确的文本内容;周(10]提出了东模型使用upsampling策略融合特征从不同的层次来生成全球地图功能,这有助于检测文本框的大小规模;PixelLink文本检测模型提出了(17),生成文本位置使用最轻微限制从minAreaRect矩阵;徐和王20.)使用的文本方向场代表不规则图像特性,提出了一个检测模型的文本向量场。主要的思想是获得代表像素的每个文本实例之前扩大最终获得文本实例。该方法从多个角度提高文本检测的准确性。雪和陆19)设计了一种多尺度形状回归预测模型。首先,一个密集的文本实例获得边界定位文本在不同的方向和形状。然而,缺点在于它不能找到文本框的位置利用语义准确分割。
3所示。主要的方法
我们这项工作的主要动机是提高文本分类的性能和特征检测通过联合训练。首先,我们描述了该算法的网络结构。然后,我们提出了self-attention机制下细分分支。随后,我们建议下的多分辨率特性融合检测分支。最后,目标函数是由融合制定两个分支。
3.1。网络体系结构
该方法由两部分组成,包括区域的建议和语义分割。因此,采用网络结构也由两部分组成,一个用于文本分割,另一个是用于字符检测。此外,确切的baseNet用作骨架模型,虽然两个组件设计分享卷积和池层(见图1)。
细分部门类似于东部算法(10]。东的问题是最大的文本实例大小正比于接收到的网络领域,这限制了网络的能力来预测长文本区域。为了克服这一问题,本文self-attention模块添加到每个卷积层,用于有效地扩大检测领域通过考虑的情况下长文本。
检测部门的灵感来源于Faster-RCNN算法(2]。Faster-RCNN字符检测的核心过程是使用锚框架以适应真正的通过该地区建议网络框架。目的是定位一个区域包含的字符数较高的概率,在这些区域检测字符的提取特征。Faster-RCNN的问题是检测性能是由锚帧和特征选择1]。在本文中,首先,我们引入RoI(的)池聚合信息从不同的地区。与此同时,采用多分辨率特性来提取候选区域的更多回旋的特性通过避免误导和错误检测。其次,检测分支也由一个地区的提议和分割的一部分,用于预测同时字符类别和位置(27]。最后,检测通过考虑之间的权衡决定当前目标探测和所需的文本。最终,提出AEMF算法结合了与目标检测分割分支分支。
3.2。注意机制
在分割分支,我们考虑增加文本实例的最大大小。相比之下,现有的算法,如东部,有限制的大小正比于接收到的网络领域,减少了预测能力包括更多的文本区域。
为此,我们的方法引入了一个机制(注意21]提取文本和位置特征,以确保目标探测领域的报道。更准确地说,关注生成模块根据文本功能之间的空间关系。让空间注意力地图 编码的地方强调或抑制。
在本文中,我们使用两个池操作总结特性的信道信息作战地图前生成两个2 d地图: 和 ,代表平均池特性和最大池特性对整个通道,分别。然后,2 d空间注意力地图是由互相连接的两个二维地图和卷积在一个标准的卷积层(12]。简而言之,空间注意计算如下: 在哪里乙状结肠激活函数和吗是一个卷积核的卷积操作7×7层。池平均和最大池的两个操作然后转发到一个共享的网络生产我们的注意力地图频道 ,虽然这共享的网络由一个多层感知器(MLP)和一个隐藏层。为了减少参数的开销,激活大小设置为隐藏 ,在哪里降低率(13]。简而言之,该频道的关注首先计算每个描述符通过共享网络应用,然后利用元素求和方法合并输出特性向量如下: 在哪里 和 分别是可训练的重量。最后,在特征融合的过程中,一个中间功能映射 作为输入。然后,最后精制输出计算使用1 d通道注意地图吗 ,和2 d空间注意力地图 如下: 在哪里是相应的矩阵元素的乘法。注意,注意通道的值在[0,1]之间,这有助于加强价值的图像信息和抑制无用的信息。
3.3。多分辨率特征融合
在检测部门的池层,生成的框架的RPN(地区建议网络)从输入图像的坐标映射到conv_5(这是第五卷积层)。然后,提取相应的地区分为7水平和垂直。结果,最大连接池是在每个部分获得7×7×512固定大小的区域。然而,conv_5高层语义信息的低分辨率特性映射,而conv_3(第三卷积层)高分辨率和详细的位置信息。如果拟议的框架的特点从conv_5特性图,提取的高分辨率特性conv_3浅特征地图将被浪费23]。因此,本文改进了原始的区域利益共享层的组合特征提取conv_5和conv_3。首先,池操作应用于该地区的兴趣conv_5和conv_3获得特征图的大小7×7×512和7×7×256。第二,这两个特征图是缝在同一维度获得功能大小7×7×768的地图。最后,我们使用1×1卷积核卷积缝功能映射,加入他们的操作之前Concat和添加26]。特别是Concat特性融合达到叠加的维数(25]。另一方面,添加功能融合是用来增加在每个维度的信息,之前是通过添加相应的特征图进行到下一个卷积操作(参见图2)。因此,Concat和添加所示的卷积方程(4)和(5),分别为: 在哪里和是单独的输出通道,和输入通道,的卷积核是相应的通道。
注意,添加功能融合共享卷积有少数量的参数和计算工作。此外,维度的增加不仅可以减轻梯度消失和增强功能转移也实现功能重用(4]。因此,使用Concat特征融合的一部分地区的利益。
总体而言,该方法池地区的兴趣多通道脑回的层,然后特征图上总结功能频道维度通过concat拼接(6]。执行相同的卷积缝特性图,结合缝功能,高层语义信息,和浅的详细位置信息7]。这提出了卷积结果,有助于维护特性图的大小和保护功能的信息。
3.4。损失函数
损失函数可以表示如下: 在哪里和表示部分的损失和几何图形,分别表示两者之间的重要性损失(在这篇文章中,设置为1)。在最先进的检测管道,目标对象分布不平衡的问题解决平衡采样和否定。尽管这可能改善网络性能,它也引入了更多的优化和复杂管道的参数。促进一个更简单的培训过程中,我们采用类平衡叉(15)有以下: 在哪里 的预测价值部分情节和吗是实际的潜在价值。参数积极的和消极的样本之间是平衡的因素:
此外,生成精确的文本对大型和小型几何预测文本区域,我们介绍的回归部分旋转矩形借据损失函数,也就是说,固定的对象不同的尺度。借据的损失,我们有 在哪里是预测几何,是相应的实际形状,和宽度和高度相交的矩形 计算如下: 在哪里d1,d2d3,d4从一个像素的距离上,右,下,左边界对应的矩形。下面的公式给欧盟区:
接下来,旋转角损失计算如下: 在哪里的预测的角度旋转和是实际的价值。最后,总可以计算几何损失如下:
在这篇文章中,在实验设置为10。
4所示。实验
4.1。实验环境
这个实验是进行以下设置:硬件配置CPU是一个八16-threaded 19 - 9900 k,与主要的5 GHz频率和32 GB内存;至于GPU设置中,我们使用NVIDIA RTX 2080 ti 11 GB的视频内存。
4.2。基准数据集
我们实验标签文本检测在工业园区环境中进行使用三个公共数据集,包括ICDAR2015 MSRA-TD500和CTW1500。他们的详细描述如下。
ICDAR2015。数据集共有1500照片。我们把培训1000人,其余的用于测试。这个数据集是由偶然的场景文本阅读2015年从ICDAR竞争。背景场景是一个随机的街道或没有集中购物中心由谷歌眼镜拍摄的照片。它旨在帮助文本提高泛化性能检测和识别模型。
MSRA-TD500。300年的数据集是由训练和200个测试图像。这是一个文本检测数据集由华中科技大学在2012年。图像数据集包含照片等场景的办公室,购物中心,和街道。目标文本是由中文和英文的不同的方向。
CTW1500。该数据集是中国自然场景文本图像数据集由清华大学提供的。这是来自腾讯街景和具有高度的多样性。城市街景的照片包括纯文本、文本、乡镇街道视图文本,文本在弱照明条件下,小文本,部分显示文本。
4.3。骨干网络
在本文中,我们使用两个骨干网络培训,VGG16 ResNet50。其中,VGG16来自VGGNet [29日),这是一个卷积神经网络。VGGNet的主要贡献是探索的深度之间的关系一个卷积神经网络及其性能。通过不断叠加3×3卷积内核,VGGNet大大增加网络的速度。VGGNet有6个网络,A A-LRN B, C, D, E .其中,D和E通常被称为VGG16 VGG19。VGG16有5个回旋的部分,而每一部分包含2或3卷积层,和每个部分都有一个最大池层结束时减少图像大小。卷积核的数量在每一段是相同的(由前往后),这是64-128-256-512。知觉领域增加了叠加的多个卷积核大小3×3。
ResNet50是剩余的一部分网络(30.](ResNet),这是一个很深的卷积神经网络基于剩余单位。由于其简单性和实用性,后来许多研究已经完成基于ResNet50或resnet - 101。优点是这个骨干网使避免梯度消失当层非常深,使模型训练和更容易收敛。
4.4。定量结果
下面的图表显示的例子表现AEMF算法在不同数据集从各种环境,包括ICDAR2015数据集(见图3(见图),MSRA-TD500数据集4(见图),CTW1500数据集5)。观察到,AEMF算法可以执行文本检测模棱两可,不均匀,和多语言场景,以及不同的角度。显然,结果表明,AEMF算法达到一个高度精确和稳定的检测。
(一)
(b)
(一)
(b)
(一)
(b)
4.5。比较先进的
以下三个表显示召回的比较,准确性,平均分数,和帧每秒(FPS) AEMF算法,使用VGG16和ResNet50-based骨干网络,对现有的方法。更准确地说,我们有R回忆,P用于精密准确,FF-measure。
表1显示了文本检测的结果使用AEMF ICDAR2015数据集的算法。回忆的准确性(R),我们观察到我们的算法执行最好的在所有算法。下达到77.3%召回ResNet50-based骨干网,高于3.7% (10]。然而,在VGG16-based骨干网络,我们的算法已经召回72.3%,低于东部和SegLink召回,但比Faster-RCNN高出20.4%。与此同时,精度(P),该算法执行最好的与现有的算法相比,导致ResNet50的骨干网下84.2%的准确率。我们也观察改进了1.5%比Faster-RCNN东部和10%的好转。也与CTPN相比,该算法显著提高了10.2%。此外,AEMF算法比SegLink高10.1%。此外,F-measure,算法具有最高的平均分数在所有算法使用ResNet50骨干网络。此外,该算法还实现了FPS的16 ResNet50-based骨干网络,这优于其他算法。
表2报告MSRA-TD500-based数据集上的所有算法的结果。回忆精度(R),我们观察到我们的算法执行最好的在所有算法下65.3%的召回ResNet50-based骨干网络,这是相比高出3.7% (10]。然而,使用VGG16-based骨干网络,我们的算法已召回的62.3%,这是高于东部和CTPN的回忆;精度(P),AEMF算法执行最好的在所有比较与ResNet50算法准确率达到了83.3%。我们也观察改进了1.1% (9和提高了1.6%10]。最后,对F(F-measure),该算法实现了平均分数为72.3%,高于2.1%的10]。此外,它的FPS是最好的与其他检测算法。
同样的,表3总结了基于CTW1500文本检测的结果数据集对所有检测算法。回忆的准确性(R)的召回率AEMF算法使用ResNet50的骨干网是80.3%,排名第一的地方在所有检测算法。再次的FPS AEMF算法比目前大多数参与检测算法。特别是,该方法是所有参与算法高出23%。
总的来说,AEMF算法达到最好的性能ICDAR2015基于ResNet50的骨干网络数据集。再次,该算法实现了召回率为77.3%,准确率为84.2%,平均分数的79.3%,16的每秒帧速率。其余的两个数据集,我们的方法达到第二个最佳的检测性能。然而,我们的FPS结果总是最高的,这表明该算法是非常有效的处理即将到来的视频帧。高处理速度补偿我们使用数据集MSRA-TD500和CTW1500检测精度。总的来说,它是经验证实,该算法能够检测文本在不同方向上从不同的环境。另一个优势是,我们的方法能够用于文字检测与不同的形状。
5。结论和未来的工作
由于表现不佳的文本检测从当前工业园区环境,本文提出了一种引起有效和快速multifeature文本检测器(AEMF)。该算法是基于区域的融合的建议和语义分割特征(28]。在该地区的建议,通过multifeature融合特征信息提取和保存。同时,语义分割实现使用一个注意力机制,这有助于在提炼有用的信息和抑制无用的内容。最后,结合区域建议和语义分割是进行聚合,以形成最终的检测。实验结果表明,该算法提高了文本检测在多个方向和形状识别的性能从复杂的环境;此外,该算法还提高了文字同时检测的准确性。
未来的工作主要包括以下几个方面:(1)弧形长文本的检测可以考虑运用其他数据融合策略;(2)我们可以采用较轻的模型来提高检测速度;和(3)我们也可以将该算法应用到其他大型试验检测数据集。
数据可用性
ICDAR2015共有1500图片,1000年培训和其他测试。提供的数据集是一个公共数据集的场景文本阅读(INCENTAL场景文本)添加到由ICDAR2015 RRC的竞争。数据集是一个随机的街道或广场被谷歌眼镜无重点,旨在帮助文本检测和识别模型提高泛化性能。MSRA-TD500是300 200训练图像和测试图像的数据集提供的文本检测2012年华中科技大学。拍照的图像数据集包括办公室,购物中心,和街道,图片中的文本是由中文和英文的不同的方向。CTW1500自然场景文本图像数据集的中国由清华大学提供的。城市街景图片包括纯文本、文本、乡镇街道文本,文本在低照明条件下,遥远的文本,和部分显示文本。收集到的图像从腾讯街景和高度不同。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作得到了国家自然科学基金(批准号61873004)。