弱监督方法在矿石泥检测基于主动学习

文摘

自动检测泥浆在铝土矿矿石是重要和有价值的,我们可以提高生产力和减少污染。然而,泥浆和矿石的区别在一个真实的场景是具有挑战性的相似的形状,颜色和纹理。此外,培训深入学习模型需要大量的标签样本,这是昂贵和费时。针对具有挑战性的问题,提出了一种新颖的基于深弱监督方法主动学习(AL),名叫YOLO-AL。方法使用YOLO-v3模型为基本探测器,这是初始化pretrained女士可可数据集的权重。然后,艾尔framework-embedded YOLO-v3模型构造。铝过程中,迭代的回馈都最后几层YOLO-v3模型与最有价值的样本,选择的信心不足(LC)策略。实验结果表明,该方法能有效检测矿石中的泥浆。更重要的是,该方法可以明显降低标签样本并没有减少检测的准确性。

1。介绍

铝土矿通常是混合着大量的泥浆肿块,氧化铝矿石的主要杂质。它需要大剂量的化学试剂(如碱)的去除泥浆,这就增加了生产成本和环境污染。更严重的是,泥浆高度粘性,它可能块生产设备和影响生产的稳定性。目前,除泥仍然依靠传统的手工操作。所以,自动检测和去除泥浆与人工智能技术是重要的和有价值的矿石生产降低成本和环境污染。

然而,它是具有挑战性的区分泥浆和矿石在真实的场景。原因在于几个方面。(1)由于泥浆和矿石都以块的形式,形状差异不明显。(2)由于矿石通常不能清洗彻底,几乎没有区别的泥浆和矿石颜色和纹理(见图1)。即使有经验的专家需要仔细识别区分。(3)一个图像通常包含多个大小不同的泥浆显著(直径50毫米至500毫米)。(4)更严重,因为来自不同矿山的矿石有不同的成分和内容、颜色和质地有明显差异。

(一)

(b)

目前,没有特殊矿石泥检测的方法。但我们可以受益于公共对象检测方法通常基于深层神经网络和训练的数量完全标记样本。有两种典型方法:region-proposal-based法和回归方法。前两阶段也称为方法。地区建议算法发现候选对象地区在第一阶段,然后一个CNN网络提取特征和分类在第二阶段中候选对象。这些方法包括R-CNN [1],快速R-CNN [2),快R-CNN (3),SPP-NET (4),SSD (5),R-FCN (6和最新的级联RCNN7]。后者将目标检测作为回归问题,同时预测位置和类别。最具代表性的是YOLO深层意思神经网络,包括YOLO[意思8),YOLO9000 (9),YOLO-v3 [10]。相比之下,这两个同时兴起的典型方法,前者是更准确的而后者是更快的整体。

有几个问题直接使用上述方法泥检测。首先,由于泥浆和矿石很难区分,常用的目标检测方法不能给一个高度精确的结果。它需要一个特殊的和更精细的模型精度高。其次,上述方法是强烈的监督,这需要大量的标记样本训练模型。由于相似性泥浆和矿石在现实场景中,即使是有经验的专家需要仔细识别区分。所以,完全是昂贵和费时的标签大量的样本。最后但并非最不重要,因为来自不同矿山的矿石有不同的颜色和纹理,它需要一个模型,可以轻松地从我转移到另一个,这是重要的泥检测。

为了解决具有挑战性的问题,提出了一种基于深度弱监督方法主动学习(AL),名叫YOLO-AL。方法使用YOLO-v3模型为基本探测器,这是初始化pretrained女士可可数据集的权重。然后,艾尔framework-embedded YOLO-v3模型构造。在铝框架,它迭代的回馈都最后几层YOLO-v3模型最重要的样本。

本文在矿石自动检测泥浆的重要问题,这是很少研究。总结了贡献三个方面。(1)我们提出一个基于深弱监督方法检测矿石泥,主动学习,广泛地减少人类劳动的注释训练数据的同时实现性能可比充分监督学习方法。(2)我们提出了一个基于信心不足的样本选择方法(LC)策略,选择最有价值的样品根据别人。对象的信心与分数计算预测的YOLO-v3探测器。(3)由于该方法只对最后几层YOLO-v3模型的最有价值的样本,它可以很容易地从一个我转移到另一个地方。

主动学习(11,12]假定的真实标签标记实例可以查询从数据库(13]。为简单起见,假设标签成本只是取决于查询的数量。因此,主动学习的目标是尽量减少查询的数量。,训练好的模型可以的标签成本最小化。给定一组小的标记数据和丰富的无标号数据,主动学习尝试选择最有价值的无标号实例查询(13]。

主动学习总是使用在场景数据收集方便样本标签是昂贵的。卡普尔et al。14)结合主动学习与高斯随机过程为对象分类。杨et al。15)使用AL训练一群完全卷积网络(FCN)生物医学图像分割。太阳et al。16)提出了一个铝框架基于MRF模型spectral-spatial高光谱图像的分类。杨et al。17)提出了一个semisupervised批处理模式识别多级主动学习算法的视觉概念,而选择不确定性抽样与多样性最大化。达特Jain和好莱坞18)提出了一个活跃的学习方法对自然场景图像分割,达到先进的水平性能使用大大减少训练数据。

最近,弱监督学习,训练集只需要二元标签指示是否一个图像包含的对象,吸引了越来越多的关注。汉等人提出了一个新颖的对象检测框架结合弱监督学习和高级特性学习(19]。周等人开发了一个深模型转移到从遥感图像中提取高层特征对象检测pretraining卷积神经网络模型在大规模标注数据集,然后将通过特定于域的微调(20.]。程。等人训练有素的旋转不变和费舍尔歧视CNN模型旋转对象检测通过施加旋转不变规范和费舍尔歧视规范目标函数(21]。程。等人提出了一个新的层旋转不变的基础上,现有的CNN架构和学到了旋转不变CNN从遥感图像目标检测(22]。

然而,很少有论文为对象检测使用主动学习,特别是对于low-distinguishable对象(如泥和矿石)。本文提出一个基地一体化方法YOLO-v3矿石泥检测模型。YOLO-v3模型检测泥浆和预测它的类绑定信心信心和盒子。基于这些信心,艾尔选择最有价值的样品标签。逐渐增加的标签样本,更准确YOLO-v3模型训练。该方法将带来至少有两个好处。(1)只选择最有价值的样品标签的专家,这将减少训练样本的数量。(2)自专家只需要检查和修改标签,而不是重新标记,标记的工作是进一步降低。

3所示。方法

3.1。整体的框架

的总体框架提出了深刻的主动学习方法,命名为YOLO-AL,如图2,其中包含四个基本模块:YOLO-v3模型微调,对象检测、样本选择和鉴定。

如图2,该方法是一个迭代的培训过程。在一开始,我们开始与重量pretrained YOLO-v3模型女士可可数据集。然后,它对最后几层的小标签泥浆和矿石样品新泥探测器。泥浆探测器,所有未标记样本测试和信心给每个对象。基于信心,样本选择方法选择最有价值的样品发送给专家。专家检查和修改这些样本的标签,并将这些样本添加到标记训练集,更新训练集,YOLO-v3模型将再次调整。逐渐增加的过程迭代标签样品直到达到终止条件。

3.2。YOLO-v3模型微调

YOLO-v3模型提出了在10)的通用对象检测自然场景。由于其优异的性能在速度和准确性,我们使用YOLO-v3探测器。我们初始化YOLO-v3模型与pretrained权重女士可可数据集(http://images.cocodataset.org)。然后,我们调整的最后一层YOLO-v3迭代模型的框架。

作为Yosinski et al。23)指出,微调深神经网络可以保持一般的特性,克服数据集之间的差异提取特别高的特性,帮助我们快速构建一个新的模型在一个新的数据集。在这篇文章中,我们冻结了Darknet-53 YOLO-v3和调整最后一层如图3。值得注意的是,Darknet-53具有更多层次和重量参数比层在虚线框中。

在图3,双单元由三层组成:卷积(Conv),批量标准化(BN)和漏ReLU活化层。ResUnit剩余结构的单元。Resn由补零,双,ResUnit。DBLU单元由一个双层和一个upsampling层,而DBLC由双层和一个回旋的层。Concat层结合特性在不同的尺度上。

YOLO-AL损失函数的定义如下: 在哪里和的位置,而和是预测框的宽度和高度。是网格的数量,即通常是设置为 , ,和从粗到细的尺度。是预测信箱号码。被定义为和是相反的这是定义为

是二进制交叉熵:

是对象类的概率。 , ,和三方的比例。

3.3。样本的选择

样本选择策略的核心基地(24]。自提出方法如图2用于目标检测,样品选择策略的定义是基于预测的结果YOLO-v3探测器。它预测每个对象类的概率,在此基础上,我们可以计算出信心。如图4YOLO-v3预测向量包含3盒为每个网格地图的功能。每一个盒子都是预测的一个对象客体性分数和吗类分数吗n类。在这里,我们只考虑3类,即泥,矿石等。客体性分数表明这个箱子是否包含一个对象的可能性,即 ,而类分数是后验概率。所以,一个盒子的信心可以计算如下:

在艾尔,样本选择的策略决定样本标记的查询或专家。在本文中,我们考虑两种样本选择策略,随机选择(RS)和缺乏自信(LC)。

RS方法被称为被动选择方法与活跃的选择方法。在RS方法中,标记候选人选择随机没有任何活跃的标准。RS方法通常是作为基线比较活跃的选择方法。

LC方法选择样本与缺乏自信基于后验概率的类。当使用二进制的概率模型分类、LC方法选择样本的后验概率是0.5附近。在哪里意味着最可能的标签样本是和是未标记的数据集。具体根据YOLO-v3泥检测的问题, 实际上是在公式(5)。

如果一个候选人对象满足条件(7),它被认为是一个对象包含最有用的信息,应该作为训练样本的标签。考虑到模型训练的效率,我们显示泥浆对象按升序排序并采取第泥浆对象标签。如果有一个不确定的对象在一个图像,图像的标签放到一个数据集将推荐专家检查和修改标签。

因为图片推荐专家预测对象与标签,专家只需要修改类标签或盒子边界代替它们,这也将减少样品标签的工作。

3.4。该算法

YOLO-v3-based AL框架中提供了算法1。

	输入:
	(标签的训练图像样本集)
	(无标号图像集)
	(pretrained YOLO-v3模型)
	(示例增量)
	输出:
	(由艾尔法调整)
(1)	火车YOLO-v3模型标签的训练图像样本集和更新和YOLO-v3探测器。
(2)	每个图像的检测对象为每个对象和计算的信心。
(3)	泥浆对象在升序排序并采取第泥浆对象包含在图像是由样品组。
(4)	为每一个形象 ,专家检查对象标签或框绑定,使适当的修改。样本集的图像验证标签形式。
(5)	添加验证样本到当前的训练集和删除它们。
(6)	继续步骤1到步骤5到一组是null或达到指定的迭代次数。

4所示。数据集和实验设计

4.1。数据集描述

开放的女士可可(25]数据集用于pretrain YOLO-v3模型。它是下载http://images.cocodataset.org,其中包含80年12个主要类和子类。比较的泥浆和铁矿石矿石数据集,我们只专注于狗和猫COCO2017女士的数据集。狗和猫属于相同的主要类和有很高的相似性,这就像泥和矿石。可可女士的训练集包含4385张图片和5508标签盒狗与4768年和4114年图像标签框的猫。每个图像是608×608像素。

用于调整YOLO-v3model矿石数据集。这是我收集的一个真正的和标记的有经验的工人。由于实际生产是更关注更大的对象,没有标签对象与直径小于50毫米。它包含5683张图片,每张图片是720×640像素。矿石数据集也组织了可可女士的格式。不同于女士可可,矿石中的每个图像数据集包含矿物体,但部分包含泥浆对象。细节如表所示1。


	可可女士的狗和猫		矿石的数据集
	狗	猫	泥	矿石

图片	4385年	4114年	4375年	5683年
标签的盒子	5508年	4768年	14345年	45742年

如图5,矿现场数据集比女士更复杂的可可。一个图像通常包含多个泥浆和矿石与大规模的变化。非齐次泥浆使背景更加复杂。非均匀照明和矿石之间的遮挡和泥浆现场进一步复杂化。所以,检测从矿石泥比猫或狗检测更具挑战性。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

4.2。实验设计

为了验证该方法的有效性,本文设计的比较实验与YOLO-v3方法,YOLO-v3 (RS)方法,和YOLO-v3 (LC)。(1)YOLO-v3。我们与女士可可pretrain YOLO-v3模型数据集没有猫和狗样品和微调模型狗和猫的数据集和矿石数据集,分别。不同于YOLO-AL迭代方法,增加标签样本,它使用的所有样品一次培训罚款YOLO-v3模型。然后,我们观察YOLO-AL的检测性能和比较方法。火车YOLO-v3模型,我们将默认hyperparameters。训练和测试样本的比率是0.7和0.3,分别。实验结果如表所示2标识为一个红色的在图6。值得注意的是,所有样本用于模型的训练和测试,这是明显不同于YOLO-AL增加训练样本的方法。(2)YOLO-AL (RS)。YOLO-AL (RS)方法与RS策略随机选择样本进行训练。它将训练样本不加区别地,这是在实验1一样。所以,它们本质上是相同的。唯一的区别是,RS逐渐增加了标签样本,而YOLO-v3使用所有样品。然而,RS仍然可以发现到底有多少训练样本足够的培训模式。猫和狗的数据集和数据集,这个YOLO-AL (RS)与样本增量训练h= 50。为简单起见,做鉴定的实验示例查询。即未标记样本的标签是隐藏的,当所选样本发送给专家验证,从标签设置查询相应的标签。(3)YOLO-AL (LC)。YOLO-AL (LC)方法与LC策略选择样本。另一个设置是一样的YOLO-AL (RS)。

4.3。结果和分析

评估的有效性提出YOLO-AL模型,平均精度精度(美联社)和平均值(地图)。美联社措施边界框的质量测试集预测。如果一个预测框的借据与地面真理大于0.5,预测是真阳性(26]。


	狗和猫/美联社(%)		矿石/美联社(%)
	狗	猫	泥	矿石

YOLO-v3	72.5	72.5	73.8	66.4
YOLO-AL (RS)	72.9	72.4	73.7	66.5
YOLO-AL (LC)	72.8	72.6	75.1	68.3

为了避免检测性能的随机性,我们为每个方法执行五个实验。然后,我们计算的平均值和标准偏差映射到数字形式6和7,有色背景区域表示标准偏差浮动范围。

在数据6和7,x协调与增量样本数量h= 50,而y协调是地图。如图6聚合地图的三种方法没有明显的差异在狗和猫的数据集,也可以从表2。然而,所需的训练样本在拟议的方法远远低于那些YOLO,意思如表所示3。所需样品的三种方法是2350年,3100年和4400年,分别。YOLO-AL (LC)是大约53.4%的YOLO和70.5%的YOLO (RS)。意思意思


	狗和猫地图= 73.1%	矿石地图= 71.8%

YOLO-v3	4400年	4400年
YOLO-AL (RS)	3100年	2650年
YOLO-AL (LC)	2350年	1950年

矿石的数据集,YOLO-AL YOLO-AL (RS)是没有明显不同(LC)。然而,YOLO-AL的准确性(LC)高出1.5%。结果是惊人的由于复杂的场景和低矿石之间的歧视和泥浆。所需样品的三种方法是1950年,2650年和4400年,分别。YOLO-AL (LC)是大约44.3%的YOLO和73.6%的YOLO (RS)。意思意思

可以得出以下结论。(1)该方法的检测精度不低于YOLO-v3。(2)所需训练样本的方法显然是比YOLO-v3少。(3)该方法可以很容易地从一个我转移到另一个地方。一方面,该方法使用最有价值的样品调整模型,需要更少的标签样本。另一方面,矿山的区别是小于矿石数据集和可可数据集之间,所以它需要更少的标签样品我将模型从一个到另一个地方。

主要原因可能在于培训过程。艾尔(LC)最不确定的样本,可以选择最有价值的模型训练。换句话说,样品不能准确地“理解”当前的模型可以提供有意义的信息对提高模型精度。样品,无法准确地“理解”的当前模型只提供有意义的信息,甚至可以忽略。

另一个原因可能是阿尔LC策略可以防止overconcentrated样品在一定区域的特征空间,这可能会导致偏见的估计。

与模型训练方法,矿石数据集进行了测试。部分泥检测结果如图所示5。为了清晰、矿石对象的边框是隐藏在这里。尽管现场是复杂和泥浆和矿石只有稍微不同的颜色,质地,和形状,该方法能有效区分矿石和泥浆。

该方法的检测速度接近YOLO-v3。我们的个人电脑是64位的Windows 8.1系统,与英特尔酷睿i5处理器,2.60赫兹,8 GB RAM。可可数据集,检测速度是大约30 fps,矿石的数据集时,检测速度大约是28 fps。因为矿石的图像数据集是一个小比可可数据集。

5。结论和未来的工作

自动检测泥浆在铝土矿矿石是有价值的和具有挑战性的。提出了一种新颖的弱监督方法相结合的主动学习和YOLO-v3模型。选择最有价值的样本,采用信心不足(LC)策略根据预测对象的信心YOLO-v3探测器。然后,它对模型的过程,每一次有价值的样本。实验结果表明,该方法能有效检测矿石中的泥浆。更重要的是,该方法需要更少的标记样本多YOLO-v3没有减少检测的准确性,为注释训练数据广泛减少人类劳动。同时,该方法可以很容易地从一个我转移到另一个,这对泥浆检测的实际应用很重要。

在未来的工作中,我们将研究样本选择更合适的策略来进一步降低标签成本。此外,矿石含有更多类型的杂质将被考虑。

数据可用性

矿石图像和标记数据用于支持本研究的发现正在禁运而研究成果商业化。请求数据,本文的发表之后的12个月内,将被相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

本研究由湖南省教育科学研究基金支持部门(18 a376和XJK17BXX010号)和中国国家自然科学基金(没有。11701172)。

引用

r . Girshick j·多纳休、t·达雷尔和j·马利克”提出卷积网络精确的目标检测和分割,“IEEE模式分析与机器智能,38卷,不。1,第158 - 142页,2015。视图:出版商的网站|谷歌学术搜索
在r . Girshick“快速R-CNN。《IEEE计算机视觉国际会议(ICCV),页1440 - 1448,圣地亚哥,智利,2015年12月。视图:出版商的网站|谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”诉讼进展的神经信息处理系统加拿大蒙特利尔,页91 - 99,,2015年12月。视图:谷歌学术搜索
k . x张,他任美国,j .太阳”空间金字塔池深卷积网络视觉识别,”IEEE模式分析与机器智能,37卷,不。9日,第1916 - 1904页,2014年。视图:出版商的网站|谷歌学术搜索
d . w . Liu Anguelov, d . ErhanSSD:单发射击Multibox探测器。欧洲计算机视觉施普林格,可汗,瑞士,2016。
李y, j·戴,k .他和j .太阳”R-FCN:对象检测通过提出完全卷积网络,”诉讼进展的神经信息处理系统加拿大温哥华,页379 - 387,2016年12月。视图:谷歌学术搜索
z Cai和n .塞·伐斯冈萨雷斯,他的“级联R-CNN:深入研究高质量的目标检测,”学报2018年IEEE / CVF计算机视觉与模式识别会议,页6154 - 6162,盐湖城犹他,美国,2018年6月。视图:出版商的网站|谷歌学术搜索
j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一、实时检测,”学报2016年IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,页779 - 788年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
Redmon J。,Farhadi A., YOLO9000: Better, Faster, Stronger, arXiv preprint, 2017.
Redmon J。,Farhadi A., Yolov3: An Incremental Improvement, arXiv preprint arXiv:1804.02767, 2018.
m·m·克劳福德d Tuia, h·l·杨“主动学习:遥感数据的分类的价值吗?”IEEE学报》,卷101,不。3、593 - 608年,2013页。视图:出版商的网站|谷歌学术搜索
b .落定,“主动学习文献调查”,科技代表、计算机科学、麦迪逊市威斯康辛大学麦迪逊,WI,美国,1648年2010年,技术报告。视图:谷歌学术搜索
s . j .黄r·金和z h .周“主动学习通过查询信息、有代表性的例子,”学报》国际会议神经信息处理系统温哥华,加拿大,2010年12月。视图:谷歌学术搜索
a·卡普尔k .好莱坞,r . Urtasun, t·达雷尔“主动学习与高斯过程分类为对象,”学报2007年IEEE 11计算机视觉国际会议2015年10月,里约热内卢,巴西,。视图:出版商的网站|谷歌学术搜索
s . l .杨y,陈、张z d·陈,“暗示注释:深主动学习生物医学图像分割框架”医学影像计算和计算机辅助Intervention-MICCAI 2017施普林格,页399 - 407年,柏林,德国,2017年。视图:出版商的网站|谷歌学术搜索
美国太阳,z . Ping、h·肖和r·王”一个MRF模型主动学习框架spectral-spatial高光谱图像分类”IEEE选定的主题在信号处理杂志》上,9卷,不。6,1074 - 1088年,2015页。视图:出版商的网站|谷歌学术搜索
x y, z, f .聂Chang和a·g·豪普特曼”多主动学习通过与多样性最大化不确定性抽样,”国际计算机视觉杂志》上,卷113,不。2、113 - 127年,2015页。视图:出版商的网站|谷歌学术搜索
美国达特Jain和k .好莱坞“活跃的图像分割传播”学报2016年IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,页2864 - 2873年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
j .汉张d, l .郭g . Cheng和j .任”在光学遥感图像目标检测基于弱监督学习学习和高级特性,”IEEE地球科学和遥感,53卷,不。6,3325 - 3337年,2015页。视图:出版商的网站|谷歌学术搜索
周p . g . Cheng Bu,胡x, z . Liu“弱监督遥感图像中目标检测基于深度特性和转移负面引导,“多维系统和信号处理,27卷,不。4、925 - 944年,2016页。视图:出版商的网站|谷歌学术搜索
j·g . Cheng汉、p .周和d .徐”学习旋转不变和费舍尔有识别力的卷积神经网络对目标检测,”IEEE图像处理,28卷,不。1,第278 - 265页,2018。视图:出版商的网站|谷歌学术搜索
p·g . Cheng周,j .汉”学习旋转不变卷积神经网络在VHR光学遥感图像目标检测,”IEEE地球科学和遥感,54卷,不。12日,第7415 - 7405页,2016年。视图:出版商的网站|谷歌学术搜索
j . Yosinski j . Clune y Bengio et al .,“转移特性在深层神经网络如何?“在诉讼进展的神经信息处理系统加拿大蒙特利尔,页3320 - 3328,,2014。视图:谷歌学术搜索
b .落定,“主动学习文学的调查。计算机科学,”科技。代表,威斯康星大学麦迪逊分校,麦迪逊,WI,美国,2009年,1648年技术报告。视图:谷歌学术搜索
林t y, m . Maire s Belongie et al .,“微软可可:常见的上下文中的对象,”欧洲计算机视觉施普林格,页740 - 755年,柏林,德国,2014年。视图:出版商的网站|谷歌学术搜索
t . Deselaers b Alexe诉法拉利,”弱监督定位与通用知识和学习。”国际计算机视觉杂志》上,卷100,不。3、275 - 293年,2012页。视图:出版商的网站|谷歌学术搜索

数学问题在工程