深度学习植物鉴别分类损失

文摘

植物鉴别是一个细粒度的分类任务旨在识别家庭,根据植物属,物种外观特性。受分类树的层次结构,提出了分类损失,这可能编码分层多级标签进入深度学习目标函数之间的关系由简单的组和和操作。通过培训各种神经网络在2015年PlantCLEF PlantCLEF 2017数据集,实验结果表明,该损失函数很容易实现和表现最常采用熵损失。八神经网络训练,分别由两个不同的损失函数PlantCLEF 2015数据集,和模型训练分类损失导致显著的性能改进。PlantCLEF 2017与10000种数据集,训练的senet - 154模型分类的精度损失达到84.07%,79.97%,和73.61%的家庭,属和物种水平,改进的模型训练了叉损失了2.23%,1.34%,和1.08%,分别。分类损失可能会进一步促进与分层的细粒度的分类任务标签。

1。介绍

作为主要的地球上的生命形式,植物在生态系统中扮演不可或缺的角色,确保人类社会的可持续发展。植物鉴别植物生态研究工作流是一个至关重要的组成部分,是保护和发展植物多样性的基础。对公众来说,识别植物和学习知识也是一个有趣的和必要的经验。虽然有几种方法识别植物,包括分类键,书面描述,标本比较,和图像的比较,确定专家通常是必要的(1]。除此之外,大量的植物物种和低分类信息的可读性,分类知识和物种鉴定技能限制和减少数量有限的人(2,3]。所以,即使是专家知识与专业工厂,它不是实际识别各种各样的植物物种的人工识别方法,而对于非专家,它似乎更不可行。

基于图像的自动装置识别已成为计算机视觉领域的一个热点[4]。与粗粒度ImageNet [5)分类任务,基于图像的植物鉴别是一个细粒度的分类任务旨在区分家族,属,和最具体的物种。在过去,几乎所有的机器学习方法依赖于手工视觉特性(例如,叶脉和花瓣形状)(6- - - - - -9),而手动过程十分耗时,提取的特征可能是不完整的。此外,这些方法遭受贫穷的泛化在复杂环境中大规模植物鉴别。最近,深度学习的进展(10- - - - - -14)展示了其优秀的性能通过数据驱动的自动特征提取方法。许多作品都将视线转向植物识别和神经网络的结合,大大提高了大规模植物识别的准确性(15- - - - - -17]。

植物分类任务,到目前为止,最常采用的方法,深度学习训练是一个炎热的编码和熵损失,只有使用一级分类树的标签,如物种,忽略了强大的宗旨/属相似之处。通过这种方式,分类树的层次结构是完全被忽视。优化器只能独立优化模型根据了解信息,没有丰富的监督信息来源于分类树。这些方法的模型直接预测最具体的物种(17- - - - - -19),而人类专家普遍识别植物从粗到细匹配,属,物种在逐步分类树。在实践中,它也是有用的正确识别家庭/属即使物种的预测是错误的。

灵感来自分类树的层次结构,提出了分类损失分类树编码到深度学习培训的目标函数。然后,训练算法优化模型与更多的监管信息来源于层次标签。该方法容易实现,兼容的端到端训练,有效地提高了植物分类模型的性能。总之,两种贡献本文列出如下:(1)分类树编码的分类损失为目标函数的简单组和和操作,易于实现和兼容的端到端培训。(2)分类损失促进各种深层神经网络的训练,进一步提高植物识别精度的物种,属,和家庭的水平。

2。材料和数据集

两种不同版本的PlantCLEF数据集(PlantCLEF 2015 (20.)和2017年(21)被用来评估该方法的性能,从不同地点采集的图像不同的贡献者。每个图像属于七个内容类型之一(例如,鲜花,水果,和茎)注释和分层的家人,属,根据分类学和物种标签树,植物组织层级结构而且时尚。所以,PlantCLEF数据集评估该算法适合在三级粒度分类树。

PlantCLEF 2015数据集包含113205张图片1000种,分为训练集和测试集的比赛主持人。2017年PlantCLEF训练集由两个子集:“信任”和“嘈杂”。由于本文重点监督培训与地面真理,只有“可信的”被用于实验,其中包含256287张图片和10000种。和十分之一样品从每个物种选择随机到测试集。表中1显示了本文中使用的数据集的详细信息。


数据集	类的数量			数量的样品
数据集	家庭	属	物种	火车	测试

PlantCLEF 2015	124年	516年	1000年	91758年	21446年
PlantCLEF 2017	341年	2991年	10000年	226386年	29901年

3所示。深度学习分类损失

图1显示了端到端培训管道深度学习植物鉴别与两个不同的模块。首先,每个随机图像增强和调整大小以一个固定的分辨率,然后送入卷积神经网络(CNN)通过多层抽象提取高维特性。接下来,损失模块申请CNN预测和地面真理之间的比较分析。最后,网络参数更新由优化器根据损失的价值。

大多数采用损失模块(22)如图1(一)生成的损失只有基于一级标签,通常了解标签。CNN的输出连接到一个完全连接(FC)层n神经元产生n一些物种分对数,n物种的数量。softmax函数的计算后,n一些物种分对数转换成n一些物种的概率。然后,叉损失函数是为了衡量多级分类的性能与一级标签,这是物种之间概率计算和了解标签如下: 和p_我softmax函数计算的吗在哪里n代表物种的数量,z₁,z₂、…z_n)代表了FC层输出和了解标签的一个炎热的代码t₁,t₂、…t_n]。以这种方式,虽然模型finest-grained了解预测,coarser-level预测只能向后推断在分类树,而忽略了coarser-level监督信息的标签。

3.1。分类损失

为了充分利用多级标签和层次之间的关系,提出了分类损失。如图1(b), softmax函数应用于FC层生成的输出n一些物种的概率。物种概率后逐步转化为属和家庭概率根据分类树。然后三级叉损失计算,分别对应的标签和概率之间的水平。最后,分类损失是三级损失的总和,在接下来的优化算法用于网络参数更新。

计算分类损失的关键是将物种概率转化为属概率和家庭概率根据分类树。物种的概率是CNN softmax规范化后的输出。首先,每一位属于同一属的物种的概率被分组,然后总结产生一点在属的水平。所有物种比特分组和总结后,米有些属概率是派生的,米类的数量在属的水平。第二,所有派生类的概率进一步分组和总结family-genus层次结构生成家庭概率。这样,属概率和家庭概率逐渐由物种概率根据分类树。一个示例逐步推导高级概率如图2 (b),相应的分类树图所示2(一个)。如图2,Quercus cerrisl .,Quercus栎树l .钻头和其他了解位属于Quercus被组合在一起和他们的价值观总结得到的概率Quercus在属的水平上。接下来,的价值Quercus进一步增加了齿栗叶位和水青冈属一点一点来生成壳斗科在家庭层面上,等于0.72。具体来说,属概率和家庭概率计算如下: 在哪里家庭/属物种概率的值是在哪里xth,是xth家庭、属或物种。

(一)

(b)

多级概率后生成的CNN softmax输出和第二组和操作的过程和分类树,每一层的叉,l_{f -CE}, ,l_{s -CE},独立计算之间的预测概率和地面真理由方程(1)。最后,分类损失之和多级熵损失如下:

集团和操作编码和分类树深度学习目标函数,容易实现和兼容的端到端培训。同样,当错误发生在粗粒度,分类损失比熵损失可能会提供更多的信息。由于使用分类损失,更多的监管信息可能会被利用来提高性能的植物鉴别模型。

3.2。端到端培训

实验实现了Pytorch深度学习框架。cnn是训练有素的端到端与一个工作站Nvidia GeForce GTX泰坦Xp GPU (12 GB图形内存)。所有的模型加载ImageNet pretrained权重为初始化和训练超过100时代。基本的学习速率为0.01,每30时代后下降了一半。随机梯度下降法(SGD) 90%的势头被用来优化网络参数。所有的方法比较2015年和PlantCLEF2017 PlantCLEF数据集的测试集。此外,提高模型的鲁棒性,增加数据应用于实验。每个图像中心剪裁,图像大小为299×299像素Inception-v3和Inception-ResNet-v2采用特征提取时,和224×224像素的图像大小当使用其他cnn。最后,所有的裁剪图像是由几种处理方法:翻转、旋转、平移、缩放和剪切。图3显示了实验数据增加的影响。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

4所示。结果

4.1。结果PlantCLEF 2015数据集

几个先进的神经网络训练,分别由两个损失函数如图1:常用熵损失和提出分类损失。不同的模型在测试集的实验结果中描述表2。除了对算法精度评价最常用的物种,属准确性和家庭准确性也考虑在内。从表2分类损失,模型训练的持续损失,更好的性能比训练有素的叉和物种的改进精度从0.08%到2.45%不等。senet - 154训练分类损失优于其他模型,实现了家庭,属,和物种精度为83.19%,78.08%,和71.15%,分别。同时,Inception-ResNet-v2训练分类损失获得最显著的性能提高而叉,提高三级精度为2.70%,2.28%,2.45%。这些实验结果表明,该分类损失是容易实现,可以有效地促进轻量级和复杂的神经网络的训练。


神经网络	损失函数	精度(%)
神经网络	损失函数	家庭	属	物种

GoogLeNet [13]	CL	72.62	65.97	59.69
GoogLeNet [13]	税	74.95	68.07	61.06

ResNet-50 [23]	CL	77.48	71.59	65.07
ResNet-50 [23]	税	78.55	72.20	65.15

Inception-v3 [14]	CL	77.93	74.01	67.98
Inception-v3 [14]	税	80.31	74.46	67.42

Inception-ResNet-v2 [11]	CL	80.66	74.57	67.93
Inception-ResNet-v2 [11]	税	83.36	76.85	70.38

MobileNet v2 (24]	CL	72.13	65.65	59.16
MobileNet v2 (24]	税	74.18	67.52	60.42

ShuffleNet v2 (25]	CL	66.39	59.32	52.88
ShuffleNet v2 (25]	税	68.80	61.45	54.18

densenet - 169 (26]	CL	78.57	73.00	66.76
densenet - 169 (26]	税	80.11	74.48	67.23

senet - 154 (27]	CL	81.25	76.81	70.08
senet - 154 (27]	税	83.19	78.08	71.15

图4说明了Inception-ResNet-v2训练的损失下降曲线由两个不同的损失函数在训练阶段。可以看出,分类损失的价值远远大于熵损失在开始阶段,因为它是三级损失的总和。培训发展,它们之间的差异逐渐减少。虽然分类损失值略高于叉是在最后阶段,降幅更大,网络优化也更好。

4.2。结果PlantCLEF 2017数据集

在后面的实验中,最先进的cnn被叉和分类损失在2017年PlantCLEF训练数据集,进一步验证该算法。如表所示3分类时,神经网络训练的损失,几乎他们所有人提供超过2%的家庭精度的改进,以及物种的准确性增加从0.50%到3.18%不等。senet - 154由分类损失执行比其他人更好,训练,达到三级精度为84.07%,79.97%,和73.61%,获得2.23%,1.34%,1.08%相对于相同的模型改进训练叉损失。因此,可以得出结论:分类损失也可以进一步促进各种神经网络的训练PlantCLEF 2017数据集与数据和更大的物种。


神经网络	损失函数	精度(%)
神经网络	损失函数	家庭	属	物种

GoogLeNet [13]	CL	68.73	64.22	57.86
GoogLeNet [13]	税	73.29	68.64	61.04

ResNet-50 [23]	CL	76.32	72.49	66.68
ResNet-50 [23]	税	78.95	74.77	68.04

Inception-v3 [14]	CL	77.32	73.12	67.05
Inception-v3 [14]	税	79.87	76.02	68.76

Inception-ResNet-v2 [11]	CL	79.98	75.43	68.97
Inception-ResNet-v2 [11]	税	82.31	78.65	71.21

MobileNet-v2 [24]	CL	71.76	67.73	61.78
MobileNet-v2 [24]	税	73.88	69.40	62.01

ShuffleNet-v2 [25]	CL	61.94	57.12	49.96
ShuffleNet-v2 [25]	税	66.13	60.73	53.12

densenet - 169 (26]	CL	76.34	72.53	66.60
densenet - 169 (26]	税	77.87	73.92	67.10

senet - 154 (27]	CL	81.84	78.63	72.53
senet - 154 (27]	税	84.07	79.97	73.61

同时,提出分类损失可以生成更多的监管信息coarse-level预测错误时,提高了家庭和属的精度水平。2017年PlantCLEF几种典型植物图像测试集和相应的预测表中列出4。可以看到ResNet-50训练的熵损失不正确地识别所有图片三个层次,而由分类损失可以正确预测模型训练在粗糙的水平。例如,示例(b)被认为是水青冈属grandifoliaEhrh。在物种水平损失,由ResNet-50训练叉和coarser-level标签(水青冈属,壳斗科根据分类树)推断,所以三级预测是完全错误的。虽然提出了模型训练的分类损失没有正确预测最具体的物种,家庭和属是正确的,在实践中也是有用的。


	损失函数	家庭	属	物种

一个	GT	Lilliaceae	淫	淫americanum百合科。
	CL	兰科	兰花	兰花mascula(l)l
	税	Lilliaceae	Clintonia	Clintonia andrewsiana托。

b	GT	榆科	榆属	榆属美国l
	CL	壳斗科	水青冈属	水青冈属grandifoliaEhrh。
	税	榆科	榆属	榆属植纳特。

c	GT	茶藨子科	酷栗	酷栗非礼Eastw。
	CL	蔷薇科	Holodiscus	Holodiscus变色(pursh)的格言。
	税	茶藨子科	酷栗	酷栗非礼Eastw。

d	GT	菊科	*Heterotheca*	Heterotheca canescens(直流)。钱币
	CL	豆科	Syrmatium	Syrmatium glabrum沃格尔。
	税	菊科	*Heterotheca*	Heterotheca canescens(直流)。钱币

大胆的值表明地面真理(GT)和正确的预测。

5。讨论

基于上述结果,验证了该分类损失可能会进一步促进多个先进的神经网络的训练无论PlantCLEF 2015数据集与10000种1000种或PlantCLEF 2017数据集。为了进一步验证分类树结构模型优化的影响,对比实验。如表所示5,另外两个神经网络训练的两级分类损失:family-species结构(F-S)和种属结构(g),而“F-G-S”表示分类如图1(b)和“S”表示叉损耗如图1(a),一个可以看到表5模型训练的三级分类损失持续超过两级的,和他们达到更高的精度比单一层次分类模型训练的损失,也称为熵损失。这些实验结果表明,更高级别的分类层次结构可以提供更多的监管信息在神经网络的训练阶段和实现结果更具竞争力。


数据集	神经网络	分类层次结构	精度(%)
数据集	神经网络	分类层次结构	家庭	属	物种

PlantCLEF 2015	Inception-ResNet-v2 [11]	F-G-S	83.36	76.85	70.38
		F-S	82.04	76.10	69.36
		g	81.48	75.82	68.94
		年代	80.66	74.57	67.93

PlantCLEF 2017	ShuffleNet-v2 [25]	F-G-S	66.13	60.73	53.12
		F-S	64.08	57.71	50.03
		g	64.26	59.11	51.64
		年代	61.94	57.12	49.96

6。结论

本文提出了一种细粒度的植物图像识别损失函数,可以编码分类树的层次关系到深度学习目标函数。一方面,该方法容易实现了简单的组和和操作。,另一方面,它促进了端到端各种神经网络的训练,进一步提高植物识别精度的物种,属,和家庭的水平。PlantCLEF试验在2015年和2017年PlantCLEF数据表明,提出的分类损失函数执行比大多数采用熵的损失。在未来,分类损失可以推广到其他细粒度分类任务多层标签,如鸟类和汽车类分类识别。

数据可用性

PlantCLEF 2015数据集和PlantCLEF 2017数据集支持这项研究来自以前的研究报告,已被引用。可在PlantCLEF 2015数据集http://otmedia.lirmm.fr/LifeCLEF/PlantCLEF2015/可在,PlantCLEF 2017数据集http://otmedia.lirmm.fr/LifeCLEF/PlantCLEF2017/

的利益冲突

作者宣称没有利益冲突有关的出版。

作者的贡献

Danzi吴和韩雪的贡献同样工作。

确认

这项工作得到了中央大学(没有基础研究基金。2019 zy38),中国自然科学基金会(没有。61702038),北京公共建设项目的专项基金。

引用

w·s·贾德植物分类学w·h·弗里曼和公司Sinauer桑德兰,妈,美国,2002年。
g·w·霍普金斯和r . p . Freckleton数量下降的业余爱好者和专业分类:对保护,”动物保护,5卷,不。3、245 - 249年,2010页。视图:出版商的网站|谷歌学术搜索
Tittensor c·莫拉·d·p, s .诽谤联盟,a·g·b·辛普森和蠕虫,“有多少物种在地球和海洋中?”公共科学图书馆生物学,9卷,不。8篇文章ID e1001127 2011。视图:出版商的网站|谷歌学术搜索
j . Waldchen和p·马德尔植物种类识别使用计算机视觉技术:一个系统的文献回顾,“档案在工程计算方法,25卷,不。2、507 - 543年,2018页。视图:出版商的网站|谷歌学术搜索
j .邓w .咚,r . Socher L.-J。李,李k和l .菲菲”Imagenet:大规模的分层图像数据库”学报2009年IEEE计算机视觉与模式识别会议IEEE,页248 - 255年,迈阿密,佛罗里达州,美国,2009年6月。视图:出版商的网站|谷歌学术搜索
张,h . Wang和w·黄”两级植物种类识别由当地意味着集群和加权的稀疏表示分类,“集群计算,20卷,不。2、1517 - 1525年,2017页。视图:出版商的网站|谷歌学术搜索
m . Dyrmann h . Karstoft和h s Midtiby“植物物种分类使用深卷积神经网络,”生物系统工程卷,151年,第80 - 72页,2016年。视图:出版商的网站|谷歌学术搜索
g . l . Grinblat l·c·雅完人,m·g . Larese和p . m . Granitto“深度学习植物鉴别使用静脉形态模式,”计算机和电子产品在农业卷,127年,第424 - 418页,2016年。视图:出版商的网站|谷歌学术搜索
n . Kumar p . n . Belhumeur a Biswas et al .,“Leafsnap:自动植物种类识别,计算机视觉系统”欧洲计算机视觉的诉讼施普林格,页502 - 516年,佛罗伦萨,意大利,2012年10月。视图:出版商的网站|谷歌学术搜索
k . Simonyan和a . Zisserman”很深的卷积网络大规模图像识别,”https://arxiv.org/abs/1409.1556。视图:谷歌学术搜索
c . Szegedy“Inception-v4 inception-ResNet和剩余连接对学习的影响,”美国31日AAAI会议上人工智能美国,旧金山,CA, 2017年2月。视图:谷歌学术搜索
k . x张,他任美国,j .太阳,“身份映射深陷残余网络”欧洲计算机视觉的诉讼645年,页630 -阿姆斯特丹,荷兰,2016年10月。视图:出版商的网站|谷歌学术搜索
c . Szegedy w·刘,y贾et al .,“要更深的曲线玲珑,”《IEEE计算机视觉与模式识别会议,页1 - 9,IEEE,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
c . Szegedy诉Vanhoucke约飞,j . Shlens z . Wojna,“重新考虑初始计算机视觉架构,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页2818 - 2826年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
y, y . Liu和张h . g . Wang“深度学习植物识别在自然环境中,“计算智能和神经科学,卷2017,不。4篇文章ID 7361042 6页,2017。视图:出版商的网站|谷歌学术搜索
j . r . Ubbens和i Stavness深植物phenomics:深度学习平台复杂植物表现型任务,”植物科学前沿,8卷,p。1190年,2017年。视图:出版商的网站|谷歌学术搜索
h·朱问:刘,y、x黄f .江和美国,“植物鉴别很深的卷积神经网络基础上,“多媒体工具和应用程序,卷77,不。22日,第29797 - 29779页,2018年。视图:出版商的网站|谷歌学术搜索
j . w . Tan S.-W。Chang s . b . a . Kareem h . j .狂吠,K.-T。勇,“深度学习使用叶静脉的形态学、植物物种分类”IEEE / ACM事务计算生物学和生物信息学, 2018年。视图:出版商的网站|谷歌学术搜索
j . Waldchen m . Rzanny m . Seeland p·马德尔,“自动植物物种identification-trends和未来的发展方向,”PLOS计算生物学,14卷,不。4 p . e1005993 2018。视图:出版商的网站|谷歌学术搜索
a·乔利h . Goeau h . Glotin et al .,“LifeCLEF 2015:多媒体生命物种识别的挑战”2015年《谱号施普林格,图卢兹,法国,2015年9月。视图:出版商的网站|谷歌学术搜索
h . Goeau p罩,乔利,“植物鉴别基于嘈杂的web数据:深度学习的神奇表现(LifeCLEF 2017)”研讨会论文集会议和实验室评价论坛(2017年谱号)2017年9月,爱尔兰都柏林,。视图:谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“ImageNet分类与深卷积神经网络,”学报》国际会议神经信息处理系统太浩湖,页1097 - 1105年,NV,美国,2012年12月。视图:出版商的网站|谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页770 - 778年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
m·桑德勒a .霍华德·m·朱a . Zhmoginov L.-C。陈,“MobileNetV2:倒残差和线性瓶颈,”《IEEE计算机视觉与模式识别会议,页4510 - 4520,盐湖城犹他,美国,2018年6月。视图:出版商的网站|谷歌学术搜索
n . Ma x张H.-T。郑,j .太阳,“ShuffleNet V2:实用高效的CNN建筑设计指南,”计算机视觉的欧洲会议(大会),页116 - 131,德国慕尼黑,2018年9月。视图:出版商的网站|谷歌学术搜索
黄g . l . Van Der Maaten z . Liu和k·温伯格,“人口回旋的网络连接,”《IEEE计算机视觉与模式识别会议火奴鲁鲁,页4700 - 4708年,美国,2017年7月,你好。视图:出版商的网站|谷歌学术搜索
沈l . j .胡,g .太阳“Squeeze-and-excitation网络”《IEEE计算机视觉与模式识别会议,页7132 - 7141,盐湖城犹他,美国,2018年6月。视图:出版商的网站|谷歌学术搜索

计算智能和神经科学

文摘