文摘

果树疾病对农业生产有很大的影响。人工智能技术被用来帮助水果种植者确定果树疾病及时和准确的方法。在这项研究中,10000的图像的数据集梨黑斑,梨锈病,苹果马赛克,苹果锈病是用于开发诊断模型。为了实现更好的性能,我们开发了三种整体学习分类器和两种深度学习分类器,验证和测试这五个模型,并发现堆积合奏学习分类器优于其他分类器与98.05%的准确性验证数据集和测试数据集上的97.34%,这暗示,与小型和中等规模的数据集,叠加合奏学习分类器可能被用作具有成本效益的替代深度学习模型在性能和成本约束。

1。介绍

近年来,由于全球气候和环境变化的影响,全球农作物灾害发生比以往更频繁,导致一个重要的农产品产量和品质的下降,尤其是水果产品。例如,水果产量的损失率约为20%,在美国和其他一些国家甚至高达50% (1]。作物疾病的主要原因,导致农业生产的产量损失,这限制了高质量、高效、和农业可持续发展的世界1,2]。然而,大多数的农民没有掌握有效的和有效的方法来识别水果疾病本身。

在20世纪早期,传统的疾病识别方法主要是基于生物实验。专业人员使用电子显微镜观察细菌的变化和其他设备,如酶联免疫吸附试验、DNA探针技术、PCR技术,和其他生物方法(3- - - - - -5]。然而,这些识别方法不能被广泛使用的大型投资工具和设备,和高成本的时间和劳动。自1970年代以来,大量的传统作物专家系统已用于诊断疾病。例如,植物/ DS,作为一种专家系统,开发大豆病虫害诊断(6]。1982年,植物/ CD开发诊断玉米螟害虫。在1990年代,智能专家系统开发与农业问题对待。各种智能技术引入专家系统,提高准确性,智慧,和实用性的疾病诊断。然而,专家系统仍在基于角色的推理模式,这被认为是更难以维护和发展。近10年来,机器学习,特别是深度学习,有助于植物病害诊断基于图像识别的。本文旨在提出一个基于机器学习模型水果疾病诊断。

最近的相关研究主要集中在图像分割,特征提取,植物病害的诊断和模型训练模型。Jaisakthi葡萄疾病等人提出了一个系统,它可以从背景图像和段段叶子生病基于全局阈值处理和semisupervision技术领域。分类模型的系统,分别训练支持向量机,机器学习演算法,随机森林算法(3]。Chakraborty等人利用大津阈值算法和直方图均衡化预处理图像识别的黑腐病和雪松苹果锈病。他们分离的图像分割区域被感染的部分,和改进的多类支持向量机模型的准确性高达96% (4]。侯赛因等人提出了一个再(资讯)分类器来检测和分类黑色的斑点,炭疽病,细菌性枯萎病,叶,和各种植物的溃疡,这主要取决于颜色和纹理特征的提取的树叶。最终的分类器是验证的准确性(96.76%5]。识别苹果疾病、张等人38的特征提取颜色、纹理和形状的叶子和结合遗传算法与complete-fair-scheduler算法提取主要特征。他们声称基于支持向量分类器的识别率达到90%以上(7]。穆罕默德等人进行的研究来确定四种葡萄疾病的疾病检测,其中包括四个阶段:图像增强与拉伸方法,图像分割K——、纹理特征提取和分类基于multi-SVM和贝叶斯分类器。验证实验的平均准确率接近100% (8]。苜蓿叶四种常见疾病的诊断,秦等人129年提取纹理的特点,基于颜色和形状K均值聚类算法和线性判别分析。筛选重要特性后,疾病识别模型建立了基于支持向量机。结果表明,支持向量机模型建立45特性选择从129年最重要的特性是最终的优化模型。支持向量机模型,识别精度在训练集和测试集分别为97.64%和94.74% (9]。

近年来,深度学习吸引了农艺专家的注意。由于显著的优势特征提取和易于使用的深层学习技术有效地促进了农业的发展,智能机械应用(10]。相关的研究主要是在数据增强和模型进行改进。例如,确定五个常见的苹果叶疾病,江等人建造26377苹果叶病样本通过数据增强和图像标注技术,提出了一个深CNN模型通过引入GoogleNet初始和彩虹连接。模型实现78.80%意味着平均精度(11]。刘等人提出了一个基于AlexNet深CNN模型的体系结构来检测疾病的苹果树叶。使用13689病叶图像作为样本数据,模型的识别率达到97.62%,模型试验(12]。基于超过7000梨病图像、杨等人建立了模型使用深度学习神经网络模型包括VGG16,《盗梦空间》V3, ResNet50, ResNet101探索关键影响因素之间的关系和梨疾病的严重程度。诊断模型的识别率证明从97.67%到99.44% (13]。确定类型的玉米叶病,阿加瓦尔等人改进了模型从四个方面提高卷积神经网络(ECNN),融合扩展卷积层,一维卷积层,ECNN动机。他们建立了ECNN模型和实现更好的性能比AlexNet GoogleNet精密,回忆,和准确性14]。张等人提出的多尺度融合卷积神经网络(MSF-CNNS)黄瓜病叶图像的分割。逐步调整的方法转移学习采用加快训练速度。通过引入多级并行结构和多尺度连接,农作物病叶图像的多尺度特征提取。最终的平均准确率为93.12%。与完全卷积网络(FCNs)相比,SegNet, U-NET, DenseNet,提出模型的准确性增加了13.00%,10.74%,10.40%,10.08%,和6.40%,分别训练时间降低了0.9小时(15]。

整体学习也被引入到图像作物疾病的诊断。整体学习旨在建设一个强大的分类器通过使用简单的基分类器。整体学习成功地避免了培训成本高和大型数据集深度学习的需求。例如,拉赫曼等人提出了一个混合对比度拉伸方法对苹果病叶增加图像的视觉冲击,pretrained CNN模型用于特征提取。他们实现了96.6%的识别率合奏子空间判别分析(ESDA)分类器16]。识别三种疾病类别的玉米叶子,Bhatt等人收集的图像特征与CNN和使用提高集成学习方法与决策树分类器训练从CNN的特性。实验表明,模型的准确性高达98% (17]。Azim等人提出了一个模型来检测三种水稻叶疾病。通过消除背景,分段疾病区域,提取颜色、形状和纹理特征,他们用极端梯度增加(XGBoost)提高识别性能。结果表明,达到了86.58%的准确性(18]。

3所示。数据源和工程特性

3.1。数据源

在这项研究中,我们选择了四个常见的果树疾病样本包括梨黑斑、梨锈病,苹果马赛克和苹果锈病。这些疾病是最常见的疾病为苹果树和梨树。模型训练和验证的数据来自果树病害图像库的中国农业科学院农业知识服务体系(部),其中包含10000叶图像梨黑斑,梨锈病,苹果马赛克,苹果锈病的疾病。每个疾病有2500的照片。这些照片是在果树生长期间收集的农学家。如图1,每片叶子的照片分开纯白色背景的全景和5200年和5500年之间的色温。图片的分辨率是2816×2112。

我们也使用百度图片搜索引擎(https://image.baidu.com)与疾病名称关键词收集水果叶子图像模型试验。因此,500张照片终于选择农艺专家的测试数据集。如图2,模型试验的照片和图片在不同的质量水平和背景,这对泛化能力评价是合理的。

3.2。的特征提取

特征提取就是从图像中提取不变特性的过程来解决实际问题。在构建果树之前疾病诊断模型,病叶应提取的特征。从理论上讲,有必要整合多学科的知识,如数学、物理定义图像的特点。从技术上讲,有必要结合数字图像处理和计算机视觉技术来描述数字图像特征(19]。在实践中,对颜色的特性,形状,质地,和叶子的病斑数通常是用来识别植物病害。

3.2.1之上。颜色特征提取的树叶

CMYK, HSV, RGB、位图和灰度为图片的颜色属性的表示。在这项研究中,RGB颜色用于定义特性。篮板使用红色的变化(R),绿色(G)和蓝色(B)颜色通道和叠加来表达各种各样的颜色。作为使用最广泛的颜色系统之一,RGB系统几乎包括所有颜色,人类的视觉感知。从病斑的颜色和大小明显不同于健康的部分叶和不同于不同的疾病,RGB数据的统计描述对叶疾病的识别。我们定义以下指标来描述水果的叶子的颜色特征与RGB系统。

如方程所示(1),l,第一次的颜色数据,表示颜色通道的一般水平,在那里P像素的数量吗R,G,B渠道,是英吉利海峡ID。Xij通道的颜色亮度值吗

在方程(2), 是第二个颜色数据的时刻,它使用标准差(Std)值以反映波动程度的叶子的颜色。

在方程(3),R表示在通道颜色值的范围,它反映了极端不同的颜色通道。

此外,由于平均值不能客观地反映颜色的整体水平在一个通道数据不是正态分布,我们中间值的通道作为一个补充l

数据集的所有颜色特征如表所示1

3.2.2。纹理特征提取的树叶

作为一个重要的视觉特性的图片,材质是指一个物体的表面的固有属性和光学性质,microgeometric特性,和其他物体的表面信息,密切相关。在这项研究中,通过观察四种果树的病叶,我们发现梨黑斑点,梨锈病,和苹果表面的铁锈四散病叶,而苹果斑点马赛克叶病是不规则的和连续的方式传播。因此,纹理特征是区分不同的一个重要因素了。

作为一个强大的工具来提取纹理特征的图片、灰度同现矩阵应用灰度共生矩阵建立()的统计特征共存的灰度像素(19]。这种结构上下文信息充分指定的矩阵的相对频率 ,决议中两个相邻细胞之间有距离d发生在形象上,有灰色基调和其他与灰色基调j的角θ(见方程(4)),N是灰度的:

这样的频率矩阵灰色调的空间相关性的函数之间的角度关系决议邻近细胞,以及它们之间的距离的函数。θ通常设置为0,45岁,90年和135年。图3应用灰度共生矩阵建立演示了一个示例d= 1,θ= 0。图像的灰度是8。

应用灰度共生矩阵建立了,Haralick等人提出的14个指标来说明的纹理图片,其中包括角二阶矩(ASM),对比(CON)相关性,平方和,逆不同时刻(IDM)和平均方差,和熵,熵(ENT),差异方差,差熵,2信息的相关措施,最大相关系数(20.]。由于叶片图像纹理的多样性,14个统计指标都是在这项研究中,使用和纹理特征降维的交易操作之前模型的训练。表2显示了一些重要的结构指标的计算结果。

3.2.3。形状特征提取的疾病

对于一个典型的水果病,病斑的形状在叶子总是更稳定。然而,不同的病斑的形状特征往往是不同的。因此,病斑的形状特征识别水果疾病至关重要。因为病斑的形状通常是越来越不规则,很难描述轮廓的形状特征的疾病。在这项研究中,介绍了分形维数的方法来提取的形状特征的疾病。

目前,不规则对象的方法来计算分形维数包括盒子计数法、周边区域方法,变量方法,和半径的方法。其中,盒子计数法是流行和易于使用。是对象是否可用一条曲线或一个曲面曲线包围,它与物体的物理性质。维数的值D盒子计数法中使用定义在以下方程: 在哪里N(一个,r)是像素的数量在所有正方形网格的宽度r,一个是二进制图像矩阵。图4显示了一个网状的背景。

在实践中,为了便于计算,线性拟合系数N(一个,r),r是常用的近似价值D。系数是容易被普通的最小二乘(OLS)方法。在这项研究中,不同水果的维值计算疾病如表所示3

3.2.4。疾病的特征提取点的数量

针对不同的疾病,病斑的数量在一定程度上有所不同。通过观察病叶图片,我们发现(1)有一些黑色的斑点为梨黑斑和大量的梨锈病的黄色斑点;(2)有大面积浅色补丁苹果锈病和斑点的颜色有明显的变化。所以,我们采用SimpleBlobDetector(作为)21,22)计算疾病。

作为是一种基于拓扑和形态学理论的图像分割方法。该算法擅长处理弱边缘信息和灰度边缘连接具有良好的能力。与此同时,集水池有效地保留图像的区域特征的概念。因此,作为适用于图像分割。作为显示在图的流程图5

作为的主要参数设置如下:(我)minThreshold = 10(2)maxThreshold = 250(3)minCircularity = 0.3(iv)minInertiaRatio = 0.1(v)minConvexity = 0.5(vi)minArea = 100

因为斑点的颜色亮度随暗灰色,我们分别捕捉白色斑点和黑色斑点。blobColor参数被设置为255计数白色斑点和0到黑色的斑点。疾病的数量特征点描述表45

3.3。数据标准化和降维

通过特征提取,我们有33特性来描述叶图片。这些功能被分组到12颜色特征,14个纹理特征,2号功能,和5形状特性。自不同的特性不同的值在不同的范围,模型训练之前,我们进行了数据标准化。每个特性转换由以下方程: 在哪里 是样本的均值特性,然后呢 标准偏差。

简化了诊断模型和改进模型的泛化性能,我们也减少了33-feature数据集的维数。主成分分析(PCA)是用来进行这项任务。PCA算法只有一个参数,n_组件,用于确定降维后的尺寸或信息的比例降维后留存。参数通常是根据经验而不是明确的规则。为了确保降维的合理性,n_组件验证从2到33。减少数据集的不同维度进行逻辑回归等分类器分类器。最好的维度f1_分数被选中。测试结果如图6

根据奥卡姆剃刀,6个维度的数据集作为数据集模型训练和验证。降维后的数据如表所示6

4所示。模型训练和选择

众所周知在机器学习,深入学习是最受欢迎的图像识别技术。然而,如果训练数据集在中小尺寸,深度学习模型的性能并不一定保证。在这项研究中,我们分别进行了整体学习和深度学习策略来找到最好的模型。中定义的战术指标比较的部分4.1

4.1。模型评价指标

我们使用f1_分数评估机器学习模型。f1_分数是定义在方程(7)和(8)。故意设计的指标,f1_分数相当措施模型的偏差和方差。 在哪里

在上面的方程中,真阳性(TP)是指积极类的数目确定的模型;真阴性(TN)指的是负类的数目确定的模型;假阳性(FP)类指的是假阳性的数量确定的模型;假阴性(FN)是指假负类的数目确定的模型。精度(P)指的是真阳性的比例类组预测积极类。回忆(R)是真正的积极类的比例在预测结果中所有真的积极类。

4.2。整体学习

整体学习是一种强大的方法来集成许多弱分类器更好的预测。在实践中,整体学习分类器显示更好的性能比一个独特的标识符,甚至几乎比深度学习的小型和中等规模的数据集。根据不同的整体策略,整体学习分为三个分支:bagging-based整体学习,增强型合奏的学习,学习retraining-based合奏。

4.2.1。准备装袋整体上优于模型训练

在整体学习装袋,同时所有的基分类器训练,所以培训的效率远远高于其他集成学习算法。如果抽样的特性也不同于其他基分类器的泛化能力进一步提高。装袋合奏学习模型的输出通常是由多数投票决定。装袋合奏的培训学习的流程图如图7

在这项研究中,我们选择了随机森林算法,证明是最好的集成学习算法(23,24]。由于随机森林使用分类和回归树(CART)和抽样特征分类器训练基地,主要hyperparameters包括max_depth max_features, min_samples_leaf, min_samples_split, n_estimators之前必须确定该模型的训练。我们使用GridSearchCV hyperparameters Scikit-learn优化方法,最后的随机与森林有关的诊断模型。最后一个参数决定用以下值:

{“max_depth”: 40岁的“min_samples_split”: 2,“min_samples_leaf”: 1、“n_estimators”: 100年,“max_features”: 0.6}。

f1_得分是0.9249,火车时间是38.4分钟。

4.2.2。提高整体上优于模型训练

提高是最重要的一个模型训练方法的发展。提高通过顺序分类算法应用到再加权版本的训练数据,然后以多数表决或加权均值分类器从而产生的序列。基分类器训练后,后者基本分类器训练前基分类器的验证结果。错误的预测样本的重量将进行调整,以提高分类器的精度。因此,后者的偏见分类器却降低了。一般来说,最终的系综分类器的输出平均具有不同的权重25]。提高整体的培训学习的流程图如图8

提高整体学习算法的家庭有一些著名的成员如演算法、GBDT lightGBM, XGBoost。演算法与其他算法相比,XGBoost使用相同的抽样方法,随机森林,这是证明能够有效降低方差。我们也使用GridSearchCV方法优化hyper-parameters,最后XGBoost-based诊断模型。最好的参数设置如下:

{“learning_rate”“子”:0.7:0.1,“max_depth”: 8“colsample_bytree”: 0.5”n_estimators”: 200}。

f1_分数是0.9398,火车时间是42.6分钟。

4.2.3。培训总体上优于模型训练

整体学习培训使用的主要分类器训练二级分类器的输出作为输入。典型的算法是堆叠泛化(也称为叠加合奏)算法(26,27]。该算法主要由主分类器和二级分类器。的数量和类型主要分类器并不局限。然而,为了效率和泛化能力,简单的古典和不同的分类器是首选。图9显示了整体学习堆积过程的流程图。

在这项研究中,我们探索4经典简单的分类器作为主要分类器和随机森林作为二级分类器来创建叠加整体模型。6维数据集被用来训练分类器。在第一个训练阶段,主要分类器都是由GridSearchCV获得高精度分类器训练和他们的输出。之后,在第二个训练阶段,输出被合并为训练数据训练二级随机森林分类器。表7显示了测试结果。

如果二级分类器训练的同时,可以估计总培训时间为54.8分钟,时间之和的支持向量分类器在第一次培训阶段和随机森林在第二阶段。

4.3。深上优于模型训练

卷积神经网络(CNN)是典型的深度学习的图像识别技术。CNN通常由一个输入层,卷积层、汇聚层,一个完全连接层和一个输出层。卷积层是用来提取特征。在卷积层,激活函数如ReLu和乙状结肠函数是用来表达复杂的特性。经过特征提取,特征被送入池层特征选择和信息过滤。因此,高维数据明显浓缩在被送入完全连接层。流程如图10

CNN是一个家族的许多深学习算法。在这个家庭中,有许多著名的算法包括LeNet [32],AlexNet [33),ZF净(34],GoogLeNet [35],VGGNet [36],ResNet [37],DenseNet [38]。在这项研究中,resnet - 101和densenet - 121,作为两种流行的CNN算法,选择创建诊断模型。我们进行了模型训练TensorFlow [3933-dimension数据集)。两个模型的测试结果如表所示8

5。结果与讨论

11显示了不同的模型部分的测试结果4.24.3。堆积ensemble-based模型得到f1_得分0.9805,然后densenet - 121模型(0.9675),resnet - 101模型(0.9541),XGBoost模型(0.9398),(0.9249)和随机森林模型。

显然,叠加ensemble-based模型优于其他模型在小型和中等规模的数据集,和费时的(近60分钟)是可以接受的。相反,两个深度学习模型也显示出更好的成绩。然而,训练时间更比stacking-based模型。这通常暗示即使深学习算法表现出更好的性能比其他算法在图像识别中,他们的表现可能不是一样简单的机器学习算法的性能数据集时不够足够大的和多样化的。

进一步评估上面的模型中,我们使用的测试数据集介绍部分3.1为了测试模型。由于模型中使用的测试数据不训练,我们可以评估所有模型的泛化能力。的f1_分数的模型是93.88%(随机森林),94.65% (XGBoost), 97.34%(叠加),95.21 (resnet - 101)和96.27% (densenet - 121)。stacking-based模型仍然是最好的。

我们观察到的输出模型。57 500测试样本预测不一致的价值观,其中stacking-based模型最正确的预测价值。表9显示了不同。

我们还观察到在不同的疾病模型的准确性。表10表明stacking-based模型仍比其他模型。

根据上述结果表明,叠加ensemble-based模型选为果树的最终模型诊断疾病。

6。结论和未来的研究

自动识别果树疾病与叶图片,我们训练有素的机器学习模型与病叶图片创建诊断模型。因为数据集的大小不够大来实现可靠的深度学习模型,我们训练有素的整体学习三种模型,将整体学习模型的准确性与2深上优于模型。结果表明,叠加ensemble-based模型优于其他类型的模型。这项研究还暗示,当数据集在中小规模、深度学习模型的准确性可能并不令人满意。整体学习模型,特别是叠加ensemble-based模型,将是一个高成本效益的解决方案的帮助下高质量的工程特性。一些研究尝试合奏深度学习分类器的学习和实现高精度的预测(40]。然而,模型训练的成本大量增加,而模型的效率降低了。它暗示叠加合奏学习分类器可能被用作具有成本效益的替代深度学习模型在性能和成本约束。

应该注意的是,这项研究也有局限性特征工程和测试数据收集。(1)部分中讨论3.2,我们只RGB颜色方案试图提取颜色特征和盒子计数法提取形状特征,这不可避免地导致不完整和不准确的特性表达式。(2)测试数据集来评估和选择最后一个模型是有限的规模和多样性,这可能会导致不准确的评估和选择最好的模型。因此,在未来的研究中,我们将改进我们的工作特性工程和高质量的数据集收集开发更好的模型果树病诊断和模型扩展到其他作物疾病的诊断。

数据可用性

训练数据集从数据库下载(http://agri.ckcest.cn/specialtyresources/list29 - 1. - html)。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢辽宁师范大学的实验室设施和必要的技术支持和资金的中国工程科学和技术知识中心。这项研究是由中国工程科学和技术知识中心项目(批准号子宫颈上皮- 2020 - 1 - 20)。