最近,腐烂的蓝莓的自动检测在食品行业仍然是一个挑战。蓝莓皮表面上发生的早期腐烂,可能采取高光谱成像模式的可行性,检测衰退地区的蓝莓。改进深剩余3 d卷积神经网络(3 d-cnn)框架提出了高光谱图像分类,实现快速训练,分类,和参数优化。丰富的光谱和空间特性可以迅速从样本中提取完整的高光谱图像使用我们提出的网络。这结合了树结构Parzen估计量(TPE)自适应和选择超参数优化网络性能。此外,针对一些样本的问题,提出了一种新颖的策略来提高高光谱图像样本数据,从而提高训练效果。标准高光谱蓝莓数据集上实验结果表明,该框架与AlexNet GoogleNet相比提高了分类精度。此外,我们提出了网络减少了参数的数量减半,培训时间约10%。
蓝莓是全球流行的优秀的风味和较高的营养价值
在当前工业标准,蓝莓的内部衰减通常被认为是由人类接触或通过观察蓝莓的黑暗腐败的组织(
国内外一些研究人员利用无损检测技术,如机器视觉和光谱成像检测疾病或成熟水果(
光谱成像技术覆盖的范围420 - 1000 nm是用来检测油桃果实在文献[
在上述研究,是否使用机器视觉技术和光谱成像技术,这种疾病领域的柑橘、石榴和其他中型水果需要分开正常区域。因为疾病区域的颜色特征明显不同与正常区域,这种疾病可以很容易地由阈值分割区域。然而,蓝莓的皮肤颜色是深色的,和正常和疾病区域的颜色特征很相似,所以很难段蓝莓疾病有效利用传统的阈值分割方法(
3 d-cnn卷积核的优势在高光谱图像特征提取光谱信息和空间信息提取同步,使充分发挥三维高光谱图像的优势(
现有3 d-cnn模型中存在一些问题,例如,网络层的数量通常是浅,hyperparameter优化耗时费力,和准确性需要进一步改善。解决上述问题,传统的高光谱三维卷积方法作了改进,以获得深功能较强表示,它结合了树结构Parzen估计量(TPE)自适应和选择超参数优化网络性能(
本文的贡献总结如下:
一种改进的深剩余3 d卷积神经网络提出了。模型的输入图像是原始高光谱图像,不需要降维方法,图像空间和光谱特征被保留。提取的特征是高光谱图像的更具代表性。它充分利用光谱和空间三维关联信息,而不只是他们的独立和独立的功能信息。
它可以避免引入过多的参数,防止过度拟合,提高计算效率;与2 d-cnn相比,3 d-cnn更适合高光谱图像处理任务。
丰富的光谱和空间特性可以迅速从样本中提取完整的高光谱图像使用我们提出的网络。这结合了树结构Parzen估计量(TPE)自适应andselects超参数优化网络性能。此外,针对一些样本的问题,提出了一种新颖的策略来提高高光谱图像样本数据,从而提高训练效果。
由于本研究使用光谱成像模式检测腐烂的蓝莓的领域,这部分需要介绍蓝莓和光谱成像功能。蓝莓是一种典型的更年期的水果。在成熟的过程中,内部的物理和化学性质的水果是不断变化,逐渐改变颜色从绿色蓝色或深紫色,和蓝莓采摘时期相对集中。图
比较不同层次的蓝莓。(一)在果树新鲜蓝莓;(b)发了霉的蓝莓。
高光谱成像技术集成了图像处理和光谱技术来获得高光谱三维立方体数据(超立方体)。高光谱数据立方体并不代表空间三维的图像。严格地说,高光谱图像应该是2.5 d图像数据。图像而言,大部分的数字图像通常是RGB(红、绿、蓝色)图像,是由三个基本的颜色。也就是说,RGB图像可分为红色、绿色和蓝色的组件,每个组件可以生成一个灰度图像。在数字图像、灰度图像由一个二维数据矩阵,和每个数据矩阵是通常被称为一个像素。例如,一个256×256 RGB图像,其实际数据存储大小是256×256×3,其中3表示其三个RGB组件。如果这三个组件扩展到成百上千的连续带,如100连续乐队,图像的数据将会扩展到256×256×100,这100是光谱的扩张,这使得图像添加丰富的光谱信息。的
2 d-cnn,经典的深度学习在图像处理,具有出色的性能在各种机器视觉任务,如图像分类、目标检测,和密集的字幕任务(
2 d-cnn的结构。
每个通道都需要培训一个卷积内核在执行二维卷积处理。如果2 d-cnn直接使用在高光谱图像分类任务,会引入大量的参数计算,因为许多频道的高光谱图像。太多的参数不仅让网络更容易过度拟合,影响精度,而且大大减少了网络的训练速度和计算效率。
通常,为了解决这类问题,学者以降维预处理之前输入高光谱图像。例如,他们使用PCA方法提取3个主成分渠道的高光谱图像,使用随机PCA(随机PCA, R-PCA)保持10到30主成分频道,然后用2 d-cnn分类。因为2只d-cnn执行卷积操作空间和光谱维简单线性操作,这种方法的明显缺点是,它会导致光谱数据的损失,这将影响识别结果(
不同于2 d-cnn 3 d-cnn卷积结构如图
3 d-cnn的结构。
3 d-cnn算法,一个卷积内核维度
输入图像的原始高光谱图像,而不需要使用降维方法,保留图像空间和光谱特性。
高光谱图像的特征提取更代表。3 d-cnn不同于2 d-cnn。飞机卷积,执行卷积操作空间和光谱维提取的特征的“光谱”结合高光谱图像。它充分利用光谱和空间三维关联信息,而不只是他们的独立和独立的功能信息。
它可以避免引入过多的参数,防止过度拟合,提高计算效率。假设卷积核的大小是3,高光谱通道的数量是200,和输出通道的数量是32,第一个2 d-cnn操作需要3×3×200×32 = 57600参数,和3 d-cnn操作需要3×3×3×1×32 = 864参数。
因此,相比之下,2 d-cnn, 3 d-cnn更适合高光谱图像处理任务。然而,随着网络结构的深化,消失梯度问题就会出现,会影响训练效果的深层神经网络,所以引入残差结构尤为重要。
在深度学习,更深层次的网络结构,更准确的提取的特征和分类的结果就越好。然而,随着网络结构的继续深化,梯度扩散或爆炸在反向传播过程中,对网络训练造成坏的影响。后残余结构,提出了由于快捷键的存在,梯度是更容易和有效传播,这很好解决问题。为了建立一个更深层次的网络结构,本文还引入了残差3 d-cnn块卷积和设计剩余的3 d结构。
根据设计规则的卷积核的大小2 d-cnn,连续几个3×3卷积核卷积有相同的视野大内核,包含更少的参数和更少的更复杂的非线性特性。研究结果表明,3×3×3小卷积核是时空特性的最优选择学习的视频输入。此外,许多算法对CT三维图像检测也使用3×3×3卷积核,取得了良好的效果。因为高光谱图像和视频和CT图像平面图像信息和类似的三维数据结构,作为参考,本文设计卷积内核结构网络中用于光谱特征提取3×3×3的大小。
剩余回旋的结构块如图
剩余回旋的结构。(一)身份剩余块;(b)卷积残块。
为了提高计算效率,网络并不直接执行卷积操作与3的大小在每个卷积层输入但使用一个瓶颈结构,这将有效地减少参数的数量和计算复杂度。假设有256个特征作为输入,如果只有3×3×3卷积操作执行,256×3×3×3×256 = 1769472卷积操作必须执行;如果采用瓶颈结构,那么只有(256×
此外,一批标准化层(BN)介绍了卷积后层。BN可以有效地防止消失的梯度和梯度爆炸。虽然引入了额外的计算,它可以使整个模型的收敛速度更快。值得注意的是,网络使用ELU(指数线性单元)代替ReLU(修正线性单元)的非线性激活函数。虽然ReLU功能有很好的特点,广泛使用,当其存在的输入是负的,衍生品将成为0和不再变化,这将导致神经元死亡的问题,永远不会被激活。ELU函数来解决这个问题,提出了一种“软饱和”状态的部分小于0,不使导数成为0,从而保持神经元存活(
网络的输入是一个三维数据矩阵3 d-cnn,这是通过将原始图像中的一个像素为中心及其大小
我们都知道,深度学习模型有两个优化任务。一是内部参数的优化,如神经网络权重的分配;另一种是hyperparameters的优化,如结构参数和神经网络的学习速率。优化hyperparameters深度学习一直是一个难点,如渠道的数量和卷积核的大小在方程(
假设
最近,最常用的hyperparameter优化方法仍然是手工搜索和网格搜索(暴力搜索),但他们的效率极低,所以hyperparameter优化一直是一个非常繁琐的过程。
TPE算法是一个连续的基于模型的全局优化算法(Smoa)。Smoa算法使用先前hyperparameters推荐下hyperparameters通过优化标准。不同的Smoa算法使用不同的优化准则。TPE算法以预期的改进(EI)为优化准则。在每次迭代之后,算法返回hyperparameter EI最好的选择。通过这种方式,通过持续推荐hyperparameters EI最好的标准,该算法可以找到最优hyperparameter速度比网格搜索。随机森林算法相比,TPE采用2概率分布来模拟后验概率,更好的建模策略和优势hyperparameter优化。hyperparameters的类型可以是整数和实数连续,例如,神经元的数量使用整数,辍学比例使用连续的实数,优化方法的分类器可以使用SGD, RMSProp,亚当,等等。
网络输入第一个提出的卷积核的卷积层
根据结构hyperparameters手动初始化,hyperparameters定义的搜索空间自动调整。有近10000的可能性在搜索空间。算法和TPE算法搜索50迭代使用相同的数据集。100时代被用于培训操作。最后,他们的识别准确率。选择最高的hyperparameter准确率的hyperparameter网络。
在本文中,将Softmax层作为分类器。因为它是优于其他分类器,如支持向量机(SVM)在处理multiclassification问题,它有一个广泛的应用在深度学习。它的功能是定义如下:
该算法计算每个类的相对概率为输出值,和类相对概率最高的分类结果。
在高光谱图像进行像素级分类,总体步骤可以分为3个步骤:
步骤1:一片区域的大小7×7×L从高光谱图像提取作为网络输入,和中央像素提取的类标签对象类,
步骤2:特征提取的基本结构是我们改进的3 d残留卷积结构,及其原理图如图
步骤3:使用crossentropy损失和反向传播网络是训练;最后,检测并得到分类结果。将Softmax层深的输出网络转化为一个概率分布,预测概率分布之间的距离,真正的概率分布可以由crossentropy计算。
众所周知,有噪声干扰霉区域和区域之间的蓝莓的波长范围400 - 450 nm。为了不影响后续检测的准确性,这个波段的光谱数据范围。此外,蓝莓发霉的光谱反射率区域可见乐队(450 - 760 nm)略高于区域。在近红外波段(760 - 1000海里),声音的光谱反射率地区高于霉地区(
高光谱成像系统对蓝莓的分类。
培训深入学习网络需要大量的图像样本,但是收集到的蓝莓数据通常是在实际应用不足。为了获得更多的数据,以便深学习模式具有较强的泛化能力,获得的蓝莓高光谱图像扩大。MATLAB软件用于执行角度旋转、尺度变换,镜像变换,并添加噪声扩大获得图像的数量。最后,同样大小的形象重塑256×256。这些图像分为训练集和测试集,其数量如表所示
蓝莓在不同的数据集的情况。
| 声音 | Slight-decayed | Moderate-decayed | Severe-decayed | |
|---|---|---|---|---|
| 培训 | 15820年 | 7821年 | 3575年 | 6951年 |
| 测试 | 526年 | 425年 | 358年 | 398年 |
| 总 | 16346年 | 8246年 | 3933年 | 7349年 |
本文提出的网络参数设置如下:深度= 40,growth_rate = 12,瓶颈= True,减少= 0.5,批量大小设置为16,学习速率设置为0.001,和最大迭代次数设置为10000次;为了提高优化效率,采用ADAMDAM优化算法。这种优化方法是使用一种改进的随机梯度下降算法执行的,可迭代更新基于神经网络的权值训练数据。
网络的输入是一个三维数据矩阵的大小
为了验证算法的泛化能力,所有数据集分为三个部分:数据集,数据集2,数据集3。图
不同层系的精度在不同的数据集。(一)数据集1;数据集2 (b);3 (c)数据集。
为了评估模型的性能,采用FPPI作为评价标准,关注的出现频率FP(假阳性)。霉菌检测矩形获得每个图像,本文使用的评估标准是检出率(博士)和假阳性/图像(FPPI),和的关系如下:
为了更好地验证我们提出的算法的性能本文AlexNet [
摘要神经网络AlexNet 8层;卷积的前5层层提取图像特征和使用池层以减少图像特征的维数;多个旋转使图像变得更加抽象的具体特性,从而更好的高光谱图像特征。如表所示
分类精度在不同的迭代次数。
| 数量的迭代 | 精度 | 预测概率 |
|---|---|---|
| One hundred. | 0.81 | 0.84 |
| 200年 | 0.87 | 0.90 |
| 300年 | 0.92 | 0.95 |
| 400年 | 0.93 | 0.96 |
| 500年 | 0.95 | 0.98 |
| 1000年 | 0.95 | 1 |
| 1500年 | 0.99 | 1 |
| 2000年 | 0.97 | 1 |
| 3000年 | 0.95 | 1 |
当网络的迭代次数达到200年的健身训练模型不是很高。蓝莓高光谱图像分类时,网络不能正确分类的蓝莓。当声音蓝莓高光谱图像输入到网络识别网络训练完成后,超过50%的蓝莓分为声音和超过40%被归类为腐烂的蓝莓,但是声音概率大于衰变概率,它的声音可以判断条件,可以实现精确分类的目的。
CaffeNet也有8层。每一层的输出是下一层的输入。每个光谱层中的数据格式有四个维度;第一个维度是图片的数量,第二个维度是通道的数量,第三和第四维度是图像的宽度和高度。损失函数往往是凸深度学习,没有解析解,需要解决的优化方法。本文提出算法和反向算法被称为交替更新参数,以尽可能减少损失值,最后得到局部最优解。在网络的过程中迭代,10倍crossvalidation用于验证性能。从这可以看出,网络增加迅速,精度和网络趋于收敛的过程中训练,最终达到100%。然而,由于缺乏数据,增加迭代次数将导致过度拟合。因为巨大的参数过度拟合的过程中,网络的训练集的数据拟合结果是好的,但外面的样本数据集的预测结果非常贫困,那里是一个很好的分类错误概率。 ResNet uses the residual neural network to perform nondestructive detection of blueberries. The detection accuracy rate is up to 90%, and the effect is better. The texture features of the sound blueberry image are obviously different with moderate-decayed and severe-decayed blueberries. It is easy to identify the mildew blueberries using ResNet technology, and the detection effect on the slight-decayed blueberry is poor. The proposed model in this paper is an improved 3D-CNN method for nondestructive detection of blueberries, and its four types of blueberries have better classification performance. Table
在不同的比较模型的精确性。
| 类 | AlexNet | GoogleNet | 3 d-cnn | ResNet | 提出了 |
|---|---|---|---|---|---|
| 声音 | 85.3 | 83.4 | 82.7 | 97.2 | 98.25 |
| Slight-decayed | 96.3 | 94.2 | 89.7 | 83.1 | 95.1 |
| Moderate-decayed | 69.6 | 70.4 | 62.0 | 84.4 | 93.6 |
| Severe-decayed | 58.0 | 66.9 | 65.5 | 84.4 | 89.4 |
| OA (%) | 77.8 | 81.9 | 80.6 | 85.6 | 95.2 |
| AA (%) | 61.3 | 64.2 | 68.3 | 79.8 | 91.5 |
| K (%) | 74.5 | 79.3 | 77.9 | 84.6 | 94.6 |
为了分析蓝莓模识别算法的性能本文图
数据库中的性能比较。
检出率FPPI = 1时的不同模型。
| 模型 | AlexNet (%) | GoogleNet (%) | 3 d-cnn (%) | ResNet (%) | 提出(%) |
|---|---|---|---|---|---|
| 检出率 | 89.12 | 91.88 | 92.15 | 95.42 | 96.69 |
本文测试训练网络的分类效果在不同的数据集来验证模型的泛化能力。本文使用蓝莓的模型训练数据集1分类数据集2,分别和数据集3。分类层是不同的,所以转移训练方法是用来取代分类网络模型和调整的一部分。网络的其他部分的参数不更新。训练数据集仍然是分为20%,10%的验证,和70%的测试样品。实验结果如表所示
比较模型的泛化能力。
| 索引 | 数据集 | ||
|---|---|---|---|
| 1 | 2 | 3 | |
| OA (%) | 98.37 | 96.35 | 95.31 |
| AA (%) | 97.85 | 92.61 | 92.09 |
| K (%) | 98.29 | 96.25 | 95.22 |
改进深剩余3 d卷积神经网络(3 d-cnn)框架提出了高光谱图像分类,实现快速训练,分类,和参数优化。丰富的光谱和空间特性可以迅速从样本中提取完整的高光谱图像使用我们提出的网络。这结合了树结构Parzen估计量(TPE)自适应和选择超参数优化网络性能。此外,针对一些样本的问题,提出了一种新颖的策略来提高高光谱图像样本数据,从而提高训练效果。标准高光谱蓝莓数据集上实验结果表明,该框架与AlexNet GoogleNet相比提高了分类精度。此外,我们提出了网络减少了参数的数量减半,培训时间约10%。
标签数据集用于支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突。
这项工作是支持的科学研究基金会的内蒙古民族大学”(没有。NMDYB18023);内蒙古民族大学的科学研究基金会”(没有。NMDYB19037);内蒙古自治区高等教育科学研究项目(没有。NJZY19155);内蒙古自治区高等教育科学研究项目(没有。NJZY18160);赛尔创新项目(没有。NGIINGII20170612); and Science Research Project of Inner Mongolia University for the Nationalities (no. NMDGP1706).