文摘
近年来,许多领域的高性能spectral-spatial分类方法提出了高光谱图像的分类。目前,大量的研究都集中在发展中提高分类精度的方法。然而,一些研究表明,广泛采用基于像素随机抽样策略不适合spectral-spatial高光谱图像分类算法。因此,复合聚类抽样策略,提出了可大大减少训练集和测试集之间的重叠,同时使采样点的训练集充分代表在光谱域。同时,为了解决问题的三维卷积神经网络常用于spectral-spatial高光谱图像分类方法,如长时间的培训和大型计算资源需求,多尺度spectral-spatial高光谱图像分类模型提出了基于二维卷积神经网络,有效地减少了培训时间和计算资源的需求。
1。介绍
高光谱图像(HSI)是通过专用的高光谱相机,它包含同一地物的光谱信息在数以百计的连续乐队(1]。相比等传统遥感图像RGB三波段遥感图像和多光谱遥感图像的成像乐队上学大大增加。每个乐队上学地图的一个二维(2 d)图像与空间几何关系,和每个像素的光谱特性曲线。因此,上学有效地结合空间和光谱信息和遥感领域的被广泛使用。上学的在各种应用场景,恒生指数分类技术相对成熟,广泛应用在城市研究[2)、海洋灾害预测(3),和其他任务。
近年来,一些研究领域的深度学习已经吸引了许多学者的关注。学习是机器学习的一个新的领域。随着计算机处理能力的提高和优秀的算法的出现,各种方法的性能大大改善领域的深入学习。同时,深度学习也广泛与遥感相结合。提出了许多巨大的HSI模型分类,如堆放autoencoder (SAE) [4网络(DBN)[],很深的信仰5递归神经网络(RNN) [],6),和生成对抗网络(GAN) [7]。
领域的深度学习,卷积神经网络(CNN)强于其他深度学习模型在高维数据的特征选择和提取。cnn是广泛应用于铸铁的分类(8- - - - - -10]。然而,CNN模型仍然有很大的可能性提高铸铁的性能分类。cnn首次使用HSI分类时,模型只使用像素的光谱特征信息11,12),这在很大程度上浪费上学的优势;也就是说,空间信息和光谱信息紧密结合。为了应对这一问题,提出了一种空间谱分类方法(13],像素的空间位置信息和光谱信息都是使用在模型训练,有效地提高了分类性能的CNN模型。因此,空间谱分类方法已广泛应用(14,15]。在大量的研究空间谱HSI分类方法,发现多尺度空间谱HSI分类方法可以有效地提高分类能力和鲁棒性的模型(16]。目前,多尺度空间谱HSI分类方法有很高的分类性能(17]。
许多空间谱HSI分类模型、3 d-cnn模型取得了最佳的性能,所以大多数研究人员选择3 d-cnn构建多尺度空间谱HSI分类模型(18,19]。然而,3 d-cnn问题,如网络参数太多,太多的计算资源进行训练,训练时间,太长时间,这限制了多尺度空间谱HSI分类方法的推广应用。因此,有必要改进现有的模型。
近年来,许多空间谱的方法研究了铸铁的分类。高光谱遥感社会的很大一部分他们的研究集中在提高分类精度通过开发各种spectral-spatial方法(9,20.,21),但很少有人注意实验设置。在监督深度学习方法,模型开始训练之前,标签需要原始数据集分为训练集和测试集,因为它是很难获得标记HSI数据集,研究人员通常使用公共HSI的数据集,如印度的松树。因此,在研究过程中,训练集和测试集划分在一个相同的恒生指数。前溪分类方法只使用像素的光谱特征信息,最常用的抽样策略是随机选择像素在HSI根据预先确定的比例形成训练集,和剩下的像素构成测试集。随机抽样策略是符合人们的直觉。它可以选择尽可能代表像素形成训练集和训练集和测试集大约满足独立和相同的条件分布。因此,在spectral-spatial HSI分类方法的研究中,几乎所有的研究都采用传统的默认随机抽样策略。
然而,发现使用随机抽样策略spectral-spatial恒生指数方法是不合理的,因为它会导致不公平的绩效评估(22]。spectral-spatial HSI方法使用随机抽样策略,造成的相关训练样本和测试样本之间的重叠将放大分类精度,导致不当spectral-spatial HSI分类方法的评价。抽样问题最初注意到fiedl的用于检查电子邮件地址等。23重叠),称为自相关。Geißet al。24相比不同的采样策略的影响和验证使用适当的抽样策略模型的必要性评估。梁等。25]证明了数据依赖的可信度模型的影响,计算学习理论。因此,广泛采用基于像素随机抽样策略并不总是适合spectral-spatial HSI分类算法,因为很难确定分类精度的提高是由于将空间信息整合到一个分类器或通过增加重叠训练和测试样本。
为了解决这个问题,提出了一些新的采样策略。梁等。25)提出了一种新的随机抽样控制策略,有效地提高了训练集和测试集之间的独立spectral-spatial方法。兰格et al。26)提出了两种改进的抽样策略基于density-based聚类算法(DBSCAN),也增强了独立训练集和测试集之间spectral-spatial方法。然而,随机抽样控制策略是在整个数据集随机选择种子点,不考虑类别不平衡的问题;也就是说,一个类的现象,像素的数量远比其他类或多或少的数据集。上学有相同的问题范围从不同材料和相同的材料具有不同的光谱。这些抽样策略都是基于像素的空间位置,没有考虑像素的光谱域代表性。
针对上述问题,本文试图结合性能优良的DBSCAN nonconnected地区的良好效果 - - - - - -意味着连接区域和聚类算法结合了恒生指数的光谱信息数据集提出复合聚类抽样策略。同时,提出了一种有效的多尺度空间谱HSI分类模型。它结合了3 d-cnn和二维卷积神经网络的优势(2 d-cnn)有效地提取多尺度空间谱特性,同时减少对计算资源的需求。本文的主要贡献如下。(1)提出了一种新的复合聚类抽样策略,结合DBSCAN的各自特点 - - - - - -意味着聚类算法,并使用光谱域平均方差作为指标。与其它抽样策略相比,该方法有效地提高了空间谱方法的分类精度。虽然它也降低了训练集和测试集之间的独立性,独立性的丧失是极其有限的,可以接受的(2)结合3 d-cnn和2 d-cnn的优点,提出了一种新的多尺度空间谱HSI分类模型。该模型不仅可以有效地提取多尺度空间谱特性的像素也克服了太多的模型参数的问题,训练时间长和高计算资源需求在现有方法
2。相关工作
2.1。DBSCAN
DBSCAN是一个典型的density-based聚类算法。其基本原则是集群通过寻找最大的密集点连接。它使用当地点密度分簇,不需要设置集群的数量提前。不同分区聚类方法和层次聚类方法,它定义了集群作为一组最大的密集点连接。它可以发现任意形状的簇的数据集,可以有效地识别连接区域的数据集。下面,一些关键的定义(27]给出数据集 。
定义1。(Eps-neighborhood)。为 ,的Eps-neighborhood的包含点数据集 的距离不超过每股收益,也就是说, 。
定义2。(核心要点)。为 ,如果至少有MinPts分Eps-neighborhood的 ,然后点被称为核心观点。
定义3。(直接density-reachable)。为 ,如果这些条件满足:是一个核心点 ,然后据说是直接density-reachable从 。
定义4。(density-reachable)。如果存在一系列的点 满足 , ,和是直接density-reachable从 ,然后据说是density-reachable从 。
定义5。(density-connected)。如果有一个点这样两个和是density-reachable从 ,然后和据说density-connected。
DBSCAN定义了一系列密集的连接的最大设置点作为一个集群,集群和点不属于任何被定义为噪音。它适用于数据集和清晰的分类边界。
2.2。 - - - - - -意味着聚类算法
的 - - - - - -1967年由MacQueen意味着聚类算法提出了(28]。因为它的优势,如良好的效果和简单的想法, - - - - - -聚类算法被广泛使用。的 - - - - - -意味着聚类算法通常使用欧氏距离作为指数测量之间的相似点。相似点之间的距离成反比。的 - - - - - -意味着聚类算法需要设置集群的数量提前。最初随机选择的算法点为中心的集群。基于分簇的中心之间的相似性,集群中心的位置不断更新来减少平方误差的总和(SSE)的集群。当SSE不再更改或目标函数收敛,算法结束,最终结果。
任何点之间的欧氏距离计算公式和聚类中心在数据集 是 在哪里是一个点,是th集群中心,点的维数,和是th属性值的和 。
数据集的SSE计算公式 是 在哪里是集群的数量。
2.3。美国有线电视新闻网
CNN是一种前馈神经网络。CNN的主要网络层包括卷积层、汇聚层,和完全连接层。不同于传统的神经网络,有线电视新闻网有稀疏连接的特点和重量分享和有更好的稳定性和泛化能力29日]。根据不同的输入信号维度,CNN可分为一维(1 d) CNN, d-cnn 2 d-cnn, 3。在应用程序中,根据需求选择不同的网络模型。在这三个cnn,卷积核的结构是相似的。因为2 d-cnn是使用最广泛的,下面列出公式二维卷积核(30.]。
2 d-cnn的价值的中地图特征th层点 是计算 在哪里代表了特征映射连接到当前地图的特性th层,和代表卷积核的长度和宽度,代表的价值立场 在卷积的内核th层,表示连接的重量th特性映射连接 ,和代表的偏见中地图特征层。
3所示。该方法
3.1。复合聚类抽样策略
本文结合DBSCAN的优点 - - - - - -意味着聚类方法,提出了复合聚类抽样策略。同时,复合群抽样策略使用光谱域平均方差作为衡量,这不仅使划分训练集和测试集独立维持高但也使训练集的样本点高光谱领域的代表性。
初的复合聚类抽样策略,DBSCAN用于第一恒生指数数据集的聚类。这一步的目的是恒生指数数据集划分为多个分区。这里的分区称为是一组相连的像素有相同的标签。对于每个类,通常有多个分区分布在地图上,对应于相同的土地覆盖分类在不同的位置。性能优良的DBSCAN识别类边界,在同一类别下的不同的分区,可以有效地识别。
为每个分区被DBSCAN, - - - - - -意味着第二个聚类的算法。的 - - - - - -聚类算法在连接地区表现良好;它可以用来将每个分区分成集群,集群空间。对于每个光谱维度的每个集群,集群中的所有像素的方差计算在这个维度。这些不同的光谱维度的方差是平均的,它叫做光谱域平均方差。提出的谱域平均方差可以有效地评估差异像素在一个集群中。因为像素在一个集群中有相同的标签,如果集群的谱域平均方差大,这意味着集群中的像素有很大的差异。显然,对于每一个类,它是可取的选择尽可能多的不同样本训练集形式,模型可以训练有素。因此,不同集群分区在降序排序根据光谱域平均方差,采样点是获得根据抽样比例形成训练集,其余部分构成了测试集。
在某些情况下,很少有像素在一些分区,这是不适合二次聚类。因此,如果集群中样本的数量小于(集群)的数量,分区分类根据像素的空间位置,然后,根据采样率和采样点是获得纳入训练集,如图1,综合聚类抽样策略提出了主要包括以下步骤。
步骤1。每个类的恒生指数数据集,使用DBSCAN执行第一个集群基于像素坐标来获取这个类中的所有分区。
步骤2。决定是否执行二次聚类分区基于像素的数量。如果像素的数量很小,像素排序根据空间位置,然后,采样点是根据预定的采样率和获得纳入训练集,否则 - - - - - -意味着方法用于第二个集群分区的形式集群。
步骤3。计算每个集群获得的光谱域平均方差在步骤2;在降序排序这些集群根据光谱域平均方差。
步骤4。抽样比例,根据预定的采样点拦截从获得的有序排列在步骤3中,纳入训练集。
3.2。新的多尺度空间谱HSI分类模型
在传统的多尺度空间谱HSI分类方法,大规模的三维(3 d)数据块通常与每个像素划分为中心;然后,大小不一的卷积核是用来提取多尺度空间谱信息。提取的空间谱特性综合形成一个空间谱特征地图,地图和特性是后续网络结构的输入进行训练。如图2所示,传统多尺度空间谱分类方法。
然而,尽管传统的多尺度空间谱分类方法可以有效地提取多尺度空间谱特性,噪声信息通常是介绍。如图3,当3 d数据块大小的大,小的卷积内核将获得空间谱特性,不属于中央像素,将噪声提取的空间谱特性映射。
针对这一问题,基于改进现有的工作方法和模型,提出了一种新的多尺度空间谱HSI分类模型,叫做1 d-3d-2d-cnn模型。1 d-3d-2d-cnn模型,像素的光谱数据和不同尺度的三维数据块的多数集中在像素提取。对于一维光谱信息,提取的一维卷积的内核是用于提取光谱特征;提取三维数据块,对应的三维卷积内核用于提取多尺度空间谱特性。然后,提取的光谱特性和多尺度空间谱特性是随意转为二维特征地图和融合获得多尺度地图空间谱特性和输入到后续2 d-cnn培训。如图4,新的多尺度空间谱HSI分类模型提出了主要包括以下步骤。
步骤1。对于每一个像素,提取光谱信息对应像素和多元化的数据块大小不同像素为中心,分别划分。
步骤2。光谱数据使用一维卷积核的卷积来提取光谱特性;三维卷积内核用于卷积对应的数据块中提取多尺度空间谱特性。
步骤3。提取的光谱特性和多尺度空间谱特性改造成二维特征图谱,并获得多尺度空间谱图像融合。
步骤4。多尺度地图空间谱特性是输入2 d-cnn进行训练。
3.3。多尺度空间谱HSI基于复合分类方法聚类抽样策略
结合部分的工作3.1和3.2、多尺度空间谱HSI分类方法的基础上,提出了综合聚类抽样策略。
该方法主要包括以下步骤。
步骤1。复合聚类抽样策略是用于把原始HSI数据集分成合适的训练集和测试集。
步骤2。训练集的输入1 d-3d-2d-cnn模型如图5进行训练。
步骤3。测试集的输入训练模型进行测试。
4所示。实验结果
为了验证的有效性提出了多尺度空间谱HSI分类方法的基础上,综合聚类抽样策略,实验三个常用的公共HSI数据集上执行:印度的松树,帕维亚大学,萨利纳斯。实验环境是谷歌Colaboratory云计算平台。谷歌Colaboratory由谷歌(Google inc .)和提供免费提供GPU加速服务的人工智能(AI)的研究人员。
本文三个指标,总体精度(OA),平均精度(AA)和Kappa系数作为评价标准模型的性能。其中,OA指向每个像素来评估所有采样点的分类精度测试集;AA的类别,这意味着平均每个类的分类精度;Kappa认为正确分类像素和像素分类错误的数量在同一时间;这是一个索引来评估分类结果的一致性和可信度。为了减少随机误差的影响,本章所有实验数据的平均值5独立重复实验。
4.1。数据集
印度松树数据集是印度的HSI松树印第安纳州西北部地区获得的美国,一个机载可见光/红外成像光谱仪(AVIRIS)。它有一个20米的空间分辨率,是组成的 200像素,并且包含光谱波段(24乐队受到水蒸气和臭氧是删除)。它的波长范围是0.4到2.5微米。地面对象引用印度松树的地图数据集包含16个不同的类,包括农田、森林、草原等植被。像素的数量在印度松树不同类别数据集非常不均匀。图6是11日带伪彩色映射和印度松树的地图数据集的类别标签。从图可以看出6,印度松树的像素数据集是集群和类别边界清晰。表1列出了印度松树数据集的类别名称和像素的数量在每个类别。从表可以看出1印度松树数据集有一个小数量的像素,只有10249像素的标签。某些类别的像素太低。例如,类别“苜蓿”只有46个像素,类别“grass-pasture-mowed”只有28个像素,和类别“燕麦”只有20像素。当采样点的数量太低,深的有效性学习方法不好,但为了实验的一致性,本章实验并没有排除这些小像素类别。
帕维亚大学数据集的HSI帕维亚大学校园在意大利北部获得反射光学系统成像光谱仪(ROSIS-3)在德国发达。它有一个1.3米的空间分辨率,是组成的 103像素,并且包含光谱波段(12乐队受到水蒸气和臭氧是删除)。它的波长范围是0.43到0.86微米。地面对象引用帕维亚大学的地图数据集包含9个不同的类,如草坪和碎石。图7是60乐队伪彩色映射和类别标签帕维亚大学的地图数据集。从图可以看出7,只有在类别“光秃秃的土地”和“草坪”,像素是集群和范畴边界是清晰的。在其他七个类别,像素分布和范畴的边界是模糊的。表2帕维亚大学的名单类别名称数据集和像素的数量在每个类别。从表可以看出2,帕维亚大学数据集有一个大量的标记像素,但是只有九个类别。数据集的类别是相对平衡的,没有现象,一类的像素太低了。
萨利纳斯山谷的萨利纳斯的数据集是溪,加利福尼亚,美国收购AVIRIS传感器。它有一个3.7米的空间分辨率,是组成的 204像素,并且包含光谱波段(20乐队受到水蒸气和臭氧是删除)。地面对象引用萨利纳斯的地图数据集包含16个不同的类。图8是第188乐队伪彩色映射和萨利纳斯的地图数据集的类别标签。从图可以看出8标记像素萨利纳斯的数据集的集群和范畴边界是清晰的。表3列出了萨利纳斯数据集的类别名称和像素的数量在每个类别。从表可以看出3,萨利纳斯的数据集有一个大量的像素,与16个类别。数据集的类别是相对平衡的,没有现象,一类的像素太低了。
4.2。实验方法
为了量化独立后的训练集和测试集之间使用不同的采样策略,测试集独立率是用来评估多个采样策略。测试集样本不参与培训过程被称为测试set-independent采样点,和测试集独立率是指测试set-independent采样点的数量之间的比例和数量的样品在测试集。价值的综合聚类抽样策略应该是整数大于或等于2。在实验中,价值的综合聚类抽样策略从2到16日和性能时观察到的价值很小。如果没有结论可以得出当的值不能大于16,然后呢进一步扩大。
1 d-3d-2d-cnn模型提出了有五个回旋的层。在第一个卷积层,1 d卷积核的大小3是用于提取光谱特征的光谱信息的大小 ,和3 d卷积核大小(3,3,3)和(5、5、3)提取多尺度空间谱特性用于数据块的大小 和 ,在哪里是光谱维数大小。卷积过滤器第一层的数量是两个。第一次卷积层后,光谱特性和多尺度空间谱特性被调换到2 d地图和熔融特性。未来四卷积层二维卷积,卷积核大小都是(3、3),所有使用修正线性单元(ReLU)激活函数,和过滤器在每一层的数量是4,16日,32岁的64人。在这些二维卷积层,第一个两层使用“相同”填充,最后两层使用填充“有效”。最大池与步长为2层使用最后一个卷积后层。三个完全连接(FC)层,其中前两个FC层使用辍学。第二个FC层使用乙状结肠激活函数,第三个FC层使用softmax激活函数。模型的训练时期是1000,批量大小是128,损失函数是交叉熵,模型使用亚当的优化器。使用分层学习速率,批小于400时,学习速率 ;当批量大于400小于600年,学习速率 ;当批量大于600小于800年,学习速率 ;批处理大于800时,学习速率 。
为了验证1 d-3d-2d-cnn模型的有效性提出本文设计3 d-cnn模型进行比较实验。3 d-cnn模型不同于1 d-3d-2d-cnn模型只有在卷积和汇聚层。它有五个三维卷积层,每一层的过滤器是2,4、16、32岁,到64年,和卷积核的大小都是(3,3,3)。这些3 d卷积层都使用ReLU激活函数。在五3 d卷积层,前三层使用“相同”填充,最后两层使用填充“有效”。在3 d-cnn模型设计,不使用池层。在模型训练,根据经验,10%到30%的采样率通常是用来选择训练集。在这一节中,选择训练集的最常用的抽样比率,这是20%。为了验证复合聚类抽样策略的有效性,很少有在这一领域的研究成果,本文选择实现改进的抽样策略提出的成立兰格et al。26)进行比较实验。
如图9,在印度松树数据集,虽然独立测试集的综合聚类抽样策略提出了更高比随机抽样策略,它有点低于成立抽样策略。随着复合聚类抽样策略价值增加时,测试集独立率逐渐降低。常用的抽样率为10%到30%,当从2到16,与成立抽样策略相比,复合聚类抽样策略会导致测试集独立率下降。当是2和采样率是10%,测试集独立率降低,低于6.4%的抽样策略在相同条件下成立。当是16和采样率是30%,最独立测试集率降低,低于33.7%的抽样策略在相同条件下成立。独立的丧失是大训练集和测试集除以复合聚类抽样策略。这是由于大量的类别和小数量的像素数据集在印度松树。从图可以看出9在综合聚类抽样策略,独立的数据集时已经达到了一个较低的水平是16。然而,在低值,测试集独立率仍然是可接受的。
在印度松树数据集,它可以从表43 d-cnn和1 d-3d-2d-cnn模型、复合聚类抽样策略可以使模型的分类性能比成立抽样策略。3 d-cnn模型,当是14,OA最高,达到70.94%,这是一个与成立抽样策略相比增长了24.13%。当是13,AA最高,达到73.32%,这是一个与成立抽样策略相比增长了30.77%。当是16,Kappa最高,达到了0.6566,这是一个与成立相比上升0.2616抽样策略。在本文提出的模型是15,OA最高,达到83.01%,这是一个与成立抽样策略相比增长了33.25%。当是11,AA最高,达到82.08%,这是一个与成立抽样策略相比增长了30.96%。当是15,Kappa最高,达到了0.8059,这是一个与成立相比上升0.3667抽样策略。两个模型实验结果表明,该复合聚类抽样策略提出了可以有效地提高模型的分类性能。
在印度松树数据集,虽然测试集独立率大大减少的价值大,复合聚类抽样策略可以大大提高分类精度速度较小的成本减少测试集独立的价值很小。当4,使用1 d-3d-2d-cnn模型,与成立抽样策略相比,OA增长了26.3%,AA增加了21.41%,Kappa增加了0.2886,和测试集独立率仅下降了9.41%。与随机抽样策略相比,复合聚类抽样策略仍有一定的差距最终分类精度。当4,使用1 d-3d-2d-cnn模型,与随机抽样策略相比,OA下降了18.3%,AA下降了20.38%,Kappa下降了0.2078,但测试集独立率增加了79.77%。考虑分类精度和测试集独立率,综合聚类抽样策略的性能是可以接受的。当大,测试集独立率显著降低,不再实用。例如,当是16和采样率是20%,测试集独立率仅为65.81%。的价值增加,测试集独立率将进一步降低;因此,这些情况大于16将不会进一步讨论。
与3 d-cnn模型相比,1 d-3d-2d-cnn模型最大的OA时增长了17.78%11,最小的OA增长2.95%成立抽样策略。它有最大的AA时增长了12.16%7,最小的AA增长1.22%随机抽样策略。它有最大的Kappa增长0.2076时11,最小的Kappa增长0.0442成立抽样策略。当最长是2,训练时间缩短,缩短8.17分钟;当是16,训练时间缩短了最短,缩短6.79分钟。这是因为印度松树标记像素数据集的数量很小,3 d-cnn模型不能充分训练。1 d-3d-2d-cnn模型提出,尽管使用2 d-cnn将减少训练精度,使用多尺度spectral-spatial方法能够有效地提取多尺度spectral-spatial特性的像素,这有效地补偿造成的精度损失2 d-cnn。因此,在印度松树数据集,1 d-3d-2d-cnn模型提出了不仅可以有效地提高分类精度,还有效地缩短训练时间的模型。
如图10在帕维亚大学的数据集,测试集独立的综合聚类抽样策略提出了远高于随机抽样的策略,也不是远低于成立的抽样策略。随着复合聚类抽样策略价值增加时,测试集独立率逐渐降低。常用的抽样率为10%到30%,当从2到16,与成立抽样策略相比,复合聚类抽样策略会导致测试集独立率下降。当是2和采样率是10%,至少测试集独立率降低,低于2.7%的抽样策略在相同条件下成立。当是16和采样率是30%,测试集独立率减少得最多,低于12%的抽样策略在相同条件下成立。在帕维亚大学的数据集,综合聚类抽样策略测试集独立率较高。这是由于更少的类别和更多的像素在帕维亚大学的数据集。
在帕维亚大学的数据集,它可以从表53 d-cnn和1 d-3d-2d-cnn模型、复合聚类抽样策略可以使模型的分类性能比成立抽样策略。3 d-cnn模型,当是14,OA最高,达到92.32%,这是一个与成立抽样策略相比增长了28.96%。当是14,AA最高,达到91.77%,这是一个与成立抽样策略相比增长了19.76%。当是14,Kappa最高,达到了0.8973,这是一个与成立相比上升0.3392抽样策略。在本文提出的模型是14,OA最高,达到93.60%,这是一个与成立抽样策略相比增长了27.48%。当是14,AA最高,达到93.29%,这是一个与成立抽样策略相比增长了14.17%。当是14,Kappa最高,达到了0.9127,这是一个与成立相比上升0.3258抽样策略。两个模型实验结果表明,该复合聚类抽样策略提出了可以有效地提高模型的分类性能。
虽然测试集独立率大大减少的价值大,复合聚类抽样策略可以大大提高分类精度的一个更小的减少测试集独立的价值吗很小。当4,使用1 d-3d-2d-cnn模型,与成立抽样策略相比,OA增长了26%,AA增加了12.09%,Kappa增加了0.3063,和测试集独立率仅下降了4.19%。与随机抽样策略相比,复合聚类抽样策略仍有一定的差距最终分类精度。当4,使用1 d-3d-2d-cnn模型,与随机抽样策略相比,OA下降了6.24%,AA下降了6.71%,Kappa下降了0.0815,但测试集独立率增加了90.88%。在帕维亚大学数据集,考虑分类精度和测试集独立,复合聚类抽样策略执行得很好。
与3 d-cnn模型相比,1 d-3d-2d-cnn模型最大的OA时增长了3.34%7,最小的OA增长0.04%什么时候是3。它有最大的AA增长7.11%成立采样策略和最小的AA增长了0.99%是5。它有最大的Kappa增长0.0434时7,最小的Kappa增长了0.0015什么时候是3。当4、培训时间缩短最长,缩短14.94分钟;当是13,培训时间缩短了最短,缩短13.67分钟。这是因为帕维亚大学的标记像素数量数据集很大,和3 d-cnn是训练有素。1 d-3d-2d-cnn模型提出,尽管使用2 d-cnn将减少训练精度,使用多尺度spectral-spatial方法能够有效地提取多尺度spectral-spatial特性的像素,这有效地补偿造成的精度损失2 d-cnn。因此,在帕维亚大学数据集1 d-3d-2d-cnn模型可以有效地缩短训练时间的模型在保证分类精度。
减少测试时设置独立速度减慢大于6。当是16,测试集独立率是89.28%,训练集和测试集之间的独立性仍然保持在高水平。因此,的价值大于16岁应该进一步讨论。
分类性能的复合聚类抽样策略17 - 32进一步讨论的价值。从表可以看出6,当是14日1 d-3d-2d-cnn模型的分类精度进一步提高,OA达到94.13%,AA达到93.55%,Kappa达到0.9229,测试集独立率仍在89.40%的高水平。然而,当大于20,分类精度减少波动,和测试集独立率也不断减少。当是32,测试集独立率仅为86.46%,这已经是在低水平。的价值增加,测试集独立率将进一步减少。因此,这些情况大于32不会进一步讨论。
如图11萨利纳斯的数据集,测试集独立的复合聚类抽样策略提出了远高于随机抽样的策略,也不是远低于成立的抽样策略。作为复合聚类抽样策略价值增加时,测试集独立率逐渐降低。常用的抽样率为10%到30%,当从2到16,与成立抽样策略相比,复合聚类抽样策略会导致测试集独立率下降。当9和抽样比例是10%,至少测试集独立率降低,低于1.9%的抽样策略在相同条件下成立。当是15和采样率是30%,测试集独立率减少得最多,低于11.4%的抽样策略在相同条件下成立。复合聚类抽样策略测试集独立率较高。
在萨利纳斯的数据集,它可以从表73 d-cnn和1 d-3d-2d-cnn模型、复合聚类抽样策略可以使模型的分类性能比成立抽样策略。3 d-cnn模型,当是12,OA最高,达到88.89%,这是一个与成立抽样策略相比增长了10.55%。当是13,AA最高,达到93.97%,这是一个与成立抽样策略相比增长了14.72%。当是12,Kappa最高,达到了0.8759,这是一个与成立相比上升0.118抽样策略。在本文提出的模型是12,OA最高,达到90.09%,这是一个与成立抽样策略相比增长了7.41%。当14,AA和最高达到94.83%,这是一个与成立抽样策略相比增长了12.34%。当是12,Kappa最高,达到了0.8894,这是一个与成立相比上升0.0828抽样策略。两个模型实验结果表明,该复合聚类抽样策略提出了可以有效提高分类模型的性能。
虽然测试集独立率大大减少的价值大,复合聚类抽样策略可以提高分类精度成本较小的独立测试集速度下降的价值很小。当3,使用1 d-3d-2d-cnn模型,与成立抽样策略相比,OA增长了4.49%,AA增加了8.51%,Kappa增加了0.05,和测试集独立率仅下降了3.36%。与随机抽样策略相比,复合聚类抽样策略仍有一定的差距最终分类精度。当3,使用1 d-3d-2d-cnn模型,与随机抽样策略相比,OA下降了7.46%,AA下降了0.33%,Kappa下降了0.0835,但测试集独立率增加了92.7%。萨利纳斯的数据集,考虑分类精度和测试集独立率,综合聚类抽样策略的性能是可以接受的。
测试集的减少速率已经放缓下来,独立大于5。当是16,测试集独立率是89.67%,训练集和测试集之间的独立性仍然保持在高水平。但是,当大于12,模型的分类性能明显下降。因此,这些情况大于16将不会进一步讨论。
与3 d-cnn模型相比,1 d-3d-2d-cnn模型最大的OA增长4.36%随机抽样策略和最小的OA增长了0.26%是13岁。它有最大的AA增长3.24%成立采样策略和最大的AA时减少了0.99%是12。它有最大的Kappa增长0.049随机抽样策略和最小的Kappa增长了0.0031时是13岁。成立的采样策略,缩短训练时间最长,缩短34.78分钟;当10、训练时间缩短了最短,缩短33.16分钟。这是因为在萨利纳斯标记像素的数量数据集很大,和3 d-cnn是训练有素。1 d-3d-2d-cnn模型提出,尽管使用2 d-cnn将减少训练精度,使用多尺度spectral-spatial方法能够有效地提取多尺度spectral-spatial特性的像素,这有效地补偿造成的精度损失2 d-cnn。因此,在萨利纳斯的数据集,1 d-3d-2d-cnn模型可以有效地缩短训练时间,同时保证分类精度。
总之,复合聚类抽样策略表现在印度的松树,帕维亚大学,萨利纳斯的数据集。复合聚类抽样策略具有良好的性能在一个范畴的边界是模糊的数据集,像素的数量很大,和类别的数量很小,如帕维亚大学的数据集。印度松树数据集有一个小数量的像素和大量的类别,使用复合聚类抽样策略将导致独立训练集和测试集之间更大的减少,但它可以大大提高分类精度代价较小的独立测试集速度下降时的价值很小。萨利纳斯数据集有一个大量的像素和清晰的分类界限,成立抽样策略既能表现良好,和复合聚类抽样策略带来的性能改善不明显。然而,使用1 d-3d-2d-cnn模型提出了能有效缩短训练时间的模型在保证分类精度。
4.3。与其他方法的比较实验
spectral-spatial分类领域的抽样策略的问题,只有提高近年来,和研究正在逐步进行,因此在该领域的研究成果并不多。目前,最被广泛接受的方法在这一领域是控制随机抽样策略25,31日]。梁等。25)实验中使用随机抽样控制策略,支持向量机(SVM)和随机森林(RF)模型结合3 d离散小波(3 d-dwt)和形态(EMP) spectral-spatial特征提取方法。为了验证该方法的有效性,控制随机抽样策略的分类性能和复合聚类抽样策略使用OA作为比较指标。建议1 d-3d-2d-cnn SVM-3D-DWT的四种空间频段分类方法,SVM-EMP, RF-3D-DWT, RF-EMP比较。这四个模型的实验数据是引用从梁的研究等。25]。
它可以从表中找到8不同采样率下,训练集的像素数量不是严格意义上的多重关系。这是因为无论是随机抽样策略或复合控制集群抽样策略,训练样本选择为每个分区根据预定的采样率。用于构成训练集样本的数量在每个分区不包含小数。当数据集的分区数量很大,这将导致一个重大的差距。
首先,观察五种型号的性能在使用随机抽样控制策略。从表可以看出9- - - - - -11印度松树数据集,1 d-3d-2d-cnn的分类精度优于其他四个模型的抽样比率是10%和25%,但当采样率为5%,1的分类精度d-3d-2d-cnn并不是最好的。在帕维亚大学数据集1的分类精度d-3d-2d-cnn优于其他四个模型的采样率是25%,但是当抽样比率是5%和10%,分类精度1 d-3d-2d-cnn不是最好的。在萨利纳斯的数据集,当采样率是5%,10%,和25%,1 d-3d-2d-cnn的分类精度优于其他四个模型。一般来说,1的分类能力d-3d-2d-cnn是可以接受的。
第二,控制下的实验结果1 d-3d-2d-cnn随机抽样策略和组合聚类抽样策略进行了比较。从表可以看出9- - - - - -11在印度松树数据集,综合集群抽样策略优于随机抽样控制策略。在帕维亚大学的数据集,当采样率是10%,随机抽样控制策略执行更好,抽样比例5%和25%时,复合聚类抽样策略性能更好。在萨利纳斯的数据集,当采样率是5%,随机抽样控制策略执行更好,抽样比例10%和25%时,复合聚类抽样策略性能更好。这是由于不同的优点和缺点这两个抽样策略。的工作原理,控制随机抽样策略是随机选择种子点在每个分区和使用区域增长算法选择一个足够大的训练集种子点。虽然这个方法可以提高独立训练集和测试集,它不能保证像素的光谱代表性的训练集,当像素在分区的数量小,抽样比例很小,随机抽样控制策略可以用来获得一个训练集高光谱领域代表性,但当分区的像素数量大或抽样比例很大,很难获得一个训练集高光谱领域代表性使用受控随机抽样策略。与随机抽样控制策略相反,当抽样比例大,复合聚类抽样策略表现更好,但当抽样比例相对较小,复合聚类抽样策略不能令人满意。这是因为当抽样比例相对较小,对于每一个分区,分区的像素用于训练模型通过使用复合聚类抽样策略将分布在集群中,这使得光谱领域代表性的训练集无法得到保证。印度松树数据集的特点,更少的像素和更少的分区,和像素分布不均;既有分区与少量的像素和分区与大量的像素。 Therefore, in the Indian Pines dataset, when the sampling ratio is small, the controlled random sampling strategy performs well, but when the sampling ratio is large, the composite clustering sampling strategy is superior to the controlled random sampling strategy. The Pavia University dataset has the characteristics of a large number of pixels and partitions, so that each partition has a small number of pixels. Therefore, in the Pavia University dataset, the performance of the controlled random sampling strategy and composite cluster sampling strategy is very close. The Salinas dataset has the characteristics of a large number of pixels and a small number of partitions, so the number of pixels in each partition is large. Therefore, in the Salinas dataset, when the sampling ratio is small, the controlled random sampling strategy performs better than the composite clustering sampling strategy, but as the sampling ratio increases, the classification accuracy of the controlled random sampling strategy only increases slightly, and the classification accuracy of the composite clustering sampling strategy has increased significantly. Generally, when the sampling rate is low and the number of pixels in each partition of the data set is small, the performance of the controlled random sampling strategy will be better; when the sampling rate is large, the performance of the composite cluster sampling strategy is better. In general, when the sampling rate is low and the number of pixels in each partition of the dataset is small, the controlled random sampling strategy performs better; when the sampling rate is larger, the composite clustering sampling strategy performs better.
4.4。卷积的层数对模型性能的影响
为了验证的影响许多不同的卷积层1 d-3d-2d-cnn模型的性能,比较实验采样率20%以上三个数据集。
从表可以看出12- - - - - -14在印度的三个数据集的松树,帕维亚大学,萨利纳斯,随着卷积层数量的增加,1 d-3d-2d-cnn模型的分类精度逐渐提高。然而,提高分类性能的影响通过增加模型的深度是有限的。当模型的深度达到临界值时,继续增加模型的深度会导致分类精度降低。这是由于梯度消失的问题造成太多回旋的层。因此,本文选择使用五卷积层构建1 d-3d-2d-cnn模型。
5。结论
提出了一种综合聚类抽样策略spectral-spatial HSI分类方法,它不仅维护了一个高独立训练集和测试集,也使得采样点在训练集有更高的光谱域表示。同时,提出了一种新的多尺度spectral-spatial HSI分类模型,可有效缩短训练时间,减少计算资源需求,同时维持或略降低分类精度。然而,等较小的采样率为5%,该方法的性能很差。在未来,采样策略spectral-spatial HSI分类方法将继续改进以提高其性能,较小的采样率。尽管该方法的分类性能比现有的其他方法,它与随机抽样方法相比仍有差距。在未来,更好的模型将继续提出提高分类能力。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
中一段,X.Q., and H.G. conceived and designed the experiments; Y.Y., D.Y., and Z.H. presented tools and carried out the data analysis; C.L. and X.Q wrote the paper; H.G. guided and revised the paper.
确认
这项工作得到了国家自然科学基金(61701166),中国国家重点研发项目(2018号yfc1508106),中央大学(没有基础研究基金。B200202183)下的江西杰出青年科学基金资助(No.2018ACB21029),年轻的精英科学家赞助项目投(2017号qnrc001)和国家科学基金会中国青年科学家(51709271)。