文摘

物联网环境中,卷积神经网络(CNN)是一种重要的工具和方法的图像分类。然而,CNN的特征提取的每一层都是高维,和之间的特性不同层。此外,这些特性包含大量的冗余信息。防止计算负担的增加和减少模型的泛化性能,是由于高维度,本文提出了一种改进的图像分类算法基于深度特征融合,设计和构建一个8-layer CNN。此外,它降低了维数的特性通过主成分分析(PCA)降维算法和融合进行了降维的特征,使获得的特性更为典型和微分。实验结果表明,该算法提高了模型的性能,达到满意的精度。

1。介绍

在物联网时代,图像分类在多媒体信息处理中起着重要的作用。图像分类接受给定的输入图像和产生输出分类识别是否存在疾病。随着人工智能技术得到了广泛的应用,图像分类和识别技术受到越来越多的关注,已经在越来越多的领域发挥作用,如图像信息检索、实时目标跟踪,和医学图像分析。近年来,深度学习已经吸引了越来越多的关注(1]。前面的机器学习方法有各种各样的限制。例如,当有一些样本,高度很难代表复杂的功能。当使用深学习算法来表示复杂的数据分布,非线性网络模型与深度层可以用来学习的深度特性数据的一些样品。深度学习是一种算法和拓扑结构,可用于解决泛化问题[2]。深的组合层次神经网络和GPU(图形处理器)加速了深度学习算法的执行。深入学习先进的突飞猛进,大数据推动这种发展势头。一个卷积神经网络是一种前馈神经网络。其人工神经元可以应对周围的单位在覆盖范围内,并适用于处理一批图像数据集。

CNN不断提取和压缩图像特征和获得更高层次的特性。它凝结原始功能重复和获得更可靠的特征(3]。可以进行各种任务在最后一层的特性,例如,分类和回归。CNN在自动语音识别具有独特优势(ASR)和图像处理由于其特殊结构的共享本地权重及其类似的布局实际生物神经网络(4]。体重共享降低了网络的复杂性;由于图像多维输入向量可以直接输入网络,数据重建的复杂性特征提取和分类是避免5]。通过当前图像分类和识别算法的研究,发现各种算法未能有效地融合多层CNN和深度学习的特性,他们可怜的准确性。

物联网环境中,卷积神经网络(CNN)是一种重要的工具和方法的图像分类。为了进一步提高CNN模型的分类精度,本文通过级联策略和有效融合深度特性增加了多样性和提取的特征的表现力提高分类性能的网络模式。本文的主要贡献包括以下:(我)CNN的结构分析,研究活化功能的原则,指定角色,在神经网络非线性激活函数,表明通过便利化通过非线性函数;CNN性能更强的特征表示,可以实现复杂的图像分类(2)解决问题,传统的基于深度学习的图像分类算法不能有效融合多层深特性和表现不佳的分类精度,本文提出了一种改进的图像分类算法,基于深度特征融合,提高提取的特征的多样性和表现力,提高分类的性能(3)通过比较CNN模型的分类性能的食物- 101和Places2数据集在不同活化功能,表明激活函数,本文使用可以提高模型的分类精度对图像数据集和确保其收敛(iv)本文对该算法进行性能分析和评价与其他算法相比。实验结果表明,本文提出的算法实现精度高

本文的其余部分组织如下。部分2讨论相关工作。CNN网络结构和激活函数的性能进行了分析3。部分4提出了一种改进的CNN图像分类和识别算法是基于特征融合。部分5给出了实验结果和分析。部分6总结了本文的结论,并讨论未来的研究方向。

作为一个非常重要的研究方向在计算机视觉中,图像分类和识别涉及来自多个学科知识和已应用于多个研究领域。随着互联网技术的迅速发展,大量的图像数据中遇到的人们的生活,从而导致增加要求机器学习和计算机视觉技术和更深入的研究6]。根据深入研究了数字图像处理和深度学习,与其他神经网络相比,CNN具有以下优点:输入图像匹配与CNN的拓扑结构。特征提取与模式分类同时收益和一代在培训过程中,共享可以减少的数量和重量训练参数,从而呈现了CNN结构更简单、更适应(7]。CNN主要用于识别2 d图像不变性的移动,缩放和其他形式的变形(8]。CNN特征检测层学习通过训练数据;因此,CNN可以避免显式特征提取和隐式地从数据的训练学习。此外,由于相同的神经元功能映射平面共享相同的重量,CNN并行可以学习。这是CNN的另一个优点相比网络相互连接的神经元。在图像分类的研究,特征提取将直接影响到网络模型的分类性能。从本质上说,CNN是一个从输入到输出的映射。在实际应用程序中,它通常使用多层卷积和火车完全连接层。学会通过单层卷积的特性通常是当地的。在多层卷积,层越高,学到的更多的全球特性(9]。

Neocognitron CNN的可以被视为第一个实现,也是第一个应用程序接受域的人工神经网络。它试图视觉系统模型,使它完成识别,即使有变化或轻微的变形对象(8]。深度学习架构过去二十年才出现。它有大幅增加的数量和类型可以通过神经网络来解决的问题。有5个流行的深度学习架构:递归神经网络(RNN),长期短期记忆(LSTM) /封闭的复发性单元(格勒乌)、卷积神经网络,深简短网络(DBN)和深叠加网络(DSN)。CNN是一种多层神经网络,它的灵感来自于动物视觉皮层。第一个CNN是由对雅安·勒存手写字符识别。深层网络,早期层主要识别特征(如边缘)和随后的层重组这些特性到更高级别的输入(10]。因此,深度学习可以被视为“深度参数调整。然而,它也放大了网络的缺点。有限的训练数据集很容易导致过度拟合。网络越大,越复杂的计算和更困难的应用网络,网络越深,越容易梯度消失和模型优化更加困难。研究的图像分类和识别,特征提取将直接影响网络的分类能力模型。遇到的主要问题可用的图像分类算法在特征提取是他们不能有效地利用各种深特性提取的网络(11,12]。

3所示。卷积神经网络(CNN)

卷积神经网络是一种前馈神经网络,通常专门处理的图像数据(multiarray数据)。CNN的设计结构能有效地保留原始数据的结构和生成一个分层表示。一个典型的CNN结构包括多级处理层,从左到右是有序的。CNN通常有四种类型的层:卷积、池、完全连接,分类层。卷积的一层和池层是核心的层的设计,和他们通常利用在最初几个阶段。

3.1。卷积的层

在CNN,卷积层是最重要的层,通常用于特征提取。部分的图像可能有相同的统计特性,特性学习一个图像可以进行随机选择的子图象,和学习功能将被用作一个过滤器来扫描整个形象和获得图像中不同位置的功能激活值来完成特征提取(13]。

在传统的神经网络,每个神经元必须与每个像素;因此,大量的重量将使网络困难的训练。此外,权重的数量每个神经元的神经网络,一个卷积层=卷积核的大小;这相当于每个神经元与所有像素。因此,权重的数量明显减少(14]。

卷积计算包括两个步骤。步骤1是一个线性操作。它处理一组的权重与原始输入图像或低级特征映射,将卷积内核为多个运算根据步幅 ,并添加的和偏见 和多个旋转的结果。第二步是非线性操作。它使用激活函数 获取地图的输出特性 ,即它执行加权求和通过多个输入信号和输出通过一个神经元激活函数(15]。

特征提取器可以取而代之的是一个训练有素的卷积内核。卷积核的不同结构特点,从图像中提取。提取多个特性在同一位置,多个可以用卷积核,CNN将输出的组合这些特性从卷积的层。卷积层有两个属性,可以减少参数的数量计算:体重共享和本地感知。(一)体重分享

重量分享,同样的重量被所有神经元在同一个特征映射。如果一组权重的卷积和收益率输入图像边缘特征,这些权重可以被视为边缘特征提取器,他们可以直接使用其他的提取边缘特征图像区域(16]。(b)当地的感知

当地的看法是连接网络的一部分。类似于人类的视觉系统,CNN的知觉过程的形象从地方到全球,每个神经元与神经元属于前一层。因此,整个图像被神经元的信息重复激活的过程在一个小区域,翻译到另一个区域。

卷积层提取特征,和最重要的元素在这一层是训练有素的卷积核。内核可以检测指定的形状、颜色和对比,以及其他功能,地图和特性提取后保留空间结构;因此,相对应的特征图卷积核的代表特性相应的维度,和CNN层数增加,提取的特征越来越混凝土(17]。

卷积层和池层中的每个节点只与在前面的某些节点层,和卷积中的每个节点的输入层是上一层的一小块;的大小是由卷积的窗口大小的内核。通常,后由卷积处理层、节点矩阵将成为更深层次和深度将取决于内核的数量(18]。参数共享在内核中实现图像内容不受影响的位置,可以大大减少网络模型的参数的数量和减少操作的复杂性;参见图1插图的CNN特征提取。

在图1,1卷积提取底层特征,2nd中层功能,3理查德·道金斯一个高级功能。

3.2。激活函数

在神经网络中,每个神经元节点将接受前一层的输出值作为输入值和传达这个值到下一层。输入层的节点将输入和传递属性值到下一个输出层。多层神经网络,一个激活函数是用来表示之间的关系在前一层神经元节点的输出值和输入值的下一层(19]。

非线性函数类似于一个激活函数,通过神经网络实现性能和克服有限近似限制强表示,它是由一个线性函数的使用。

在神经网络的早期研究,乙状结肠激活函数和棕褐色 激活函数是经常使用的。的反向传播神经网络,乙状结肠激活函数将导致梯度爆炸和损失,因为s形函数的输出值不为零的意思是,收敛速度慢和深层神经网络训练时间大大增加。深陷网络学习,学习大量的数据通常需要很长时间;因此,训练模型的收敛速度的重要性。当深网络训练,为数据可以加速收敛。在计算ReLU函数是非常快,它的收敛速度要快得多的乙状结肠激活函数和棕褐色 激活功能。它也可以避免梯度消失所造成的乙状结肠函数和棕褐色 函数(20.,21]。

共同激活功能包括以下几点:(1)乙状结肠函数

乙状结肠函数是最常用的连续和光滑的激活函数;它也被称为物流功能。使用它在一个隐藏层神经元的输出,它可以映射一个实数的范围(0,1)二进制分类。乙状结肠函数的公式

公式的范围(1)(0,1),和它的导数

在图2,如果 , ,如果 , (2)棕褐色 函数

棕褐色的公式 函数是

公式的范围(3)(1,1)和它的导数

在图3,如果 , ,如果 , (3)ReLU函数

ReLU函数,这是显示在图4是最常用的神经网络的非线性函数。它是连续的但不光滑,和它的公式

公式的范围(5)(0,+∞)和它的导数

ReLU函数具有以下属性:单方面抑制,相对广泛的兴奋边界,稀疏的激活。(4)PReLU函数

PReLU函数的公式

在图5、参数 PReLU函数是不固定的,可以学习在训练。尽管它确保输出结果遵循零平均分布,也激活所有特征值的负半轴。因此,噪音也会被激活,最终收敛将受到影响。(5)TReLU函数

TReLU函数的公式

在图6、参数 是一个变量参数,用于控制函数的不饱和区域。我们的初始值设置为1。几乎是线性函数在原点,它可以产生更快的收敛。

TReLU功能克服了梯度消失的问题。因为它的导数总是1 ,TReLU函数非衰减的 此外,TReLU函数保存一些梯度值的不饱和区域负半轴。如果激活值落在不饱和区域,它仍然可以有效地激活,它保留的一些有效的特性而更有效地激活负值功能通过控制与参数不饱和区域的大小 (6)泄漏ReLU函数

泄漏ReLU函数的公式,这是显示在图7,是

公式的范围(9)(−∞,+∞)和它的导数

3.3。汇聚层

池层通常遵循一个卷积层;因此,卷积的输出层集中在池层。卷积层提取特征而池层减少了参数的数量。池层主要用于降低维度的特性通过压缩数据和参数的数量,从而减少过度拟合和改进模型的容错。尽管池层减少了各种特征图的尺寸,它仍然可以保留最重要的信息。位于池层之间连续卷积层,减少了数据和参数的数量,减少过度拟合。池层没有参数,downsamples结果与前一层,这被称为数据压缩。在图8,将采样过程包括马克斯池,池操作(18,22]。

最大池:定义一个空间邻域,例如,一个窗口的大小 提取最大的元素从地图窗口中修改的功能。已经证明马克斯合用优于意味着池

意味着池:定义一个空间邻域,例如,一个窗口的大小 计算平均值的地图窗口中修改功能

池中的每个节点的输入层是上一层的一小块(通常是一个卷积层),和这个小块的大小是由池内核的窗口的大小。汇聚层节点的大小变化矩阵,而不是它的深度。图像处理,池操作在该层可以被视为将高分辨率图像转换为一个低分辨率的图像。卷积层和池层后,在网络模型参数的数量可以进一步降低(23]。

3.4。完全连接层

完全连接层有许多神经元,它被表示为一个列向量(单样本)。它通常是一个后者的几层深层神经网络在计算机视觉领域,用于图像分类。在这一层,通过权重所有神经元连接,这一层通常是位于后方CNN的一部分。当卷积层在前面部分中提取满足识别图像的权重,下一个任务是分类。最后的CNN,通常,一个长方体蔓延至长向量和发送到完全连接层的分类与输出层(24]。

一个完全连接一层一层可以转化为卷积,反之亦然。任何回旋的层可以被转换成一个完全连接层的重量转换成一个巨大的矩阵。在这个矩阵中,大多数条目0,除了在指定区域(本地感知),许多地区共享相同的体重(体重)共享。任何完全连接层也可以转化为一个回旋的层。

完全连接层作为整个CNN“标识符”。如果卷积层、汇聚层和激活功能层原始数据映射到特征空间的一个隐藏层,完全连接层地图学会了“分布式特性表征”进入样品标签空间。在实际应用程序中,一个完全连接层可以实现通过卷积计算:一个完全连接层完全连接在前面的层可以被转换成一个卷积 内核,和一个完全连接层卷积的一层为上一层可以转变成一个全球的卷积 内核, 的高度和宽度的卷积结果上一层(25]。

完整的核心操作连接矩阵与向量相乘,本质上,从一个特征空间线性变换到另一个地方。在CNN,完整的连接通常是发现在最后几层,它计算加权和的功能设计。前面的卷积和池工程相似特性,而完整的连接尾部分相当于特征加权(26]。一个操作的例子完全连接层如图9

在图9最后两列的小球代表两个完全连接层。最后卷积,年底最后池进行操作,输出20图片的大小 ,这是转化为 向量由一个完全连接层。

4所示。CNN基于特征融合的图像识别和分类

本文提出的模型包括8层:6卷积层和2完全连接层。关键的设计细节如下。

在功能映射,通过ReLU激活函数进行非线性变换(27]。它激活提取的图像特征和生成相应的输出特性映射(28]。介绍了池层在1的后面3理查德·道金斯、6th卷积层,马克斯池操作是用来进行特征降维映射输出特性。同时,提高培训效率和网络的分类性能,本地规范化卷积操作之后进行卷积层加速收敛。

1卷积层的大小 卷积操作的执行 内核卷积,卷积内核4像素每一次移动,即 每个生成的特征映射矩阵的大小

池利用采样操作,并取样大小的内核 幻灯片2像素的原始图像。取样后,生成的特征映射矩阵的大小

2nd卷积层,两个像素的边缘上的输入特性映射矩阵,和映射矩阵的大小 由一个卷积操作 卷积核,每次移动1像素,即 每个生成的特性映射矩阵的大小

为3理查德·道金斯卷积层,垫在一个像素边缘的输入特性映射矩阵,和映射矩阵的大小 卷积操作是由256年 卷积内核。每个卷积操作后,卷积内核移动1像素。每个生成的特性映射矩阵的大小

池利用采样操作。抽样内核的大小 卷积核移动2像素卷积操作之后每一次。取样后,生成的特征映射矩阵的大小

为4th卷积层,垫在一个像素边缘的输入特性映射矩阵,和映射矩阵的大小 卷积操作是由384年 卷积内核。每个卷积操作后,卷积内核移动1像素。每个生成的特性映射矩阵的大小

为5th卷积层,垫在一个像素边缘的输入特性映射矩阵,和映射矩阵的大小 卷积操作进行 卷积内核。每个卷积操作后,卷积内核移动1像素。每个生成的特性映射矩阵的大小

为6th卷积,卷积操作进行图像卷积核的大小 实现特征提取。提取的图像特征与ReLU激活功能被激活,产生相应的输出特性映射。

池利用采样操作(29日]。抽样内核的大小 幻灯片2像素的原始图像。取样后,生成的特征映射矩阵的大小

本文采用级联的方法和执行功能融合池后6输出特性th与1层和2nd完全连接层的特征提取的网络更加多样化,富有表现力,微分和提高网络模型的分类性能。

提取图像特征使用了CNN模型如下:

步骤1。表示的池输出结果6th

步骤2。计算1的输出和2nd根据公式完全连接层 并表示结果 ,分别。在这里, 代表完全连接层, 是输出层之前的结果完全连接层,然后呢 表示的偏见

步骤3。选择 , , 三深特征图像的数据集和准备随后的特性融合

主成分分析是一种多元统计方法,将标量转换成几个主要组件(30.]。这些主成分可以反映最原始的信息,他们通常表示为原始变量的线性组合(31日]。以确保这些主成分中包含的信息是不重叠的,这些主成分必须是无关的。主成分分析可以有效地减少数据的维度和最小化之间的均方误差和原始数据提取组件。它可以用于特征提取。该算法的过程如下:(一) 是一个 - - - - - -维随机向量,让 相应的特征向量 的特征值 ,也就是说,

执行以下线性变换:

如果 预计将用于描述 ,然后 应该反映向量的尽可能多的信息 ,即方差越大 ,更好的描述。此外,尽可能有效地表达原信息, 不应该包含重复内容,即 它也可以证明,如果 , 有最大价值 是正交的。(b)重构样本评分矩阵

在实践中,全球的协方差矩阵 通常是未知的,必须从样本估计。让 是全球的样本 ,让 然后,样本测量矩阵

矩阵的每一行 对应于一个样本,每一列变量。然后,样本协方差矩阵 和相关系数矩阵 表示为

定义的分数 主成分的样品 作为 它以矩阵形式表示如下:

转化公式(15)和重建原始样本评分矩阵:

通常情况下,主成分分析只使用第一 主成分近似原始的样本。

5。对实验结果的分析

5.1。实验环境和测试数据集

实验环境,本文利用包括以下:CPU:英特尔(R) (TM)核心i7 - 6700总部(电子邮件保护)GHz;GPU: NVIDIA GeForce 1070 GTX公司;物理内存(RAM): 16.0克;和电脑TensorFlow的深度学习框架。

检查的分类性能提出了CNN模型,实验是进行两个图像数据集:- 101和Places2食物。食品- 101是一个图像数据集,其中包含图片的食物。它包括101类的食物(西方菜),和每个类有1000图片,用于自动识别类的美食。Places2是一个图像数据集的场景。它包含1000万张图片来自400多个类的场景,和用于视觉认知任务与场景和环境应用程序内容。数据1011显示从食品- 101和Places2样本图像数据。

5.2。激活函数的精度比较

在图像分类和识别的研究,激活函数对CNN模型非常重要。通过激活函数的非线性映射,CNN可以实现更强大的功能表示性能处理更复杂的分类问题。本文使用TReLU CNN激活函数来提高分类的性能模型。

评估TReLU激活函数的性能提高分类性能和设计基于CNN,本文对食品进行了比较实验- 101和Places2使用TReLU激活函数和其他常见的激活函数。食品- 101和Places2包括很多类和高分类的困难;看到实验结果表1

根据实验结果表1不饱和非线性激活函数(例如,ReLU)实现错误率低于饱和非线性激活函数(例如,乙状结肠),从而表明类似于生物神经元的激活函数提高分类的性能。

的分类准确性,饱和非线性激活函数,也就是说,乙状结肠函数和棕褐色 功能,表现的不饱和非线性激活函数,即ReLU, PReLU, TReLU;因此,生物神经元激活函数近似可以提高分类精度。TReLU激活功能展示优秀的分类性能的复杂的数据集,即食品- 101和Places2,它优于其他功能,进一步证明了TReLU CNN激活函数可以提高分类的性能模型和产生良好的泛化性能。数据1213比较五下的CNN模型的分类性能考虑激活函数更生动。TReLU激活函数不仅实现更高的分类精度,而且具有较高的收敛速度比其他的功能。

实验结果还包括所需的培训时间是五个食品- 101和Places2激活功能,如表所示2

根据实验结果表2,TReLU激活函数需要几乎相同的训练时间的棕褐色 函数。这是可以接受的。关键结果是TReLU激活函数可以提高精度,进一步提高了收敛速度。激活的操作函数表示为公式(17)。

在哪里 代表了 特征的地图 层; 表示连接的重量 特征映射的 层和 特征映射的 层; 代表卷积操作; 代表了偏见;和 代表的总数输入特征图。

5.3。对实验结果的分析

评估的分类性能CNN模型,本文设计了基于深度特征融合,实验都是在两个图像数据集进行的,即食品- 101和Places2,结果比较与其他图像分类方法。表3列出了分类精度。每个操作类别的识别精度的食物- 101和Places2数据集数据所示14- - - - - -17

根据实验结果表3,该方法可以有效地提高网络模型的分类性能,及其分类精度高于其他算法。网络在网络(外祖母)是《盗梦空间》的前身。它扩展了 卷积核卷积层后面,取代了完全连接层由全球平均池层有效地减少训练参数和避免过度拟合。DSN有别于其他传统的深度学习框架。它包含了深刻的网络,是一个深的网络,每一个都有自己的隐藏层。DSN使孤立的并行训练每个模块的训练;因此,它具有较高的效率。监督培训在每个模块实现反向传播,而不是整个网络。DBN由多层无监督限制玻耳兹曼机遏制网络和单层监管反向传播(BP)网络,及其训练包括pretraining和微调。

拟议的CNN模型是基于深度特征融合,促进培训和通过降维的优化的网络模型,利用当地的规范化操作加快网络训练,并提高了分类性能。此外,它有效地融合了深度特性,使网络中提取尽可能多的有用的特征信息。通过这种方法,分类模型的性能增强。数据1819情节的训练收敛食品- 101和Places2算法,其次是训练精度和损失曲线。

这显然是明显的从图18在培训食品- 101的网络模型,本文提出了迭代训练时的150年th一代,训练失去稳定,达到收敛状态。在这个时候,精度为89%。显示在图19网络列车Places2时,其分类性能仍然是非常高的,即使Places2具有较高的分类的复杂性。125年当训练迭代th代,网络已经到达收敛状态和准确性为69%。

通过以上实验结果,它可以观察到,该方法可以实现令人满意的图像分类的性能。食品- 101,该模型实现的准确性为89.47%,3.85%,1.29%,和0.94%高于外祖母的DSN, DBN,分别及其分类和识别性能也令人满意。在Places2,其准确性是71.56%,4.66%,2.03%,和1.22%高于外祖母,DSN, DBN,分别优于这些分类和识别的方法。

6。结论

物联网的到来是伴随着大量的多媒体数据。关键问题是由图像分类和识别的识别和分类目标对象中包含感兴趣的图像区域,并做出判断。本地连接的属性和共享的重量,它具有更强的鲁棒性翻译的不变性,旋转,缩放输入图像数据空间和实现更强的图像分类和识别性能。通过级联的方法,有效地融合了CNN的深层特征,减少使用PCN算法的尺寸特性,并使提取的特征更为典型和多样化,以加强其分类性能。它还介绍了当地正常化后每一个卷积层加速收敛。实验结果表明,该算法具有稳定和加快网络训练,从而导致更高的分类性能和精度。

数据可用性

仿真实验数据用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持中国国家重点研发项目的一部分(2018 yfb1402600)和美国国家科学基金会的中国(批准号。61772190,61772190,61702173)。