通过Dense-Mobilenet模型进行新颖的图像分类方法

抽象的

作为轻量级深度神经网络，MobileNet的参数较少，分类准确性较高。为了进一步减少网络参数的数量并提高分类精度，将在语程中提出的密集块引入MobileNet中。在密集的MobileNet模型中，MobileNet模型中具有相同输入特征贴图尺寸的卷积层作为密集块，并且密集的连接在密集的块内进行。新的网络结构可以充分利用密集块中先前卷积图层生成的输出特征映射，以便生成具有较少卷积核心的大量特征映射，并反复使用该功能。通过设置小的增长率，网络进一步降低了参数和计算成本。设计了两种密集的Mobilenet型号，Dense1-Mobilenet和Dense2-Mobilenet。实验表明，Dense2-MobileNet可以比MobileNet实现更高的识别精度，同时仅具有更少的参数和计算成本。

1.介绍

计算机图像分类是对图像进行分析和分类，以代替人类的视觉解释。它是计算机视觉领域的研究热点之一。由于特征在分类中起着非常重要的作用，大部分的图像分类研究都集中在图像特征提取和分类算法上。传统的图像特征如SIFT和HOG都是手工设计的。卷积神经网络具有自学习、自适应、自组织的能力;因此，它可以利用已知类别的先验知识自动提取特征，避免了传统图像分类方法中特征提取的复杂过程。同时，提取的特征具有较高的表达能力和效率。

深度卷积神经网络(Deep convolutional neural network, CNN)在计算机视觉领域取得了显著的成功，如图像分类[1，目标跟踪[2，目标探测[3.]，和语义图像分割[4，5]。例如，在ImageNet大型视觉辨识挑战2012（ILSVRC2012），Krizhevsky等。夺得冠军与AlexNet [1]模型的约6000万个参数和8层。此外，VGG [6]有16层googlenet [7]与启作为基本结构，并且RESNET [8用残块来缓解梯度消失的问题也取得了很大的成功。而深度卷积神经网络本身就是一个密集的计算模型。大量的参数、沉重的计算负载和大量的内存访问导致了巨大的功耗，使得该模型难以应用于硬件资源有限的便携移动设备。

为了将深度卷积神经网络模型应用于实时应用和低记忆便携式设备，可行的解决方案是压缩并加速深度卷积神经网络以降低参数，计算成本和功耗。Denil等人。[9]证明了深刻的卷积神经网络的参数有很多冗余的，而这些多余的参数对分类准确率的影响很小。德顿等人。[10]发现一个合适的低秩矩阵通过奇异值分解来估计深细胞神经网络的信息的参数。该方法需要计算成本高的多的再培训，以达到收敛。汉等人。[11]由参数修剪删除的预训练的网络中的不重要的连接，重新训练和量化的剩余参数，然后通过编码霍夫曼量化参数编码以进一步减少压缩率。然而，该方法需要superparameters的手动调节。陈等。[12]使用低成本的Hash函数将相邻两层之间的权重分组到一个Hash bucket中进行权重共享，减少了额外位置的存储，实现了参数共享。Hinton等人[13]通过知识蒸馏来压缩网络模型，并提取有用的信息。有用的信息迁移到较小且更简单的网络，这使得简单的网络和复杂网络具有相似的性能。

此外，许多相关的研究已经改进了网络模型来压缩网络。例如，SqueezeNet [14是一种基于fire模块的网络模型，MobileNets [15]是基于深度可分滤波器的网络模型，shuffle lenet [16]通过引入基团逐点卷积和信道重排操作的残余结构的基础上改进而成。

与VGG-16网络相比，MobileNet是轻量级的网络，其使用沿深度方向可分离卷积加深网络，减少的参数和计算。与此同时，MobileNet对ImageNet分类精度数据集仅减少1％。然而，为了得到更好的应用到具有有限存储器的移动设备，所述参数和计算的MobileNet模型需要复杂性进一步减小。因此，我们使用致密块作为在MobileNet的网络层的基本单元。通过设置一个小的增长速度，该机型拥有更少的参数和更低的计算成本。新车型，分别是密MobileNets，也可以达到很高的分类准确率。

2.基础理论

2.1。Mobilenet.

MobileNet是一个精简的体系结构，用途深度方向可分离卷积构建轻质深卷积神经网络，并提供一个有效的模型用于移动和嵌入式视觉应用[15]。MobileNet的结构是基于深度方向的可分离的过滤器，如图1．

在深度上可分离卷积过滤器组成的进深褶式过滤器，并指向卷积过滤器。The depthwise convolution filter performs a single convolution on each input channel, and the point convolution filter combines the output of depthwise convolution linearly with 1 ∗ 1 convolutions, as shown in Figure2．

(一)

(b)

(c)

2.2。密集的连接

DenseNet [17]提出了一种新的连接模式，将网络的每个电流层与先前的网络层连接，使得当前层可以将所有先前层的输出特征映射作为输入特征。在某种程度上，这种联系可以缓解梯度消失的问题。由于每个层与所有先前层连接，因此可以重复使用先前的特征来生成具有较少卷积内核的更多特征映射。

DenseNet以密集块为基本单元模块，如图所示3.．在图3.，致密的块结构由4层为4的生长速率在该结构中的每个层开出输出要素的前面的层作为输入特征映射的映射密集连接的层。从在RESNET残余单元[不同8]，它结合了所述特征的总和映射在一个层中的先前层的，致密的块传输的特征映射到所有的后续层，加入特征的尺度映射，而不是在特征地图添加的像素值。

在图4中，致密块仅叠加之前的卷积层的特征映射并且增加特征图的数量。因此，只有幅度和要求是平等的，而功能的号映射并不需要是相同的。DenseNet使用超参数增长率来控制网络中的特征图的信道数。增长率表示各网络层的输出特征映射为．也就是说，对于每个卷积层，所述输入功能的下一个层的映射将增加渠道。

3.密集的Mobilenet

密集MobileNet介绍致密块状想法变成MobileNet。与输入特征的尺寸相同的卷积层映射在MobileNet模型被替换为致密块，和致密连接致密块内进行。致密块状可以充分利用输出功能的映射以前卷积层，用更少的卷积核产生更多的功能地图，并实现重复使用的特点。通过设定小的生长速度，在MobileNet的参数和计算模型被进一步降低，从而使该模型可以更好地适用于具有低存储器的移动设备。

在本文中，我们设计了两个不同的密级MobileNet结构：Dense1-MobileNet和Dense2-MobileNet。

3.1。Dense1-MobileNet

MobileNet模型是一种网络模型，使用深度可分离卷积作为其基本单元。其深度可分离的卷积有两层：深度卷积和点卷积。Dense1-MobileNetmodel considers the depthwise convolution layer and the point convolution layer as two separate convolution layers, i.e., the input feature maps of each depthwise convolution layer in the dense block are the superposition of the output feature maps in the previous convolution layer, and so is the input feature maps of each deep convolution layer, as shown in Figure5．因为在深度方向上卷积是单通道卷积，输出要素的数目的中间深度方向卷积层的映射是相同的输入特征的地图，这是所有先前层的输出要素的总和映射的。

DenseNet包含两个连续的致密块之间的过渡层。The transition layer reduces the number of input feature maps by using 1 ∗ 1 convolution kernel and halves the number of input feature maps by using 2 ∗ 2 average pooling layer. The above two operations can ease the computational load of the network. Different from DenseNet, there is no transition layer between two consecutive dense blocks in Dense1-MobileNet model, the reason are as follows: (1) in MobileNet, batch normalization is carried out behind each convolution layer, and the last layer of the dense blocks is 1 ∗ 1 point convolution layer, which can reduce the number of feature maps; (2) in addition, MobileNet reduces the size of feature map by using convolution layer instead of pooling layer, that is, it directly convolutes the output feature map of the previous point convolution layer with stride 2 to reduce the size of feature map.

3.2。Dense2-MobileNet

Dense2-MobileNet需要深度方向可分离卷积作为一个整体，称为稠密（深度方向可分离卷积）嵌段，其中包含两个点卷积层和一个深度方向卷积层。深度方向的可分离卷积层映射由点盘旋在所有先前的深度方向的可分离卷积层产生的输出特征的积累的输入特征映射，而在点卷积层中的输入特征图是仅通过在深度卷积产生的输出特征图密块，不输出要素的叠加映射所有以前的层。因此，在这个模型中的致密块结构仅具有一个致密的连接，如图6．

在Dense2-MobileNet模型中，只需一个输入特征图就可以将点卷积的输出特征图覆盖在深度可分的上卷积层中。由于结构特征图的累积次数较少，稠密块中所有层的输出特征图数量累积也较少;因此，没有必要通过1∗1卷积来减少特征映射的通道。将前两次可分离卷积生成的输出特征图进行叠加后，采用步长为2的深度卷积来减小特征图的大小;因此，Dense2-MobileNet模型并没有添加其他过渡层。最终，MobileNet模型被全局池化，并直接连接到输出层。实验表明，在进行全局平均池化前，加入密集连接的全局平均池化深度可分卷积的分类精度要高于没有密集连接的两层深度可分卷积。因此，全局平均池前的深度可分卷积层也紧密相连。

３．３．Dense-MobileNet性能分析

通过在MobileNet中添加密集连接，构建了密集-MobileNet模型。通过设置较小的超参数增长率，与MobileNet模型相比，实现了更少的参数和计算复杂度。在MobileNet模型中，每2个深度可分离的卷积层需要通过stride为2的深度卷积来降低特征图的维数。由于相同致密块中的输入特征映射的大小需要相同，因此在一个致密块中只有2个深度可分离的卷积层。稠密mobilenet的增长率是利用mobilenet中每一层的输入特征映射数量与稠密mobilenet中输入特征映射数量的最小差来确定的。实际上，可以根据模型的压缩率和准确率之间的平衡来选择其他最优增长率。

在本文中，所述Dense1-MobileNet模型物分解深度方向可分离卷积成2个单独的层，并使用4个卷积作为致密块。密块的Dense1-MobileNet生长速率是{32，64，64，128，128，128，256}。当Dense1-MobileNet模型下降到MobileNet的1/2的参数，其计算减小到MobileNet的5/11。

所述Dense2-MobileNet模型以在深度方向上可分离卷积作为一个整体和4卷积层作为密块，但仅使用一个密集的连接。所述Dense2-MobileNet模型具有{32，64，128，256，256，256，512}为致密块的生长速度。当它的模型参数下降到MobileNet的1/3，其计算减小到MobileNet的5/13。的参数和每个模型的计算显示在表1．


网络模式	计算（百万）	参数数量(百万)

densenet121.	1364.7	1.78
Mobilenet.	568.	3.21
Dense1-MobileNet	258	1.51
Dense2-MobileNet	217.	1.12

该DenseNet121模型表1包含121个卷积层。用16生长速率，过渡层的压缩比被设定为0.5。也就是说，所有的输出特征在前面的致密块映射被用作输入特征在过渡层映射，并输出要素的数量映射在该层中被输入特征图的数目的一半。从表中可以看出1，DenseNet121模型由致密的连接，其具有更少的参数，但是大量的计算的影响。同时，参数和二者的计算改善密MobileNets模型是小于所述MobileNet模型。

4.实验与结果分析

为了证明D-MobileNet模型的有效性，我们在Caltech-101上进行了分类实验[18]和带属性Uebingen动物，并比较与那些MobileNet模型和DenseNet121模型的实验结果。

CALTECH-101数据集包含9145张图片，包括101个对象类和一个背景类。每个班级的图像数量范围为40到800.数字7在CALTECH-101数据集中显示一些样本。在实验中，数据集中的图像首先标记，然后完全扰乱。将1500张图片随机选择作为测试图像，并且剩余的图片用作训练图像。

与属性数据库Uebingen动物有50类动物图片30475。由于没有在不同的类别相同的图片数量，样品数量差别不大21最大的动物类被选择作为我们的数据集。有22742张图片中的数据集。在每个类别范围内的图像数从850至1600。图8显示了Uebingen动物数据集中的样本。在训练网络之前，对数据集中的图片进行标记，随机抽取2000张照片作为测试集。其余的图片用作训练数据集。

实验使用TensorFlow框架下的Python语言。该模型是在一台安装了NVIDIA TITAN GPU的服务器上实现的。采用初始学习率为0.1的RMSprop优化算法对实验进行优化。根据训练样本的数量，我们设置不同的历元数来降低学习率。权值初始化采用Xavier初始化方法，可以根据每一层的输入输出数量确定参数的随机初始化分布范围。它是均匀分布，初始偏差为零。共培训5万个批次，每批64个样品。使用ReLU作为激活函数。

表格2示出了对加州理工学院-101数据组四个分类方法分类精度。从表格2，我们可以看到，经过30000次迭代，4种分类模型的准确率达到了平衡，我们改进的2种结构的准确率高于DenseNet121。与标准MobileNet模型相比，dense1 -MobileNet模型的精度低于标准MobileNet模型，而dense2 -MobileNet模型的精度高于标准MobileNet模型。当迭代次数为50000时，Dense1-MobileNet模型的精度降低了0.13%，该结构减少了较少的参数和计算量。当迭代次数为50000次时，Dense2-MobileNet模型的精度提高了1.2%，其参数和计算量相对减少。


迭代次数	30000	35000	40000	45000	50000

Densenet.	72.07	72.27	72.07	72.	71.9
MobileNets	76.73	76.6	76.6	76.8	76.6
dense1_mobilenet.	76.6	76.53	76.47	76.4	76.47
Dense2_MobileNet	77.6	77.67	77.87	77.8	77.8

表格3.示出了对Uebingen动物数据集4的分类方法分类精度。从表格3.，我们可以看到，在30,000次迭代，4个分类模型的精确度也已经达到了一个平衡，我们的2层改进结构的精度比DenseNet121高。与标准MobileNet模型相比，dense1 -MobileNet模型的精度低于标准MobileNet模型，而dense2 -MobileNet模型的精度高于标准MobileNet模型。当迭代的数量是5000，则Dense1-MobileNet模型的准确性由0.1％下降，而由1.2％Dense2-MobileNet模型的准确性增加。


迭代次数	30000	35000	40000	45000	50000

Densenet.	91.85.	92.15	91.95	92	92
MobileNets	91.6	91.6	91.6	91.55	91.6
dense1_mobilenet.	90.65	90.6	90.6	90.6	90.65
Dense2_MobileNet	92.1.	92.05	92.1.	92.05	92.05

在相同的近似分子条件下进行上述两项实验。当迭代的数量为5000时，UEbingen动物数据集上密度网络的分类精度比MobileNet模型高0.4％，但它比Caltech-101数据集上的MobileNet模型低4.7％．从上述两个实验中，可以看出，Dense1-MobileNet模型中密集连接的分类精度在两个数据集中丢失约1％，而它们在Dense2-MobileNet模式下得到改善。主要原因是深度可分离卷积中深度卷积和点卷积分别实现了标准卷积中的空间相关性和信道相关性。然而，使用深度卷积和点卷积的Dense1-Mobilenet随着单独的卷积层将破坏信道相关性并降低分类准确性。Dense2-MobileNet中的平均池层的输入特征图是前两个深可分离卷曲的输出特征图的叠加。它充分利用了先前的特征映射，从而降低了参数和计算，并提高了分类准确性。

为了进一步说明我们的方法的性能，我们测试的真实数据和其他实验环境的不同方法。在实验对比，我们添加了DenseNet161和MobileNetV2 [对比19，实验设置如表所示4．数据集是我们自己的儿童结肠镜息肉数据集。有两种类型的样本。一种包括有息肉的样本，另一种包括没有息肉的样本。如图所示9，上面一行是有息肉的样本，下面一行是没有息肉的样本。


属性	配置信息

OS.	Ubuntu 14.04.5 LTS.
中央处理器	Intel®Xeon®CPU E5-2670 v3 @ 2.30 GHz
GPU.	Nvidia公司的GeForce GTX TITAN X
CuDNN	CuDNN 6.0.21
CUDA.	CUDA 18.0.61
框架	PyTorch

扩展训练集包含31450个样本，包括4005个息肉样。测试集包含4005米的样品，其中包括1005个息肉样。The size of each sample is 260 ∗ 260. The batch size of test set is set to 10, and the initial learning rate is 0.1. Every network trains 200 epochs in total, and the learning rate decreases to half of the previous in the 50th epoch and then decays by half every 20 epoch. The average recognition accuracy of the last 100 epochs is taken as the final recognition result, as shown in Table5．


网络	准确性

densenet121.	96.35.
DenseNet161	96.57
Mobilenet.	96.45
MobileNetV2	96.46
dense1_mobilenet.	96.42
Dense2_MobileNet	96.48

因为只有两种类型的测试数据集，所有方法的分类精度也比较高，所有这些都是在96％以上。从表中可以看出5，Dense2_MobileNet的精度（使用全连接层）是一个小比DenseNet121，MobileNet，和MobileNetV2的更好，并且比DenseNet161的略低。然而，DenseNet161是与大量的参数和计算更深网络。In our experiments, the parameters and calculation of DenseNet161 are about 26.48 M and 10360.23 M, respectively, and the parameters of MobileNetV2 are about 2.23 M and 479.28 M, respectively. Although MobileNetV2 makes the network more lightweight, its parameter amount and calculation amount are still more than twice of our Dense_MobileNets. Therefore, the Dense_MobileNets still has certain advantages in the comprehensive evaluation of the accuracy of classification, the number of parameters, and the amount of calculation.

5.结论

在深学习的内存密集型和高计算密集的特点限制了它在便携式设备中的应用。压缩和网络模型的加速会降低分类精度。

本文介绍了用于图像分类的密集块密集移动网模型。以密集块为基本结构，改进了MobileNet的结构，提出了两种改进模型。这两种模型通过设置超参数增长率来减少参数和计算量。同时，实验表明，Dense2-MobileNet还可以提高分类的准确率。与MobileNet模型相比，虽然Dense1-MobileNet的分类准确率有所降低，但参数数量至少减少了一半，计算量减少了近一半。总的来说，本文提出的模型可以更好地应用于移动设备。

数据可用性

所有数据集都是可以在线下载的公共数据集。

利益冲突

作者声明他们没有利益冲突。

致谢

国防预研基金项目(no . 7301506);国家自然科学基金项目(no . 61070040);湖南省教育厅项目(no . 17C0043);

参考资料

A. Krizhevsky, I. Sutskever，和G. E. Hinton，“基于深度卷积神经网络的图像网络分类”，发表于在神经信息处理系统的进步，卷。25，第1097-1105，麻省理工学院出版社，剑桥，MA，USA，2012。查看在：谷歌学术搜索
N. Wang和D. Y. Yeung，“学习深层紧凑的图像表示，用于视觉跟踪，”在神经信息处理系统的进步，pp.809-817，MIT新闻，剑桥，马，美国，2013。查看在：谷歌学术搜索
W.王，唐C.，王X.，Y.罗，胡Y.和J.李，“通过深基于功能的自适应联合稀疏表示图像物体识别，”计算智能和神经科学，卷。2019年，文章编号8258275，9页，2019。查看在：出版商的网站|谷歌学术搜索
W.王，杨Y.，十王，王W.和J.李，“卷积神经网络的发展及其在图像分类中的应用：一项调查显示，”光学工程，第58卷，第2期4、Article ID 040901, 2019。查看在：出版商的网站|谷歌学术搜索
“基于深度神经网络和传统方法的伤口分割模型，”计算智能和神经科学，卷。2018年，文章编号4967290，第1页，2018。查看在：出版商的网站|谷歌学术搜索
K. Simonyan和A. Zisserman，“大规模图像识别的非常深的卷积网络”国际学习表示会议论文集，圣迭戈，CA，USA，2015年5月。查看在：谷歌学术搜索
C. Szegedy，W. Liu，Y.Jia等人，“与卷曲更深，”计算机视觉与模式识别会议论文集，第1-9，波士顿，MA，USA，2015年6月。查看在：出版商的网站|谷歌学术搜索
K.他，十张，S.仁和J.太阳，“深残留学习图像识别”，在计算机视觉与模式识别会议论文集，第770-778，拉斯维加斯，内华达州，美国，2016年6月。查看在：出版商的网站|谷歌学术搜索
M. Denil, B. Shakibi, L. Dinh, M. A. Ranzato, N. De Freitas，《深度学习中的预测参数》，刊于神经信息处理系统进展，第2148至2156年，太浩湖，内华达州，美国，2013年12月。查看在：谷歌学术搜索
E. L. Denton，W.Zaremba，J.Bruna，Y. Lecun和R. Fergus，“利用卷积网络中的线性结构以获得高效的评估”在神经信息处理系统的进步，第1269至1277年，麻省理工学院出版社，剑桥，MA，USA，2014年查看在：谷歌学术搜索
S.韩，毛H.和W. J.戴利，“深度压缩：与修剪，训练有素的量化和Huffman编码，压缩深层神经网络” 2015年，https://arxiv.org/abs/1510.00149．查看在：谷歌学术搜索
W.陈，J.威尔逊，S泰里，K. Weinberger和Y.陈，“压缩神经网络与哈希绝招”，在机器学习的国际会议论文集，第2285至2294年，里尔，法国，2015年7月。查看在：谷歌学术搜索
G.韩丁，O. Vinyals和J.院长，“蒸出的知识在神经网络中，” 2015年，https://arxiv.org/abs/1503.02531．查看在：谷歌学术搜索
F. N. Iandola，S.汉，M.W。Moskewicz，K.阿什拉夫，W. J.达利，和K. Keutzer，“SqueezeNet：用50个更少的参数AlexNet级的精度和<0.5 MB模型大小，” 2016年，https://arxiv.org/abs/1602.07360．查看在：谷歌学术搜索
A. G. Howard, M. Zhu, B. Chen等，“移动网络:基于卷积神经网络的移动视觉应用”，2017，https://arxiv.org/abs/1704.04861．查看在：谷歌学术搜索
张昕，周昕，林敏，孙杰，“移动设备卷积神经网络的研究”计算机视觉与模式识别会议论文集，第6848-6856页，美国犹他州盐湖城，2018年6月。查看在：出版商的网站|谷歌学术搜索
G.黄，Z.刘L.范德Maaten和K. Q.温伯格，“密集连接卷积网络，”在计算机视觉与模式识别会议论文集，页4700-4708，檀香山，HI，美国，2017年7月。查看在：出版商的网站|谷歌学术搜索
F.李，R.宏泰和P.佩罗娜，“从几个训练实例学习生成可视化模型：在101个对象类别测试增量贝叶斯方法，”在2004年计算机视觉与模式识别研讨会论文集，p。178，华盛顿特区，美国，2004年6月。查看在：出版商的网站|谷歌学术搜索
M.桑德勒，A.霍华德，M.朱A. Zhmoginov和L.陈，“Mobilenetv2：倒残和线性的瓶颈，”在计算机视觉与模式识别会议论文集，第4510-4520，盐湖城，UT，USA，2018年6月。查看在：出版商的网站|谷歌学术搜索

移动信息系统

深度学习移动信息系统

抽象的