文摘
精度要求的商品图像检测和分类,以提高红外系统网络DPFM消融和RFM,以提高网络商品的检测精度。同时,针对缩小传统MWI-DenseNet应用的渠道网络,提出了一种新的GTNet网络来提高商品的分类精度。The results show that at different levels of evaluation indexes, the dpFPN-Netv2 algorithm improved by DPFM + RFM fusion has higher target detection accuracy than RetinaNet-50 algorithm and other algorithms. And the detection time is 52 ms, which is significantly lower than 90 ms required for RetinaNet-50 detection. In terms of target recognition, compared with the traditional MWI-DenseNet neural network, the computation amount of the improved MWI DenseNet neural network is significantly reduced under different shunt ratios, and the recognition accuracy is significantly improved. The innovation of this study lies in improving the algorithm from the perspective of target detection and recognition, so as to change the previous improvement that only can be made in a single way.
1。介绍
与人工智能和图像处理技术的成熟,无人销售商品销售模式正在改变。可以看出,图像检测和分类方法被广泛用作无人驾驶的一个重要技术支持销售。其中,目标检测可以分为两阶段检测方法基于目标区域和端到端单程检测方法(1,2]。,基于目标区域的检测方法包括Faster-RCNN [3)等,和端到端检测方法包括你只活一次(YOLO)意思,单发射击MultiBox检测器(SSD), RetinaNet等等。(4- - - - - -8]。分割模型分割可分为语义分割和实例。在这里,包括SegNet语义分割模型等。9- - - - - -11,实例包括Mask-RCNN分割模型,等等。12,13]。与深度学习的广泛应用,在目标检测的基础上,神经网络卷积神经网络等VGGNet,等,应用于分类。但在神经网络的应用,增加了网络层和放大的渠道网络特性图,的影响的扩大和加深卷积神经网络可以实现。虽然它可以极大地提高网络性能,在增加的成本和增加计算的参数。这使得网络部署困难和降低网络应用程序的及时性。在网络环境中轻量级,MWI-DenseNet可以反复引用特征图谱密度通过内置的多路径连接机制。因此,它大大减少了计算和参数。在保证分类精度的前提下,大大提高了网络效率和网络适应性。致密连接机制的优势特征重用,但也会导致不同的层多次引用同一层参数优化的梯度信息,导致网络学习的优化效果差。网络更新严重依赖梯度信息。但在密集的连接机制,深度梯度信息主要来自于浅重复梯度信息。 This will inevitably affect the deep learning ability. In this regard, CSPNet further enriches the gradient propagation path by crossing the stage path to avoid the repeated reference of the same gradient information [14]。
受这个启发,本文使用深度梯度流截断策略来提高多路集成密度连接块和过渡层结构,从而创建一个新的梯度截断卷积网络(GTNet)。它有明显的优点,如不计算,分类精度高、大梯度差异,等等。
2。基于红外系统的商检
融合特征金字塔卷积网络构建本文以DenseNet为骨干网络。它定义了一些层的特性图DenseNet与原始特征金字塔(15- - - - - -18]。Then the DPFM module is used to implement the fusion of the three layer feature maps, which are a certain feature diagram, the front and rear layer feature diagram in the original feature pyramid. Under the participation of more DPFM modules, each predict layer gets enough semantic information and precise location information, which can accurately identify objects of all sizes.
此外,流程重用功能图表明,特征融合的计算量大大减少。,有效地提高了目标探测的效率。首先,DPFM模块用于构建FPN-Net六世。然后,RFM模块用于进行特征融合FPN-Net六世。最后,双通道融合特征金字塔构造卷积网络FPN-Net v2。上述过程如图1。
2.1。双通道功能融合模块
图2显示了DPFM模块的结构。
传统的特征融合模块红外系统只有一个自上而下的融合路径。所以它只能意识到上一层之间的特征融合和当前层。由于功能层的复用率低,融合多个层是必需的,它可以增加的计算量。更重要的是,很难完全保留了位置信息。不同于DPFM红外系统模块,模块实现功能上一层的融合 和当前层通过自上而下的融合路径。它可以执行后一层的特性融合和当前层通过自下而上的融合19]。
多个层特性图是由多个DPFM融合循环,这使得DPFM + RFM金字塔融合特性检测网络形成。这是如图所示3。
图3显示了两个融合。,红线代表自上而下的融合路径,蓝线代表了自下而上的融合路径。具体来说,在红线,上一层的特性图 是输入。1×1卷积后,输出通道的数量符合当前层的特性图 。然后,介绍了执行Upsample和双线性插值算法 融合输入。蓝线,后层的特性图是输入。1×1卷积后,输出通道的数量符合当前层的特性图 。然后,通过介绍执行Downsample虽然算法融合输入。在那之后,融合输入和拼接在频道维度。3×3的拼接功能图进行卷积,最后融合可以获得功能层。通道尺寸的数量是一致的(20.- - - - - -23]。
在图3,DPFM模块对应的层融合3-th前面几层,目前几层和后5日层。融合结果作为输入的自上而下的融合路径DPFM模块对应3-th层。同时,2-th层用作输入的自底向上的融合路径DPFM模块对应3-th层,重复和融合功能操作。上述过程中所示的多元融合功能机制大大扩展的位置信息和语义信息预测层。更少的原始功能层内置的骨不仅促进模块部署,也可以减少计算量。深和浅的双向融合信息是重复的。首先,它可以缓解问题的特征信息池所造成的损失。然后,丰富的语义信息和准确的位置信息来预测层可以提供。最后,目标检测可以准确地实现。从应用效果,检测的准确性循环复用双向功能融合金字塔网络相对理想。 Especially, it can accurately detect small size objects, and it requires less parameter amount and calculation amount. Thus, the detection efficiency can be improved.
2.2。重组和融合模块
介绍重组和融合模块后,金字塔的语义描述能力特性可以进一步增强,和功能的后果损失造成的池可以缓解。
分析了基于图4。首先,通过方法用于将输入特征映射的层层4个大小相同的子块作为当前层层。他们是拼接通道尺寸在一个固定的顺序。然后,拼接结果重建和拼接与当前层层,1×1执行卷积。
输入抵消将导致重大的改变合并输出,如图5。
这表明,当输入特性图转移到正确的1特征点,最大池迁移前后结果将发生重大变化。例如,输入层是[0,0,1,1,0,0,1,1]。其平均差异分为两个子块[0,1,0,1]和[0,1,0,1]。输入抵消之前(1,1,1,1)。更重要的是,输入抵消后[0,1,0,1]。因此,卷积内核参数设置为等于1。抵消之前,执行1×1卷积为[0,1,0,1],[0,1,0,1]和[1,1,1,1]获得(1/3,1,1/3,1);抵消后,执行1×1卷积为[0,1,0,1],[0,1,0,1]和[0,1,0,1]获得[0,1,0,1]。可以看出,卷积融合结果前后相应抵消更近。如果卷积核心参数训练和优化,卷积融合结果之前和之后的区别偏移量可以进一步降低。卷积融合方法提出了可以抑制池的干扰检测准确性和获得更高的检测精度和更少的参数和操作。
RFM模块部署在DPFPN-Net六世架构构建一个网络DPFPN-Netv2 three-feature金字塔结构。
3所示。商品分类基于梯度截断卷积网络
多路的基础上集成密度卷积网络(MWI-DenseNet)连接,连接块和过渡层创建一个新的GTNet优化和制度差异图所示6下图:
(一)
(b)
优化结构,GTNet分裂的输入特性图通道尺寸和 ,,后者是分辨率的比率β。在那之后,被输入到MWI-Dense块(24- - - - - -26]。完成n-layer卷积计算后,密集的组合特性图最终输出,输入第一个过渡层得到输出值 。这是用于连接然后输入到第二过渡层最终获得融合输出 。
以卷积核的重量为例,排除其他参数,提取MWI-DenseNet向前传播的特点和参数优化反向传播的过程进行了分析。正向传播过程的数学表达式的过渡层,每一层原始茂密的连接块如下:
在这里,是输出特性图的第i个层,代表的线性变换我th输入,指的是重量设置卷积核的我th层。
输入组合特性图过渡层得到输出值目前的阶段:
更新每一层重量的反向传播过程表示如下: 在哪里梯度的损失函数集是关于体重吗 , 由反向传播重量优化算法更新,然后呢完成一轮更新后的重量。
过渡层的权重更新算法如下:
如果网络重用深度浅的梯度信息来更新重量,它将限制网络操作的效率和影响网络学习的能力。
在优化结构、致密的正向传播过程块和两层过渡层显示如下:
第一过渡层执行密集的街区和反向传播过程中,输入来代替 ,重量和反向传播过程如下所示:
同步对比显示,梯度信息的更新和不相符,这表明过渡层分为两个部分,和浅层梯度信息不能进入深层重量更新。
4所示。商品图像检测和分类模型构建在这个研究
商品图像检测和分类模型构建本文基于上述方法如图7。
商检的过程和分类列出如下:步骤1:初始化参数的重量W和偏见b。步骤2:首先,输入conv6_1 conv6_2和conv6_3 DPFM融合。输出融合特性图作为输入的第二个DPFM。然后,输入conv6_3和conv5_8再次执行DPFM融合相结合,构建金字塔层融合特征1。步骤3:融合特征金字塔1通过自下而上的融合路径实现RFM周期融合,以构建金字塔融合功能2。步骤4:预测层解决了预测值,并确定损失情况;第五步:反向传播、更新参数的重量和偏见b;第六步:重复以上步骤,直到设置迭代终止时间T达到;第七步:显示输出预测结果图,包括边界框和边界框的信心。第八步:结合检测图像,使用新的GTNet网络分类商品图片,和分类结果输出。
5。实验验证
5.1。实验环境的建设
这个实验是进行Ubuntu Linux操作系统的平台,使用TensorFlow框架和Python编程语言。训练数据是由一个在线匹配增强方法。完成后一轮的培训,不同的放大方法是随机引用数据更新,但不需要执行数据放大在网络测试阶段。
5.2。网络结构和参数
FPN-NET v2骨干网结构参数表中列出1。
在每个Conv层,卷积后,它是与BN层和激活函数层(ReLU函数被选中)。因此,卷积层相当于“卷积的组合层+ BN +激活函数。”圆融合的原始特性图4 DPFM 6层,5层的金字塔融合特征构造构造FPN-Net六世。通过圆融合特性金字塔1 4 RFM,金字塔融合特征2的5层构造,共同构建FPN-Net v2。
5.3。商检结果
Tensorboard工具用于实现网络的可视化培训与指标,和v2培训损失净值的变化如图所示8。
从图可以看出,的过程中越来越多的时代,网络训练的损失价值减慢车速,和损失值稳定在2.5,这意味着净v2训练收敛。
在这个实验中,测试数据被分为三个类别: 。测试集的大小是512×512。FPN-Net六世的实验结果,FPN-Net v2, RetinaNet检测算法列在表中2。
根据实验结果的分析上面的表中,所有的测试指标FPN-Net v2高于其他检测算法。如果美联社0.5选择评价指标,可以发现,美联社吗0.5FPN-Net v2是88.61。然而,由于FPN-Net六世配备融合机制,提高小型对象的检测精度。在此基础上,FPN-net v2使用重组融合模块体积小对象的进一步提高检测精度。
上述模型的参数和操作市场表中列出3。
在不同的圈子对应不同的模型和圆的半径成正比模式美联社0.5。更大的圆的面积和圆的中心越接近左上角,越快的速度模型,以获得更高的检测精度。总的来说,相对应的圆FPN-Net六世模型更接近左上角。比较相同的想法,这个圆对应FPN-Net v2模型比FPN-Net接近左上角重要的模型,这表明FPN-Net v2模型优点的检测准确性和推理速度。
5.4。商品分类结果
Tensorboard用于实现各种指标的可视化要求的网络培训,和分流比β= 0.5。网络训练如图的损失9。
分析图9后,可以看出,网络训练开始,时代价值逐渐增加,网络整体损失是一个下降的趋势。然而,下降的速度正在放缓,最终稳定损失= 0.9左右。在这一点上,网络训练收敛过程已经完成。
网络训练的准确性曲线验证设置如图10。
在这里,经过几轮的网络培训,网络验证集的分类精度不断增加,最后稳定在99%左右,这已经达到了要求。它表明,网络有一个良好的学习适合训练数据。
测试网络的实际精度,标记目标面积削减从原始图像,像素值为“0”是扩大到224×224。因此,分类的测试数据集。考虑到分类图像的原始标签面积大小是不同的,理解不同大小的目标对网络性能的影响,测试数据集的样本图像分为三类:小∊(0128×128),媒体∊(128×128、256×256)和大型∊(256×256、512×512)。
GTNet的部分分类测试结果分类列出了测试数据集在图11。
在这里,当分流比β= 0.30,GTNet分类精度最高,GTNet的分类精度高于MWI-DenseNet为各种各样的测试集。这意味着深度梯度流截止机制应用优势,它可以提高网络的分类精度。
当分流比β= 0.50,输入特性图half-input到连接块和过渡层。这时,GTNet的四种类型的分类精度测试集仍高于MWI-DenseNet,和整体计算减少。
当分流比β= 0.70,更多的输入特征图谱与过渡层通过身份映射,这直接影响到测试GTNet精度。然而,与此同时,大大减少计算,整个推理过程相对比较快。
摘要十亿浮点运算(BFLOPs)用于评估网络计算。GTNet网络测试结果图中列出12下图:
可以看出,不同的分割比例条件下,计算MWI-DenseNet GTNet都不到。分割比例的变化,计算和准确率GTNet也将改变。
当分流比β= 0.30,与MWI-DenseNet相比,计算GTNet降低了3.2%。当分流比β= 0.5,计算GTNet MWI-DenseNet的不到12.7%。当分流比β= 0.70,只有30%的特性图连接块的输入。因此,计算GTNet大大降低,低于20.1% MWI-DenseNet。在所有的计划中也是最低的。
水平坐标代表计算数量,纵坐标代表的准确性,建立坐标系,如图13。
显然,圆的半径成正比,模型的准确性。更大的圆的面积和圆的中心越接近左上角,在模型中所需参数少的推理过程。这意味着可以实现更高的检测精度。因此,在任何条件下分裂的比率βGTNet的综合性能优于MWI-DenseNet。即GTNet比较优势在计算量、参数和精度。
首先,商品图片识别输入FPN-Net v2模型获取商品检测结果output1。目标边界框标记输出图像,使目标区域。目标的大小面积扩大到224×224。新产品的目标图像输入GTNet (β= 0.30)模型。因此,产品分类结果output2。产品边界盒子和产品类别确定输出图像,如图14。
6。结论
从研究可以看出,商品检测和分类的关键问题是如何提高卷积神经网络的结构。商品检测的准确性和分类可以提高通过不断优化结构参数。然而,本研究的实践也表明,精度可以达到85%以上时,以上方法检测不同大小的大宗商品,特别是小目标商品。与此同时,比其他算法的计算量更小。上面的研究,然而,有局限性,没有预处理的图像特征。
数据可用性
实验数据是可用的。
的利益冲突
作者宣称没有利益冲突。
确认
工作和经济上赞助支持的研究跨境电子商务促进制造业转型升级(SK2020A0545),研究中小企业跨境电子商务营销渠道优化策略与安徽蚌埠Aote机械有限公司有限公司为例(2020 sk02zd)和新的文科研究和改革实践项目省级质量工程的安徽高校市场营销专业(2020 wyxm118)。