深度神经学习自适应序列蒙特卡罗自动图像和语音识别

摘要

为了提高图像分类和语音识别的性能，优化器被认为是实现高精度的一个重要因素。最先进的优化器可以用于可能不需要非常高精度的应用程序，但对高精度图像分类和语音识别的需求正在增加。本研究实现了一种应用梯度下降优化器的粒子滤波技术来提高模型学习性能的自适应方法。使用预先训练的模型有助于减少部署图像分类模型的计算时间，并使用简单的深度卷积神经网络进行语音识别。该方法对测试数据集的语音识别准确率为89.693%，高于常规方法的89.325%。该方法在图像分类任务上也取得了良好的效果，在测试数据集上达到了89.860%的准确率，优于传统方法的89.644%的准确率。尽管在精确度上略有差异，但应用的优化器在这个数据集中总体性能良好。

1.介绍

由于其在建模和优化的有用性，在多种应用中提供软计算。许多研究专注于图像和视频处理，其中目标如检测和跟踪。已经提出了各种模型，包括神经网络，深度学习，模糊逻辑和混合方法[1］．但是，它们在应用中的实际应用仍然存在问题，因为许多应用需要比可用型号更高的准确性。结合两个或更多软计算技术的混合方法通常可以提高图像和视频检索过程的效率[2］．在图像环境中，集成了WiMax网络的3D地理信息系统(GIS)数据计划，以优化网络性能和投资成本，这两者都与所需基站和部门的数量有关[3.］．此外，软计算在GIS研究中发挥着重要作用[4- - - - - -7］．实现软计算的一个重要方面是数据集的质量。软计算还可以用来生成有意义的、人类可解释的大数据集，方法是定义数字空间和分类空间之间的接口，即数据定义和人类推理的语言空间[8］．此外，应用于调查软计算方法的数据集应使用旨在验证各种方法的基准数据集[1］．给出了一个应用软计算进行决策的例子[9];这是一种名为神经线解析网络过程的新方法。呈现的方法基于模糊逻辑和人工神经网络的作用。提出了另一种实施软计算的实现，用于隧道优化[10.］．该模型分析了目标掘进响应与输入参数(包括几何和地质因素)的影响之间的关系。拟议的实施方案有助于在采矿业实现稳健和低成本的软计算解决方案[11.］．软计算可应用于环境管理，以每小时流量、重型车辆百分比、车辆平均速度等数据作为神经网络或随机森林的输入，预测车辆交通噪音[12.］．六种方法用于建模土壤水容量参数，这些参数在有针对性地区的环境管理中非常重要[13.］．航空工业采用多层感知器神经网络诊断航空结构缺陷:经典方法采用信号处理和数据解释[14.］．软计算也已应用于飞机的路径分类[15.］．软计算还可用于估算航天器的位置和方位，对空间技术的发展有帮助[16.］．

图像分类和语音识别是一个非常有需求的研究课题，因为它们可以应用于不同的应用领域[17.］．图像分类方法的一个例子是基于图的多级回归模型[18.]，研究人员呈现了一种方法，该方法可以减少当图像被变换成适合于图像分类过程的向量时发生的矩阵数据相关的损失。一个集成的经常性神经网络和卷积神经网络（CNN），命名为多径x-D递归神经网络(MxDRNN)已被提出用于图像分类[19.］．此外，半监督深度神经网络实现了鲁棒损失函数，提高了图像分类性能[20.[和高光谱图像分类已广泛应用于许多地球观测任务，包括对象检测，对象识别和监视。基于不同缩放的两流卷积网络和空间增强的新的联合空间光谱高光谱图像分类方法实现了改进的分类性能[21.］．高分辨率图像(VHRI)的图像分类是另一项具有挑战性的任务，因为图像中捕捉到丰富的细节。许多研究集中在基于对象的卷积神经网络(OCNN)上，并提出了各种创新，如将多层上下文引导分类方法与OCNN相结合，以实现更高的VHRI分类精度[22.］．图像分类技术也已应用于医疗应用，例如乳腺癌通过组织病理学成像进行筛选[23.］．此外，语音识别研究对母语任务也很有用，例如对阿尔及利亚方言的深度神经网络的实现[24.]以及在弗里斯兰语之间进行语码转换[25.］．其他的语音识别研究集中于使用分层模型从语音中识别与年龄和性别相关的情绪[26.］．本文提出了一种基于特定时间和频率特征编码的基于cnn的语音识别新方法[27.］．使用指数量子粒子滤波器和均值漂移优化的目视目标跟踪已被提出作为目标跟踪的另一个挑战[28.］．

应用的方法采用粒子滤波技术，一种状态估计技术，以优化梯度下降优化器。状态估计常用于导航和制导应用，有时也应用于其他优化方法。例如，对于实时流量估计，状态估计采用了扩展卡尔曼滤波，而不是对历史数据使用高斯过程回归模型[29.］．还实施了粒子滤波器以调整各种参数以改善图像分类[30.- - - - - -32.]对于一些应用程序，例如裂缝传播滤波[33.］．梯度下降算法主要用于优化目标[34.］．例如，它用于实施用于飞机的变形翼尖的演示，以减少低速拖动[35.］．热电厂使用状态估计以优化各种参数[36.］．本文提出的自适应技术结合了粒子滤波器和梯度下降优化器来调整和提高图像分类和语音识别任务的性能，并使用PlanesNet [37.和TensorFlow语音识别挑战[38.)数据集。

2。材料和方法

2.1。材料

2．1．1．PlanesNet数据集

未来的机场设计应提供改进的乘客便利性，例如减少飞机延迟或要求减少办理登机手续。空中交通管理是航空业的骨干，是一个领先机场的一个因素，成为更智能的17.］．飞机检测是跟踪，定位和预测飞机位置的基本任务。PlanesNet是一个中分辨率，标记的遥感图像数据集，可以作为培训机器学习算法的培训数据[37.］．数据集由标有20×20 RGB图像标记为“平面”或“无平面”，如图所示1和2，分别。“平面”图像主要由飞机的翅膀，尾部和鼻子组成。标记为“无平面”的图像可以包括诸如水，植被，裸露的地球或建筑物之类的陆盖特征，并且不显示飞机的任何部分。一些示例图像数据如下图所示。

2．1．2．语音命令数据集

该研究中采用的另一个数据集用于测试应用方法是单个单词语音识别的公共数据集，其最初被编译用于TensorFlow语音识别挑战[38.］．数据集由音频文件组成，其中单个扬声器说一个单词。目标是预测测试数据集中的音频文件，这些文件被分为12个类别:“沉默”、“未知”、“是”、“否”、“上”、“下”、“左”、“右”、“开”、“关”、“停”和“走”。需要注意的是，应用的方法是基于CNN的，它通常应用于二维空间问题。相反，音频本质上是跨时间的一维连续信号。该数据集经过预先处理，通过定义一个合适的时间窗口来匹配口语单词;然后，通过将传入的音频样本分组为几毫秒长的短片段，并计算一组频带的频率强度，将捕获的音频信号转换为图像。每一段的频率强度集被视为一个数字向量，这些向量按时间顺序排列，形成一个二维数组。这一组值可以被处理，如称为声谱图的单通道图像。

2．2.方法

应用的方法是基于粒子滤波和小批量梯度下降优化过程的组合实现的，如式(1)，目标是为目标数据集获得合适的优化器: 在哪里的重量,是学习率，和是代价函数的梯度吗与重量变化有关。随机梯度下降算法(SGD)对每个训练实例进行处理后进行参数更新和标签，这意味着批量大小是1。小批梯度下降的代价函数是小批数据的平均值，小批数据的大小通常在50到256之间，但可以根据应用程序而变化。

应用方法使用生成的颗粒过程与来自小靶梯度下降优化器的变量组合使用。因此，应用的优化器通过使用计算的变量而不是来自小靶梯度下降优化器的传统变量执行更新。可以表示应用的方法如下式所示：在哪里是从粒子过滤过程获得的调整值。乘以深度学习速率，然后加入到式中常规的小批量梯度下降优化器的第二方程项(1)．数字3.说明了粒子滤波器的工作过程。它基于前一阶段的历史信息工作。PF的工作方式是迭代地生成一个粒子，将其传播到下一个时间步骤，然后执行更新以获得时间步长的准确值。应用方法的工作流程获取值在图中描绘4．

应用的方法如图所示4的描述如下[32.]：(1）初始化: ，生成粒子，并设置它们的权重为（2）为了（一种）输入粒子集利用系统模型方程，该方程由粒子加上一个均值为零的高斯过程的值决定，其方差等于深度学习率（b）预测观测值通过使用测量值根据之前迭代的平均值分配（C）根据观测向量更新粒子权重通过或者观察模型设置为1.计算重量的重要性．（d）将权重归一化．颗粒的排斥或保留取决于重量多项式重采样，由重采样算法决定。

3.结果与讨论

3.1。图像分类结果

本实验使用了inception_v3模型，这是一个预先训练的用于图像分类应用的模型。本实验部署的PlanesNet数据集共有18085张图像，分为两类(7995张“平面”图像和10090张“非平面”图像)。数据被分为包含14,377张图像的训练集和包含3,708张图像的测试集。设置训练批大小为100，学习速率为0.001，深度学习计算需要10000个epoch。

将该方法与传统梯度下降优化方法的结果进行了比较。应用的方法显示了三种情况(不同数量的粒子和括号中的粒子滤波迭代)。应用该方法的结果与梯度下降优化算法的结果如表所示1通过每次迭代的平均交叉熵(0.3193)和最终测试精度(89.860%)，表明使用所应用的方法(180,300)的迭代取得了最好的性能。应用的方法(50,50)在每次迭代后计算的平均精度(87.4291%)方面表现最好。


方法	意味着精度(%)	意思是交叉熵	最终测试精度(%)

应用方法(50,50)	87.4291	0.3196	89.482
应用方法（150,100）	87.3806.	0.3199	89.482
应用方法(180,300)	87.4269	0.3193	89.860.
梯度下降方法	87.4073.	0.3200	89.644.

每个深度学习迭代后的准确性和交叉熵显示在图中5．图中并没有清楚地表达不同的模型效率，因为性能只有轻微的提高，如表所示1．但是，既准确性和交叉熵（图）5(一个)和5 (b)分别给出了应用方法和常规方法的相应趋势值。

（一种）

（b）

所有情况下的混淆矩阵如图所示6，可见所应用的180个粒子和300个粒子滤波迭代的方法对“无平面”类别的预测结果最好，而对“平面”类别的预测结果较差。图中其他三个的混淆矩阵的结果6（a），6（b）,6（d）在“平面”或“非平面”类别中没有显示大的差异。这些结果表明，粒子滤波器中粒子数量和迭代次数的差异影响了所应用方法的整体性能。因此，每个应用程序应该根据用户需求和可接受的模型精度选择最合适的模型。

（一种）

（b）

（C）

（d）

3.2。语音识别结果

在这个实验中使用了一个简单的深度CNN来生成音频文件的模型。模型训练25000个纪元，批大小为100，学习率为0.001。音频文件包括105,829个单独的文件:训练数据集中的100,939个，测试数据集中的4,890个。与图像分类实验类似，该实验将应用方法在不同粒子数和粒子滤波迭代下的结果与传统的小批量梯度下降优化算法的结果进行了比较。

结果显示在表中2结果表明，所采用的方法(50,50)与其他模型相比具有优异的性能，并获得了最佳的平均精度(77.8163%)、平均交叉熵(0.6772)和最终测试精度(89.693%)。传统的小批量梯度下降优化算法次之。从这些结果，我们可以得出结论，应用的方法配置适当的粒子数量和粒子滤波迭代可以获得比传统方法更好的性能。每次迭代后的精度和交叉熵结果如图所示7，这并没有透露明显的总体差异;因此，在表中列出了改进2．混乱矩阵呈现在图中8．应用的方法(50,50)在“no”、“right”、“off”类上表现出色。然而，传统方法在“yes”、“down”和“go”类上的表现最好。所应用方法的其他两个版本在“未知”类上取得了良好的性能。最后，应用的方法(150,100)在“左”类和“上”类上取得了最好的结果。


方法	意味着精度(%)	意思是交叉熵	最终测试精度(%)

应用方法(50,50)	77.8163	0.6772	89.693
应用方法（150,100）	77.4286	0.6900	89.059.
应用方法(180,300)	77.2724	0.6952	89.141
梯度下降方法	77.4950	0.6853	89.325

（一种）

（b）

（一种）

（b）

（C）

（d）

语音识别实验的总体结果表明，在精度和交叉熵的方面，应用方法比传统方法更好。但是，在为给定应用程序选择最合适的模型之前，应详细考虑混淆矩阵结果。

该方法与图像分类和语音识别的整体性能提供了更好的精度。然而，混淆矩阵在图像分类和语音识别中的失败案例仍然是一个具有挑战性的任务。对于一些需要高精度图像分类的应用(如医疗行业)或要求高精度语音识别(如救援过程)的应用来说，这是一个非常重要的考虑因素。因此，本实验中应用的基于状态估计和知名优化器的方法有助于略微提高两个应用程序的性能。为了将该方法应用于实际应用中，需要更多地考虑可接受情况和使用混淆矩阵的故障情况，以达到最佳性能。

4。结论

本研究的目的是使用粒子滤波技术来优化梯度下降优化器中的变量。将该方法应用于两种不同类型的公共数据集:用于图像分类的PlanesNet数据集和用于语音识别的Speech Commands数据集，验证了该方法的有效性。此外，在这两个数据集上测试了所采用的三种不同粒子数和不同迭代数的方法的变化:三个模型变量分别使用50个粒子和50个粒子滤波迭代，150个粒子和100个粒子滤波迭代，180个粒子和300个粒子滤波迭代。结果表明，与传统方法相比，该方法在两个数据集上都取得了优异的性能，获得了更高的精度和更低的交叉熵。实验还表明，粒子滤波过程中使用的粒子数量和迭代次数会影响模型的整体性能。因此，为了建立高精度的模型，需要根据每个应用情况，选择合适的粒子滤波过程参数值。混淆矩阵可以作为辅助工具，为给定的应用程序选择最合适的模型。

数据可用性

用于支持该研究的数据在PlanesNet数据集和语音命令数据集中可用。

的利益冲突

作者声明他们没有利益冲突。

致谢

作者感谢蒙库特国王的拉德克拉邦理工学院国际航空工业学院的工作人员对本文的贡献。这项研究由学术大熔炉(Academic Melting Pot)、KMITL研究基金(KMITL research Fund)资助，孟库特国王理工学院(King Mongkut’s Institute of Technology Ladkrabang)，曼谷10520，泰国。

参考文献

M. Kaushal, B. S. Khehra，和A. Sharma，“基于软计算的目标检测和跟踪方法:最先进的调查，”应用软计算，第70卷，第423-464页，2018。视图:出版商网站|谷歌学者
H. Bhaumik, S. Bhattacharyya, M. D. Nath，和S. Chakraborty，“基于内容的视频检索的混合软计算方法:简要回顾，”应用软计算，第46卷，第1008-1029页，2016。视图:出版商网站|谷歌学者
L. H. Son和P. H. Thong，“3D地理信息系统WiMax网络规划的软计算方法”，计算机与系统科学学报，第83卷，第83期1，页159-179,2017。视图:出版商网站|谷歌学者
A. U. Islam, M. J. Khan, K. Khurshid，和F. Shafait，“利用深度学习进行作者识别的高光谱图像分析”，刊于国际性图像计算国际会议的诉讼程序：技术和应用程序（DICTA），pp.1-7，IEEE，珀斯，澳大利亚，2019年12月。视图:出版商网站|谷歌学者
M. J. Khan, H. S. Khan, a . Yousaf, K. Khurshid, a . Abbas，《高光谱图像分析的现代趋势:综述》，IEEE访问，第6卷，14118-14129页，2018。视图:出版商网站|谷歌学者
M. J. Khan，K.Khurshid和F. Shafait，“Shatryspectral文档认证的时空混合卷积架构”国际文件分析和识别会议论文集， pp. 1097-1102, IEEE，悉尼，澳大利亚，2019年9月。视图:出版商网站|谷歌学者
M. J. Khan，A. Yousaf，K.Khurshid，A. Abbas和F. Shafait，使用模糊聚类的多光谱文件图像中自动伪造检测，“第十三届国际文献分析系统研讨会论文集，第393-398页，IEEE，维也纳，奥地利，2018年4月。视图:谷歌学者
G. Smits, O. Pivert, R. R. Yager和P. Nerzic，“大数据总结的软计算方法”，模糊集与系统，卷。348，pp。4-20,2018。视图:出版商网站|谷歌学者
D. A. Carrera, R. V. Mayorga，和W. Peng，“群体决策的软计算方法:供应链管理应用”，应用软计算，卷。91，物品ID 106201,2020。视图:出版商网站|谷歌学者
S. Isam和Z.文刚，隧道镗床隧道优化的软计算技术，地下空间，上马鞍河，新泽西州，美国，2020。
C. K. Arthur, V. a . Temeng和Y. Y. Ziggah，“基于软计算的技术作为估计爆破引起的地面振动的预测工具，”可持续采矿学报，卷。18，不。4，pp。287-296,2019。视图:出版商网站|谷歌学者
D. Singh, S. P. Nigam, V. P. Agrawal，和M. Kumar，“使用软计算方法的车辆交通噪声预测”，环境管理杂志，第183卷，第59-66页，2016。视图:出版商网站|谷歌学者
J. Shiri, A. Keshavarzi, O. Kisi, and S. Karimi，“使用容易测量的土壤参数估算土壤水分容量:软计算方法”，农业中的计算机与电子学， vol. 141, pp. 327-339, 2017。视图:出版商网站|谷歌学者
G. D'Angelo和S. Rampone，“用于航空航天结构缺陷分类的特征提取和软计算方法”，测量，第85卷，第192-209页，2016。视图:出版商网站|谷歌学者
P. Kamsing，P. Torteeka，S. Yooyen等，“飞机轨迹识别通过苏万那比乌国际机场的统计分析聚类，”第22届国际先进通信技术会议(ICACT)论文集，PP。290-297，IEEE，凤凰公园，大韩民国，2月20日2020年。视图:出版商网站|谷歌学者
T. Phisannupawong, P. Kamsing, P. Tortceka, S. Yooyen，“通过深度学习算法进行航天器对接操作的基于视觉的姿态估计”，在第22届高级通信技术会议（ACACT）的程序， pp. 280-284, IEEE，凤凰公园，韩国，2020年2月。视图:出版商网站|谷歌学者
P. Kamsing, P. Torteeka，和S. Yooyen，“利用不同的优化器开发迁移学习用于卫星图像上的飞机识别的深度卷积神经网络”IGARSS 2019 - 2019 IEEE国际地球科学和遥感研讨会论文集，pp.9788-9791，IEEE，横滨，日本，2019年8月。视图:出版商网站|谷歌学者
袁慧，李俊杰，赖丽丽，唐艳艳，“基于图元的多秩回归图像分类，”Neurocomputing，第315卷，第394-404页，2018。视图:出版商网站|谷歌学者
Gao R.， et al.，“Multi-path x-D递归神经网络在图像分类中的应用”，Neurocomputing，卷。397，pp.48-59,2020。视图:出版商网站|谷歌学者
H. Cevikalp, B. Benligiray，和O. N. Gerek，“用于多标签图像分类的半监督鲁棒深度神经网络”，模式识别，卷。100，物品ID 107164,2020。视图:出版商网站|谷歌学者
韩敏，丛瑞，李旭东，傅海华，“基于卷积神经网络的高光谱图像联合分类，”模式识别的字母，卷。130，pp。38-45,2020。视图:出版商网站|谷歌学者
C. Zhang，P. Yue，D. Tapete，B. Shangguan，M. Wang和Z.Wu，使用非常高分辨率的土地覆盖分类对对象的卷积神经网络进行多级背景的分类方法遥感图像，“国际应用地球观测和地理信息杂志，第88卷，第102086条，2020年。视图:出版商网站|谷歌学者
R. Yan，F. Ren，Z.Wang等，“使用混合深神经网络的乳腺癌组织病理学图像分类”方法，第173卷，第52-60页，2020。视图:出版商网站|谷歌学者
M. A. MELA，O.米拉，D.FOHR，D. Jouvet，D. Langlois，以及Arabic Loria自动语音识别系统（ALASR）的发展及其对阿尔及利亚方言的评估，“Procedia计算机科学， vol. 117, pp. 81-88, 2017。视图:出版商网站|谷歌学者
E. Yılmaz, H. van den Heuvel和D. van Leeuwen，“研究双语深度神经网络用于自动识别语码转换的弗里斯兰语”，Procedia计算机科学，卷。81，pp。159-166,2016。视图:出版商网站|谷歌学者
R. Flynn和E. Jones，“噪声和丢包条件下的鲁棒分布式语音识别”，数字信号处理，卷。20，不。6，PP。1559-1571,2010。视图:出版商网站|谷歌学者
M.Kubanek，J.Bobulski和J.Kulawik，“一种使用卷积神经网络进行语音识别的语音编码方法”，“对称，第11卷，第5期。9，页1185,2019。视图:出版商网站|谷歌学者
P. P. Dash和D. Patra，“一种使用指数量子粒子滤波和均值移位优化的视觉跟踪的有效混合框架，”多媒体工具及应用，第79卷，第5期。29-30, pp. 21513-21537, 2020。视图:出版商网站|谷歌学者
J. Jin和X. Ma，“用于信号交叉口的交通状态估计的非参数贝叶斯框架”信息科学，第498卷，第21-40页，2019。视图:出版商网站|谷歌学者
P. Insom，C.Cao，P. Boonsrimuang等，“用于改进的土地覆盖分类的支持向量机基础粒子滤波器应用于Modis数据，”2016年IEEE国际地球科学和遥感研讨会（IGARS）的诉讼程序， pp. 775-778, IEEE，北京，中国，2016年7月。视图:出版商网站|谷歌学者
P. INSOM，C.春兴CAO，P. Boonsrimuang等，“用于改善洪水分类的支持向量机基础粒子过滤方法”，IEEE地球科学与遥感通讯，第12卷，第2期第9页，1943-1947,2015。视图:出版商网站|谷歌学者
P. Kamsing，P. TorteEka和S. Yooyen，“一种增强的学习算法，基于粒子滤波器的梯度下降优化方法”神经计算与应用，卷。32，不。16，pp。12789-12800,2020。视图:出版商网站|谷歌学者
S. F. Karimian, R. Moradi, S. Cofre-Martel, K. M. Groth，和M. Modarres，“神经网络和粒子滤波:裂缝扩展预测的混合框架”，信号处理，卷。2004,2020。视图:谷歌学者
A. Ratre，“基于随机梯度下降鲸鱼优化算法的深度卷积神经网络用于人群情感理解”，电脑杂志，卷。63，没有。2，pp。267-282,2019。视图:出版商网站|谷歌学者
A. Koreanschi, O. Sugar Gabor, J. Acotto等人，“用于低速减阻的飞机变形翼尖演示机的优化和设计，第i部分:使用遗传、蜂群和梯度下降算法的气动优化，”中国航空杂志，卷。30，没有。1，pp。149-163,2017。视图:出版商网站|谷歌学者
A. M. Kler，P.V.Zharkov和N. O. Epishkin，“使用梯度方法的超临界发电厂的参数优化”，“活力，卷。189，2019年第116230号。视图:出版商网站|谷歌学者
Rhammell，“卫星图像的Planesnet-Planes，https://www.kaggle.com/rhammell/planesnet/version/2.．
P. Warden，“语音命令：单词语音识别的公共数据集，”https://www.kaggle.com/c/tensorflow-speech-recognition-challenge．

应用计算智能和软计算

摘要

1.介绍

2。材料和方法

2.1。材料

2．1．1．PlanesNet数据集

2．1．2．语音命令数据集

2．2.方法

3.结果与讨论

3.1。图像分类结果

3.2。语音识别结果

4。结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章