文摘
大数据的复杂性和高维度声纳、以及不可避免的存在不需要的信号,如噪音,混乱,和声纳混响环境中传播,使大数据的分类声纳的一个最有趣的和适用的话题活跃的研究人员在这个领域。本文提出了蚱蜢的使用优化算法(果)训练多层感知器神经网络(MLP-NN)并选择最优特征大数据声纳(称为GMLP-GOA)。GMLP-GOA混合分类器首先提取实验使用MFCC声纳数据的特点。然后,选择最优的特征使用果阿。在最后一步中,MLP-NN训练与果用于大数据声纳进行分类。评估的性能GMLP-GOA,这个分类器与MLP-GOA相比,MLP-GWO, MLP-PSO, MLP-ACO,和MLP-GSA分类器的分类率,收敛速度,避免局部优化功率和处理时间。结果表明,GMLP-GOA实现分类率为98.12%的处理时间3.14秒。
1。介绍
如今,大数据分析和分类是非常重要的1,2]。原因在于,随着数据的增加,需要更精确的数据分析和分类也会增加3,4]。更精确的和准确的分析,我们的决策将更加的安全。更好的决策意味着更多的实用性,减少成本。声纳数据是一种类型的数据被认为是大数据的一部分家庭(5,6]。
关于声纳的复杂物理特性的目的,分类原始目的和避免不真实目的已经发展成为一个活跃的研究人员和工匠的关键实用面积(7,8]。由于声音的复杂性和异质性在盐水循环,几个参数的分类和分化声纳的目的应该提取。随着特征向量的维度的增长,数据的维度也增加。
有两种截然不同的高维数据的分类方法(9]。首先采用确定性方法(10]。因为这种方法可靠,结果几乎总是在最好的反应;尽管如此,该方法遇到困难随着数据维度的上升,这是紧随其后的是空间和时间复杂度的增加(11]。此外,这种策略对数据分类为大数据(不适用12,13]。第二种方法(随机方法14]。这些方法产生一个算法的解决方案(15]。此外,他们不太复杂的空间和时间维度比确定性方法(16,17]。人工神经网络(ANN)是一种最有效的随机方法在实际利用大数据的世界。
神经网络的学习能力(18]。学习意味着,这些网络是神经网络的基本知识,这可能是分成两组监督学习(19)和无监督学习(20.,21]。大多数电器为多层人工神经网络进行了优化,优化(22)或标准(10,23]。反向传播算法作为学习方法被认为是监督学习的家庭中。的反向传播算法在一个倾斜的基础上有一些问题,如逐步收敛(24和设备的限制区域25,26]。因此,他们为功能电器是不可靠的。
最终目的的过程神经网络学习是获得加权边缘的最佳结构和他们的bios。这样最少的错误可能发生在网络的训练和测试样本27,28]。参考(29日]表明metaheuristic基于优化方法可以代替梯度学习算法,因为这些算法的随机特性可以防止它们被困在一个局部最优,提高收敛速度,减少分类错误。
的一些metaheuristic方法最近已被用于训练神经网络,遗传算法(GA) (30.),模拟退火(SA) [31日(偏硼酸钡)[],biogeography-based优化32),磁场优化算法(农业部)33),人工蜂群算法(ABC) (34),灰太狼优化器(拥有)35蜘蛛算法)、社会(SSA) [36,37),粒子群优化和引力搜索算法(PSOGSA) [7),等等。GA和SA减少的可能性,陷入局部最优,但其收敛速度较低。这种短缺会导致表现不佳时,需要立即处理的存在。ABC徒妥善处理小问题和数据维度较低,但当问题尺寸增加,训练的时间大大增加。农业部有一个不合适的性能和精度较低,面临的非线性数据。偏硼酸钡需要冗长的计算。尽管它的简单性和收敛速度,拥有变成了陷入局部最优,因此并不理想的情况下的全局优化。大量的调整参数和高水平的复杂性是SSA的缺陷。PSOGSA由结合PSO和GSA导致时空复杂性的增加。
之间的共性之一metaheuristic算法和其他搜索算法搜索区域的分割为两个阶段:勘探开发(38- - - - - -40]。第一阶段发生并发算法的尝试检查搜索区域的最可靠的区域(15,41]。在探索阶段,人口受到突然的改变为了正确地调查整个地区的问题。开发阶段时该算法融合向一个可靠的答案。在这个阶段,人口正在发生很小的变化。
在大多数情况下,鉴于进化算法的随机性质,没有指定边界常在这两个阶段(18,42]。换句话说,缺少这两个阶段之间的平衡使算法陷入局部最优。这个问题是加剧,处理数据高维度。通过调整位移行为这两个中间阶段,停留在局部最优的概率会降低。证明了在文献[43),果阿可以正确识别勘探开发阶段之间的边界(44,45]。因此,该算法收敛到更可靠的答案。
另一方面,任何系统执行数据分类包括三个主要部分:数据采集、特征提取、分类器设计。本文的新颖发生在特征提取部分。一般来说,所有提取特性不是有用的,可能含有无用的或重复的信息。特征选择的过程可以看作是识别有用的特性和删除无用的和重复的特性。特征选择的目标是获得一个子集的特性,解决问题和最小的性能下降。特征选择的目标是获得一个子集的特性,解决问题和最小的性能下降。
这里提到的这个理论是:没有免费的午餐(NFL) (46,47]。这个命题证明的逻辑,不存在metaheuristic方法能够解决的优化问题。换句话说,一个metaheuristic技术可能执行令人钦佩和可以预见的问题而失败在另一组问题48,49]。NFL刺激这一领域的研究,有助于开发新的方法和制定新的metaheuristic方法每年(50]。在描述理论,上述问题,和果阿的应对大数据的能力,这种方法可以利用训练多层感知器神经网络(MLP-NN),随后,对声纳数据进行分类。
另一方面,任何系统执行数据分类包括三个主要部分:数据采集、特征提取、分类器设计。本文的新颖发生在特征提取部分。一般来说,所有提取特性不是有用的,可能含有无用的或重复的信息。特征选择的过程可以看作是识别有用的特性和删除无用的和重复的特性。特征选择的目标是获得一个子集的特性,解决问题和最小的性能下降。NFL定理和果阿的能力找到两个阶段之间的边界搜索空间勘探和开采的强烈动机调查果阿的特征选择问题。因此,在本文中,除了果作为神经网络的训练算法,果阿(GMLP-GOA)用于选择最佳的特性。
本文的主要贡献如下:(我)获取和收集实验数据集(2)使用MFCC特征提取方法(3)特征选择使用果阿(iv)设计一个最优GMLP-GOA混合分类器和大数据分类声纳(v)数据分类用mlp训练五个基于metaheuristic算法
本文是MLP-NN组织为第二部分将介绍。部分3果阿的一般问题解释道。部分4将描述如何输出果作为MLP-NNs metaheuristic方法的训练算法。部分5将数据集和特征选择。部分6给出了实验结果和讨论。参考资料部分提供了使用7。
2。多层感知器神经网络
图1显示一个MLP-NN , ,和 ,分别代表输入节点的数量,隐藏的节点,输出节点(51,52]。观察到,有一个片面的结MLP-NN的节点,中间是群神经网络(FNN) [53,54]。MLP-NN产量计算
在这个关系代表边缘连接的重量 - - - - - -节点(输入层) - - - - - -th节点(隐层),代表i节点的输入(输入层),代表的bios - - - - - -th节点(隐层)代表输入节点的数量。任何隐藏节点的输出获得关系(2)一个s形的函数。
计算隐藏节点后,可以定义最后的输出如下所示。
在这代表的边缘的重量代表节点的bios- - - - - -和连接节点−(隐层)节点−(输出层)。MLP-NN的最重要的因素,是边缘的重量和bios。见上面的关系,边缘重,bios定义了最终的输出。训练一个MLP-NN,包括检测某些输出的最佳最佳产量。
3所示。蚱蜢优化算法
蝗虫是一种昆虫。他们被归类为瘟疫由于危害的农作物(55- - - - - -57]。虽然蚱蜢似乎仅在自然界中,他们是地球上最大的动物群体之一。有时候,他们对农民的一种威胁。他们的一个独特的特征是他们的社会行为,可以看到在他们的童年和成熟。数以百万计的孩子跳和roll-like辊和吃几乎所有的植物。缓慢的动作和短的步骤是蚱蜢的主要特点。短和突然的运动是一个成熟的一个特征蚱蜢社区。他们的社区的一个重要特性是寻找食物资源(58]。果阿的灵感来自于大自然,从逻辑上讲,搜索过程分为2个阶段的探索,与剥削。
而寻求鼓励代理商作出突然的动作在勘探阶段,他们更喜欢当地的运动在开发阶段。这个蚱蜢社会行为数学模型模拟如下(43]: 在哪里的位置吗- - - - - -蚱蜢,表示,表示社会互动表示重力的- - - - - -蚱蜢。修改包括随机性、方程如下: 在哪里 , 和是[0,1]之间的随机数。 在哪里之间的距离吗 - - - - - -th和 - - - - - -th蚱蜢和计算使用的关系(8)。是一个函数,用于定义社会力量。如方程(9)和下面的关系是一个单位向量从 - - - - - -th的蚱蜢 - - - - - -蚱蜢。
函数s显示社会权力如下:
吸收和强度吗是吸收长度尺度。这个函数不能实施强有力的权力之间遥远的蚱蜢。的组件的关系(6)计算如下: 在哪里表示引力常数和表示一个单位向量指向地球的中心。组件的关系(1获得的) 在哪里位移和代表一个常数代表一个单位向量垂直于风向。
因为蝗虫幼虫缺少翅膀,他们的动作是完全依赖于风的方向。后放置和值方程(1),这个方程可以扩展 的关系(9),等于蚱蜢的数量。孩子的位置在地面上不应低于阈值。然而,我们不会利用这个方程来模拟蚱蜢组和优化算法,以防止算法探索和利用周围的搜索空间解决方案。的数学模型能够模拟蚱蜢社区2 -三维以及多维空间。然而,这种数学模型不能直接用于解决优化问题。快速增长的主要原因是蚱蜢的惯性。结果,这群不能收敛在一个点上。改革后的版本,这个方程提出了解决优化问题的目的如下: 在哪里上限吗d维度,的目的价值吗几何尺寸(到目前为止最好的答案)。关系(9),也是一个常数降低系数减少惯性的面积,吸收和解吸。它应该考虑几乎是类似于在的关系(1)。然而,我们忽视的线性趋势,假设风组件总是理想(目标价值)。
方程(13)表明,蚱蜢的位置确定的位置,最好的解决方案的位置,位置的蚱蜢。值得注意的是,这个方程的第一个组件检查蚱蜢的当前位置与其他蚱蜢的位置。确定位置搜索代理的目的,我们评估了所有蚱蜢位置的状态。这与粒子群算法。每个粒子的粒子质量算法有两个向量:位置矢量和速度矢量。
然而,在蚱蜢算法,每个搜索代理都表示为一个向量。两种方法之间的另一个重要区别是,粒子群算法修改它的位置取决于粒子的当前位置,粒子的最佳位置,集团的最好的回应。而在蚱蜢算法,搜索代理的位置修改基于其当前位置,最好的反应,所有粒子的位置。这意味着没有其他团体的粒子群算法进行更新粒子的位置,但蚱蜢算法需要所有搜索代理参与决定每个代理的下一个位置。
的参数在方程(使用两次13),原因如下。第一个左边是相当类似的粒子群算法(w)的加权惯性。这个设置减少了蚱蜢的移动附近的目标位置。换句话说,这个参数优化之间的平衡的勘探(搜索)和开发阶段的输入。第二个参数方程中减少蚱蜢吸收,惯性和解吸。考虑组件 在方程(13),组件 线性减少,蚱蜢应该探索和利用的空间。组件 表明蚱蜢吸收的目的或蚱蜢的解吸的最佳位置。
内部减少吸收和解吸部队在蚱蜢随着重复的次数增加,但外部减少覆盖周边地区理想的响应随着重复的数量增加。总之,第一个语句的方程(13)考虑的其他蚱蜢和适用的位置蚱蜢的自然交互。复制第二个句子的蚱蜢对食物的渴求。此外,参数复制的下降蚱蜢的加速度和摄入的食物来源。增加行为的随机性和替代,方程的两个短语(13)可能是乘以一个随机值。单个的句子也可以乘以随机值模型蚱蜢的随机行为相互交互以及食物来源的倾向。这里提供的数学方法是探索和利用搜索空间的能力。然而,必须有一个机制来过渡候选人从探索阶段到开发阶段。自然,蚱蜢最初在本地寻找食物,因为他们缺乏翅膀在起步阶段。然后他们自由地飞在空中,发现新的地区。与这个不同的是,在随机优化技术,首先确定允许的地区进行勘探阶段的搜索空间。发现后允许的地区,开发阶段部队搜索代理定位准确的近似最优答案位置在一个地方。
平衡两个阶段的探索和操作,参数根据重复的数量必须减少。这种机制提高效率当重复的数量增加。惯性的面积减少了重复的数量和比例计算如下: 在哪里的最大价值,是最小值,是当前重复计数,然后呢是最大的重复计数。这些参数被分配的值1和0.00001在这项研究。适当的追求的目的是由于效应方程(最后一句话的12),蚱蜢倾向于被吸引到目的价值。更有趣的模式是逐渐收敛的蚱蜢向增加重复的目的,这是由于减少参数 。这种行为可以帮助果阿不算法快速收敛于最优答案,因此不会陷入局部最优。因此,在后一种阶段的优化,蚱蜢方法尽可能客观,这是重要的开发空间。
前面的讨论表明,提出的数学模型激励蚱蜢进展的目标增加重复。然而,在一个真正的搜索空间,没有目标,因为它不是很明显的最好和最重要的目标是什么。因此,每个优化阶段需要我们为每个集合分配一个目的的蚱蜢。蚱蜢算法使假设最好的或目的价值是最合适的蚱蜢(响应向量)在整个优化过程。这将有助于算法最适当的答案向量存储在每个重复,在搜索空间和直接蚱蜢集团向目的价值。这样做是在发现一个更精确的目标和优越的目的,作为整体的最佳逼近和真正的搜索空间的优化。
蚱蜢利用神经网络的算法流程图如图2。果阿的方法首先是生成一个随机的人口开始。代理搜索修改他们的位置的连接(13)。每次迭代更新到目前为止最好的答案。此外,使用方程系数c (14之间的距离),蚱蜢是一到四个值归一化。更新蚱蜢地位一再达到终止算法的标准执行。的位置和价值目标函数的最优的答案,作为整体的最佳逼近最优答案,终于获得。
4所示。培训使用蚱蜢的多层神经网络算法
一般来说,有三种方法培训MLP-NN使用进化算法。首先是利用进化网络来确定重量和边缘节点的最优组合MLP-NN偏见。第二个是进化的使用网络来确定最优安排MLP-NNs在给定的情况下,第三个是使用进化网络的学习速率和数量来确定基于运动的梯度学习算法。蚱蜢计算优化算法对一个MLP-NN利用1-th方法研究。适当地代表边的权重和节点在训练过程中用于MLP-NN网络边的权重和节点必须适当的代表。
一般来说,三种方法被用来表达边的权重和节点的偏见:向量,矩阵,和二进制。每个元素表示为向量,矩阵,或字符串的二进制位向量,矩阵,和二进制的方法。这些策略有很多优点和缺点,可能在某些情况下是有益的。图3展示了如何使用果阿训练神经网络。
虽然简单元素转换为向量,矩阵,或字符串的二进制位使用第一种方法,检索的过程更为复杂。因此,这种技术通常利用基本的神经网络。在第二技术,它是简单的恢复比编码组件在复杂网络。这种方法尤其适合于开发通用神经网络的算法。以二进制形式的变量必须提供第三技术。在这个项目当网络结构变得复杂,每个元素的长度也增加。因此,编码和解码过程将是非常困难的。
在这篇文章中,因为我们不能处理复杂的多层神经网络,使用向量法。MATLAB通用工具箱将不会被用来减少多层神经网络操作的时间。这种编码方法的一个例子,最后向量的多层神经网络图所示4在给出。
5。数据集
本章使用的一个最具挑战性的工程问题在现实世界中证明果阿的能力。选择的问题是声纳数据的分类,这是一个挑战和问题的工程师和科学家,在这个领域工作。
5.1。场景测试设计和实验数据的形成
因为我们的目标是获得一个可靠的和现实的高维声纳数据集,一个真正的实验设计和实现。实验使用隧道NA-10空化模型,在英格兰。在第一阶段,三种类型的叶轮产生的类A, B和c类叶轮有三个叶片,可用于拾取声音从一艘船,和小客船。使用的B级叶轮叶片有四个集装箱船的声音,远洋班轮,小型油轮。C类叶轮有五个刀片,用于提取声音的航空母舰和大型油轮。在这个实验中,叶轮是评估在不同的速度来模拟不同的操作条件。在这些实验中,不同的声音(噪声)叶轮是存储在一个电脑使用b和k 8103水听器和UDAQ_Lite模型的参数记录器。
提出的测试场景图所示5。在自由水推进速度表示为一些没有J维度,与转速成正比N(RPM)或旋转速度每秒(RPS)和叶轮直径D (m)和v水流速:
实验,100 kPa的大气压力和隧道内的压力被认为是关于叶轮在浮动类的深度。隧道内的水流速度也是4米/秒。旁边的一个水听器安装螺旋桨10厘米的距离和其他50厘米从第一个水听器。
在本节中,噪声测量叶轮设计的四个步骤。在第一步中,水流减缓后,噪声是由水听器接收,然后收到了MATLAB软件和参数记录器和存储。其次,通过将叶轮和叶轮,发动机噪音也获得了几个阶段,这样我们就能获得一个合理的估计这噪音。在第三阶段,在不同的旋转叶轮旋转(根据模型的浮子类型)来获得不同的叶轮旋转的声音漂浮类。在第四步中,通过开启循环水泵和泡沫排出泵进排水隧道,叶轮电动机被激活和声音是收集的参数记录器和MATLAB软件,在电脑。在所有阶段,所有的实际数据,没有放大的值,存储在计算机,供以后使用。
5.1.1。画曲线模型螺旋桨的噪音
根据标准文献[30.,31日)相关的力量计算在dB水声波参考电源(1μPa)。图6显示了水听器噪声曲线表面,傅里叶变换,和dB功率谱,分别对不同类型的叶轮。
(一)类螺旋桨叶片(3)
(b)乙级螺旋桨叶片(4)
(c) c类螺旋桨叶片(5)
一般来说,关系(17)用于获取转速的基本频率。
在本节中,500个样本具有不同螺旋桨和旋转得到。
5.2。特征提取
预处理部分在收到后发现帧包含音频匹配接收到的信号,检测到的声音特征提取部分提供合成现象消除的影响和转换为频域(称为 )。在这一点上,信号频谱的能量计算使用以下;
和表示的真实和虚构的成分检测信号的傅里叶变换,分别。之后,Mel-scaled三角形过滤器用来过滤的光谱能量 。l滤波器的输出能量之间的关系,(20)。
是离散频率的数量利用FFT变换的预处理阶段,然后呢是一个过滤转移函数,在哪里 。对数函数的动态范围压缩Mel-Filtered能谱。
最终,关系(21)和离散余弦变换用于转换Mel-Frequency Cepstral系数(MFCC)时域(DCT)。
特征向量将关系在这种情况下,任何显式的目的。
图7显示了一个框图程序参与分类的步骤。
这部分包含140提取特征。鉴于500个样本,数据集 大小,140代表输入节点的数量( )在神经网络和281被隐层神经元的数目。因此,尽管庞大的数据集,计算和确定的方法具有较高的时间复杂度,和随机方法被认为是最佳的回答这类问题。
5.3。特征提取
正如在前面的小节所讨论的,特征矩阵的维数 。提取所有功能不是有用的,可能含有无用的或重复的信息。如表所示1,有州获得特征矩阵。果阿的二进制版本负责选择最优特征。
假设初始人口是209。表2显示了初始的假设值209人口。
在表2,每一行作为特征选择的模式。通过使用这些模式,整个教育选择输入数据。在这篇文章中,准确性作为适应度函数。在下面,MLP-GOA用于计算适应度函数。因此,对于每个选定的模式,计算精度使用MLP-GOA(精度值完全符合每个模式的价值)。假设初始人口是209,健身向量的长度也会等于209。图8展示了如何从最优的选择模式选择功能。
如果停止条件(准确率达到100%或达到最大迭代次数)发生时,程序结束,数据的最佳模式选择(选择和减少功能)与MLP-GOA分类。
6。实验结果和讨论
公平的比较和性能评价GMLP-GOA分类器,五分类器MLP-GOA MLP-GWO, MLP-PSO, MLP-ACO, MLP-GSA使用。选择算法都是基于人口。GMLP-GOA,果阿MLP-GOA分类器有相同的训练。这两个分类器之间唯一的区别是,在GMLP-GOA标识符,果阿用于特征选择。表3包含了这些算法的参数和开始值。
在GMLP-GOA混合分类器,使用最优特性从果阿。如果其他分类器,一个特征矩阵的维度 使用。分类器的评估分类率,避免局部极小和收敛速度。
表4所示的分类率,平均值和标准偏差最小的错误,值为每个方法后运行20次。正确分类率表明识别分类器的精度,而最小的误差的平均值和标准差,以及值,并显示了算法在避免局部优化。也显示在图9,是一个全面的比较和最终的误差收敛速度和方法的分类器。
如图9,GMLP-GOA最好的收敛速度和MLP-GSA最差的使用分类器之间的收敛速度。获得的结果在表4显示的分类率,GMLP-GOA成功地分类声纳大数据准确率达到了98.12%,而MLP-GSA最差表现的分类率为69.66%。最快的处理时间,GMLP-GOA处理时间3.14秒,而MLP-GSA需要更多时间处理比其他分类器10.44 s。我们可以看到在桌子上4和标准偏差的值价值,GMLP-GOA混合分类器执行最佳的避免陷入局部最小值。的原因之一的成功GMLP-GOA可以提到果阿的力量在检测之间的边界勘探和开采阶段。如图9GMLP-GOA聚合后50迭代,而MLP-GOA和MLP-GWO聚集在75年和95年迭代,分别。因此,根据结果,GMLP-GOA显示成功的声纳性能在处理大数据和建议用于实际问题的能力。
7所示。结论
果阿,用于选择最佳特性和火车MLP-NN GMLP-GOA混合分类器对声纳大数据进行分类。同时,有一个公平的比较,5分类器MLP-GOA MLP-GWO, MLP-PSO, MLP-ACO MLP-GSA被使用,都是基于以人群为基础的metaheuristic算法。在仿真结果可以看到,果阿可以正确检测之间的边界勘探开发阶段。因此,它不会被困在当地的最适条件,以及寻找解决全球最适条件的能力高维大数据声纳等问题是可行的。结果表明,GMLP-GOA有最好的性能分类声纳大数据分类率达到98.12%。5分类器MLP-GOA MLP-GWO MLP-PSO、MLP-ACO和MLP-GSA最准确的分类精度达到值为95.66,94.35,92.82,75.33,和69.66,分别。
数据可用性
没有数据被用来支持本研究。
的利益冲突
作者宣称没有利益冲突。