评价处理时间的无尾类的声音分类

文摘

如今,声音分类应用越来越普遍在无线声传感器网络(还)范围。然而,这些架构需要特殊考虑,像之间寻找一个平衡传输数据和本地处理。本文提出了一种音频处理和分类方案,重点是架构。本文还详细分析了时间效率的不同阶段(从收购到分类)。这项研究提供了有用的信息,可以选择最佳的权衡处理时间和分类结果的准确性。这种方法一直在评估一组广泛的无尾类的歌曲注册自己的栖息地。这项工作的结论,强调差异的分类和特征提取和施工时间为不同的研究技术,他们所有人特别是取决于所使用的总体特征数量。

1。介绍

在过去的几年里,设备集中在环境参数的监测和分析变得强烈。然而,有时,目的不是直接测量的一个参数,需要分析复杂现象。这方面的一个例子物候学,包括定期的研究植物和动物的生命周期以及与季节和气候变化相关的一些事件1]。

此外,扭转这一研究中,它被用于气候演化的预测。证明这一事实中可以看到一些研究[2,3)提出了一些无尾类的物种的歌曲作为气候变化的一个很好的指示器。然而,这些方法是由大量的录音,这通常是收集,并分析了以后一个接一个。幸运的是,无线传感器网络的出现(没有)4)改变了这种方法。作为一个例子,5)提出了一个没有区分一些无尾类的物种之间的(甚至不同的歌曲)。为此,它提取一些MPEG-7从音频帧描述符,应用两个简单的分类器(最小距离和最大似然)。扩展这项研究数据挖掘方法,6十)增加了分类器的数量,只使用框架特性,没有任何时间之间的关系。此外,(7]提出增加成功率的分类,添加额外的特性反映的帧序列。

所有这些研究通常集中在比较不同的音频处理技术,音频特征选择或分类。然而,没有方法需要考虑更多的因素,如执行时间或传播信息的数量为每个方法,可以认真条件的适用性。

在这个意义上,本文提出了一种音频处理和分类方案,专注于这些类型的架构。此外,它也完成了一个详细的时间不同过程的分析方案(从收购到分类阶段),提供有用的信息来选择最好的选择最好的权衡处理时间和分类结果的准确性。

具体来说,本文的组织结构如下:部分2显示了不同过程的概述,提出的方案。部分3简要介绍并架构方案。部分4详细描述了该音频处理方案,解释每个阶段的不同提出方法组成。反映了时间的影响是生长在每一个部分5。部分6提供了一个广泛的比较研究的时间要求每个建议的方法,使用一个真正的问题(无尾类的物种的分类基于他们的歌)的实验。最后,部分7总结了结论。

2。音频处理架构

拟议的架构主要集中在分布式解决方案的音频分析并解决在分布式节点。这个网络是由网状结构与动态路由(网络拓扑描述部分3)。因此,每个网络节点负责实现自己的音频处理,从音频采集到的音频分类。从这个意义上讲,数字1总结提出了音频处理方案,这是由以下阶段:(1)良好的框架。在这第一阶段,由当地麦克风捕捉音频信号。每一个样本的音频信号在44.1 kHz,使用一个16位的编纂。这个采样率选择,因为稍后将看到的,因为它是最严格的定义分析了标准(这个频率可以设置应用程序需求后)。这个模块还组织这些样本帧,这将作为基本元素进行分析。(2)特征提取。单独分析每一帧,提取从每一个参数。对于这个提取,提出了两种方法,基于多媒体内容描述接口MPEG-7 [8)标准或根据Mel频率Cepstral系数(MFCCs) [9]。这两种方法将详细描述部分4所示。1。(3)功能建设。这个阶段使用前一个阶段的信息。它可以被视为一个互补的特征提取阶段,添加信息框架的演进(趋势)或它们出现的顺序(序列)。这一阶段提出了三种方法:没有功能添加;分析相邻帧的趋势;和序列建模。这些方法将详细描述部分4所示。2。(4)帧分类。每个音频片段(或序列帧)与一个声音的类。这个阶段应用不同的分类器,有不同数量的输入,根据前一个阶段的选择。提出了分类技术将部分中描述4所示。3。(5)声音分类。这最后阶段分析与每一帧相关联的部分结果,选择帧分类过程中最常见的类作为全球分类结果。

3所示。无线声传感器网络

提出并架构是由一组分布式节点和一个中央节点称为基站(见图2)。

一方面,基站通常是一个标准的PC,并连接无线适配器。它作为一个网关与其他网络技术,提供集中的存储和处理能力。

另一方面,分布式节点嵌入式系统,它有一个无线电台,让他们与其他网络连接元素(邻近节点和基站)。由于节点的远程位置,在自然环境中,他们也需要另一个电源(即。由电池、太阳能系统),支持以保证他们在不利的环境条件。这一事实使得消费这些节点的关键约束,需要计算和无线电力消耗数量的急剧减少。然而,低功率收发器,如内部的基于IEEE 802.15.4(提供服务10),覆盖面有限,从而排除基站和节点之间的通信。因此,网格拓扑结构是典型的在这些应用程序中,通过相邻节点路由消息,使用协议,支持这些结构(例如,无线个域网(11)和6 lowpan (12])。此外,另一个关键限制带宽的限制。在传统的音频应用程序中,每个节点通常发送原始数据(441样品每帧)。然而,这种方法需要大量的能量和网络可以大大过载。针对这个问题,该方法对只发送必要的信息,甚至减少负载单一数据(声音所属类)。

具体来说,根据用户的需要,不同的权衡之间传播信息的数量(无线电消费)和执行时间(计算成本)可以成立。从这个意义上说,每个网络节点必须能够在本地描述和分类的声音,在最低的分类误差并不是唯一的目标。此外,还应该考虑每个算法的计算需求的可行性在这些平台。

由于这个,在下一节中,该方案详细和完成后执行性能的综合分析每个音频分类阶段。

4所示。特征提取和分类

前面介绍,逐帧音频特征提取,为每一个获得几个参数。之后,在此基础上首次直接功能,此信息设置完成施工阶段与第二功能,提供新的额外的估计信息。中详细分析两个部分,而分类分析在第三阶段。

4.1。帧特征提取

在这部作品中,一个框架有两个方法的特征提取。一方面,首次提出的方法包括提取MPEG-7标准定义的特性。本标准定义了一个44.1 kHz的采样率和建议hopSize10 ms。两个约束定义帧大小对于这个应用程序,包括一组441个样本。描述这些信息,18参数定义( ,见表1),它来源于三种基本分析:(我)谱图分析 。它使用快速傅里叶变换(FFT)来确定一个框架的频率成分。从这个分析,5 MPEG-7特性(见表定义1)。(2)线性预测编码(LPC)分析。它提出了一个声音可以计算为一个线性组合的样品和一个错误的信号。LPC分析模型使用谐波发生器声源,噪声发生器,数字滤波器声道(特征)。这种滤波器的特征多项式的根是复杂的,这种技术发挥关键作用,决定了不同的共振峰(共振notes)音频样本。共振峰是由它的频率()和带宽()。从这个LPC分析,11 MPEG-7参数(见表定义1)。(3)调和性分析。它代表声周期性的程度和基于自相关分析的音频样本。从这一分析,到2 MPEG-7特性(见表定义1)。


功能	象征	基于

总功率		谱图分析
相关的权力 (在某一频带)
权力重心
光谱色散
频谱平坦

共振峰的频率(×3) (一分之三共振峰被认为是)		线性预测编码(LPC)分析
共振峰带宽(×3) (一分之三共振峰被认为是)
球场
谐波重心
谐波谱偏差
谐波频谱分布
谐波谱变化

调和性比		调和性分析
上限的调和性		调和性分析

更多细节,MPEG-7标准(5,8)广泛描述这些特性的定义和提取技术。

另一方面,其他方法提出一个MFCC特征提取分析。MFCCs基于声音cepstral通过同态处理(13]。因此,这种分析是一个音频特征提取(即广泛扩展的方法。语音识别)。然而,MFCCs缺点,他们没有任何通用的标准化方法,尽管如此,对于电话应用程序,ETSI标准(14)定义了一个扩展程序来获取这些系数。然而,这种方法需要一些调整使它可比与第一特征提取替代上面描述。具体来说,这一修改有关帧的大小。ETSI标准提出了一种帧长度25 ms 16 kHz的采样率,获得每帧400个样本。在我们的例子中,为这项工作选择的采样率(44.1 kHz)在这个标准没有定义,保持帧长度,每帧样本数量的增加超过一千。类似MPEG-7方法,提出了10 ms的外框尺寸,导致大量的样品每帧(441)非常类似于ETSI标准推荐(400)。此外,根据这种方法,MFCCs代表一帧的数量是13 ( )。

4.2。框架的功能建设

在前一节中,从每一帧直接特征提取。然而,这些特性并不考虑内在顺序声音演化的特征。这连续的信息建设应该添加一些新特性。三种构造特性的方法被认为是:不添加新特性(出于比较目的);相邻帧的趋势分析;和序列(组帧)建模。

4.2.1。准备没有功能建设

这种方法代表“a”或左分支图1,由直接在不产生任何额外的信息,考虑到直接帧信息足够未来分类阶段。

4.2.2。使用Frame-Trend分析功能建设

这种方法代表了“b”或中心分支图1,由提取相结合的信息框架的根据与邻国的提取特性分析,获得,为下一阶段的新特性。具体地说,三个备选方案建议如下:

(一)区域分散(RegDis) [15]。这种方法包括使用一个分析的序列帧(由框架下分析及其相邻的),每一个被其特征提取的特征。这个特性的一般想法施工技术是使用时间轴来构造新的基于时间轴的功能。通常,这些技术都是基于帧特征的价值观而不考虑他们的秩序,这是通常被称为一袋的特性。平均值或其他相关统计数据通常采用。在我们的例子中一些无尾类的调用的分类显示典型的哇哇叫的青蛙,而另一些则类似于吹口哨。哇哇叫的声音是由多次开启和关闭声带(大约每10毫秒。帧长度)导致一个帧序列具有高度传播价值。另一方面,whistle-like声音是由一个连续的空气流显示低传播特性值。所以,把这些信息分类过程中的一系列新的特征构造考虑而不是平均提取的特征值的传播。,避免异常值的影响,四分位范围而不是选择标准偏差。本文所使用的实现中,首先对于每一帧,一帧被认为是“窗口”为中心,用最亲密的邻居帧。 And for every original parameter, a new derived parameter is constructed. For this purpose the values of the original parameter for every frame in the window are considered. The interquartile range of these values (the difference between 75th and 25th percentiles) is computed, and this value is considered the new derived parameter. In this way, the number of constructed features is ,所以参数(一个向量)现在确定一个框架,在哪里其中包括某种形式的序列信息。在这种方法中一个10-frame窗口大小(100毫秒)已经使用。

(b)Δ参数。第二种方法描述后面的趋势(升序或降序)序列帧特征。在某种意义上的导数每个提取功能,下面的表达式16]。从这个意义上说,对于每一帧,提取每一个构造(一个趋势特性 )。此外,这个过程也可以扩展到二阶导数(参数)或更高。总数的特性在应用这项技术 (在使用的情况下参数)或 ( ,以防使用和参数)。

(c)滑动窗口(SW) (17]。最后一个趋势分析方法提出了使用短窗口组成的一个序列相邻帧,集中在框架下分析。在这种方法中,所构造的特性的集合提取特征下的每一帧窗口。因此,在这种方法中,功能框架的总数

4.2.3。使用序列建模功能建设

最后的选择是由“c”或右分支图1。它包括直接使用技术分析的框架集(或音频片段)。具体来说,本文研究了两种方法。

(一)自回归综合移动平均(ARIMA)模型(18]。该方法从一个开始矩阵,描述一个音频序列框架,将它转换为一个向量,这是由系数矩阵( )。矩阵有一个尺寸 ,包含向量的参数( )与每一帧音频片段。因此,获取向量,它认为的帧序列特性()的结果是一个向量ARIMA时间序列, 。它被定义为(1),的顺序是自回归模型,是差分化的程度,移动平均模型的顺序:

和两个系数矩阵,哪有维度。是一个矢量,代表平均向量时间序列,组件。通常,这种时间序列是标准化的,所以向量具有零均值和它通常被省略了。因此,参数”来形容声音段数量。此外,它也是典型的假定时间序列是静止的( ),VARMA模型可以近似等效VAR模型( )。因此,使用Akaike信息准则(AIC) [19),可以找到一个最优值模型的订单(),矩阵使用最大似然法(20.]。

从这个意义上说,这种方法提供了特性来描述每一个声音片段,将不连续的分类器所使用的下一个阶段。

(b)隐马尔可夫模型(HMM) [21]。首先,嗯的每一帧的提取特征( 段),量化他们(22),获得一个观察整数定义的代码在的范围内。一个嗯有几个州(定义为连接),产生一个观察序列。孤立的“单词”(无尾类的调用)识别,不同嗯为每个类设计,左右模型是最合适的,州的数量应该大致对应于声音(音素)中调用的数量。然而,错误率的价值观的差异接近5很小。的结构和价值已从[21]。的状态生成代码与一个概率和发展与一个概率。和矩阵的每一个类得到了每个类的模式框架(),使用forward-backward算法(23]。一旦HMM的参数估计(以下结构提出了图3),该算法需要良好的观察序列段(由帧),这是它的特征的概率特性和计算生成的序列被每个类的嗯。最后一段是贴上属于类概率最高的声音从上面的计算。

4.3。特性和良好的分类

一旦不同备选方案的框架分析了,下一步是使用这些特性来识别它们所属的类(步骤(4)的分支图1)。除了分类如:嗯,这本质上考虑声音的连续字符,其余分类程序提出了不连续的哲学。也就是说,他们需要增加输入设置一些额外的构造特性来获得连续的信息(使用方法部分中解释4所示。2或通过建立ARIMA模型)。所有的分类器,将被视为执行监督分类。也就是说,他们比较序列的构造特性已知类和的声音模式识别它所属的类。具体地说,作为一个代表性的例子,这些技术,本文研究了几个分类器:最小距离(MinDis) [24),最大似然(MaxLik) [25),决策树(DecTr) [26),最近的邻居(NN) [27),支持向量机(SVM) [28),逻辑回归(LogReg) [29日),神经网络(神经细胞)30.),判别函数(Discr) [31日(贝叶斯)[],贝叶斯分类器32]。这组代表通用分类器非常适合这种应用程序(6,33]。

在最后阶段,(图5)1,一旦所有帧的声音分类,他们终于分配最重复的类作为全球音频文件分类。

5。考虑分类时间

在之前的章节中,不同的实现或动物声音的替代品分析。然而,从实现的角度来看,这些算法不是微不足道的,可能需要大量的执行时间。

从这个意义上说,一个详尽的时间分析每个阶段保证实时应用至关重要。具体来说,根据前一节,分析时间可分为五个阶段:音频采集、帧特征提取(直接框架分析),框架或序列功能建设(帧设置或序列分析),每一帧的功能分类,最后全球声音分类。然而,对于有些人,他们的处理时间都不是静态的。具体地说,就像前面提到的,一个动物声音可以由一组特征特性(或点空间)。因此,作为将在下一节中看到的,这个空间维度(或特性)是一个梯形在处理时间的研究中,影响下面的方式:(我)每一帧的特征提取时间长,当这些参数数量的增加。(2)附加信息的功能建设时间为每个帧(或序列)的增长直接或额外的参数数量的增加。(3)每一帧(或序列)的分类时间依赖性增加其功能。(iv)因为它将解决部分6.4(见图22),分类器生成时间增加的数量特性对于大多数算法,其中的一些生长非常强烈的(一个或两个数量级)。

考虑到一分之三前列表,它们的和是一个重要的限制在实时音频处理应用程序中,这个总时间必须小于音频片段。从这个意义上说,这个约束进行了详尽的比较时间研究提出替代方案至关重要,寻求最佳的权衡之间的特征数量和可用的时间。

此外,虽然不直接相关的实时应用,获得分类器所需的时间也与特征空间的维度。因此,这一次的比较分析也可以是有用的,特别是在应用程序与一个动态知识库定期重复的训练过程。

从上面所有的,这些时间一直在下一节中详细研究。这种分析使得不同提出备选方案之间的比较,确定最少的计算要求。

6。结果和讨论

作为一个实验之前的策略,63动物声音库提供的声音文件34]。具体地说,这些文件对应于两个无尾类的物种;的Epidalea calamita(黄条蟾蜍蟾蜍)和Alytes obstetricans产婆蟾(常见),共有605300帧,每一个10 ms。长度,总共6053秒。这些音频文件总时间1 h: 40′: 53′′,平均每个文件时间96秒(1′:36′′)和平均持续时间的53秒。这是一个大型数据集的总数观测已被分类为605300(大多数算法认为本文框架分类器)。培训的目的,这些帧的一小部分(13903),由生物学家、正确选择和标记作为声音模式(见详细总结表2)。


声音类	声音		模式
声音类	文件	秒	文件	秒	帧

Epidalea calamita (交配调用)	23	2576年	2	21	1439年 (10.35%)
Epidalea calamita (释放)	10	415年	1	29日	248年 (1.78%)
Alytes obstetricans	30.	3062年	2	89年	375年 (2.70%)
沉默/噪音	- - - - - -	- - - - - -	- - - - - -	- - - - - -	11841年 (85.17%)

总	63年	6053年	5	139年	13903年 (100%)

此外,所有的这些声音的一个共同特点是,他们记录在自然栖息地的重要地位的噪音(风、水、雨、交通、声音等),在分类过程中带来了额外的挑战。

虽然整个过程设计是最终实现了在分布式节点,本研究在实验室实现原型,配备英特尔®™核心i7 - 4770在3.4 GHz处理器,8 GB的RAM。所有的算法在MATLAB®编码的实现并不显式地利用在不同的内核代码的并行性。然而,利用MATLAB默认内置多线程计算。

下一小节将展示并讨论处理时间与这些声音的分类结果。

6.1。帧特征提取时间

节中提到的4所示。1,单帧的获取MPEG-7特性需要申请三个基本技术;光谱图、LPC的调和性分析。后来,为每个功能具体推导也是必要的。表3总结所有这些时间可以看出,例如,获得权力重心()需要计算谱图(主要流程)和执行一个额外的特定质量重心计算(或次级过程)。显然,获得其他特性基于相同的主要过程,只需要添加次级过程的时间。这个事实可以条件特征选择、特征类型(主要过程依赖)的数量比他们更重要。


参数类型	要求	功能	处理时间
参数类型	要求	功能	二次 (µs)	总 (µs)

MPEG-7 (17)	41.33光谱图,主要处理时间µ年代		2.48	43.80
			20.23	61.55
			9.42	50.75
			14.01	55.33
			52.22	93.55
	LPC分析,主要处理时间1777 .92点µ年代		0.00	1777 .92点
			0.00	1777 .92点
			0.00	1777 .92点
			5.86	1783 .78点
			8.75	1786 .67
			1.87	1779 .79
			2.78	1780 .70
	调和性,主要处理时间1262 .02点µ年代		0.00 0.00	1262 .02点 1262 .02点

MFCC (13)			44.29	44.29

另一方面,MFCC特征使用一个过程,计算(见表3)。

总之,整个MPEG-7特性集的提取时间是3.2毫秒(约。帧时间的1/3)。MFCC特征集需要45µ年代,时间明显低于前一个(比帧的持续时间和更低的)。MFCCs计算同时,他们使用一种算法基于谱图分析(因此,它的时间是类似于MPEG-7声谱图流程)。

在这个意义上,减少MPEG-7功能维度(减少特征提取的数量)将提高帧特征提取的这个时候。然而,正如上面所讨论的,这一次强烈的条件参数类型(或其主要流程需求),获得显著减少,当其中任何一个不是必需的。相反,减少MFCC特征维数不涉及任何减少这一次,因为所有的同时得到。

6.2。帧特性施工时间

下面一节中所述的技术4所示。2,附加功能的建设扩展了每一帧所对应的信息。从这个意义上讲,表4显示了每个特性,施工技术(第一列),所花费的时间(第4列)和准确性得到(5列)当使用这些构造特性与分类器被认为是最好的部分4所示。3(6列)。可以看到,所有的时间,除了ARIMA方法,显示非常小的值(低于1%的总帧持续时间)。


功能若干。	功能类型	的数量特性	处理时间(µs)	精度	最好的一堂课。

RegDis	MFCC	13	85.74	92.59%	贝叶斯
RegDis	MPEG-7	18	99.60	91.53%	DecTr
	MFCC	13	0.388	94.71%	贝叶斯
	MFCC	13	0.652	94.71%	贝叶斯
西南 (5帧)	MFCC	13	10.62	94.71%	贝叶斯
西南 (5帧)	MPEG-7	18	14.72	91.53%	DecTr
嗯	MPEG-7	18	84.39	84.13%	- - - - - -
华宇电脑 (3,0,0)	MPEG-7	18	25613 .0	70.37%	贝叶斯

然而,这些参数的计算时间明显依赖参数的数量。图4显示了SW施工时间和数量之间的关系的特性(不同的窗口大小)。

在这个图中,很容易注意到建设时间显示是一个近似的线性行为。此外,这一次也有直系依赖窗口大小(它可以清楚地看到,如图5)。类似的行为得到MFCCs。

在嗯技术中,对于每一个序列,将原始参数的功能建设由向量()成一个标量观测()通过量化过程。从这个意义上说,嗯处理时间也显著依赖于特征的数量。图6显示了MPEG-7参数的情况下,这种依赖性。此图中可以看到,嗯建设时间被定义为一个分段函数,近似的线性部分之间的步骤。

此外,ARIMA分析包括转换原始参数矩阵( )成一个向量的系数矩阵( ),其时间序列建模。这种技术特征音频序列(或一组帧)。因此,一个适当的与其他技术相比,ARIMA序列特性构建乘以已归一化到对应的帧(除以帧序列)的数量。

和其他技术一样,这一次也显著依赖于特征的数量。图7描述了这个时间依赖使用MPEG-7特性时,显示一个指数增加当特性描述每一帧的数量()也会增加。

6.3。帧(或序列)分类

一旦特征提取和施工过程进行了分析,下一步必须基于这些特性分析的分类过程。

在第一阶段,只有提取(或不连续的)功能将被认为是用于分类((4)或左分支方法图1)。作为一个例子,图8显示了时间的决策树(提出的)之间的最佳分类器分类不同的声音持续时间(或不同的帧数),使用完整的MPEG-7特性集。这种分类时间遵循一个明确的线性行为(红线),这一趋势是类似于行为获得了提出的每一个分类器。因此,可以认为声音分类时间大约是成正比的框架,或者,换句话说,每帧分类时间大约是常数的不同提出了分类器。

从这个意义上讲,表5显示了这一次的总结分析。此外,它还显示了分类时间相对于标准的帧长度(10 ms),相对分类速度(帧分类的数量在一个框架长度),和分类过程的准确性,当18 MPEG-7使用特性。更详细的解释的分类性能可以找到6]。


分类器	分类时间 (µs)	归一化时间 (%)	速度 (classif。每帧)	精度 (MPEG-7)

MinDis	15	0.15%	690年	58.73%
MaxLik	1175年	11.75%	9	86.24%
DecTr	7	0.07%	1389年	91.53%
然而,	207年	2.07%	48	82.01%
支持向量机	27	0.27%	372年	82.01%
LogReg	7	0.07%	1515年	76.72%
神经细胞	8	0.08%	1333年	75.66%
Discr	8	0.08%	1299年	77.78%
贝叶斯	7	0.07%	1449年	80.95%

显然,实时音频处理,这个相对时间必须小于100%(或者在相同的话说,相对速度必须大于1)。正如前面已经表明,所有的算法满足这些条件,然而两人明显慢:最大似然和最近的邻居。这些信息也在图9(使用对数刻度),这也表明时间上限(使用虚线红线)如果一个实时分析是必需的。

然而,分类时间每帧直接取决于使用的特征数量(或输入参数)。从这个意义上讲,数字10显示了这种依赖,其最大分类时间纵轴是规范化的每个技术(获得18特性)。

一般来说,它可以识别分类的时间与数量的上升趋势的特性对于大多数算法。图11显示了这种依赖线性回归直线。这反映了一种温和的20%的增长特征数量的增加从最小到最大的价值。

另一个需要解决的问题是类的数量的影响的处理时间。它没有影响这些过程的特征提取和功能建设倍之前(独立的)类的定义。然而,类的数量可能有对分类的影响。探讨这个话题的原始数据集已经被修改引入额外的类(无尾类的物种或声音)和标签每一帧与均匀分布随机类(沉默/噪音被认为是一个类)。必须强调,他们并不是真正的类和他们唯一的目的是为测试类的数量和分布的影响,在处理时间。图12显示了每个算法的结果及其线性回归(图中虚线红线)。对于大多数的分类器,是一个温和增加当类的数量增加。

计划提出后,下一步考虑声音序列信息使用frame-trend特性(图的分支(4 b)1)。这种分类提取和构造特性相结合,使用上面描述的非连续性分类器作为输入。具体地说,使用区域分散趋势提取帧,参数,或滑动窗口。然而,如上所述,这些施工技术可以显著增加功能的总数。在这个意义上,滑动窗口是最严格的(坏的)情况下,使用一个窗口框架,决定使用分类器的特征。

图13显示了规范化分类时间(10 ms的帧长度)相应分析算法,当MPEG-7特性的全套(18)和SW窗口大小为10。

在前面的分析,研究分类器满足时间约束在实时模式,然而最大的可能性和神经网络结果接近可行性限制。

显然,这一次还取决于数量的特性,直接取决于施工方法的配置(即。西南,窗口大小)。图14显示了分类时间的函数参数的数量特性施工方法时使用。在这个图中,西南10帧已经使用的窗口大小和时间值(垂直轴)标准化的最大功能维度( )。

在这个意义上,很容易注意到存在一个全球增加行为分类时间取决于数量的功能。这一趋势显然是如图15全局数据的线性回归(所有分类器)表示。因此,可以观察到全球18个特性之间的区别(窗口大小为1,不添加任何trend-frame信息)和180年的特性(窗口大小的最大研究维度)显示了显著增加了大约50%。

完成分类的研究,需要解决的最后一个主题是段(或序列帧)分类((4 c)或右分支图1)。具体地说,在这种方法中,两种技术评估:摘要和ARIMA模型。

图16显示了HMM分类时间作为声音持续时间的函数,当最小或使用MPEG-7特性的最大数量。在这个图中,很容易确定一个清晰的线性趋势分类时间随声音持续时间。因此,可以得出结论,统一的分类时间大约是常数,和它增加的数量特征。具体来说,表6显示了HMM分类时间和分类速度为18 MPEG-7特性集。统一的分类时间小于100%,可以声称,该算法适合实时处理。图17反映了这种分类时间的依赖性特征的数量。


分类器	分类时间	分类速度	精度 (MPEG-7)

嗯	12.56 ms / s (1.26%)	80年	84.13%

相反,ARIMA方法(如上面所述)使用相同的分类器与申请框架分类,现在通常增加特性集的大小。因此,分类的时间是一样的,上面已经分析,反映在图上14。最好的结果对应于贝叶斯分类器的精度70.37%。

最后,最后一步是完整的声音文件的分类(过程图(5)1)。但这只是一个简单的分类计数的框架或部分类,声音文件的位置贴上属于最常见的框架类。因此,其处理时间(约。10 ns)与之前分析的分类过程相比可以忽略不计,所以它在这种分析将被忽略。

6.4。分类器生成时间

在研究三个阶段提出的时间要求音频片段分类,接下来的研究将每个分类器获得所需的时间。显然,这一次比以前学习更重要,因为这个阶段不是实时分类过程中适当的关注。然而,这项研究将感兴趣的情况下,知识库是动态的,它有一个周期性或迭代训练方法。此外,的确,提出的技术(基于监督分类方法)可能产生重大偏差在培训期间(根据训练数据;模式的数量;或其内容)。然而,它的结果可以作为一个起点,获得一些知识比较分类器生成时间。

本文的结构后,首先分析重点是不连续的分类分析(只有一个帧被认为是)。图18显示(在对数刻度)所需的时间获得每一个分类器,使用作为输入模式的集合13903帧的全套MPEG-7特性(18)。虽然有些倍高度重视对某些算法(几十秒),这一事实并不意味着这是一个巨大的挑战,因为正如已经提到的,分类器是离线生成的,他们只需要获得一次。

乍一看,这一代时期就取决于特征的数量。但更深入洞察分类过程表明,他们甚至还依赖于模式的数量和它们的值。因此,为了比较减少的数量特征如何影响在这些时间,几个培训具有不同特性集(混合的)执行模式。图19收集这些信息,平均获得的数据不同的训练数据集。重要的是要注意,纵轴是对数比例,和它的值是规范化的分类器生成的时候全部MPEG-7特性集(参见图18)。

此外,类的数量分布和比例可以有一定影响所需的时间训练一个分类器。探讨这个问题,就像前面所提到的,原始的数据集已经被修改引入额外的类(无尾类的物种或声音)随机分布和比例。图20.显示的结果显示,对于大多数的算法,一个非常有限的影响力(逻辑回归分类器作为唯一显著的例外)。

现在,让我们关注分析的情况下,添加帧序列信息,也就是说,当某些特性构造使用区域分散,参数,或滑动窗口技术。如上所述,这些施工技术可以显著提高功能的总数。在这个意义上,滑动窗口是最严格的(坏的)情况下,使用一个窗口框架,决定使用分类器的特征。图21总结了分类器生成时间充分利用MPEG-7特性集和一个窗口大小为10(达到180特性)。

至于不连续的分类器,数字22展示了一代倍数量的函数的功能使用。分析了这种关系与大量的模式组合(混合的),然后平均性能数据从不同的训练过程。重要的是要注意,垂直轴也是对数比例,和它的值是规范化的分类器生成的时候全部MPEG-7特性集被认为是(180)。因此,很容易注意到分类器生成时间增加的数量特性对于大多数算法,其中的一些生长非常强烈的(一个或两个数量级)。

最后一个问题的分析将是一代时间顺序分类器,也就是说,嗯,ARIMA模型。在第一种方法(嗯),图23显示所需的时间来获得基于训练的分类器模式(平均结果之间的不同组合或训练集)。从这个意义上说,它是容易注意,以上三个特点,世代时间超过了音频片段时间(139秒。,见表2)。

另一方面,利用ARIMA模型使用相同的音频分类分类器之前,虽然增加了功能维度。从这个意义上说,这些分类器将显示的代次相同的结果与分析(图之上22)。

7所示。结论

在这篇文章中,一个动物的声音也提出了分类方案。这个方案提出不同的方案来实现这一目标,总是考虑电源组成这些平台的局限性。在这个意义上,本文完成了详细的比较时间研究中的每个算法方案。有可能找到一个权衡的分类结果精度和所需的处理时间。

从这个分析,可以突出显示的几个结论。例如,MPEG-7特征提取需要一个重要的相对计算负载(约30%的音频片段时间)。相反,这对MFCC提取时间负荷降至0.5%,大大减少了计算负载。此外,它很容易注意到大多数功能建筑技术(添加帧趋势或顺序信息)要求较低的处理成本,包括大约1%的帧之间的时间区域分散或嗯和滑动窗口的0.1%。相反,ARIMA模型显著超过这个极限,分类时间成倍增长的特性。第一分类阶段,它也很容易注意到分类时间非常依赖于分类器的类型和参数的数量(如不同的比较中可以看到)。然而,这些需求通常还低(0.1%和1%之间的帧持续时间)。只有在两个(最大似然和邻居),这时间达到40%,这可能危及实时分类中的应用。最后,尽管分类器生成时间不影响它的实时功能,它可能是有用的在动态系统中知识库,其中一些(即增加。、逻辑回归、支持向量机或嗯)几个数量级尊重他人和较低的计算成本(最小距离神经网络)。

从实现方法,第一个结果表明,拟议的无尾类的歌曲分类原型能够实时操作,把所有选择不到音频持续时间。因此,一些问题时必须考虑该算法部署在一个节点(通常是用更少的资源)。从这个意义上说,这些潜在的节点限制可以很容易地补偿与数字信号处理(DSP)资源,常用在现代为此平台(即。、手臂®皮层®m4过程),这将大大减少特征提取时间(最昂贵的阶段之一MPEG-7方法)。此外,减少采样率也可以偶尔可能如果它是必要的。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的Consejeria de Innovacion Ciencia y senior,军政府的安达卢西亚、西班牙、通过卓越项目eSAPIENS (Ref。tic - 5705)西班牙电话公司通过“Catedra de Telefonica Inteligencia en la红色。”作者要感谢拉斐尔•伊格纳西奥·马尔克斯Martinez de Orense(”博物馆Nacional de Ciencias一直”)和胡安弗朗西斯科Beltran联欢晚会(塞维利亚大学生物学院)为他们的合作和支持。

引用

门泽尔,t·h·火花:爱丝特雷娜et al .,”欧洲物候对气候变化的反应与变暖模式匹配,”全球变化生物学,12卷,不。10日,1969 - 1976年,2006页。视图:出版商的网站|谷歌学术搜索
r·马尔克斯和j .博世”广告的产婆蟾Alytes(两栖纲无尾目动物,盘舌科)在西班牙,大陆”动物分类和进化研究》杂志上,33卷,不。3 - 4、185 - 192年,1995页。视图:出版商的网站|谷歌学术搜索
d . Llusia r·马尔克斯j . f .——m·贝尼特斯和j·p·阿马拉尔,“调用行为下气候变化:地理和季节变化要求温度的变温动物,”全球变化生物学,19卷,不。9日,第2674 - 2655页,2013年。视图:出版商的网站|谷歌学术搜索
i . f . Akyildiz、t·笛管音栓和k·r·Chowdury”无线多媒体传感器网络:一项调查,”IEEE无线通信,14卷,不。6,32-39,2007页。视图:出版商的网站|谷歌学术搜索
j .卢克·d·f·拉里奥,e .个人j . Barbancho和c . Leon”评价MPEG-7-based动物语音识别音频描述符在无线传感器网络,”传感器(瑞士),16卷,不。5日,第717条,2016年。视图:出版商的网站|谷歌学术搜索
a·j·罗梅罗,卢克,a·卡拉斯科“无尾类的声音分类使用MPEG-7帧描述符,”学报17 Conferencia de la Asociacion帕诺拉la Inteligencia人工(CAEPIA)2016年,西班牙萨拉曼卡。视图:谷歌学术搜索
a·j·罗梅罗,卢克,a·卡拉斯科“动物声音使用顺序分类器分类,”学报第十届国际会议上仿生系统和信号处理葡萄牙波尔图,页242 - 247,,2017。视图:出版商的网站|谷歌学术搜索
ISO15938-4:2001“MPEG-7:多媒体内容描述接口,第4部分:音频、”2001。视图:谷歌学术搜索
张f, g, z的歌,“比较MFCC的不同实现,”计算机科学与技术杂志》上,16卷,不。6,582 - 589年,2001页。视图:出版商的网站|谷歌学术搜索
IEEE标准低速率的无线网络,”IEEE Std 802.15.4-2015 IEEE Std 802.15.4-2011(修订),”2016年,页1 - 709。视图:谷歌学术搜索
无线个域网规格、无线个域网联盟,无线个域网文档053474 r06, 2006。
j . w .回族和d·e·卡勒”扩展IP以低功耗、无线个人区域网”IEEE网络计算,12卷,不。4,37-45,2008页。视图:出版商的网站|谷歌学术搜索
美国年轻,g . Evermann m .大风等。HTK书,3卷,剑桥大学工程系,剑桥,英国,2002年。
ETSI Std 202 050,“1.3语音处理、传输和质量方面(STQ);分布式语音识别;高级前端特征提取算法;压缩算法,2002。视图:谷歌学术搜索
m . Schaidnagel t·康诺利,f . Laux”自动分类功能建设的有序的数据序列,”国际期刊的发展软件,7卷,不。3、632 - 641年,2014页。视图:谷歌学术搜索
沙玛,a舒克拉,p . Mishra”语音和语言识别使用MFCC和DELTA-MFCC。”国际工程的趋势和技术杂志》上,12卷,不。9日,第452 - 449页,2014年。视图:出版商的网站|谷歌学术搜索
c . c . Aggarwal数据流:模型和算法施普林格科学与商业媒体,卷。31日,纽约,纽约,美国,2007年。
g . e .盒子,g·m·詹金斯g . Reinsel通用Ljung,时间序列分析:预测与控制在概率论与数理统计,威利系列,约翰·威利& Sons霍博肯,新泽西,美国第五版,2015年版。视图:MathSciNet
h . Akaike,”一个新的看统计模型识别,”IEEE自动控制,19卷,不。6,716 - 723年,1974页。视图:出版商的网站|谷歌学术搜索
c .何伟亚”的最大似然估计ARMA (p, q)模型,”世界银行,DECRG, 2008年。视图:谷歌学术搜索
l·r·拉宾”教程隐马尔科夫模型和选择在语音识别中的应用,”IEEE学报》,卷77,不。2、257 - 286年,1989页。视图:出版商的网站|谷歌学术搜索
a . Buzo y林德,r·m·格雷”算法的矢量量化器设计”IEEE通信系统,28卷,不。1,第95 - 84页,1980。视图:出版商的网站|谷歌学术搜索
l·e·鲍姆和j . a . Eagon”一个不等式应用概率统计估计函数的马尔可夫过程和生态模型,”《美国数学学会卷,73年,第363 - 360页,1967年。视图:出版商的网站|谷歌学术搜索|MathSciNet
a·g·瓦克和d . a . Landgrebe最小距离分类方法”的实验室应用远程Sensin(普渡大学),1971年。视图:谷歌学术搜索
l . l .凸轮最大似然:介绍,“在统计学第一节国际统计审查/ Revue国际歌,卷。58岁的没有。2、153 - 171年,1990页。视图:出版商的网站|谷歌学术搜索
l . Rokach和欧迈”,用决策树数据挖掘:理论和应用,“世界科学,2014。视图:谷歌学术搜索
t . m .封面和p·e·哈特“最近邻模式分类,”IEEE信息理论,13卷,不。1,-,1967页。视图:出版商的网站|谷歌学术搜索
n Christianini和j . Shawe-Taylor介绍支持向量机和其他基于学习的方法英国剑桥,剑桥大学出版社,2000年。
a·j·多布森和a·g·巴内特介绍了广义线性模型统计科学系列、文本中,CRC出版社,波卡拉顿,佛罗里达州,美国第3版,2008年版。视图:MathSciNet
K.-L。杜和m . n .美国偶像神经网络和统计学习,施普林格自然,纽约,纽约,美国,2014年。视图:出版商的网站|MathSciNet
w .下型锤和l .女便袍应用多元统计分析施普林格科学,美国商业媒体,纽约,纽约,2012年。
t . Hastie r . Tibshirani和j·弗里德曼,统计学习的元素施普林格,纽约,纽约,美国,2009年。视图:MathSciNet
p . esl和c .竞赛”,时间序列数据挖掘”,ACM计算调查(CSUR),45卷,不。1,第十二条,2012。视图:谷歌学术搜索
Fonozoo.com,http://www.fonozoo.com/。

无线通信和移动计算

无线声传感器网络和应用程序

文摘