计算智能和神经科学

在这一页上

文摘介绍结果结论确认引用版权相关文章

研究文章|开放获取

体积2017年| 文章的ID4694860| https://doi.org/10.1155/2017/4694860

深度递归神经网络Autoencoders声新奇检测

埃里克·马奇 ,^1、2、3 法比奥Vesperini,⁴ 斯特凡诺Squartini ,⁴ 和Bjorn舒乐问^2、3、5

学术编辑器: Stefan Haufe说道

收到了 2016年7月12日

接受 2016年9月25日

发表 2017年1月15日

文摘

在声学新奇检测的新兴领域,大部分研究工作致力于概率混合模型或状态方程模型等方法。只有最近的研究介绍了声学(伪)生成模型形式的新奇与复发性神经网络检测autoencoder。在这些方法中,听觉的光谱特性下预计短期内帧与前一帧的多空词记忆去噪autoencoders复发。输入和输出之间的重建误差autoencoder用作激活信号的检测小说事件。没有证据的研究主要集中在比较之前的努力从音频信号自动识别小说事件,给一个广泛和深入评估神经网络autoencoders复发。目前贡献目标一致地评估我们的最近的新方法来填补这个白色现货在文学和提供广泛的评估进行三个数据库:A3Novelty,帕斯卡一致,普罗米修斯。除了提供一个广泛的分析小说和最先进的方法,这篇文章显示了RNN-based autoencoders优于统计方法绝对平均提高16.4%测量三个数据库。

1。介绍

新奇检测旨在识别的情况不寻常的事件发生。新奇的挑战任务检测通常被视为单类分类任务。“正常”数据通常包含一组非常大,允许一个精确的模型。声学事件不包含在数据被视为“正常”小说事件。小说模式测试通过比较它们与正常类模型导致一个新奇的分数。然后,比分是处理决定logic-typically阈值决定是否测试样本是小说或正常。

提出了大量的方法由于实用新奇检测的重要性,特别是对于医学诊断(1- - - - - -3],损伤检查[4,5),生理状态监测(6)、电子IT安全(7),和视频监控系统(8]。

根据(9,10),新奇的宏观检测技术可以分为两类:(i)统计和(2)神经网络方法。广泛的研究了类别的统计和概率的方法,显然是最广泛使用的领域的新奇检测。这一类的方法建模数据根据其统计特性,利用这一信息来确定在一个未知的测试样本属于学分布。统计方法已被应用于许多应用程序(9)从数据流挖掘(11),异常值探测水下目标(12,癌症的识别1],无损检验分析机械部件(13],和音频分割[14),其他许多人。1999年,介绍了支持向量机(svm)领域的新奇检测(15),随后应用于时间序列(16,17),喷气发动机振动分析(18),在喷气发动机故障检测19),患者生命体征监控(20.[],功能磁共振成像分析21),和变速箱齿轮的损伤检测22]。

神经网络approaches-also名叫reconstruction-based [23近年来随着)——获得利益明显的神经网络在其他领域的成功。在过去的十年里,一些作品集中在神经网络的应用程序的形式autoencoder (AE)已经提出了10),考虑到巨大的影响和神经网络的有效性。autoencoder-based方法涉及建立一个回归模型使用“正常”的数据。处理测试数据通过分析之间的重建误差回归目标和编码的值。当重建错误显示了高分,测试数据被认为是小说。这样的应用程序的示例包括检测异常的CPU使用数据(24,25)等检测离群值(26- - - - - -29日)损伤分类在不断变化的环境条件下(30.]。

在这些场景中,很少研究已经进行了声学领域的新奇检测。最近,我们观察到越来越多的研究兴趣涉及监督和国土安全的应用程序域公共场所或监督私人环境中人们可能独自生活。由安全需求的日益增长,公共场所,例如但不限于商店、银行、地铁、火车、和机场已经配备了各种传感器像摄像头或麦克风。因此,无监督监测系统获得了广泛的关注,研究社区调查新的和有效的信号处理方法。研究领域的监测系统对检测异常事件的主要小说依靠视频信息(8]。然而,必须指出的是,几个优点可以依靠声学信息。事实上,声信号与视频信息需求低计算成本和不变的照明条件,可能阻塞和突然的事件(例如,一把猎枪和爆炸)。特别是声学领域的新奇检测,研究只关注统计方法运用隐马尔可夫模型(HMM)和高斯混合模型(GMM)声学监测异常的情况31日- - - - - -33)和自动空间监测(34]。尽管许多研究探索统计和概率的方法,使用神经网络方法声新奇检测只有最近介绍了(35,36]。

贡献。仅在过去的两年里使用神经网络进行声学新奇检测获得了研究团体的兴趣。事实上,最近的一些研究提出了一个(伪)生成模型的形式去噪autoencoder与递归神经网络(RNNs)。特别是,多空词的使用内存(LSTM) RNNs生成模型(37)是研究领域的文本生成(38],笔迹[38),和音乐39]。然而,使用LSTM作为音频生成的模型只是介绍我们的近期作品35,36]。

本文提供了一个广泛的和广泛的最先进的评价方法,重点关注小说和最近的无监督方法基于RNN-based autoencoders。我们大大扩展的研究35,36]进一步通过评估方法(如看到下面成了svm (OCSVMs)和多层感知器(MLP),最重要的是我们做了广泛而深入的评价三种不同数据集的总数160 153实验,使本文首次提出这样一个完整的评估声学领域的新奇检测。

我们评估和比较这些方法与三个不同的数据库:A3Novelty,帕斯卡一致,普罗米修斯。我们提供的证据表明,RNN-based autoencoders显著优于其他方法优于统计方法绝对平均提高16.4%测量三个数据库。

本贡献的其余部分的结构如下:首先,一个基本的描述统计方法给出了不同部分2。然后,前馈和LSTM RNNs一起autoencoder-based声新奇检测方案(部分描述3和4)。下一个阈值策略和功能用于实验给出了部分5。介绍了使用数据库部分6节中讨论和试验装置7在讨论结果的评价部分8。部分9最后提出了我们的结论。

2。统计方法

在本节中,我们介绍统计方法如GMM,嗯,OCSVM。我们正式定义的输入向量,在那里声学特性的数量(cf。部分5)。

2.1。高斯混合模型

gmm估计概率密度的“正常”类,给定的训练数据,使用高斯组件的数量。训练阶段的GMM利用了则算法或其他适合训练算法和Expectation-Maximisation (EM)算法(40]。前初始化参数EM算法的迭代导致最终的模型。给定一个预定义的阈值(在定义部分5),如果概率产生的GMM用测试样本低于阈值,样品检测作为小说的事件。

2.2。隐马尔可夫模型

进一步的统计模型是嗯(41]。摘要不同于gmm的输入时间进化。事实上,虽然一个对角线GMM往往近似整个训练数据概率分布的高斯组件数量HMM模型输入信号的变化通过其隐藏的状态。嗯拓扑从事这项工作左右并通过培训Baum-Welch算法(41]虽然对于新奇检测阶段,这个决定是基于序列范例。考虑左右嗯隐藏状态,序列是一组特征向量:。这些可观测事件的发射概率取决于一个概率分布,一个用于每个州(9]。我们训练了一个嗯我们称之为“正常”物质,利用对数似新奇的分数。在测试阶段,看不见的信号分割成固定长度的数量取决于国家的嗯,如果对数似是高于定义阈值(cf。部分5),检测到的小说。

2.3。看到下面成了一个支持向量机

OCSVM [42]地图输入到一个高维特征空间和迭代搜索的超平面之间的距离最大化的训练例子从原点。在这个星座,OCSVM可以被视为两种支持向量机的起源是第二课堂的独特的成员,而训练例子属于第一类。给定的训练数据,在那里是观测的数量,类分离是由解决如下: 在哪里支持向量,是松弛变量,是抵消,地图内积空间这样的形象的点积可以通过评估一个特定的计算核函数如一个线性或高斯径向基函数: 的参数设置一个上限的分数离群值定义为外的数据估计正常的地区。因此,决定值获得使用以下功能: 我们训练OCSVM我们称之为“正常”物质和决定的值用作新奇的分数。在测试期间,OCSVM价值对于看不见的模式提供了一个决定,如果决定价值高于定义阈值(cf。部分5),检测到的小说。

3所示。前馈和递归神经网络

本节介绍了延时和LSTM RNNs受雇于我们声新奇探测器。

第一个我们使用神经网络类型是一个多层感知器(43]。在延时单位被安排在层,与前馈连接从一层到另一个。每个节点输出一个激活函数应用在其输入的加权和。激活函数可以是线性的,双曲函数()或乙状结肠函数。输入例子是美联储向输入层和输出结果是传播通过隐层到输出层。这个过程被称为网络的传球前进。这种类型的神经网络只依赖于当前的输入,而不是过去或未来的输入。

我们使用第二个神经网络类型是LSTM RNN [44]。与传统的RNN相比,隐藏的单位是被所谓的内存块。这些内存块可以将信息存储在“细胞变量”。通过这种方式,网络可以利用远程时间上下文。每个内存块包含一个存储单元和三个盖茨:输入,输出,和忘记门,如图1。

记忆细胞控制的输入,输出,和忘记盖茨。

存储单元变量忘记可以重置的大门,而函数负责阅读输入的和写作输出分别由输入和输出控制盖茨: 在哪里和分别代表element-wise双曲正切和element-wise乘法。输入盖茨用的输出变量盖茨,而输出的输出和忘记的表示和,分别。的变量表示权重矩阵,表明偏差项。

每个LSTM单元是一个单独和独立的块。事实上,的大小是一样的,,,。对应的数量大小LSTM单位在隐藏层。为了盖茨依赖独特的存储单元在同一个LSTM单位,权重的矩阵从细胞到盖茨是斜的。

此外,我们采用双向RNN (BRNN) [45),学习环境在时间方向的能力。事实上,BRNN包含两个不同的隐藏层,处理输入向量在每个方向。然后连接到输出层两个隐藏层。可以获得一个更复杂的架构结合BRNN LSTM单元,这称为双向LSTM (BLSTM) [46]。BLSTM利用上下文从时间的方向。注意,在BLSTM的情况下,不可能执行在线处理作为一个短的缓冲向前看是必需的。

当神经网络的布局包括更多的隐藏层,它被定义为深层神经网络(款)47]。的增量更高层次表示输入数据提供当多个隐藏层堆叠在彼此(深度学习)。

在多层的情况下,输出的BRNN计算的向前和向后激活吗th(去年)隐层用和,分别。生成重构信号通过身份激活函数在输出。获得了最好的网络布局进行初步评估。几个配置进行评估通过改变大小和隐藏层的数量(即。,LSTM单位每一层的数量)。

训练过程是迭代的最大100时代。标准的梯度下降法和平方误差的反向传播是用于递归更新网络权重。这是初始化与一个随机的高斯分布的意思是0和标准偏差0.1,因为它通常在我们的经验提供了一个可接受的初始化。

4所示。Autoencoders声新奇检测

本节介绍autoencoders的概念,描述了基本autoencoder autoencoder压缩,去噪autoencoder,非线性预测autoencoder [36]。

4.1。基本Autoencoder

一个基本autoencoder是一组神经网络训练目标值等于输入。其结构通常只由一个隐层的,而输入和输出层有相同的大小。训练集包括背景环境声音,而测试集由记录包含异常的声音。它是用来找到共同从输入(数据表示48,49]。形式上,以回应一个输入的例子,隐藏的表示是在哪里是一个非线性激活函数,通常物流乙状结肠函数应用离散,是一个权重矩阵,然后呢是一个偏差向量。

网络输出地图隐藏的表示回到重建: 在哪里是一个矩阵和重量是一个偏差向量。

给定一个输入组的例子、AE培训在于寻找参数重建误差最小化,这对应于最小化目标函数如下: 一个众所周知的方法最小化目标函数是随机梯度下降法和误差反向传播。AE的布局图所示2(一)。

4.2。压缩Autoencoder

压缩autoencoder (CAE)学习的压缩表示输入当隐藏的数量单位小于输入单位的数量。例如,如果输入的一些特性相关,这些相关性是学习和CAE的重建。的结构CAE在图给出2(b)。

4.3。去噪Autoencoder

在去噪AE (DAE) [50)配置网络训练来重建原始输入从一个损坏的版本。最初的输入损坏的添加剂各向同性高斯噪声为了获得吗。损坏的输入然后映射与AE,一个隐藏的表示吗迫使隐层检索更健壮的特性和防止简单地学习身份。因此,重建原始信号如下: 去噪autoencoder的结构如图2(c),在训练阶段,网络权重和偏见的集合为了更新尽可能接近未堕落的输入。这个过程对应于重建误差最小化目标函数(8)。在我们的方法中,腐败的初始输入我们利用添加剂各向同性高斯噪声,为了获得。

4.4。非线性预测Autoencoder

非线性预测的基本思想(NP) AE是训练AE为了预测当前帧从先前的观察。正式,输入到一个给定的时间框架映射到一个隐藏的表示吗: 在哪里和分别表示重量和偏见。从这,我们重建原始信号的近似如下: 在哪里预测延迟和吗。一个预测延迟对应于一个转变10 ms的音频信号在我们的设置(cf。部分5)。培训执行的参数通过最小化目标函数(8)——不同的是,现在是基于非线性预测根据(11)和(12)。因此,参数被训练在训练集平均重建误差最小化,尽可能预测延迟。由此产生的非线性预测的结构去噪autoencoder (NP-DAE)类似于一个描绘在图2(c),但输入和输出更新如上所述。

5。阈值和特性

本节描述阈值决策策略和使用的功能在我们的实验。

5.1。阈值

节(ASF)听觉谱特性5.2用于这项工作是由54个系数,这意味着网络的输入和输出层有54个单位。AE重建每个训练样本和新奇的事件被处理重建误差信号的自适应阈值。输入音频信号划分为30秒的序列长度。在测试阶段,我们而言在一个框架基础网络的输出之间的欧氏距离和平均每个标准化的输入特性值。为了压缩重建误差单个值,距离是总结和除以系数的数量。我们应用一个阈值获得一个二进制信号,从序列的误差信号的中值由一个乘法系数。系数范围从来:

图3显示了一个给定的序列重建误差。图清楚地描绘了一个低重建等繁殖正常输入错误说,电视的声音,和其他正常的环境听起来。

(一)

(b)

(c)

5.2。声学特性

音频信号的一种有效表示可以通过听觉谱特征提取(ASF) (51]。的音频信号分为帧大小等于30 ms和10 ms的框架步骤,然后ASF得到运用短时傅里叶变换(STFT)的收益率的功率谱图框架。梅尔·色(与指数和帧本指数计算频率转换的功率谱图Mel-frequency规模与26个三角形过滤器使用滤波器组。对数标度选择匹配响度的人类感知: 此外,积极的一阶差异从每个梅尔谱图计算后

此外,该框架还包括能源和它的导数特性最终在54总数系数。更好的再现性,特征提取过程计算与我们的开源工具包openSMILE音频分析(52]。

6。数据库

本节描述的三个数据库评估实验:A3Novelty,帕斯卡一致,普罗米修斯。

6.1。A3Novelty

A3Novelty语料库(http://www.a3lab.dii.univpm.it/research/a3novelty)包含56个小时左右的记录在实验室的意大利为delle马尔凯。这些录音进行了在不同的昼夜时间,非常不同的声学条件是可用的。各种各样的小说由议长被随机事件回放(例如,尖叫,秋天,报警,或破损的对象)在录音。

八个麦克风被用于收购的录音室:四个百灵达B-5麦克风心形图案和一个数组的四个爱科技C400提单麦克风间距为4厘米,然后莫土语8 pre声卡和NU-Tech软件利用麦克风记录信号。采样率等于48 kHz。

异常事件听起来(cf。表1)可以分为四类,他们都是免费下载的http://www.freesound.org/:(我)塞壬,三种不同类型的警报或警报声音。(2)瀑布,两个出现的一个人或一个物体坠落在地上。(3)破损的对象对象的,噪音产生的破损后与地面的影响。(iv)尖叫声,四种不同人类的尖叫声,都由一个人或一群人。

A3Novelty语料库由两种类型的录音:背景,它只包含背景声音如人类语言、技术工具噪声和环境声音和背景与新奇,其中包含除了背景产生的人为新奇事件。

在原始A3Novelty数据库序列的录音是分段30秒。为了限制训练数据的规模,我们随机选择300的序列背景分区组成培训材料(150分钟)和180年的序列背景与新奇分区组成的测试集(90分钟)。测试集包含13个新奇事件。

再现性、随机选择记录的列表和火车和测试集(http://www.a3lab.dii.univpm.it/research/a3novelty)。

6.2。帕斯卡一致

原始数据集是由家庭环境约7小时的录音,从帕斯卡语音分离和识别的挑战[一致53]。它由一个典型的家庭场景(客厅),记录在不同的日子和时间,而居民(两个成年人和两个小孩)执行常见的操作,如说话、看电视、玩耍,或吃东西。数据记录与双耳麦克风和16 kHz的采样率。在最初的帕斯卡一致数据库录音在5分钟的时间序列分段。为了限制训练数据的规模,我们随机选择序列构成训练集和周围的100分钟的背景为再现性测试集。70分钟,随机选择录音和火车的列表和测试集(http://a3lab.dii.univpm.it/webdav/audio/Novelty_Detection_Dataset.tar.gz)。测试集生成添加不同类型的声音(来自http://www.freesound.org/),比如尖叫声,警报,瀑布,和骨折(cf。表1),归一化后的体积背景录音。测试集的事件被添加在随机位置;因此一个事件之间的距离,另一个是不固定的。

6.3。普罗米修斯

普罗米修斯数据库(31日]包含各种场景的录音设计服务范围广泛的实际应用。数据库包括(1)一个smart-room室内家庭环境包括阶段用户交互与自动语音驱动家庭助理和(2)(a)组成的一个户外公共空间交互的人自动取款机,(b)户外安全场景,在该场景中,人们在柜台前,和(3)室内办公室走廊安全监控场景中标准的室内空间。这些场景大大不同的声学环境。室内场景记录下安静的声学条件,而室外录音进行露天公共区域和包含的非平稳背景噪声。智能场景包含五个专业演员表演五个单人的录音和14多人动作脚本。主要活动包括人机交互与虚拟家代理和交替正常和异常活动专门设计用于监测和解释人类行为。单人和多人操作包括异常事件,如瀑布,报警之后,恐慌,非典型元音的反应(痛苦、恐惧和愤怒),或骨折。例子是走到沙发上,坐着,或与智能交互环境中打开电视,打开窗户,或降低温度。场景记录三到五次,通过改变演员和角色的动作脚本。表1提供了每个场景的异常事件的数量细节,包括平均时间。

7所示。试验装置

网络训练的梯度最陡下降算法的平方误差的总和(SSE)。对于所有的LSTM和BLSTM网络,我们使用一个常数学习速率的价值因为它显示更好的表现在我们之前的工作35),而不同的值被用于MLP网络。不同的噪音σ值被应用于DAE。没有应用于高斯噪声基本AE和CAE以下描述的架构部分4。预测延迟申请不同的值:。AEs的递归神经网络训练使用开源CUDA工具包(CURRENNT) [54)确保再现性。我们使用作为评价指标测量以比较结果与先前的作品(35,36]。我们评估几种拓扑结构的非线性预测DAE从54-128-54到216-216-216,从54-128-54到54-54-54的CAE和基本AE,分别。每一个网络拓扑是每个100时代的培训评估。为了比较我们的结果与先前的研究我们保持相同的优化过程应用于(35,36]。我们使用三个最先进的方法基于OCSVM, GMM,嗯。OCSVM而言,我们在不同的复杂度值训练模型。径向基函数内核使用不同伽马值,我们控制了一部分的异常值在训练阶段具有不同的值。通过LIBSVM OCSVM被训练库(55]。在GMM的情况下,模型在不同数量的训练高斯组件与,而左右摘要与不同数量的训练状态和高斯组件。gmm和摘要被训练使用火炬(56工具包。决定值作为输出产生OCSVM和概率估计的概率模型的输出位有类似的阈值算法(cf。部分5)以相当不同的方法之间的性能比较。所有的实验和设置我们保持相同的特性集。

8。结果

在本节中,我们讨论和评论的结果评价三个数据库。

8.1。A3Novelty

评估A3Novelty语料库的报道在第二列的表2。在这个数据集gmm和摘要执行类似;然而,他们表现的OCSVM绝对最大提高了3.6%测量。autoencoder-based方法明显提高98.7%的性能。我们看到一个巨大的绝对改善6.9%概率的方法。三国CAE、AE DAE,我们观察到压缩和去噪的布局与BLSTM单位执行密切彼此BLSTM-CAE高达98.7%的情况。这可能是由于这一事实数据集包含更少的变化背景材料用于培训和内部操作的特征选择AE重建误差的敏感性增加。

表2

比较三个数据库的百分比的方法测量()。表示预测(D) elay和平均加权的#每个数据库实例。报道GMM方法,嗯,OCSVM、压缩autoencoder与中长期规划(MLP-CAE), BLSTM (BLSTM-CAE)和LSTM (LSTM-CAE)去噪autoencoder与中长期规划(MLP-DAE) BLSTM (BLSTM-DAE)和LSTM (LSTM-DAE)和相关版本的非线性预测autoencoders NP-MLP-CAE / AE / DAE和NP - (B) LSTM-CAE / AE / DAE。

非线性预测结果表的最后部分所示2。我们提供性能的三个命名配置和三个命名单元类型。在和谐中我们发现帕斯卡数据库,NP-BLSTM-DAE方法提供了最好的性能测量高达99.4%。显著地提高绝对(单侧z以及(57),(其余的手稿我们报道至少有“重大”的改进在单侧z以及(57)))的10.0%测量对GMM-based观察方法,而绝对提高7.6%测量是对OCSVM方法展出。我们观察一个整体改善1%的“普通”和“预测”架构。

获得的性能逐步提高预测延迟()值(从0到10)报道,在图4。我们评估了压缩autoencoder (CAE),基本autoencoder (AE),和去噪autoencoder中长期规划(DAE), LSTM, BLSTM单位,我们应用不同的布局(cf。部分7每个网络类型)。然而,为了简便起见,我们只显示最好的配置。最好的结果在所有三个单元类型分别是99.4%和99.1%分别测量NP-BLSTM-DAE和NP-LSTM-DAE网络。这些得到的预测延迟5帧,转化为一个整体50毫秒的延迟。一般来说,最好的表现是与实现或。增加预测延迟10帧产生沉重的性能下降到97.8%测量。

8.2。帕斯卡一致

在表的第一列2我们报告帕斯卡数据集上的性能获得了使用不同的方法。部分结果在这个数据库也在36]。在这里,我们进行了更多的试验来评估OCSVM和中长期规划方法。看到下面成了一个支持向量机显示较低的性能相比,概率方法如GMM和嗯,91.4%似乎工作的很好测量。OCSVM低性能可能是由于这一事实数据集生成人工和不正常声音动态规范化的“正常”物质使利润最大化更复杂和更少的有效。接下来,我们评估AE-based方法在三种配置:压缩(CAE),基本(AE),和去噪(DAE)。我们也评估MLP、LSTM BLSTM单元类型。三种配置中,我们观察到去噪的执行比其他人更好的独立于类型的单位。特别是,获得最佳的性能与去噪autoencoder意识到BLSTM RNN显示高达93.4%测量。最后三组表的行2显示的结果NP在三种配置方法和三种单元类型。

高达94.4%的NP-BLSTM-DAE取得最好的结果测量。重要的绝对改进4.0%、3.0%、和1%是观察到在GMM,嗯,分别和“普通”BLSTM-DAE方法。

有趣的是,应用非线性预测计划压缩autoencoders NP - (B) LSTM-CAE (92.8%测量)也增加了表演相比,(B) LSTM-CAE (91.3%测量)。事实上,在前一个工作35),压缩学习过程仅显示稀缺的结果。然而,这里的CAE非线性预测编码输入更有效的信息。

图5描述了增加价值的预测结果延迟(),从0到10。我们评估CAE、AE和DAE延时,LSTM, BLSTM神经网络与不同的布局(cf。部分7每个网络类型)。然而,由于空间限制,我们只报告最好的表演。在这里,最好的表演得到了预测延迟3帧(30 ms) NP-BLSTM-DAE网络(94.4%测量)和一个框架在NP-LSTM-DAE (94.2%测量)。作为A3Novelty数据库中,我们观察到一个类似的性能下降到86.2%测量时预测延迟增加10,它对应于100 ms。事实上,应用更高的预测延迟(例如,100 ms)诱发高的重建误差值的快速周期性事件,后来导致错误检测率增加。

8.3。普罗米修斯

本节阐述了四个子集上获得的结果出现在普罗米修斯数据库。

8.3.1。自动取款机

自动取款机的情况评估表的第三列所示2。GMM和嗯执行同样水平的机会。事实上,我们观察一个测量gmm和摘要的50.2%和52.0%,分别。看到下面成了一个支持向量机显示略好60.2%的性能。另一方面,AE-based方法的三个configurations-compression (CAE)、传统(AE),和去噪(DAE)显示显著改善性能绝对19.3%针对OCSVM测量。三种配置中我们观察到DAE执行更好的独立于网络的类型。特别是,最佳的性能考虑到普通(没有非线性预测)方法是获得与DAE LSTM网络导致的测量的79.5%。

最后三组表的行2显示的结果(NP)的非线性预测方法。非线性预测去噪autoencoder执行最好的81.6%测量。令人惊讶的是,获得最佳的性能使用延时单位长事件表明那些包含在ATM场景(平均持续时间为6.0 s, cf。表1)-memory-enhanced单位如(B) LSTM短事件的不那么有效。

一个重要的绝对提高21.4%测量对OCSVM观察方法,而绝对提高31.4%测量是对GMM-based方法展出。两种autoencoder-based方法中我们报告绝对提高1.0%,即“普通”和“预测”结构。它必须观察到的演出31日)高于本文中提供一个自宽容窗口用于研究设置为1 s,而在这里我们针对更高的时间分辨率的宽容窗口200 ms这也适用于对突然事件。

图6描述了性能先进的值预测延迟()从0到10,应用CAE, AE,中长期规划和DAE, LSTM, BLSTM网络。几个布局(cf。部分7)每个网络类型进行评估;然而,我们只报告最好的配置。设置一个预测延迟1帧,这对应于一个总预测延迟10 ms,导致高达81.6%的最佳性能测量在NP-MLP-DAE网络。在NP-BLSTM-DAE我们观察更好的性能与延迟2帧高达80.7%测量。一般来说,我们不观察一致的趋势,预测延迟增加,确凿的事实,长时间的事件,那些包含在ATM场景,memory-enhanced单位和非线性预测方法为短事件并不那么有效。

8.3.2。走廊

走廊上的评估子集第四列的表所示2。GMM和嗯执行同样水平的机会。我们观察一个测量GMM的49.4%和49.6%,嗯,分别。OCSVM显示出更好的性能上升到65.3%。观察在ATM的场景中,再次显著改善性能绝对16.5%测量使用autoencoder-based观察方法的三个配置(CAE、AE和DAE)对OCSVM。三种配置中,我们观察到去噪autoencoder执行比其他人更好。获得最佳性能与去噪autoencoder BLSTM单位多达79.8%测量。

“预测”方法是报道在过去三组表的行2。有趣的是,非线性预测autoencoders不会提高性能正如我们所看到的在另一个场景。可以找到一个合理的解释基于新奇的性质事件出现在子集。事实上,子集包含很长事件的平均持续时间14.0秒/事件。如此长的事件,生成模型不引入一个更敏感的重建误差。然而,三角洲的性能BLSTM-DAE和NP-BLSTM-DAE相当小(1.3%衡量)的“普通”的方法。获得最佳性能(79.8%)使用BLSTM单位确认memory-enhanced单位更有效的短期事件。事实上这个scenario-besides很长事件也包含下降和痛苦短事件平均持续时间为1.0和3.0年代,分别。

显著地提高绝对高达16.5%测量是对OCSVM观察的方法,而被更高的GMM,嗯。

8.3.3。户外

户外的评估子集的第五纵队表所示2。OCSVM, GMM,嗯有更好的表现在这个场景中与ATM和走廊。我们观察一个测量的57.3%、56.4%、56.0%,OCSVM, GMM,嗯,分别。在这个场景中,带来的改善autoencoder大不如之前的子集,但仍然显著。我们报告一个绝对改善11.2%测量OCSVM和BLSTM-DAE之间。再一次,去噪autoencoder执行比其他配置。特别是,获得最佳的性能与BLSTM-DAE是68.5%测量。

在走廊里观察到的场景,非线性预测autoencoders表的行(最后三组2)不提高性能。这些结果证实了我们之前解释的长期性质新奇事件中影响灵敏度的重建误差子集生成模型。然而,三角洲BLSTM-DAE之间的性能和NP-BLSTM-DAE相当小(1.3%测量)。

必须指出,在这种情况下的性能相当低而另一获得数据集。我们相信,愤怒的存在小说声音引入了更高程度的复杂性在我们autoencoder-based方法。事实上,愤怒小说事件可能包含不同程度引起的内容可以是听觉上类似于中性的内容出现在口语培训材料。在这种情况下,生成模型显示较低的重建误差。这个问题可以得到解决,通过设置引起的小说事件只包含部分或考虑愤怒作为一个长期演讲者state-increasing我们系统的时间分辨率。

8.3.4。Smart-Room

smart-room场景评估表的第六列所示2。OCSVM, GMM,嗯有更好的表现在这个场景中而不是ATM,走廊,和户外。我们观察一个测量的57.4%、59.1%、59.1%,OCSVM, GMM,嗯,分别。在这个场景中,改善带来的autoencoder仍然是重要的。我们报告一个绝对改善6.0%GMM /嗯和BLSTM-DAE之间测量。再一次,去噪autoencoder执行比其他配置。特别是,最佳的性能与普通方法是获得BLSTM-DAE高达65.1%测量。

最后三组表的行2显示的结果(NP)的非线性预测方法。NP-BLSTM-DAE执行最好的高达65.6%测量。

在户外子集,我们报告一个低性能的smart-room子集。事实上,子集包含几个长的小说事件相关的口语内容表达痛苦和恐惧。评论的户外场景,在这种条件下生成模型能够重建小说事件没有生产高重建误差。

8.4。整体

总的来说,实验结果证明了DAE方法实现优越的性能与CAE / AE方案。这是由于两个学习过程的组合去噪autoencoder,如输入的编码过程中保存的信息输入,同时扭转腐败的影响过程应用于autoencoder的输入。

特别是,(B)的预测方法LSTM单位显示最佳性能高达89.3%的平均水平测量在所有六个不同的数据集的加权每个数据库实例的数量(cf表2)。

为了更好地理解RNN-based方法带来的改进,我们提供在图7比较先进的方法的加权平均测量计算A3Novelty语料库,帕斯卡一致,普罗米修斯。在一般情况下,我们观察到最近提议NP-BLSTM-DAE方法提供最佳性能的平均水平测量高达89.3%。一个重要的绝对平均提高16.0%测量是对OCSVM观察的方法,而绝对提高平均10.6%和10.4%测量是表现出对GMM -和HMM-based方法。绝对是提高0.6%在“普通”BLSTM-DAE观察。必须指出的是,平均水平测量计算包括普罗米修斯数据库的性能已被证明是较低的,因为它包含长期事件和一个低分辨率的标签(1)。

RNN-based方案也带来了明显的好处,当应用于“正常”autoencoders(即。没有去噪和压缩);事实上,NP-BLSTM-AE达到一个测量的88.5%。此外,当我们应用非线性去噪autoencoder预案,实现性能与LSTM在这种情况下比得上BLSTM单位也比最先进的方法。

总之,非线性预测的组合模式和各种(B) LSTM autoencoders被证明是有效的,显著优于其他先进的方法。此外,有证据表明memory-enhanced单位如LSTM和BLSTM优于MLP没有内存,显示时间上下文的知识可以提高新奇探测器的能力。

9。结论和展望

我们提出了一个广泛和大量的先进的评估方法主要侧重于小说和最近的无监督方法基于RNN-based autoencoders。我们大大扩展的研究35,36)通过评估进一步支持向量机方法(如看到下面成了(OCSVMs)和多层感知器(MLP),最重要的是我们在三个不同的数据集进行了一次广泛评估总数160153实验,使本文首次提出这样一个完整的评估声学领域的新奇检测。我们显然表明RNN-based autoencoders显著优于其他方法实现高达89.3%的加权平均测量三个数据库,显著地提高绝对的10.4%获得最佳性能和统计方法(嗯)。总的来说,大幅提高性能通过结合(B) LSTM autoencoder-based架构与非线性预测方案。

未来的工作将集中在使用多分辨率特性(51,58),可能更适合处理不同的事件持续时间以面对普罗米修斯数据库中遇到的问题。进一步的研究将在其他体系结构上进行RNN-based autoencoders从动态贝叶斯网络(59)卷积神经网络(60]。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

研究导致这些结果已收到资金从欧洲共同体的第七框架计划(fp7/2007 - 2013)根据授权协议。338164 (ERC格兰特iHEARu开始),不。645378 (RIA ARIA VALUSPA),没有。688835 (RIA DE-ENIGMA)。

引用

l . Tarassenko p·海顿,n . Cerneaz, m·布雷迪“新奇检测识别的质量在乳房x光成像,”诉讼的第四届国际会议上人工神经网络1995年6月,页442 - 447。
视图: 谷歌学术搜索
j·奎因和c·威廉姆斯,“已知的未知:新奇检测状态监测,”模式识别和图像分析j .集市,j·本·a . Mendona和j . Serrat Eds。卷,4477在计算机科学的课堂讲稿施普林格,页1 - 6,柏林,德国,2007年。
视图: 谷歌学术搜索
l·克利夫顿,d·a·克利夫顿,p . j . Watkinson和l . Tarassenko”识别病人生命体征数据支持向量机使用看到下面成了恶化,”联邦会议程序计算机科学和信息系统(FedCSIS 11)2011年9月,页125 - 131。
视图: 谷歌学术搜索
中州。刘,研究。刘,Y.-J。陈,“快”为新奇检测,支持向量数据描述IEEE神经网络,21卷,不。8,1296 - 1313年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
c . Surace k·沃顿,“新奇检测在变化的环境中:消极的选择方法,”机械系统和信号处理,24卷,不。4、1114 - 1128年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
j·a·奎因c . k . i威廉姆斯,n .麦金托什“阶乘切换线性动力系统应用于生理状态监测,“IEEE模式分析与机器智能没有,卷。31日。9日,第1551 - 1537页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
答:Patcha和人类。公园,“异常检测技术的概述:现有解决方案和最新技术趋势,”计算机网络,51卷,不。12日,第3470 - 3448页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
m . Markou和s·辛格图像序列分析的神经网络新奇探测器,“IEEE模式分析与机器智能,28卷,不。10日,1664 - 1677年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
m . Markou和s·辛格新奇检测:review-part 1:统计方法,”信号处理,卷83,不。12日,第2497 - 2481页,2003年。
视图: 出版商的网站 | 谷歌学术搜索
m . Markou和s·辛格新奇检测:review-part 2:基于神经网络的方法,”信号处理,卷83,不。12日,第2521 - 2499页,2003年。
视图: 出版商的网站 | 谷歌学术搜索
e . r . de法,即r . Goncalves j . a .伽马和a·c·卡瓦略”评价多级新奇检测算法的数据流,”IEEE工程知识和数据,27卷,不。11日,第2973 - 2961页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
c . Satheesh Chandran Kamal, a . Mujeeb和m . h . Supriya”小说类使用自组织神经网络对水下目标的探测,”IEEE水下技术学报》(UT”15)2015年2月,钦奈,印度。
视图: 出版商的网站 | 谷歌学术搜索
k·沃顿、g·曼森和d·奥尔曼”结构健康监测方法的实验验证:第一部分结构新颖检测实验室,”杂志的声音和振动,卷259,不。2、323 - 343年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
j .富特“自动音频分割使用的音频新奇”《IEEE国际会议多媒体和世博会(ICME ' 00)1卷,第455 - 452页,2000年8月。
视图: 谷歌学术搜索
b . Scholkopf r·c·威廉姆森a . j . Smola j . Shawe-Taylor和j·c·普拉特“新奇检测,支持向量方法”《神经信息处理系统(少量的99)》12卷,第588 - 582页,丹佛,科罗拉多州,美国,1999年。
视图: 谷歌学术搜索
j·马和美国帕金斯时序新奇检测使用看到下面成了一个支持向量机”《IEEE国际联合会议上神经网络(IJCNN ' 03),3卷,第1745 - 1741页,波特兰,矿石,美国,2003年7月。
视图: 出版商的网站 | 谷歌学术搜索
j·马和美国帕金斯,“网上新奇检测时间序列”第九届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 03)ACM,页613 - 618年,华盛顿特区,2003年8月。
视图: 出版商的网站 | 谷歌学术搜索
p·海顿,b . Scholkopf l . Tarassenko, p . Anuzis”支持向量新奇检测应用于喷气发动机振动光谱,”第14届神经信息处理系统研讨会论文集(捏' 00)2000年12月,页946 - 952。
视图: 谷歌学术搜索
l . Tarassenko a . Nairac n . Townsend和p·考利,“新奇检测喷气发动机,”《IEE讨论会在状态监测:机械、外部结构和健康,页4/1-4/5,伯明翰,英国,1999年4月。
视图: 出版商的网站 | 谷歌学术搜索
l·克利夫顿,d·a·克利夫顿,y, p . Watkinson l . Tarassenko h .阴,“概率新奇与支持向量机检测,”IEEE可靠性,卷63,不。2、455 - 467年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
d·r·哈同和l . m . Manevitz”看到下面成了功能磁共振成像分析,机器学习方法”研究生研究研讨会论文集在电子、光电、通信和网络和计算机科学2005年4月,英国兰开斯特。
视图: 谷歌学术搜索
m·戴维·f·丹卓、a .车载和c . Doncarli”的在线支持向量机检测异常事件,“信号处理,卷86,不。8,2009 - 2025年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
m·A·f·皮门特尔·d·A·克利夫顿l·克利夫顿和l . Tarassenko“回顾新奇检测”信号处理卷,99年,第249 - 215页,2014年。
视图: 出版商的网站 | 谷歌学术搜索
n . Japkowicz c·迈尔斯·m·格里克et al .,“新奇检测方法分类,”学报14人工智能国际联合大会(95年IJCAI”展出),1卷,页518 - 523,蒙特利尔,加拿大,1995。
视图: 谷歌学术搜索
比比汤普森,r . j .标志、崔j·j·m·a·El-Sharkawi M.-Y。黄,c . Bunje“autoencoder新颖性评估、隐式学习”《2002年国际神经网络(IJCNN ' 02)联合会议,3卷,第2883 - 2878页,IEEE,檀香山,夏威夷,美国,2002年。
视图: 谷歌学术搜索
霍金斯,h .他、g·威廉姆斯和r·巴克斯特,“使用复制因子神经网络异常检测,”数据仓库和知识发现施普林格,页170 - 180年,柏林,德国,2002年。
视图: 谷歌学术搜索
n . Japkowicz“监督与非监督binary-learning前馈神经网络,”机器学习,42卷,不。1 - 2、97 - 122年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
l . Manevitz和m·尤瑟夫”看到下面成了文档通过神经网络分类,“Neurocomputing,卷70,不。7号到9号,第1481 - 1466页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
g·威廉姆斯,r·巴克斯特,他h, s·霍金斯和l .顾“RNN的比较研究孤立点检测的数据挖掘中,”第二届IEEE国际会议数据挖掘(ICDM ' 02),页709 - 712,IEEE计算机协会,2002年12月。
视图: 谷歌学术搜索
h·孙、k·沃顿和c·r·法勒”统计损伤分类在不断变化的环境和操作条件下,“智能材料系统和结构》杂志上,13卷,不。9日,第574 - 561页,2002年。
视图: 出版商的网站 | 谷歌学术搜索
s . Ntalampiras i Potamitis, n . Fakotakis”声监测在实际情况下,概率新奇检测”IEEE多媒体,13卷,不。4、713 - 719年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
e . Principi s Squartini r . Bonfigli g . Ferroni f .广场,“一个集成的系统语音命令识别和应急检测基于音频信号,”专家系统与应用程序,42卷,不。13日,5668 - 5683年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
Ito, a . Aiba m .伊藤和美国牧野,“评价不正常声音检测在各种环境中,使用多级GMM”第12届年会学报》国际言语交际协会(INTERSPEECH的11)304年,页301 -佛罗伦萨,意大利,2011年8月。
视图: 谷歌学术搜索
s . Ntalampiras i Potamitis, n . Fakotakis“声学监测的危险情况下,”美国第34 IEEE国际会议音响、演讲和信号处理(ICASSP ' 09)2009年4月,页165 - 168。
视图: 出版商的网站 | 谷歌学术搜索
e·马奇f . Vesperini f . Eyben s Squartini b .舒乐问,“一种新的方法自动声新奇检测使用神经网络去噪与双向LSTM autoencoder”40 IEEE国际会议上声学学报》,演讲,和信号处理(ICASSP 15)IEEE p。5日,布里斯班,澳大利亚,2015年4月。
视图: 谷歌学术搜索
e·马奇f . Vesperini f . Weninger f . Eyben s Squartini b .舒乐问,“非线性预测与LSTM声新奇检测复发性神经网络”学报2015年国际神经网络联合会议(IJCNN 15)基拉尼的,IEEE p。5日,爱尔兰,2015年7月。
视图: 谷歌学术搜索
f . a .蒙古包,n . n . Schraudolph,,的j。施密德胡贝尔表示“学习与LSTM复发性网络精确计时,”机器学习的研究》杂志上,3卷,不。1,第143 - 115页,2003。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
a .坟墓”与复发性神经网络生成序列”,https://arxiv.org/abs/1308.0850。
视图: 谷歌学术搜索
,的d·艾克和j·。施密德胡贝尔表示“寻找时间结构音乐:蓝调与lstm复发性网络即兴创作,”学报》第12届IEEE车间对神经网络信号处理IEEE,页747 - 756年,Martigny,瑞士,2002年9月。
视图: 出版商的网站 | 谷歌学术搜索
j . A . Bilmes“温柔的教程参数估计的EM算法及其应用高斯混合隐马尔可夫模型,“技术。众议员97 - 021年国际计算机科学研究所,1998年伯克利,加州,美国。
视图: 谷歌学术搜索
l·r·拉宾”教程隐马尔科夫模型和选择在语音识别中的应用,”IEEE学报》,卷77,不。2、257 - 286年,1989页。
视图: 出版商的网站 | 谷歌学术搜索
b . Scholkopf r·c·威廉姆森a . j . Smola j . Shawe-Taylor和j·c·普拉特“新奇检测,支持向量方法”先进的神经信息处理系统12美国Solla, t·利恩和k·穆勒,Eds。,页582 - 588年,麻省理工学院出版社,2000年。
视图: 谷歌学术搜索
d . e . Rumelhart、g·e·辛顿和r . j·威廉姆斯,“学习back-propagating错误的陈述,”自然,卷323,不。6088年,第536 - 533页,1986年。
视图: 出版商的网站 | 谷歌学术搜索
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。
视图: 出版商的网站 | 谷歌学术搜索
m·舒斯特尔和k . k . Paliwal”双向复发性神经网络”,IEEE信号处理,45卷,不。11日,第2681 - 2673页,1997年。
视图: 出版商的网站 | 谷歌学术搜索
,的坟墓和j .。施密德胡贝尔表示“Framewise音素的分类与双向LSTM和其他神经网络架构,”神经网络,18卷,不。5 - 6,602 - 610年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
g .辛顿·l·邓,d . et al .,“深层神经网络语音识别的声学建模:四个研究小组的共同观点,“IEEE信号处理杂志卷,29号6,82 - 97年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
格拉汉姆·古德费勒,h·李,问:诉勒,a·萨克斯和a . y . Ng,“测量不变性深陷网络”先进的神经信息处理系统y Bengio d·舒尔曼,j·拉弗蒂,c·威廉姆斯和a . Culotta Eds。卷。22日,页。646 - 654年伦& Associates Inc,红钩,纽约,美国,2009年。
视图: 谷歌学术搜索
y Bengio, p . Lamblin、d . Popovici和h . Larochelle“贪婪layer-wise培训深度网络”神经信息处理系统的进步19b . Scholkopf j·普拉特,t·霍夫曼。,页153 - 160年,麻省理工学院出版社,2007年。
视图: 谷歌学术搜索
p•文森特·h·Larochelle Lajoie, y Bengio和中国。Manzagol”堆去噪autoencoders:学习有用的表示深度网络进行局部去噪标准,“机器学习研究杂志》上11卷,第3408 - 3371页,2010年。
视图: 谷歌学术搜索 | MathSciNet
e·马奇g . Ferroni f . Eyben l .加s Squartini b .舒乐问,“多分辨率基于线性预测的特征与双向音频开始检测LSTM神经网络,”美国第39 IEEE国际会议音响、演讲,和信号处理(ICASSP 14)IEEE,页2183 - 2187年,佛罗伦萨,意大利,2014年5月。
视图: 出版商的网站 | 谷歌学术搜索
f . Eyben f . Weninger、f·格罗斯和舒乐问,“在openSMILE最近的进展,慕尼黑开源多媒体特征提取器,”21 ACM国际会议的程序多媒体(13毫米的)ACM,页835 - 838年,巴塞罗那,西班牙,2013年10月。
视图: 出版商的网站 | 谷歌学术搜索
j .巴克·e·文森特:妈,h·克里斯坦森和p .绿色“帕斯卡语音分离和识别一致的挑战。”电脑语音和语言,27卷,不。3、621 - 633年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
f . Weninger j·伯格曼,b .舒乐问,“递归神经网络引入CURRENNT:慕尼黑开源CUDA工具包,”机器学习研究杂志》上》16卷,第551 - 547页,2015年。
视图: 谷歌学术搜索 | MathSciNet
c c。Chang和C.-J。林,“LIBSVM:支持向量机的库,”ACM智能交易系统和技术,卷2,不。3、第二十七条,2011年。
视图: 出版商的网站 | 谷歌学术搜索
r . Collobert k Kavukcuoglu, c . Farabet”Torch7: matlab-like机器学习环境,“BigLearn,少量的车间,没有。欧洲-设计- 192376,2011。
视图: 谷歌学术搜索
医学博士等j·艾伦,b . Carterette”比较为信息检索统计显著性测试评估,”学报》第16届ACM会议会议信息和知识管理(CIKM ' 07)ACM,页623 - 632年,里斯本,葡萄牙,2007年11月。
视图: 谷歌学术搜索
e·马奇g . Ferroni f . Eyben s Squartini b .舒乐问,“音频开始检测:与复发性神经网络,基于小波包的方法”学报2014年国际神经网络联合会议(IJCNN 14),第3591 - 3585页,北京,中国,2014年7月。
视图: 出版商的网站 | 谷歌学术搜索
n .弗里德曼、k·墨菲和罗素,“学习动态概率网络的结构,”《14日会议上的不确定性人工智能(可用98)摩根考夫曼,页139 - 147年,麦迪逊,威斯,美国,1998年7月。
视图: 谷歌学术搜索
美国劳伦斯c·l·贾尔斯a·c·Tsoi和公元后,“人脸识别:卷积神经网络的方法,”IEEE神经网络,8卷,不。1,第113 - 98页,1997。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

12189年

下载

3883年

引用