文摘

在声学新奇检测的新兴领域,大部分研究工作致力于概率混合模型或状态方程模型等方法。只有最近的研究介绍了声学(伪)生成模型形式的新奇与复发性神经网络检测autoencoder。在这些方法中,听觉的光谱特性下预计短期内帧与前一帧的多空词记忆去噪autoencoders复发。输入和输出之间的重建误差autoencoder用作激活信号的检测小说事件。没有证据的研究主要集中在比较之前的努力从音频信号自动识别小说事件,给一个广泛和深入评估神经网络autoencoders复发。目前贡献目标一致地评估我们的最近的新方法来填补这个白色现货在文学和提供广泛的评估进行三个数据库:A3Novelty,帕斯卡一致,普罗米修斯。除了提供一个广泛的分析小说和最先进的方法,这篇文章显示了RNN-based autoencoders优于统计方法绝对平均提高16.4% 测量三个数据库。

1。介绍

新奇检测旨在识别的情况不寻常的事件发生。新奇的挑战任务检测通常被视为单类分类任务。“正常”数据通常包含一组非常大,允许一个精确的模型。声学事件不包含在数据被视为“正常”小说事件。小说模式测试通过比较它们与正常类模型导致一个新奇的分数。然后,比分是处理决定logic-typically阈值决定是否测试样本是小说或正常。

提出了大量的方法由于实用新奇检测的重要性,特别是对于医学诊断(1- - - - - -3],损伤检查[4,5),生理状态监测(6)、电子IT安全(7),和视频监控系统(8]。

根据(9,10),新奇的宏观检测技术可以分为两类:(i)统计和(2)神经网络方法。广泛的研究了类别的统计和概率的方法,显然是最广泛使用的领域的新奇检测。这一类的方法建模数据根据其统计特性,利用这一信息来确定在一个未知的测试样本属于学分布。统计方法已被应用于许多应用程序(9)从数据流挖掘(11),异常值探测水下目标(12,癌症的识别1],无损检验分析机械部件(13],和音频分割[14),其他许多人。1999年,介绍了支持向量机(svm)领域的新奇检测(15),随后应用于时间序列(16,17),喷气发动机振动分析(18),在喷气发动机故障检测19),患者生命体征监控(20.[],功能磁共振成像分析21),和变速箱齿轮的损伤检测22]。

神经网络approaches-also名叫reconstruction-based [23近年来随着)——获得利益明显的神经网络在其他领域的成功。在过去的十年里,一些作品集中在神经网络的应用程序的形式autoencoder (AE)已经提出了10),考虑到巨大的影响和神经网络的有效性。autoencoder-based方法涉及建立一个回归模型使用“正常”的数据。处理测试数据通过分析之间的重建误差回归目标和编码的值。当重建错误显示了高分,测试数据被认为是小说。这样的应用程序的示例包括检测异常的CPU使用数据(24,25)等检测离群值(26- - - - - -29日)损伤分类在不断变化的环境条件下(30.]。

在这些场景中,很少研究已经进行了声学领域的新奇检测。最近,我们观察到越来越多的研究兴趣涉及监督和国土安全的应用程序域公共场所或监督私人环境中人们可能独自生活。由安全需求的日益增长,公共场所,例如但不限于商店、银行、地铁、火车、和机场已经配备了各种传感器像摄像头或麦克风。因此,无监督监测系统获得了广泛的关注,研究社区调查新的和有效的信号处理方法。研究领域的监测系统对检测异常事件的主要小说依靠视频信息(8]。然而,必须指出的是,几个优点可以依靠声学信息。事实上,声信号与视频信息需求低计算成本和不变的照明条件,可能阻塞和突然的事件(例如,一把猎枪和爆炸)。特别是声学领域的新奇检测,研究只关注统计方法运用隐马尔可夫模型(HMM)和高斯混合模型(GMM)声学监测异常的情况31日- - - - - -33)和自动空间监测(34]。尽管许多研究探索统计和概率的方法,使用神经网络方法声新奇检测只有最近介绍了(35,36]。

贡献。仅在过去的两年里使用神经网络进行声学新奇检测获得了研究团体的兴趣。事实上,最近的一些研究提出了一个(伪)生成模型的形式去噪autoencoder与递归神经网络(RNNs)。特别是,多空词的使用内存(LSTM) RNNs生成模型(37)是研究领域的文本生成(38],笔迹[38),和音乐39]。然而,使用LSTM作为音频生成的模型只是介绍我们的近期作品35,36]。

本文提供了一个广泛的和广泛的最先进的评价方法,重点关注小说和最近的无监督方法基于RNN-based autoencoders。我们大大扩展的研究35,36]进一步通过评估方法(如看到下面成了svm (OCSVMs)和多层感知器(MLP),最重要的是我们做了广泛而深入的评价三种不同数据集的总数160 153实验,使本文首次提出这样一个完整的评估声学领域的新奇检测。

我们评估和比较这些方法与三个不同的数据库:A3Novelty,帕斯卡一致,普罗米修斯。我们提供的证据表明,RNN-based autoencoders显著优于其他方法优于统计方法绝对平均提高16.4% 测量三个数据库。

本贡献的其余部分的结构如下:首先,一个基本的描述统计方法给出了不同部分2。然后,前馈和LSTM RNNs一起autoencoder-based声新奇检测方案(部分描述34)。下一个阈值策略和功能用于实验给出了部分5。介绍了使用数据库部分6节中讨论和试验装置7在讨论结果的评价部分8。部分9最后提出了我们的结论。

2。统计方法

在本节中,我们介绍统计方法如GMM,嗯,OCSVM。我们正式定义的输入向量 ,在那里 声学特性的数量(cf。部分5)。

2.1。高斯混合模型

gmm估计概率密度的“正常”类,给定的训练数据,使用高斯组件的数量。训练阶段的GMM利用了 则算法或其他适合训练算法和Expectation-Maximisation (EM)算法(40]。前初始化参数 EM算法的迭代导致最终的模型。给定一个预定义的阈值(在定义部分5),如果概率产生的GMM用测试样本低于阈值,样品检测作为小说的事件。

2.2。隐马尔可夫模型

进一步的统计模型是嗯(41]。摘要不同于gmm的输入时间进化。事实上,虽然一个对角线GMM往往近似整个训练数据概率分布的高斯组件数量HMM模型输入信号的变化通过其隐藏的状态。嗯拓扑从事这项工作左右并通过培训Baum-Welch算法(41]虽然对于新奇检测阶段,这个决定是基于序列范例。考虑左右嗯 隐藏状态,序列是一组 特征向量: 。这些可观测事件的发射概率取决于一个概率分布,一个用于每个州(9]。我们训练了一个嗯我们称之为“正常”物质,利用对数似新奇的分数。在测试阶段,看不见的信号分割成固定长度的数量取决于国家的嗯,如果对数似是高于定义阈值(cf。部分5),检测到的小说。

2.3。看到下面成了一个支持向量机

OCSVM [42]地图输入到一个高维特征空间和迭代搜索的超平面之间的距离最大化的训练例子从原点。在这个星座,OCSVM可以被视为两种支持向量机的起源是第二课堂的独特的成员,而训练例子属于第一类。给定的训练数据 ,在那里 是观测的数量,类分离是由解决如下: 在哪里 支持向量, 是松弛变量, 是抵消, 地图 内积空间 这样的形象的点积 可以通过评估一个特定的计算核函数如一个线性或高斯径向基函数: 的参数 设置一个上限的分数离群值定义为外的数据估计正常的地区。因此,决定值获得使用以下功能: 我们训练OCSVM我们称之为“正常”物质和决定的值用作新奇的分数。在测试期间,OCSVM价值对于看不见的模式提供了一个决定,如果决定价值高于定义阈值(cf。部分5),检测到的小说。

3所示。前馈和递归神经网络

本节介绍了延时和LSTM RNNs受雇于我们声新奇探测器。

第一个我们使用神经网络类型是一个多层感知器(43]。在延时单位被安排在层,与前馈连接从一层到另一个。每个节点输出一个激活函数应用在其输入的加权和。激活函数可以是线性的,双曲函数( )或乙状结肠函数。输入例子是美联储向输入层和输出结果是传播通过隐层到输出层。这个过程被称为网络的传球前进。这种类型的神经网络只依赖于当前的输入,而不是过去或未来的输入。

我们使用第二个神经网络类型是LSTM RNN [44]。与传统的RNN相比,隐藏的单位是被所谓的内存块。这些内存块可以将信息存储在“细胞变量” 。通过这种方式,网络可以利用远程时间上下文。每个内存块包含一个存储单元和三个盖茨:输入,输出,和忘记门,如图1

记忆细胞控制的输入,输出,和忘记盖茨。

存储单元变量 忘记可以重置的大门,而函数负责阅读输入的 和写作输出 分别由输入和输出控制盖茨: 在哪里 分别代表element-wise双曲正切和element-wise乘法。输入盖茨用的输出变量 盖茨,而输出的输出和忘记的表示 ,分别。的变量 表示权重矩阵, 表明偏差项。

每个LSTM单元是一个单独和独立的块。事实上,的大小 是一样的 , , , 。对应的数量大小LSTM单位在隐藏层。为了盖茨依赖独特的存储单元在同一个LSTM单位,权重的矩阵从细胞到盖茨是斜的。

此外,我们采用双向RNN (BRNN) [45),学习环境在时间方向的能力。事实上,BRNN包含两个不同的隐藏层,处理输入向量在每个方向。然后连接到输出层两个隐藏层。可以获得一个更复杂的架构结合BRNN LSTM单元,这称为双向LSTM (BLSTM) [46]。BLSTM利用上下文从时间的方向。注意,在BLSTM的情况下,不可能执行在线处理作为一个短的缓冲向前看是必需的。

当神经网络的布局包括更多的隐藏层,它被定义为深层神经网络(款)47]。的增量更高层次表示输入数据提供当多个隐藏层堆叠在彼此(深度学习)。

在多层的情况下,输出的BRNN计算 的向前和向后激活吗 th(去年)隐层用 ,分别。生成重构信号通过身份激活函数在输出。获得了最好的网络布局进行初步评估。几个配置进行评估通过改变大小和隐藏层的数量(即。,LSTM单位每一层的数量)。

训练过程是迭代的最大100时代。标准的梯度下降法和平方误差的反向传播是用于递归更新网络权重。这是初始化与一个随机的高斯分布的意思是0和标准偏差0.1,因为它通常在我们的经验提供了一个可接受的初始化。

4所示。Autoencoders声新奇检测

本节介绍autoencoders的概念,描述了基本autoencoder autoencoder压缩,去噪autoencoder,非线性预测autoencoder [36]。

4.1。基本Autoencoder

一个基本autoencoder是一组神经网络训练目标值等于输入。其结构通常只由一个隐层的,而输入和输出层有相同的大小。训练集 包括背景环境声音,而测试集 由记录包含异常的声音。它是用来找到共同从输入(数据表示48,49]。形式上,以回应一个输入的例子 ,隐藏的表示 在哪里 是一个非线性激活函数,通常物流乙状结肠函数 应用离散, 是一个权重矩阵,然后呢 是一个偏差向量。

网络输出地图隐藏的表示 回到重建 : 在哪里 是一个矩阵和重量 是一个偏差向量。

给定一个输入组的例子 、AE培训在于寻找参数 重建误差最小化,这对应于最小化目标函数如下: 一个众所周知的方法最小化目标函数是随机梯度下降法和误差反向传播。AE的布局图所示2(一)。

4.2。压缩Autoencoder

压缩autoencoder (CAE)学习的压缩表示输入当隐藏的数量单位 小于输入单位的数量 。例如,如果输入的一些特性相关,这些相关性是学习和CAE的重建。的结构CAE在图给出2(b)。

4.3。去噪Autoencoder

在去噪AE (DAE) [50)配置网络训练来重建原始输入从一个损坏的版本。最初的输入 损坏的添加剂各向同性高斯噪声为了获得吗 。损坏的输入 然后映射与AE,一个隐藏的表示吗 迫使隐层检索更健壮的特性和防止简单地学习身份。因此,重建原始信号如下: 去噪autoencoder的结构如图2(c),在训练阶段,网络权重和偏见的集合 为了更新 尽可能接近未堕落的输入 。这个过程对应于重建误差最小化目标函数(8)。在我们的方法中,腐败的初始输入 我们利用添加剂各向同性高斯噪声,为了获得

4.4。非线性预测Autoencoder

非线性预测的基本思想(NP) AE是训练AE为了预测当前帧从先前的观察。正式,输入到一个给定的时间框架 映射到一个隐藏的表示吗 : 在哪里 分别表示重量和偏见。从这,我们重建原始信号的近似如下: 在哪里 预测延迟和吗 。一个预测延迟 对应于一个转变10 ms的音频信号在我们的设置(cf。部分5)。培训执行的参数通过最小化目标函数(8)——不同的是, 现在是基于非线性预测根据(11)和(12)。因此,参数 被训练在训练集平均重建误差最小化, 尽可能预测延迟。由此产生的非线性预测的结构去噪autoencoder (NP-DAE)类似于一个描绘在图2(c),但输入和输出更新如上所述。

5。阈值和特性

本节描述阈值决策策略和使用的功能在我们的实验。

5.1。阈值

节(ASF)听觉谱特性5.2用于这项工作是由54个系数,这意味着网络的输入和输出层有54个单位。AE重建每个训练样本和新奇的事件被处理重建误差信号的自适应阈值。输入音频信号 划分为30秒的序列长度。在测试阶段,我们而言在一个框架基础网络的输出之间的欧氏距离和平均每个标准化的输入特性值。为了压缩重建误差单个值,距离是总结和除以系数的数量。我们应用一个阈值 获得一个二进制信号,从序列的误差信号的中值 由一个乘法系数 。系数范围从 :

3显示了一个给定的序列重建误差。图清楚地描绘了一个低重建等繁殖正常输入错误说,电视的声音,和其他正常的环境听起来。

5.2。声学特性

音频信号的一种有效表示可以通过听觉谱特征提取(ASF) (51]。的音频信号分为帧大小等于30 ms和10 ms的框架步骤,然后ASF得到运用短时傅里叶变换(STFT)的收益率的功率谱图框架。梅尔·色 (与 指数和帧 本指数计算频率转换的功率谱图Mel-frequency规模与26个三角形过滤器使用滤波器组。对数标度选择匹配响度的人类感知: 此外,积极的一阶差异 从每个梅尔谱图计算后

此外,该框架还包括能源和它的导数特性最终在54总数系数。更好的再现性,特征提取过程计算与我们的开源工具包openSMILE音频分析(52]。

6。数据库

本节描述的三个数据库评估实验:A3Novelty,帕斯卡一致,普罗米修斯。

6.1。A3Novelty

A3Novelty语料库(http://www.a3lab.dii.univpm.it/research/a3novelty)包含56个小时左右的记录在实验室的意大利为delle马尔凯。这些录音进行了在不同的昼夜时间,非常不同的声学条件是可用的。各种各样的小说由议长被随机事件回放(例如,尖叫,秋天,报警,或破损的对象)在录音。

八个麦克风被用于收购的录音室:四个百灵达B-5麦克风心形图案和一个数组的四个爱科技C400提单麦克风间距为4厘米,然后莫土语8 pre声卡和NU-Tech软件利用麦克风记录信号。采样率等于48 kHz。

异常事件听起来(cf。表1)可以分为四类,他们都是免费下载的http://www.freesound.org/:(我)塞壬,三种不同类型的警报或警报声音。(2)瀑布,两个出现的一个人或一个物体坠落在地上。(3)破损的对象对象的,噪音产生的破损后与地面的影响。(iv)尖叫声,四种不同人类的尖叫声,都由一个人或一群人。

A3Novelty语料库由两种类型的录音:背景,它只包含背景声音如人类语言、技术工具噪声和环境声音和背景与新奇,其中包含除了背景产生的人为新奇事件。

在原始A3Novelty数据库序列的录音是分段30秒。为了限制训练数据的规模,我们随机选择300的序列背景分区组成培训材料(150分钟)和180年的序列背景与新奇分区组成的测试集(90分钟)。测试集包含13个新奇事件。

再现性、随机选择记录的列表和火车和测试集(http://www.a3lab.dii.univpm.it/research/a3novelty)。

6.2。帕斯卡一致

原始数据集是由家庭环境约7小时的录音,从帕斯卡语音分离和识别的挑战[一致53]。它由一个典型的家庭场景(客厅),记录在不同的日子和时间,而居民(两个成年人和两个小孩)执行常见的操作,如说话、看电视、玩耍,或吃东西。数据记录与双耳麦克风和16 kHz的采样率。在最初的帕斯卡一致数据库录音在5分钟的时间序列分段。为了限制训练数据的规模,我们随机选择序列构成训练集和周围的100分钟的背景为再现性测试集。70分钟,随机选择录音和火车的列表和测试集(http://a3lab.dii.univpm.it/webdav/audio/Novelty_Detection_Dataset.tar.gz)。测试集生成添加不同类型的声音(来自http://www.freesound.org/),比如尖叫声,警报,瀑布,和骨折(cf。表1),归一化后的体积背景录音。测试集的事件被添加在随机位置;因此一个事件之间的距离,另一个是不固定的。

6.3。普罗米修斯

普罗米修斯数据库(31日]包含各种场景的录音设计服务范围广泛的实际应用。数据库包括(1)一个smart-room室内家庭环境包括阶段用户交互与自动语音驱动家庭助理和(2)(a)组成的一个户外公共空间交互的人自动取款机,(b)户外安全场景,在该场景中,人们在柜台前,和(3)室内办公室走廊安全监控场景中标准的室内空间。这些场景大大不同的声学环境。室内场景记录下安静的声学条件,而室外录音进行露天公共区域和包含的非平稳背景噪声。智能场景包含五个专业演员表演五个单人的录音和14多人动作脚本。主要活动包括人机交互与虚拟家代理和交替正常和异常活动专门设计用于监测和解释人类行为。单人和多人操作包括异常事件,如瀑布,报警之后,恐慌,非典型元音的反应(痛苦、恐惧和愤怒),或骨折。例子是走到沙发上,坐着,或与智能交互环境中打开电视,打开窗户,或降低温度。场景记录三到五次,通过改变演员和角色的动作脚本。表1提供了每个场景的异常事件的数量细节,包括平均时间。

7所示。试验装置

网络训练的梯度最陡下降算法的平方误差的总和(SSE)。对于所有的LSTM和BLSTM网络,我们使用一个常数学习速率的价值 因为它显示更好的表现在我们之前的工作35),而不同的值 被用于MLP网络。不同的噪音σ值 被应用于DAE。没有应用于高斯噪声基本AE和CAE以下描述的架构部分4。预测延迟申请不同的值: 。AEs的递归神经网络训练使用开源CUDA工具包(CURRENNT) [54)确保再现性。我们使用作为评价指标 测量以比较结果与先前的作品(35,36]。我们评估几种拓扑结构的非线性预测DAE从54-128-54到216-216-216,从54-128-54到54-54-54的CAE和基本AE,分别。每一个网络拓扑是每个100时代的培训评估。为了比较我们的结果与先前的研究我们保持相同的优化过程应用于(35,36]。我们使用三个最先进的方法基于OCSVM, GMM,嗯。OCSVM而言,我们在不同的复杂度值训练模型 。径向基函数内核使用不同伽马值 ,我们控制了一部分的异常值在训练阶段具有不同的值 。通过LIBSVM OCSVM被训练库(55]。在GMM的情况下,模型在不同数量的训练高斯组件 ,而左右摘要与不同数量的训练状态 高斯组件 。gmm和摘要被训练使用火炬(56工具包。决定值作为输出产生OCSVM和概率估计的概率模型的输出位有类似的阈值算法(cf。部分5)以相当不同的方法之间的性能比较。所有的实验和设置我们保持相同的特性集。

8。结果

在本节中,我们讨论和评论的结果评价三个数据库。

8.1。A3Novelty

评估A3Novelty语料库的报道在第二列的表2。在这个数据集gmm和摘要执行类似;然而,他们表现的OCSVM绝对最大提高了3.6% 测量。autoencoder-based方法明显提高98.7%的性能。我们看到一个巨大的绝对改善6.9%概率的方法。三国CAE、AE DAE,我们观察到压缩和去噪的布局与BLSTM单位执行密切彼此BLSTM-CAE高达98.7%的情况。这可能是由于这一事实数据集包含更少的变化背景材料用于培训和内部操作的特征选择AE重建误差的敏感性增加。

非线性预测结果表的最后部分所示2。我们提供性能的三个命名配置和三个命名单元类型。在和谐中我们发现帕斯卡数据库,NP-BLSTM-DAE方法提供了最好的性能 测量高达99.4%。显著地提高绝对(单侧z以及(57), (其余的手稿我们报道至少有“重大”的改进 在单侧z以及(57)))的10.0% 测量对GMM-based观察方法,而绝对提高7.6% 测量是对OCSVM方法展出。我们观察一个整体改善 1%的“普通”和“预测”架构。

获得的性能逐步提高预测延迟( )值(从0到10)报道,在图4。我们评估了压缩autoencoder (CAE),基本autoencoder (AE),和去噪autoencoder中长期规划(DAE), LSTM, BLSTM单位,我们应用不同的布局(cf。部分7每个网络类型)。然而,为了简便起见,我们只显示最好的配置。最好的结果在所有三个单元类型分别是99.4%和99.1% 分别测量NP-BLSTM-DAE和NP-LSTM-DAE网络。这些得到的预测延迟5帧,转化为一个整体50毫秒的延迟。一般来说,最好的表现是与实现 。增加预测延迟10帧产生沉重的性能下降到97.8% 测量。

8.2。帕斯卡一致

在表的第一列2我们报告帕斯卡数据集上的性能获得了使用不同的方法。部分结果在这个数据库也在36]。在这里,我们进行了更多的试验来评估OCSVM和中长期规划方法。看到下面成了一个支持向量机显示较低的性能相比,概率方法如GMM和嗯,91.4%似乎工作的很好 测量。OCSVM低性能可能是由于这一事实数据集生成人工和不正常声音动态规范化的“正常”物质使利润最大化更复杂和更少的有效。接下来,我们评估AE-based方法在三种配置:压缩(CAE),基本(AE),和去噪(DAE)。我们也评估MLP、LSTM BLSTM单元类型。三种配置中,我们观察到去噪的执行比其他人更好的独立于类型的单位。特别是,获得最佳的性能与去噪autoencoder意识到BLSTM RNN显示高达93.4% 测量。最后三组表的行2显示的结果NP在三种配置方法和三种单元类型。

高达94.4%的NP-BLSTM-DAE取得最好的结果 测量。重要的绝对改进4.0%、3.0%、和1%是观察到在GMM,嗯,分别和“普通”BLSTM-DAE方法。

有趣的是,应用非线性预测计划压缩autoencoders NP - (B) LSTM-CAE (92.8% 测量)也增加了表演相比,(B) LSTM-CAE (91.3% 测量)。事实上,在前一个工作35),压缩学习过程仅显示稀缺的结果。然而,这里的CAE非线性预测编码输入更有效的信息。

5描述了增加价值的预测结果延迟( ),从0到10。我们评估CAE、AE和DAE延时,LSTM, BLSTM神经网络与不同的布局(cf。部分7每个网络类型)。然而,由于空间限制,我们只报告最好的表演。在这里,最好的表演得到了预测延迟3帧(30 ms) NP-BLSTM-DAE网络(94.4% 测量)和一个框架在NP-LSTM-DAE (94.2% 测量)。作为A3Novelty数据库中,我们观察到一个类似的性能下降到86.2% 测量时预测延迟增加10,它对应于100 ms。事实上,应用更高的预测延迟(例如,100 ms)诱发高的重建误差值的快速周期性事件,后来导致错误检测率增加。

8.3。普罗米修斯

本节阐述了四个子集上获得的结果出现在普罗米修斯数据库。

8.3.1。自动取款机

自动取款机的情况评估表的第三列所示2。GMM和嗯执行同样水平的机会。事实上,我们观察一个 测量gmm和摘要的50.2%和52.0%,分别。看到下面成了一个支持向量机显示略好60.2%的性能。另一方面,AE-based方法的三个configurations-compression (CAE)、传统(AE),和去噪(DAE)显示显著改善性能绝对19.3% 针对OCSVM测量。三种配置中我们观察到DAE执行更好的独立于网络的类型。特别是,最佳的性能考虑到普通(没有非线性预测)方法是获得与DAE LSTM网络导致的 测量的79.5%。

最后三组表的行2显示的结果(NP)的非线性预测方法。非线性预测去噪autoencoder执行最好的81.6% 测量。令人惊讶的是,获得最佳的性能使用延时单位长事件表明那些包含在ATM场景(平均持续时间为6.0 s, cf。表1)-memory-enhanced单位如(B) LSTM短事件的不那么有效。

一个重要的绝对提高21.4% 测量对OCSVM观察方法,而绝对提高31.4% 测量是对GMM-based方法展出。两种autoencoder-based方法中我们报告绝对提高1.0%,即“普通”和“预测”结构。它必须观察到的演出31日)高于本文中提供一个自宽容窗口用于研究设置为1 s,而在这里我们针对更高的时间分辨率的宽容窗口200 ms这也适用于对突然事件。

6描述了性能先进的值预测延迟( )从0到10,应用CAE, AE,中长期规划和DAE, LSTM, BLSTM网络。几个布局(cf。部分7)每个网络类型进行评估;然而,我们只报告最好的配置。设置一个预测延迟1帧,这对应于一个总预测延迟10 ms,导致高达81.6%的最佳性能 测量在NP-MLP-DAE网络。在NP-BLSTM-DAE我们观察更好的性能与延迟2帧高达80.7% 测量。一般来说,我们不观察一致的趋势,预测延迟增加,确凿的事实,长时间的事件,那些包含在ATM场景,memory-enhanced单位和非线性预测方法为短事件并不那么有效。

8.3.2。走廊

走廊上的评估子集第四列的表所示2。GMM和嗯执行同样水平的机会。我们观察一个 测量GMM的49.4%和49.6%,嗯,分别。OCSVM显示出更好的性能上升到65.3%。观察在ATM的场景中,再次显著改善性能绝对16.5% 测量使用autoencoder-based观察方法的三个配置(CAE、AE和DAE)对OCSVM。三种配置中,我们观察到去噪autoencoder执行比其他人更好。获得最佳性能与去噪autoencoder BLSTM单位多达79.8% 测量。

“预测”方法是报道在过去三组表的行2。有趣的是,非线性预测autoencoders不会提高性能正如我们所看到的在另一个场景。可以找到一个合理的解释基于新奇的性质事件出现在子集。事实上,子集包含很长事件的平均持续时间14.0秒/事件。如此长的事件,生成模型不引入一个更敏感的重建误差。然而,三角洲的性能BLSTM-DAE和NP-BLSTM-DAE相当小(1.3% 衡量)的“普通”的方法。获得最佳性能(79.8%)使用BLSTM单位确认memory-enhanced单位更有效的短期事件。事实上这个scenario-besides很长事件也包含下降和痛苦短事件平均持续时间为1.0和3.0年代,分别。

显著地提高绝对高达16.5% 测量是对OCSVM观察的方法,而被更高的GMM,嗯。

8.3.3。户外

户外的评估子集的第五纵队表所示2。OCSVM, GMM,嗯有更好的表现在这个场景中与ATM和走廊。我们观察一个 测量的57.3%、56.4%、56.0%,OCSVM, GMM,嗯,分别。在这个场景中,带来的改善autoencoder大不如之前的子集,但仍然显著。我们报告一个绝对改善11.2% 测量OCSVM和BLSTM-DAE之间。再一次,去噪autoencoder执行比其他配置。特别是,获得最佳的性能与BLSTM-DAE是68.5% 测量。

在走廊里观察到的场景,非线性预测autoencoders表的行(最后三组2)不提高性能。这些结果证实了我们之前解释的长期性质新奇事件中影响灵敏度的重建误差子集生成模型。然而,三角洲BLSTM-DAE之间的性能和NP-BLSTM-DAE相当小(1.3% 测量)。

必须指出,在这种情况下的性能相当低而另一获得数据集。我们相信,愤怒的存在小说声音引入了更高程度的复杂性在我们autoencoder-based方法。事实上,愤怒小说事件可能包含不同程度引起的内容可以是听觉上类似于中性的内容出现在口语培训材料。在这种情况下,生成模型显示较低的重建误差。这个问题可以得到解决,通过设置引起的小说事件只包含部分或考虑愤怒作为一个长期演讲者state-increasing我们系统的时间分辨率。

8.3.4。Smart-Room

smart-room场景评估表的第六列所示2。OCSVM, GMM,嗯有更好的表现在这个场景中而不是ATM,走廊,和户外。我们观察一个 测量的57.4%、59.1%、59.1%,OCSVM, GMM,嗯,分别。在这个场景中,改善带来的autoencoder仍然是重要的。我们报告一个绝对改善6.0% GMM /嗯和BLSTM-DAE之间测量。再一次,去噪autoencoder执行比其他配置。特别是,最佳的性能与普通方法是获得BLSTM-DAE高达65.1% 测量。

最后三组表的行2显示的结果(NP)的非线性预测方法。NP-BLSTM-DAE执行最好的高达65.6% 测量。

在户外子集,我们报告一个低性能的smart-room子集。事实上,子集包含几个长的小说事件相关的口语内容表达痛苦和恐惧。评论的户外场景,在这种条件下生成模型能够重建小说事件没有生产高重建误差。

8.4。整体

总的来说,实验结果证明了DAE方法实现优越的性能与CAE / AE方案。这是由于两个学习过程的组合去噪autoencoder,如输入的编码过程中保存的信息输入,同时扭转腐败的影响过程应用于autoencoder的输入。

特别是,(B)的预测方法LSTM单位显示最佳性能高达89.3%的平均水平 测量在所有六个不同的数据集的加权每个数据库实例的数量(cf表2)。

为了更好地理解RNN-based方法带来的改进,我们提供在图7比较先进的方法的加权平均 测量计算A3Novelty语料库,帕斯卡一致,普罗米修斯。在一般情况下,我们观察到最近提议NP-BLSTM-DAE方法提供最佳性能的平均水平 测量高达89.3%。一个重要的绝对平均提高16.0% 测量是对OCSVM观察的方法,而绝对提高平均10.6%和10.4% 测量是表现出对GMM -和HMM-based方法。绝对是提高0.6%在“普通”BLSTM-DAE观察。必须指出的是,平均水平 测量计算包括普罗米修斯数据库的性能已被证明是较低的,因为它包含长期事件和一个低分辨率的标签(1)。

RNN-based方案也带来了明显的好处,当应用于“正常”autoencoders(即。没有去噪和压缩);事实上,NP-BLSTM-AE达到一个 测量的88.5%。此外,当我们应用非线性去噪autoencoder预案,实现性能与LSTM在这种情况下比得上BLSTM单位也比最先进的方法。

总之,非线性预测的组合模式和各种(B) LSTM autoencoders被证明是有效的,显著优于其他先进的方法。此外,有证据表明memory-enhanced单位如LSTM和BLSTM优于MLP没有内存,显示时间上下文的知识可以提高新奇探测器的能力。

9。结论和展望

我们提出了一个广泛和大量的先进的评估方法主要侧重于小说和最近的无监督方法基于RNN-based autoencoders。我们大大扩展的研究35,36)通过评估进一步支持向量机方法(如看到下面成了(OCSVMs)和多层感知器(MLP),最重要的是我们在三个不同的数据集进行了一次广泛评估总数160153实验,使本文首次提出这样一个完整的评估声学领域的新奇检测。我们显然表明RNN-based autoencoders显著优于其他方法实现高达89.3%的加权平均 测量三个数据库,显著地提高绝对的10.4%获得最佳性能和统计方法(嗯)。总的来说,大幅提高性能通过结合(B) LSTM autoencoder-based架构与非线性预测方案。

未来的工作将集中在使用多分辨率特性(51,58),可能更适合处理不同的事件持续时间以面对普罗米修斯数据库中遇到的问题。进一步的研究将在其他体系结构上进行RNN-based autoencoders从动态贝叶斯网络(59)卷积神经网络(60]。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

研究导致这些结果已收到资金从欧洲共同体的第七框架计划(fp7/2007 - 2013)根据授权协议。338164 (ERC格兰特iHEARu开始),不。645378 (RIA ARIA VALUSPA),没有。688835 (RIA DE-ENIGMA)。