抽象
音高变换是一种常见的声音编辑技术,它提高或降低数字声音的原始音高。恶意攻击者很可能会利用这一点来隐藏自己的真实身份。现有的法医学检测方法已不再适用于弱变调语音。本文提出了一种卷积神经网络(convolutional neural network, CNN),它不仅可以检测到强变音,还可以检测到移动因子小于±4半音的弱变音。考虑功率谱计算的线性倒谱系数(LFCC),提取其动态系数作为判别特征。并对CNN模型进行了精心设计,特别注意了输入特征图、激活函数和网络拓扑结构。我们用三个音高变化软件评估了来自两个数据集的声音的算法。大量的实验结果表明,该算法对二分类和多分类都有较高的检出率。
1.介绍
语音如假包换[1个]在法医情形通常被用作隐藏扬声器的身份的有效手段。它可以分为两大类,非电子伪装和伪装的电子。非电子伪装的声音通常是通过捏鼻子,覆盖嘴,拉着检查等,这是很容易的人的监督下被察觉得到。电子伪装是通过使用电子设备或软件来修改音高和格式实现。
电子伪装的最简单的方法是改变目标语音的播放速度。虽然说话者的身份可能会被掩盖,以这种方式产生的伪装声音的节奏是比较自然的,是不是经常在实践袭击者采用。音高移位是一个典型的电子伪装技术,其中,同时保持持续时间不变声音的音高改变。一般地,音高改变语音是在音色,音等方面更加自然,并且难以被检测到。在本文中,我们主要集中在音高改变的声音识别。
克拉克[2个]研究了人类的区分电子变相语音的能力,以及定量分析对人类听觉的不同音调的声音的不同的影响。吴等人。[三–5个]研究了基音偏移的机理,利用各种语音软件/工具构建了基音偏移数据集。该方法的最终检测精度可达90%,误报率小于10%。然而,在弱音高偏移的声音上表现相对较差。尤其是那些随着半音,检出率下降低于90%。在[6个],环境噪声被识别的音调移位考虑。实验结果表明,从线性频率倒谱系数(LFCC)提取的特征和共振峰可以有效地判别自然和音高改变声音。然而,在弱音高改变声音的实验结果还没有给出[6个]。
近年来,有关弱变位声音检测的研究有了新的进展。基于[5个]、梁等[7个]关注声音的变化因素半价,但促销是有限的。辛格(八[[endnoteref: 2]]比较了不同分类器在语音移位和半音程上的性能来 。然而,对包含数十个语音样本的数据集执行的结果并不一致。
卷积神经网络(CNN)[9个]在计算机视觉、数据挖掘以及自动说话人验证方面都取得了最先进的性能。CNN也被用于音频取证[10,11]。陈等人。[12]CNN确认了各种音频后处理操作。特别是对于小规模的语音样本,该网络与其他工作相比有了显著的改进。在[13]与其他手工制作的特征不同,CNN被用于自适应地捕获隐写修改,并且优于传统的方法。
尽管人们已经提出了许多识别音高变化的方法,但仍有改进的空间,特别是当可疑声音是弱频移时。本文提出了一种用于基音偏移检测的CNN模型。通过对音高变化原理的分析,利用LFCC和一阶导数系数作为识别特征。与其他相关工作相比,本文提出的CNN在二分类和多分类上都取得了显著的效果。我们工作的主要贡献概括如下。(一世)该方法在识别弱变音时具有较高的精度。由于原始语音和弱变调语音的差异很小,因此识别是以往工作中一个具有挑战性的任务。(2)利用CNN架构识别变调的声音,相比之前的工作,这提高了性能。而所提出的网络架构是精心设计的。(三)在两个数据集和三个变桨软件上进行了大量的实验,结果表明该方法具有很强的鲁棒性。
本文的其余部分组织如下。中科2个我们简单地介绍一下语音音高改变的原则。部分三礼物的识别特征,并介绍了提出CNN的拓扑结构。中科4个,给出了一系列的实验结果。最后,对全文进行了总结5个。
2.语音变调
音高移位可以在任一时间域或频域中执行。时域基音同步重叠相加(TD-PSOLA)是一种常用的方法,其工作原理是窗[14]。上采样通过进一步分离线段来实现基音偏移,下采样通过更靠近线段来实现基音偏移。上采样可以实现对频谱的压缩,从而降低了音高。下采样可以实现频谱的扩展,从而提高音高。在实际场景中,音频编辑软件中使用了更多的先进的语音合成算法。这些算法在音色和节奏上都有较好的表现。在我们的工作中15],GOLDWAVE [16]和厚颜无耻[17]被认为是变桨方法。
在本文中,我们用半音来衡量转向声音的音调。甲半音是两个音调之间的最小间隔。它被定义为在12色阶[两个相邻音符之间的时间间隔18],这意味着在两个相邻半音之间的频率具有相等的比例 。换句话说,如果语音频率升高或降低次,间距可以提高或由一个半音降低。让是原始声音的频率,和音调变化的声音的频率由下式给出
在哪里表示与原始音高改变语音的半音。正装置提高语音的音调和负极之一的装置降低声音的音高。在本文中,我们使用作为表示所述音高改变语音的变速因子。
3.基于CNN的识别算法
3.1。特征提取
我们从TIMIT [19通过设置数据集和移动声音在方程(1个) 至和分别。原声和变声的波形和谱图如图所示1个。正如我们所看到的,换档操作而改变在频域上留下蛛丝马迹波形不大。因此,声学特征表征频域可被应用于所提出的算法。
(一)
(b)
LFCC是一个倒频谱特征广泛应用于语音识别和显著达到性能[20.]。近期作品(21表明与其他倒谱系数相比,LFCC能更有效地捕获较低和较高的频率特性。因此,在本研究中,我们考虑使用LFCC来提取识别特征。LFCC的提取过程如下:
语音信号先经过预处理和预加重,然后加窗。让是经预处理的语音信号和 ,在哪里是信号的持续时间。假设频谱的 -个语音帧是由短时计算傅立叶变换(STFT),指 -频谱。然后由一组直线间隔三角形滤波器滤波后的功率谱可以定义为
在哪里是滤波器的数目和是语音样本中的帧数。被定义为
在哪里 , 和的最低频率、中心频率和最高频率是多少 -分别th过滤器。相邻的滤波器有 。
最后,将DCT应用于过滤器来计算的LFCC
在哪里是LFCC -th坐标系,为DCT系数的指数。
由于大多数球场的移技术不完全模型声音的时间特性[22],动态系数,诸如第一和第二导数,可以是识别音高改变语音有用的。在这项工作中,我们采取的一阶导数考虑在内,它可以由下式给出
是一阶导数系数 -个帧,其中在计算的静态系数的术语来 。对于典型的价值为2。
3.2。建议CNN架构
3.2.1。网络拓扑结构
卷积神经网络已经显示出不同的分类任务骄人的业绩。它一般由一个输入层,多个隐藏层和一个输出层组成。隐藏层到网络的性能,这通常是不同种类的层,例如卷积层,汇集层和充满连接层[组合关键9个]。
提出的网络体系结构如图所示2个。该网络的输入是矩阵,并且输出是一个预测的标签,其指示疑似声音音高移位或不。整个网络由三个卷积基团,一个完全连接层和SOFTMAX层。在培训阶段,经过提取音段的特点,特征矩阵被馈送到网络中。矩阵的具体大小取决于每个帧和滤波器数量的长度。然后,它经历了具有相互叠层后,另外三组卷积。接着,最后的卷积组的特征地图被送入完全连接层。网络中的所有权重值将通过反向传播更新。测试阶段大多以相同的训练阶段。该疑似语音的特征矩阵首先提取并经历整个网络。甲SOFTMAX用作在网络的端部的分类器。
3.2.2条。卷积群
在我们的网络中,每个卷积组包括两个卷积层和一个池层。卷积层由一组可产生局部特征地图线性卷积滤波器的。二维卷积层预成型件具有特定的核尺寸的输入特征地图上的卷积。让的输入特征映射 -第层神经元 ,输出特征图被计算为
在哪里是的输出图 -第层神经元 ,和是之间的权重值 -第层神经元和 -第一个神经元在前一层 。所有卷积层使用相同的内核大小和步数(5∗5大小,1∗ 1步)。自从特征映射是一个二维矩阵,所述第一组中的第一卷积层具有一个输入信道和64个输出通道,而其他的卷积层具有两个输入通道和输出通道与64非线性激活函数数目可增强映射通过引入非线性到网络模型的能力。
在卷积层之后采用池层,结合卷积层提取的特征信息,可以获得更多的全局信息。最大池通常用于池层。这是一个下采样操作,它选择本地窗口中的最大值作为输出
在哪里是在特征图的区域集中。该区域由池大小和步幅数来定义。池层减少的参数的数目的网络显著中,并且对输入的特征地图的影响不大,从而降低了计算成本和防止过拟合。所有的MAX-汇聚层使用相同的池大小以及步幅的数量( ∗ 2 size, 2 ∗ 2 stride).
3.2.3。网络的其余部分
经过三个卷积组后,全连通层作为网络中的“分类”映射,进行高级推理,学习分布式特征表示。全连接(FC)层的神经元连接到前一层的所有激活功能。然而,过于复杂的网络会降低模型的泛化。Dropout是一种简单有效的正则化技术,可以防止过拟合[23]。因此,我们的网络,我们退出输入神经元的一半在FC层。
使用SoftMax可以被认为是一种有效的多输出有竞争力,其输出表示分类的可能性。因此,其输出的维度表示的类的数量。让是类的数量,输入数据在概率通过softmax函数预测不同的类
在哪里是对每一类FC层的输出。最后,预测标签取决于概率最大 。
综上所述,本网络的结构和参数如表所示1个。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
1个
取决于具体的类的数量。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.3。建议识别算法移调的声音
提出的识别算法基于LFCC和CNN分类器的一阶导数。LFCC采用一组均匀分布的三角形滤波器,与MFCC等其他声学特性相比,可以同时捕捉低频和高频的更多特性。这样,就更容易分辨出原声和变调的区别。我们认为CNN在多层过程的分类任务中具有更好的性能,并且子采样层具有更好的特征提取。该算法由训练阶段和测试阶段组成,如图所示三。
在训练阶段,声音音高改变不同的因素和原始语音被认为是单独的类。提取基于等式LFCC的一阶导数之后(5个),将feature map连同标签一起输入网络进行训练。
在测试阶段,LFCC的一阶导数首先被提取,然后送入训练CNN模型。在方程的SOFTMAX给出的概率(八)揭示了语音更可能是原始的一种或与半音移位。
4.结果与讨论
4.1。实验设置
在实验中,该算法在TIMIT上进行了评估[19]和UME[24]. TIMIT由630个说话人的6300个语音样本组成,平均持续时间为3 s,分别使用Audition、GoldWave和Audacity将其转换为三个不同的子数据集,每个子数据集包含16个移位因子半音来来半音来。因此,TIMIT的每个子数据集中共有100800个语音样本。同样,UME由来自202位演讲者的4040个语音样本组成,平均持续时间为5秒。TIMIT和UME分别转化为三个子数据集,每个子数据集由64640个语音样本组成。在每个子数据集中,随机抽取60%的语音样本到训练数据集中,20%的样本到验证数据集中,剩下的20%样本到测试数据集中。分离时不考虑说话者标识,并且两个数据集来自不同的说话者。因此,数据集应该是说话者独立的。这些声音样本的迁移因子小于半音被视为弱音高改变,而有些则是强烈的音高偏移。All the voice samples from both datasets are WAV, 16 KHz sampling rate, 16-bit quantization and mono.
对于每个语音样本,20维LFCC特征图通过设置帧的长度提取到256和过滤器数量方程式中为20(2个)。在[6个], LFCC使用SVM分类器实现了对噪声环境下变相语音的鲁棒检测。在我们的工作中,我们使用GMM分类器作为比较,其中GMM kernel的数量设置为256个。
检出率是用来评估所提出的网络的性能。让为变调后的语音样本个数为原始语音样本个数。假设和是音高变化的声音样本和被认为是音高变化的原始声音样本。检测率定义为 。与此同时,一场虚惊是最严重的声纹认证系统错误,在一定程度上。因此,除了使用的检出率评估算法,我们还考虑误报率(FAR)是测试阶段。所述FAR被定义为 。
4.2。CNN培训
本文利用TanH作为网络的激活函数。我们使用Adam算法[25]与0.0001初始学习率,加速训练。所提出的网络被训练为2000次迭代的32批大小的训练过程在图呈现4个,其示出了所提出的网络既不过度拟合也不欠拟合。
(一)
(b)
t型- 分布式随机邻居嵌入(t型-SNE)是它试图放置对象在低维空间中,以便最佳地保持附近同一性的降维的方法。它特别适合用于高维数据的可视化[26例如卷积层的输出特征映射。
我们从TIMIT的每个子数据集中随机选择了100个语音样本,每个子数据集随时间因子的变化而变化半音来来通过试听半音。每个样品分别被馈送到训练网络,并且卷积层的输出要素映射均被记录。数字5个示出了使用四个特征地图可视化结果t型新力。图的处理5个(a)至5个(d)说明了该网络可以捕获原始语音和语音音高改变与不同的因素之间的差异。在图5个(a) 首先将所有的语音样本混合在一起,这表明LFCC的一阶导数所代表的特征更多地与语音本身有关,而不是与音高偏移因子有关。在数字中5个(d),同一类样本聚类较好,说明训练后的网络既可以实现二分类,也可以实现多分类。
(一)
(b)
(c)
(d)
4.3。强烈Pitch-Shifted
在这种情况下,作为与[6个]和[八],我们专注于与因素强烈错开±5到±8个半音的声音。首先,我们试图找出可疑的声音是否为原始音高改变之一。所有的音高改变语音(移位±5到±8半音)被取为在二元分类阴性样品。在实际鉴证场景中,音高改变声音可以通过各种不同的环境的设备进行记录。因此,跨数据集的实验是必要和重要的。检出率和本案的容积率都在表2个。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
粗体值表示三种方法在相同情况下(同一行)的最佳性能。对于标准检出率(rate),越高越好。对于标准误报率(远),越低越好。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
可以看出,所有的检测方法的检测率都高于95%,远低于2%。[6个]在二分类中表现最好,因为在大多数情况下,它的检出率最高,FAR最低。虽然建议的方法并不如[6个]和[八,两者的检出率和FARs的差距均小于1%。这些微小的差异可能对检测性能影响不大。
与二元分类相比,多重分类是真正的法医学应用更加实用。在这种情况下,我们不仅认识了怀疑的声音是否进行音高改变,也确定具体的转移因子。结果显示在图6个。首先,从图中我们可以看到6个,有消极因素的声频检出率高于有积极因素的声频检出率。产生这种现象的主要原因是,下采样(提高音调)会放大频谱,从而带来更多的噪声,而上采样则会压缩频谱。其次,不同的调距软件对检测性能有影响。该方法总体保持稳定,其他方法波动较大。最后,在跨数据集评估中,检测率明显下降,特别是在[6个]和[八]。可以看到;方法的检测率仍高于60%时在任何情况下交叉训练集和测试集。因此,对于那些强烈pitch-shifted声音,与存在的方法相比,该方法通常达到相同的二进制分类和显示更多的表现在多个分类泛化能力。
4.4。弱Pitch-Shifted
在这种情况下,我们专注于从转向弱音高偏移样本来半音更难探测。像节4.2首先对二值分类进行评估,将所有的基音偏移语音作为负样本。检测率和FARs如表所示三。与那些强变调的声音相比,所有检测方法的性能都有所下降。但是,与表2个,在表所提出的方法进行最佳三。在大多数情况下,它可以达到最高的检出率和最低的远。虽然该方法在数据集内的性能有所下降,但在跨数据集的性能评估上取得了显著的改进。每个病例的检出率都高于93%,而其他病例的检出率低于88%。这一现象可以归结为LFCC和MFCC都主要关注与语音特征关系更大的静态特征,而捕获动态特征,其更相关的移动轨迹。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
前一节一样,多个分类二进制评估后通过。结果显示在图7个揭示弱音高改变语音的形式对所提出的方法表现来半音来。
一般来说,在图7个,如图所示6个在美国,与降低音高相比,提高音高仍然很难被察觉。同时指出,在使用不同的基音漂移软件时,检测率的波动仍然是不可避免的。图中的第一行和最后一行7个结果表明,在大多数情况下,该方法的检测率都在90%以上,而其他方法则受到不同变桨软件的影响较大,甚至下降到60%以下。2号ND和3理查德·道金斯行显示的横数据集的结果,特别是对一些具体的半音,既[6个]和[八低于20%。提出的方法保持稳定的性能,最坏情况为~60%,大多数情况为~80%。
因此,二进制和多个类别表明,所提出的算法实现了良好的性能,并且具有在检测弱音高改变语音强的鲁棒性。
5.结论
本文提出了一种基音偏移语音识别算法。设计了一种卷积神经网络结构,采用卷积神经网络作为分类器,提取线性频率倒谱系数作为声场特征,对基音偏移语音进行检测。在两个数据集和三个音频编辑软件上对算法进行了评价。大量实验结果表明,该算法在大多数情况下都能获得更好的检测率和FARs,并且与GMM等传统分类器相比,该网络具有更好的泛化能力。其次,可以替代手工制作的声学特性的网络架构也是值得研究的方向之一。
数据可用性
在这项工作中所使用的开源数据库已被列入参考。
的利益冲突
作者声明他们对这篇论文的发表没有任何利益冲突。
致谢
本研究由国家自然科学基金资助,项目编号为[6130005561672302];浙江省自然科学基金资助,项目编号为[LY17F020010,LY20F020010];宁波市自然科学基金资助,项目编号为[2017A610123]和浙江省大学生科技创新培训计划资助,授权号[2018R405033]。
参考文献
- 帕洛,阿韦沙诺,乔莱,“声音伪装与自动侦测:回顾与透视非线性语音处理研究进展(计算机科学讲义),第101-117页,斯普林格,纽约,纽约,美国,2007。查看在:出版商的网站|谷歌学术
- J.克拉克和P.福克斯,“电子伪装语音识别”,国际期刊的言语,语言和法律卷。14,没有。2,第195-221,2007。查看在:出版商的网站|谷歌学术
- 王源,邓源,吴和黄,电子语音转换与自然伪装的盲检测,施普林格,柏林,海德堡,2013。
- 吴,王,黄,“电子变声的盲检测”,国立台湾师范大学硕士论文2013年IEEE声学、语音和信号处理国际会议,第3013-3017页,IEEE,温哥华,不列颠哥伦比亚省,加拿大,2013年。查看在:出版商的网站|谷歌学术
- H.吴,王Y.和J.黄,“电子伪装声音识别,”IEEE交易上的信息取证与安全卷。9,没有。3,第489-500,2014。查看在:出版商的网站|谷歌学术
- W.曹,王H.,赵令欢,问:钱和S. M.阿卜杜拉“在嘈杂的环境中电子变相的声音识别,”在数字取证和水印。在计算机科学IWDW 2016年讲义,Y.石,金H.,F佩雷斯 - 冈萨雷斯和F刘编,第一卷。10082,第75-87,施普林格,湛,2017年。查看在:出版商的网站|谷歌学术
- 梁,林,张,康,“卷积神经网络在欺骗语音识别中的应用”,国立台湾师范大学硕士论文2017年IEEE信号与信息处理全球会议(GlobalSIP),第293-297页,IEEE,2017年。查看在:谷歌学术
- M. K. Singh, A. K. Singh,和N. Singh,“伪装声音和分类效率的多媒体分析”,多媒体工具和应用程序, 2018年第1-17页。查看在:出版商的网站|谷歌学术
- Y、 LeCun,L.Bottou,Y.Bengio和P.Haffner,“基于梯度的学习在文档识别中的应用”在IEEE论文集,第86卷,no。11,页2278-2324,1998。查看在:出版商的网站|谷歌学术
- 作者:H. Ali, S. N. Tran, E. Benetos, and a . S. d 'Avila Garcez神经计算应用卷。29,没有。6,第13-19,2018。查看在:出版商的网站|谷歌学术
- K. Sundararajan和D. L.伍达德,“深度学习生物识别:一项调查显示,”ACM计算概观,第51卷第1期。3、2018年第65页。查看在:出版商的网站|谷歌学术
- B.陈,罗W.和D罗,“音频处理操作的识别基于卷积神经网络”,在第六届ACM信息隐藏与多媒体安全研讨会论文集- IH&MMSec ' 18,第73-77页,ACM, 2018。查看在:谷歌学术
- 陈,罗,李,“基于卷积神经网络的音频隐写分析”,国立中央大学出版社信息隐藏与多媒体安全第五届ACM研讨会论文集 - IHMMSec'17,第85-90页,ACM, 2017。查看在:谷歌学术
- 夏彭特与史黛拉,“语音波形串接之叠置合成”,中ICASSP 86年。IEEE声学、语音和信号处理国际会议,第11卷,第2015 - 2018年,1986年。查看在:出版商的网站|谷歌学术
- “Adobe试镜中心。专业音频工作站,“2019年2月,https://www.adobe.com/products/audition.html。查看在:谷歌学术
- “GOLDWAVE - 音频编辑器,录音机,转换器,恢复和分析软件,” Febraury 2019年,http://www.goldwave.ca/。查看在:谷歌学术
- “Audacity:免费音频编辑器和录音机”,2019年2月,https://www.audacityteam.org/。查看在:谷歌学术
- “音乐关系知觉的发展:半音阶和全音阶结构”,S. Trehub, A. Cohen, L. Thorpe,和B. Morrongiello,实验心理学杂志:人类知觉表现卷。12,没有。3,第295-301,1986。查看在:出版商的网站|谷歌学术
- 《Timit声学-语音连续语音语料库》,2019年2月,https://catalog.ldc.upenn.edu/LDC93S1。查看在:谷歌学术
- F.港,R. Vipperla,A Amehraye和N.埃文斯,“新的说话人确认欺骗对策基于局部二元模式”,在INTERSPEECH 2013年,国际语音通信协会第14届年会, 2013年第5页。查看在:谷歌学术
- M. Sahidullah, T. Kinnunen和C. Hanilci,“合成语音检测特征的比较”,in2015年INTERSPEECH,国际语音通信协会的第16届年会, 2087-2091页,2015。查看在:谷歌学术
- 宋飞和罗森伯格,“说话人识别中瞬时和过渡光谱信息的应用”,IEEE交易在声学,语音信号处理,第36卷,no。第871-879页,1988。查看在:出版商的网站|谷歌学术
- N.塔瓦,G韩丁,A Krizhevsky,一Sutskever和R. Salakhutdinov,“差:一个简单的方法来阻止神经网络过度拟合”该杂志的机器学习研究的,第15卷,no。1、1929-1958年,2014年。查看在:谷歌学术
- “多媒体的先进的利用率,促进高等教育改革的语音数据库,” 2019年2月,http://research.nii.ac.jp/src/en/UME-ERJ.html。查看在:谷歌学术
- D. P.金玛和J.巴,“亚当随机优化的方法,” 2014年,https://arxiv.org/abs/1412.6980。查看在:谷歌学术
- L.五D. Maaten和G.韩丁,“使用数据可视化t型-SNE”机器学习研究杂志,第9卷,第2579-2605页,2008。查看在:谷歌学术
版权
版权所有:叶永超等这是一篇开放获取的文章知识共享署名许可协议,其允许在任何介质无限制地使用,分发和再现时,所提供的原始工作正确的引用。