音高变化是一种常见的声音编辑技术,原始数字语音的上调或下调。它可能会被恶意攻击者掩盖他/她的真实身份。现有的法医检测方法对弱pitch-shifted声音不再有效。在本文中,我们提出了一个卷积神经网络(CNN)检测不仅强烈pitch-shifted的声音也弱pitch-shifted转移因子小于±4半音来。具体来说,线性频率cepstral系数(LFCC)计算功率谱被认为是及其动态系数作为区别的特征提取。和CNN模型是精心设计特别注意地图输入功能,激活函数和网络拓扑结构。我们评估了算法上的声音从两个数据集和三个音高变化的软件。广泛的结果表明,该算法实现高检测率为二进制和多个分类。
声音伪装(
电子伪装的最简单的方法是改变目标声音的回放速度。虽然演讲者的身份可以隐藏,伪装的声音的节奏以这种方式生成相对不自然,不是在实践中经常采用的攻击者。音高变化是一个典型的电子伪装技术的音高的声音改变,同时保持时间不变。通常,pitch-shifted声音更自然的音色、音调,等等,并且难以被探测到。在本文中,我们主要关注pitch-shifted声音的识别。
克拉克(
最近,一些研究发现弱pitch-shifted声音已报告。基于[
卷积神经网络(CNN) (
虽然许多方法已经提出了转移识别,仍有提升空间的性能尤其是weakly-shifted怀疑的声音。在这篇文章中,沥青的CNN模型检测提出了转变。通过分析音高变化的原理,LFCC和一阶导数系数作为识别特征。比较其他相关作品,提出了CNN达到卓越的性能在二进制和多个分类。我们工作的主要贡献是总结如下。
实现高精度识别弱pitch-shifted声音。因为原始声音的区别和弱pitch-shifted声音小,识别在以前的工作是一项具有挑战性的任务。
利用CNN架构确定pitch-shifting声音,提高性能比前一工作。提出了网络体系结构是精心设计的。
大规模的实验进行了两个数据集和三个球场上转移的软件,这表明该方法取得了极大的鲁棒性。
本文的其余部分组织如下。节
音高变化可以在时域或频域进行。时域基音同步叠加(TD-PSOLA)是一种常用的方法是通过窗口(
在本文中,我们使用半音程来测量转向声音的音高。两个音调之间的最小间隔半音程。它被定义为两个相邻音之间的音程的12音量表(
在哪里<我nl我ne-formula>
我们随机选择一个声音样本TIMIT [
波形和声谱图的原始语音和pitch-shifted声音。(一)波形;(b)谱图。
LFCC是一个cepstral特性广泛应用于语音识别和实现显著的性能(
语音信号是第一次预处理pre-emphasized然后视窗化。让<我nl我ne-formula>
在哪里<我nl我ne-formula>
在哪里<我nl我ne-formula>
最后,应用基于DCT的能量对数<我nl我ne-formula>
在哪里<我nl我ne-formula>
因为大多数球场的转移技术并不完全模型时间特征的声音(
表现出了卷积神经网络的性能在不同的分类任务。它通常由一个输入层,多个隐藏层和输出层。隐藏层网络性能是至关重要的,通常是结合不同的层如卷积层、汇聚层和完整的连接层(
提出了网络架构如图
提出了CNN的架构。
在我们的网络中,每个卷积组包括两个卷积层和一个池层。卷积层由一组线性卷积过滤器可以产生局部特征图。二维卷积层预先形成一个卷积地图上输入特征与特定的内核大小。让<我nl我ne-formula>
在哪里<我nl我ne-formula>
池层采用卷积层后可获得更多全球信息相结合的特征信息提取卷积层。马克斯池在池层是常用的。它是一种将采样操作,选择本地窗口中的最大值作为输出
在哪里<我nl我ne-formula>
三个卷积组后,完全连接层网络中充当“分类”地图,可以做高级推理和学习分布式特性表示。神经元完全连接(FC)层连接到所有激活函数在前面的层。然而,过于复杂的网络会降低模型的泛化。辍学是一种简单而有效的正则化技术,以防止过度学习(
Softmax可以被认为是一个有效的输出竞争的输出表示分类的可能性。因此,其输出的维数表示的类数。让<我nl我ne-formula>
在哪里<我nl我ne-formula>
总之,该网络的体系结构和参数如表所示
提出了网络的结构和参数。
| 不。 | 层 | 内核大小/神经元数 | 的进步 | 输入通道 | 参数 |
|---|---|---|---|---|---|
| 1 | 卷积1 | (5,5) | (1,1) | 1 | 1664年 |
| 2 | 卷积2 | (5,5) | (1,1) | 64年 | 102464年 |
| 3 | 池1 | (2,2) | (2,2) | 64年 | - - - - - - |
| 4 | 脑回的3 | (5,5) | (1,1) | 64年 | 102464年 |
| 5 | 脑回的4 | (5,5) | (1,1) | 64年 | 102464年 |
| 6 | 池2 | (2,2) | (2,2) | 64年 | - - - - - - |
| 7 | 卷积5 | (5,5) | (1,1) | 64年 | 102464年 |
| 8 | 卷积6 | (5,5) | (1,1) | 64年 | 102464年 |
| 9 | 池3 | (2,2) | (2,2) | 64年 | - - - - - - |
| 10 | 平 | 2496年 | - - - - - - | - - - - - - | - - - - - - |
| 11 | 完全连接 | 4096年 | - - - - - - | - - - - - - | 1.02 107∗ |
| 12 | Softmax |
|
- - - - - - | - - - - - - | 4096∗<我nl我ne-formula>
|
1年代up>
提出的识别算法是基于LFCC和CNN的一阶导数分类器。和一群相当于分布式三角过滤器,LFCC可以捕获更多的特征在低频和高频比较与其他声学特性如MFCC。因此,区别原始语音和pitch-shifting声音更容易区别。CNN是多层分类任务过程中具有更好的性能,用更少的时间和二次抽样层给更好的特征提取。该算法由训练和测试阶段,如图
图的pitch-shifting识别算法。
在训练阶段,声音pitch-shifted不同因素和原始的声音被认为是作为单独的类。提取后的一阶导数LFCC基于方程(
在测试阶段,LFCC的一阶导数是首先提取,然后送入训练CNN模型。的概率softmax在方程(
在实验中,该算法评估TIMIT (
对于每一个声音样本,20维LFCC特性提取地图通过设置帧的长度<我nl我ne-formula>
检测率是用来评估提出了网络的性能。让<我nl我ne-formula>
摘要双曲正切和激活函数提出了网络中使用。我们使用亚当算法(
提出了网络的训练过程。
我们随机选择100的声音样本的每个sub-dataset TIMIT转移的变化因素<我nl我ne-formula>
不同特性的可视化地图<我talic> t我talic>新力。(一)LFCC的一阶导数。(b)首次在CNN Conv组地图输出特性。(b)输出特性第二Conv集团在CNN的地图。(c)去年Conv集团在CNN地图输出特性。
在这种情况下,作为对比(
强烈pitch-shifted声音在二进制分类的检测性能。
| 音高变化软件 | 训练数据集 | 测试数据集 | 检测方法 | |||||
|---|---|---|---|---|---|---|---|---|
| ( |
( |
提出了 | ||||||
| 率 | 远 | 率 | 远 | 率 | 远 | |||
| 试镜 | TIMIT | TIMIT | 99.86 | 0.02 |
|
|
99.54 | 0.10 |
| TIMIT | 梅花 | 97.60 |
|
|
1.19 | 95.89 | 1.52 | |
| 梅花 | TIMIT |
|
0.36 | 98.58 |
|
97.51 | 1.45 | |
| 梅花 | 梅花 |
|
0.15 |
|
|
99.49 |
|
|
|
|
||||||||
| 音频编辑器 | TIMIT | TIMIT |
|
|
99.94 | 0.01 | 99.58 | 0.05 |
| TIMIT | 梅花 |
|
|
96.82 | 2.04 | 96.29 | 1.53 | |
| 梅花 | TIMIT |
|
0.05 | 98.45 |
|
98.44 | 1.17 | |
| 梅花 | 梅花 |
|
|
99.70 | 0.07 | 99.12 | 0.36 | |
|
|
||||||||
| 无畏 | TIMIT | TIMIT |
|
|
99.97 |
|
99.97 |
|
| TIMIT | 梅花 | 99.13 | 0.44 | 97.57 | 2.10 |
|
|
|
| 梅花 | TIMIT |
|
0.01 | 98.72 |
|
99.96 | 0.01 | |
| 梅花 | 梅花 |
|
|
99.95 |
|
99.84 | 0.11 | |
大胆的值代表了最佳性能相同的情况下(在同一行)的三个方法。标准检出率(率)、更高更好。标准误警率(远),降低更好。
可以看出,所有的检测方法实现检出率高于95%,远低于2%。该方法在
与二进制分类相比,多个分类为真正的法医应用程序更实用。在这种情况下,我们不仅认识到是否pitch-shifted怀疑的声音,但也决定了特定的转移因子。结果呈现在图
强烈pitch-shifted声音的检出率。(a -<我talic> x我talic>)语音pitch-shifted试镜。(b -<我talic> x我talic>)声音pitch-shifted音频编辑器。(c -<我talic> x我talic>)语音pitch-shifted无畏;<我talic> x代表subfigures在同一列我talic>。(<我talic> y我talic>1)培训和TIMIT TIMIT进行测试。(<我talic> y我talic>2)培训和梅花TIMIT进行测试。(<我talic> y我talic>3)培训和TIMIT测试的梅花。(<我talic> y我talic>4)测试培训和梅花梅花;<我talic> y代表subfigures在同一行。我talic>
在这种情况下,我们关注从弱pitch-shifted样本<我nl我ne-formula>
检测弱pitch-shifted声音二进制分类的性能。
| 音高变化软件 | 训练数据集 | 测试数据集 | 检测方法 | |||||
|---|---|---|---|---|---|---|---|---|
| ( |
( |
提出了 | ||||||
| 率 | 远 | 率 | 远 | 率 | 远 | |||
| 试镜 | TIMIT | TIMIT | 98.11 | 0.83 | 97.29 | 1.34 |
|
|
| TIMIT | 梅花 | 92.95 | 5.50 | 93.25 |
|
|
1.84 | |
| 梅花 | TIMIT | 96.72 |
|
95.21 | 1.72 |
|
0.52 | |
| 梅花 | 梅花 | 97.70 | 0.88 |
|
|
96.82 | 0.91 | |
|
|
||||||||
| 音频编辑器 | TIMIT | TIMIT | 97.92 | 0.68 |
|
|
98.14 | 1.47 |
| TIMIT | 梅花 | 82.86 | 14.60 | 91.56 |
|
|
5.95 | |
| 梅花 | TIMIT | 92.58 |
|
93.93 | 0.25 |
|
1.25 | |
| 梅花 | 梅花 | 98.39 |
|
|
0.14 | 97.79 | 0.92 | |
|
|
||||||||
| 无畏 | TIMIT | TIMIT | 98.27 | 0.32 |
|
|
99.10 | 0.29 |
| TIMIT | 梅花 | 83.04 | 15.44 | 87.96 | 10.07 |
|
|
|
| 梅花 | TIMIT | 91.89 | 0.06 | 91.84 |
|
|
0.33 | |
| 梅花 | 梅花 | 98.89 |
|
|
|
98.39 | 0.87 | |
像前一节中,多个分类采用二进制后评估。结果显示在图
弱pitch-shifted声音的检出率。(a -<我talic> x我talic>)语音pitch-shifted试镜。(b -<我talic> x我talic>)声音pitch-shifted音频编辑器。(c -<我talic> x我talic>)语音pitch-shifted无畏;<我talic> x代表subfigures在同一列我talic>。(<我talic> y我talic>1)培训和TIMIT TIMIT测试;(<我talic> y我talic>2)培训和梅花TIMIT进行测试。(<我talic> y我talic>3)培训和TIMIT测试的梅花。(<我talic> y我talic>4)测试培训和梅花梅花;<我talic> y代表subfigures在同一行。我talic>
一般来说,在图
因此,两个二进制和多个分类表明,该算法取得了良好的性能和检测中具有较强的鲁棒性弱pitch-shifted声音。
在这篇文章中,一个算法pitch-shifted语音识别算法。卷积神经网络架构设计,采用分类器检测pitch-shifted声音而线性频率cepstral系数与声学特征提取。算法评估两个数据集和三个音频编辑软件。广泛的结果表明,该算法达到更好的检测率和法尔斯在大多数情况下,和提出的网络显示更好的泛化能力比较传统的GMM等分类器。接下来,网络体系结构,可以取代手工制作的声学特性也是一个值得研究的方向。
这项工作中使用的开源数据库中列出的参考。
作者宣称他们没有利益冲突有关的出版。
这项研究是由中国国家自然科学基金资助数字(61300055,61300055);浙江省自然科学基金,资助数量[LY17F020010 LY20F020010];自然科学基金的宁波,格兰特[2017 a610123]和浙江省大学生科技创新训练计划,授予[2018 r405033]。