IJDMB 国际期刊的数字多媒体广播 1687 - 7586 1687 - 7578 Hindawi 10.1155 / 2020/8927031 8927031 研究文章 基于卷积神经网络识别弱Pitch-Shifted声音 https://orcid.org/0000 - 0001 - 9080 - 2290 Yongchao 1 https://orcid.org/0000 - 0003 - 0567 - 2490 老挝 Lingjie 1 https://orcid.org/0000 - 0002 - 5241 - 7276 Diqun 1 2 Rangding 1 翳风 1 电气工程和计算机科学的教授 宁波大学 宁波315211年 中国 nbu.edu.cn 2 广东省重点实验室智能信息处理和深圳媒体安全重点实验室 深圳518060年 中国 2020年 6 1 2020年 2020年 3 06 2019年 12 08年 2019年 22 08年 2019年 6 1 2020年 2020年 版权©2020 Yongchao你们et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

音高变化是一种常见的声音编辑技术,原始数字语音的上调或下调。它可能会被恶意攻击者掩盖他/她的真实身份。现有的法医检测方法对弱pitch-shifted声音不再有效。在本文中,我们提出了一个卷积神经网络(CNN)检测不仅强烈pitch-shifted的声音也弱pitch-shifted转移因子小于±4半音来。具体来说,线性频率cepstral系数(LFCC)计算功率谱被认为是及其动态系数作为区别的特征提取。和CNN模型是精心设计特别注意地图输入功能,激活函数和网络拓扑结构。我们评估了算法上的声音从两个数据集和三个音高变化的软件。广泛的结果表明,该算法实现高检测率为二进制和多个分类。

中国国家自然科学基金 61300055 61672302 浙江省自然科学基金 LY17F020010 LY20F020010 宁波的自然科学基金会 2017年a610123 浙江省大学生科技创新训练计划 2018年r405033
1。介绍</t我tle> <p>声音伪装(<xref ref-type="bibr" rid="B1"> 1</xref>法医场景中)是常用的作为一个有效的隐藏的意思是说话者的身份。它可以分为两类,非电子的伪装和电子伪装。非电子的伪装声音通常是通过捏鼻子,用手捂住嘴,把检查,等,在人类的监督下是很容易被注意到。电子伪装的实现是通过使用电子设备或软件修改音高和格式。</p> <p>电子伪装的最简单的方法是改变目标声音的回放速度。虽然演讲者的身份可以隐藏,伪装的声音的节奏以这种方式生成相对不自然,不是在实践中经常采用的攻击者。音高变化是一个典型的电子伪装技术的音高的声音改变,同时保持时间不变。通常,pitch-shifted声音更自然的音色、音调,等等,并且难以被探测到。在本文中,我们主要关注pitch-shifted声音的识别。</p> <p>克拉克(<xref ref-type="bibr" rid="B2"> 2</xref>)研究了人类的能力区分电子伪装的声音,并定量分析了不同效果不同的搭在人类听觉的声音。吴et al。<xref ref-type="bibr" rid="B3"> 3</xref>- - - - - -<xref ref-type="bibr" rid="B5"> 5</xref>]研究了音高转移机制,构建了一个音高变化数据集各种语音软件/工具。最后检测精度的方法可以达到90%,而使误警率不到10%。然而,弱pitch-shifted声音上的性能相对较差。特别是对于声音转移<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M1"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 4</米米l:mn> </mml:mrow> </mml:math> </inline-formula>半音来,检测率下降低于90%。在[<xref ref-type="bibr" rid="B6"> 6</xref>),环境噪音被认为是确定音高变化。实验结果表明,特征提取的线性(LFCC)和共振峰频率cepstral系数可以有效地判别的自然和pitch-shifted声音。然而,实验结果在弱pitch-shifted声音没有了(<xref ref-type="bibr" rid="B6"> 6</xref>]。</p> <p>最近,一些研究发现弱pitch-shifted声音已报告。基于[<xref ref-type="bibr" rid="B5"> 5</xref>梁,et al。<xref ref-type="bibr" rid="B7"> 7</xref>)关注声音的变化因素<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M2"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 4</米米l:mn> </mml:mrow> </mml:math> </inline-formula>半音来,但提升是有限的。辛格(<xref ref-type="bibr" rid="B8"> 8</xref>)相比,不同的分类器的性能与半音来声音转移<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M3"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 2</米米l:mn> </mml:mrow> </mml:math> </inline-formula>来<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M4"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 10</米米l:mn> </mml:mrow> </mml:math> </inline-formula>。然而,结果上执行一个数据集的语音样本不一致。</p> <p>卷积神经网络(CNN) (<xref ref-type="bibr" rid="B9"> 9</xref>)取得了最先进的性能在计算机视觉中,数据挖掘,以及自动验证。和CNN一直采用音频取证(<xref ref-type="bibr" rid="B10"> 10</xref>,<xref ref-type="bibr" rid="B11"> 11</xref>]。陈等人。<xref ref-type="bibr" rid="B12"> 12</xref>)确定各种音频后期处理操作由CNN。特别是对于小尺寸的声音样本,网络达到显著改善与其他作品进行比较。在[<xref ref-type="bibr" rid="B13"> 13</xref>),与其他手工特性,采用CNN捕获隐修改自适应和超越传统的方法。</p> <p>虽然许多方法已经提出了转移识别,仍有提升空间的性能尤其是weakly-shifted怀疑的声音。在这篇文章中,沥青的CNN模型检测提出了转变。通过分析音高变化的原理,LFCC和一阶导数系数作为识别特征。比较其他相关作品,提出了CNN达到卓越的性能在二进制和多个分类。我们工作的主要贡献是总结如下。<l我年代tl我年代t-type="roman-lower"> <list-item> <label>(我)</label> </list-item> </list></p> <p>实现高精度识别弱pitch-shifted声音。因为原始声音的区别和弱pitch-shifted声音小,识别在以前的工作是一项具有挑战性的任务。</p> <list-item> <label>(2)</label> <p>利用CNN架构确定pitch-shifting声音,提高性能比前一工作。提出了网络体系结构是精心设计的。</p> </list-item> <list-item> <label>(3)</label> <p>大规模的实验进行了两个数据集和三个球场上转移的软件,这表明该方法取得了极大的鲁棒性。</p> </list-item> <p></p> <p>本文的其余部分组织如下。节<xref ref-type="other" rid="sec2"> 2</xref>,我们简要介绍音高变化的原则。部分<xref ref-type="other" rid="sec3"> 3</xref>介绍了识别特性和描述提出了CNN拓扑。节<xref ref-type="other" rid="sec4"> 4</xref>,一系列的实验结果。最后,本文的结论部分<xref ref-type="other" rid="sec5"> 5</xref>。</p> </sec> <sec id="sec2"> <title>2。音高变化</t我tle> <p>音高变化可以在时域或频域进行。时域基音同步叠加(TD-PSOLA)是一种常用的方法是通过窗口(<xref ref-type="bibr" rid="B14"> 14</xref>]。Upsampling达到音高变化通过移动段进一步分开,将采样达到拉近距离。Upsampling可以实现光谱的压缩,降低了。将采样可以实现光谱的扩张,从而提高音调。在现实场景中,更多的技术发展水平语音合成算法应用于音频编辑软件。这些算法有更好的性能在音色和节奏。在我们的工作中,试镜(<xref ref-type="bibr" rid="B15"> 15</xref>),音频编辑器(<xref ref-type="bibr" rid="B16"> 16</xref>和无畏<xref ref-type="bibr" rid="B17"> 17</xref>)认为是音高变化的方法。</p> <p>在本文中,我们使用半音程来测量转向声音的音高。两个音调之间的最小间隔半音程。它被定义为两个相邻音之间的音程的12音量表(<xref ref-type="bibr" rid="B18"> 18</xref>),这意味着频率之间的两个相邻半音来有一个平等的比例<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M5"> <mml:msup> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> <mml:mrow> <mml:mn> 1</米米l:mn> <mml:mo stretchy="false"> /</米米l:mo> <mml:mn> 12</米米l:mn> </mml:mrow> </mml:msup> </mml:math> </inline-formula>。换句话说,如果声音频率是提高或降低<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M6"> <mml:msup> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> <mml:mrow> <mml:mn> 1</米米l:mn> <mml:mo stretchy="false"> /</米米l:mo> <mml:mn> 12</米米l:mn> </mml:mrow> </mml:msup> </mml:math> </inline-formula>次,场上可以提高或降低半音程。让<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M7"> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mn> 0</米米l:mn> </mml:mrow> </mml:msub> </mml:math> </inline-formula>原始的声音的频率,pitch-shifted声音的频率<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M8"> <mml:mi> f</米米l:mi> </mml:math> </inline-formula>由以下公式给出<disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M9"> <mml:mtable> <mml:mlabeledtr id="EEq1"> <mml:mtd> <mml:mtext> (1)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:mi> f</米米l:mi> <mml:mo> =</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mn> 0</米米l:mn> </mml:mrow> </mml:msub> <mml:mo> ×</米米l:mo> <mml:msup> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> <mml:mrow> <mml:mi> 米</米米l:mi> <mml:mo stretchy="true"> /</米米l:mo> <mml:mn> 12</米米l:mn> </mml:mrow> </mml:msup> <mml:mo> ,</米米l:mo> <mml:mspace width="1em"></mml:mspace> <mml:mi> 米</米米l:mi> <mml:mo> =</米米l:mo> <mml:mo> ±</米米l:mo> <mml:mn> 1</米米l:mn> <mml:mo> ,</米米l:mo> <mml:mspace width="0.166667em"></mml:mspace> <mml:mo> ±</米米l:mo> <mml:mn> 2</米米l:mn> <mml:mo> ,</米米l:mo> <mml:mo> …</米米l:mo> <mml:mo> ,</米米l:mo> <mml:mo> ±</米米l:mo> <mml:mn> 11</米米l:mn> <mml:mo> ,</米米l:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>在哪里<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M10"> <mml:mi> 米</米米l:mi> </mml:math> </inline-formula>代表的半音来pitch-shifted相比原来的声音。一个积极的<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M11"> <mml:mi> 米</米米l:mi> </mml:math> </inline-formula>意味着提高声音的音高和消极的手段降低音高的声音。在本文中,我们使用<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M12"> <mml:mi> 米</米米l:mi> </mml:math> </inline-formula>作为转移因素表示pitch-shifted声音。</p> </sec> <sec id="sec3"> <title>3所示。根据CNN的识别算法</t我tle> <sec id="sec3.1"> <title>3.1。特征提取</t我tle> <p>我们随机选择一个声音样本TIMIT [<xref ref-type="bibr" rid="B19"> 19</xref>通过设置声音]数据集和转变<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M13"> <mml:mi> 米</米米l:mi> </mml:math> </inline-formula>在方程(<xref ref-type="disp-formula" rid="EEq1"> 1</xref>)<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M14"> <mml:mrow> <mml:mo> −</米米l:mo> <mml:mn> 4</米米l:mn> </mml:mrow> </mml:math> </inline-formula>和<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M15"> <mml:mrow> <mml:mo> +</米米l:mo> <mml:mn> 4</米米l:mn> </mml:mrow> </mml:math> </inline-formula>分别。原始和pitch-shifted声音的波形和光谱图如图<xref ref-type="fig" rid="fig1"> 1</xref>。如我们所见,转移操作改变了在频域波形小而留下的痕迹。因此,声学特性的频域特征可以应用该算法。</p> <fig-group id="fig1"> <label>图1</label> <p>波形和声谱图的原始语音和pitch-shifted声音。(一)波形;(b)谱图。</p> <fig id="fig1a"> <label>(一)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.001a"></graphic> </fig> <fig id="fig1b"> <label>(b)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.001b"></graphic> </fig> </fig-group> <p>LFCC是一个cepstral特性广泛应用于语音识别和实现显著的性能(<xref ref-type="bibr" rid="B20"> 20.</xref>]。近期作品(<xref ref-type="bibr" rid="B21"> 21</xref>]表明,LFCC可以更有效地捕捉低以及更高的频率比其他cepstral特征系数。因此,在这个工作中,LFCC被认为是提取识别功能。LFCC的提取过程如下。</p> <p>语音信号是第一次预处理pre-emphasized然后视窗化。让<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M16"> <mml:mrow> <mml:mi> 年代</米米l:mi> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> n</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>预处理的声音信号<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M17"> <mml:mrow> <mml:mi> n</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 0</米米l:mn> <mml:mo> ,</米米l:mo> <mml:mn> 1</米米l:mn> <mml:mo> ,</米米l:mo> <mml:mo> …</米米l:mo> <mml:mo> ,</米米l:mo> <mml:mi> N</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:math> </inline-formula>,在那里<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M18"> <mml:mi> N</米米l:mi> </mml:math> </inline-formula>是信号的持续时间。假设频谱<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M19"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 年代</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> k</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>的<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M20"> <mml:mi> 我</米米l:mi> </mml:math> </inline-formula>th语音帧计算短时傅里叶变换(STFT),<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M21"> <mml:mi> k</米米l:mi> </mml:math> </inline-formula>指的是<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M22"> <mml:mi> k</米米l:mi> </mml:math> </inline-formula>th频谱。的功率谱由一组过滤linearly-spaced三角过滤器可以被定义<disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M23"> <mml:mtable> <mml:mlabeledtr id="EEq2"> <mml:mtd> <mml:mtext> (2)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> P</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> <mml:mo> =</米米l:mo> <mml:munderover> <mml:mrow> <mml:mo movablelimits="false"> ∑</米米l:mo> </mml:mrow> <mml:mrow> <mml:mi> k</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 0</米米l:mn> </mml:mrow> <mml:mrow> <mml:mi> N</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:munderover> <mml:msup> <mml:mrow> <mml:mfenced separators="" open="[" close="]"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 年代</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> k</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> </mml:msup> <mml:msub> <mml:mrow> <mml:mi> F</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> k</米米l:mi> </mml:mrow> </mml:mfenced> <mml:mo> ,</米米l:mo> <mml:mspace width="1em"></mml:mspace> <mml:mn> 0</米米l:mn> <mml:mo> ≤</米米l:mo> <mml:mi> l</米米l:mi> <mml:mo> <</米米l:mo> <mml:mi> l</米米l:mi> <mml:mo> ,</米米l:mo> <mml:mn> 0</米米l:mn> <mml:mo> <</米米l:mo> <mml:mi> 我</米米l:mi> <mml:mo> <</米米l:mo> <mml:mi> 米</米米l:mi> <mml:mo> ,</米米l:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>在哪里<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M24"> <mml:mi> l</米米l:mi> </mml:math> </inline-formula>过滤器和数量吗<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M25"> <mml:mi> 米</米米l:mi> </mml:math> </inline-formula>在一个声音样本帧的数量。<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M26"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> F</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> k</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>被定义为<disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M27"> <mml:mtable> <mml:mlabeledtr id="EEq3"> <mml:mtd> <mml:mtext> (3)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:msub> <mml:mi> F</米米l:mi> <mml:mi> l</米米l:mi> </mml:msub> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> k</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mo> =</米米l:mo> <mml:mrow> <mml:mfenced open="{" close=""> <mml:mrow> <mml:mtable> <mml:mtr> <mml:mtd> <mml:mrow> <mml:mfrac> <mml:mrow> <mml:mi> k</米米l:mi> <mml:mo> −</米米l:mo> <mml:mi> o</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mrow> <mml:mrow> <mml:mi> c</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mo> −</米米l:mo> <mml:mi> o</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mrow> </mml:mfrac> </mml:mrow> </mml:mtd> <mml:mtd> <mml:mrow> <mml:mi> o</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mo> ≤</米米l:mo> <mml:mi> k</米米l:mi> <mml:mo> ≤</米米l:mo> <mml:mi> c</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mo> ,</米米l:mo> </mml:mrow> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:mrow> <mml:mfrac> <mml:mrow> <mml:mi> h</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mo> −</米米l:mo> <mml:mi> k</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> h</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mo> −</米米l:mo> <mml:mi> c</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mrow> </mml:mfrac> </mml:mrow> </mml:mtd> <mml:mtd> <mml:mrow> <mml:mi> c</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mo> ≤</米米l:mo> <mml:mi> k</米米l:mi> <mml:mo> ≤</米米l:mo> <mml:mi> h</米米l:mi> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mo> ,</米米l:mo> </mml:mrow> </mml:mtd> </mml:mtr> </mml:mtable> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>在哪里<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M28"> <mml:mrow> <mml:mi> o</米米l:mi> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>,<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M29"> <mml:mrow> <mml:mi> c</米米l:mi> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>和<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M30"> <mml:mrow> <mml:mi> h</米米l:mi> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>最低的频率、中心频率和频率最高<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M31"> <mml:mi> l</米米l:mi> </mml:math> </inline-formula>分别th过滤器。邻近的过滤器<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M32"> <mml:mrow> <mml:mi> c</米米l:mi> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> <mml:mo> =</米米l:mo> <mml:mi> h</米米l:mi> <mml:mfenced separators="" open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:mfenced> <mml:mo> =</米米l:mo> <mml:mi> o</米米l:mi> <mml:mfenced separators="" open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> +</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>。</p> <p>最后,应用基于DCT的能量对数<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M33"> <mml:mi> l</米米l:mi> </mml:math> </inline-formula>过滤器的LFCC计算<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M34"> <mml:mrow> <mml:mi> 年代</米米l:mi> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> n</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula> <disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M35"> <mml:mtable> <mml:mlabeledtr id="EEq4"> <mml:mtd> <mml:mtext> (4)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:msub> <mml:mrow> <mml:mi> C</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:mfenced> <mml:mo> =</米米l:mo> <mml:msqrt> <mml:mfrac> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfrac> </mml:msqrt> <mml:munderover> <mml:mrow> <mml:mo movablelimits="false"> ∑</米米l:mo> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 0</米米l:mn> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:munderover> <mml:mrow> <mml:mtext> 日志</米米l:mtext> <mml:mfenced separators="" open="[" close="]"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> P</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mtext> 因为</米米l:mtext> <mml:mfenced separators="" open="(" close=")"> <mml:mrow> <mml:mfrac> <mml:mrow> <mml:mi> π</米米l:mi> <mml:mi> n</米米l:mi> <mml:mfenced separators="" open="(" close=")"> <mml:mrow> <mml:mn> 2</米米l:mn> <mml:mi> l</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mn> 2</米米l:mn> <mml:mi> l</米米l:mi> </mml:mrow> </mml:mfrac> </mml:mrow> </mml:mfenced> <mml:mo> ,</米米l:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>在哪里<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M36"> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:msub> <mml:mrow> <mml:mi> C</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>是LFCC<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M37"> <mml:mi> 我</米米l:mi> </mml:math> </inline-formula>th坐标系,<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M38"> <mml:mi> j</米米l:mi> </mml:math> </inline-formula>DCT系数的指数。</p> <p>因为大多数球场的转移技术并不完全模型时间特征的声音(<xref ref-type="bibr" rid="B22"> 22</xref>),动态系数,如第一和第二衍生品,可能是有用的在识别pitch-shifted声音。在这项工作中,我们考虑一阶导数,它可能是由<disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M39"> <mml:mtable> <mml:mlabeledtr id="EEq5"> <mml:mtd> <mml:mtext> (5)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:mi> Δ</米米l:mi> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:msub> <mml:mrow> <mml:mi> C</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> =</米米l:mo> <mml:mfrac> <mml:mrow> <mml:msubsup> <mml:mrow> <mml:mo> ∑</米米l:mo> </mml:mrow> <mml:mrow> <mml:mi> n</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> </mml:msubsup> <mml:mi> n</米米l:mi> <mml:mfenced separators="" open="(" close=")"> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:msub> <mml:mrow> <mml:mi> C</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> <mml:mo> +</米米l:mo> <mml:mi> n</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> −</米米l:mo> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:msub> <mml:mrow> <mml:mi> C</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> <mml:mo> −</米米l:mo> <mml:mi> n</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mn> 2</米米l:mn> <mml:msubsup> <mml:mrow> <mml:mo> ∑</米米l:mo> </mml:mrow> <mml:mrow> <mml:mi> n</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> </mml:msubsup> <mml:msup> <mml:mrow> <mml:mi> n</米米l:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfrac> <mml:mo> 。</米米l:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M40"> <mml:mrow> <mml:mi> Δ</米米l:mi> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:msub> <mml:mrow> <mml:mi> C</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>一阶导数系数吗<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M41"> <mml:mi> 我</米米l:mi> </mml:math> </inline-formula>th框架,它的静态计算系数<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M42"> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:msub> <mml:mrow> <mml:mi> C</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> <mml:mo> +</米米l:mo> <mml:mi> n</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>来<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M43"> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:msub> <mml:mrow> <mml:mi> C</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> <mml:mo> −</米米l:mo> <mml:mi> n</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>。一个典型的价值<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M44"> <mml:mi> N</米米l:mi> </mml:math> </inline-formula>是2。</p> </sec> <sec id="sec3.2"> <title>3.2。提出了CNN架构</t我tle> <sec id="sec3.2.1"> <title>3.2.1之上。网络拓扑结构</t我tle> <p>表现出了卷积神经网络的性能在不同的分类任务。它通常由一个输入层,多个隐藏层和输出层。隐藏层网络性能是至关重要的,通常是结合不同的层如卷积层、汇聚层和完整的连接层(<xref ref-type="bibr" rid="B9"> 9</xref>]。</p> <p>提出了网络架构如图<xref ref-type="fig" rid="fig2"> 2</xref>。网络的输入<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M45"> <mml:mrow> <mml:mi> Δ</米米l:mi> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:mi> C</米米l:mi> </mml:mrow> </mml:math> </inline-formula>矩阵,输出是一个预测的标签,这表示怀疑的声音音调移位。整个网络由三个回旋的团体,一个完全连接层和softmax层。在训练阶段,经过特征提取的语音段,<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M46"> <mml:mrow> <mml:mi> Δ</米米l:mi> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:mi> C</米米l:mi> </mml:mrow> </mml:math> </inline-formula>特性矩阵送入网络。矩阵的具体大小取决于每一帧的长度和数量的过滤器。然后经历三个卷积组叠一个接一个。接下来,最后卷积集团是美联储的特征映射到完全连接层。所有的重量值通过反向传播网络将被更新。测试阶段主要是一样的训练阶段。的<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M47"> <mml:mrow> <mml:mi> Δ</米米l:mi> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:mi> C</米米l:mi> </mml:mrow> </mml:math> </inline-formula>特征矩阵的怀疑声音是首先提取并经历了整个网络。softmax作为分类器的网络。</p> <fig id="fig2"> <label>图2</label> <p>提出了CNN的架构。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.002"></graphic> </fig> </sec> <sec id="sec3.2.2"> <title>3.2.2。卷积的组</t我tle> <p>在我们的网络中,每个卷积组包括两个卷积层和一个池层。卷积层由一组线性卷积过滤器可以产生局部特征图。二维卷积层预先形成一个卷积地图上输入特征与特定的内核大小。让<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M48"> <mml:msubsup> <mml:mrow> <mml:mi> x</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:msubsup> </mml:math> </inline-formula>输入特征的地图<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M49"> <mml:mi> 我</米米l:mi> </mml:math> </inline-formula>th神经元在层<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M50"> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:math> </inline-formula>计算、输出特性图<disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M51"> <mml:mtable> <mml:mlabeledtr id="EEq6"> <mml:mtd> <mml:mtext> (6)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:msubsup> <mml:mrow> <mml:mi> y</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:msubsup> <mml:mo> =</米米l:mo> <mml:munder> <mml:mrow> <mml:mo movablelimits="false"> ∑</米米l:mo> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:munder> <mml:msubsup> <mml:mrow> <mml:mi> ω</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> <mml:mo> ,</米米l:mo> <mml:mi> 我</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:msubsup> <mml:mo> ·</米米l:mo> <mml:msubsup> <mml:mrow> <mml:mi> x</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:msubsup> <mml:mo> ,</米米l:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>在哪里<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M52"> <mml:msubsup> <mml:mrow> <mml:mi> y</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:msubsup> </mml:math> </inline-formula>是输出的地图吗<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M53"> <mml:mi> j</米米l:mi> </mml:math> </inline-formula>th神经元在层<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M54"> <mml:mi> l</米米l:mi> </mml:math> </inline-formula>,<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M55"> <mml:msubsup> <mml:mrow> <mml:mi> ω</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> <mml:mo> ,</米米l:mo> <mml:mi> 我</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:msubsup> </mml:math> </inline-formula>之间的权重值吗<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M56"> <mml:mi> j</米米l:mi> </mml:math> </inline-formula>th神经元在层<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M57"> <mml:mi> l</米米l:mi> </mml:math> </inline-formula>和<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M58"> <mml:mi> 我</米米l:mi> </mml:math> </inline-formula>th在前一层神经元<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M59"> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:math> </inline-formula>。所有卷积层使用相同的内核步幅的大小和数量(5<年代up>∗</年代up>5大小,1<年代up>∗</年代up>1步)。自<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M60"> <mml:mrow> <mml:mi> Δ</米米l:mi> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:mi> C</米米l:mi> </mml:mrow> </mml:math> </inline-formula>功能图是一个二维矩阵,在第一组第一卷积层64年有一个输入通道和输出通道,而另一个卷积层都输入通道和输出通道数为64。非线性激活函数可以提高模型的能力通过引入非线性映射到网络。</p> <p>池层采用卷积层后可获得更多全球信息相结合的特征信息提取卷积层。马克斯池在池层是常用的。它是一种将采样操作,选择本地窗口中的最大值作为输出<disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M61"> <mml:mtable> <mml:mlabeledtr id="EEq7"> <mml:mtd> <mml:mtext> (7)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:msubsup> <mml:mrow> <mml:mi> y</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> </mml:mrow> </mml:msubsup> <mml:mo> =</米米l:mo> <mml:mi mathvariant="normal"> 马克斯</米米l:mi> <mml:mspace width="0.166668pt"></mml:mspace> <mml:msubsup> <mml:mrow> <mml:mi> x</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:msubsup> <mml:mo> ,</米米l:mo> <mml:mspace width="1em"></mml:mspace> <mml:msubsup> <mml:mrow> <mml:mi> x</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> l</米米l:mi> <mml:mo> −</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:msubsup> <mml:mo> ∈</米米l:mo> <mml:mi> X</米米l:mi> <mml:mo> ,</米米l:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>在哪里<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M62"> <mml:mi> X</米米l:mi> </mml:math> </inline-formula>是池地区特性映射。的区域被定义为池大小和数量的进步。池层显著减少网络中的参数,地图上输入特性几乎没有影响,从而降低计算成本,防止过度学习。所有max-pooling层使用相同的池大小和数量(2的步伐<年代up>∗</年代up>2尺寸,2<年代up>∗</年代up>2步)。</p> </sec> <sec id="sec3.2.3"> <title>3.2.3。其他部分的网络</t我tle> <p>三个卷积组后,完全连接层网络中充当“分类”地图,可以做高级推理和学习分布式特性表示。神经元完全连接(FC)层连接到所有激活函数在前面的层。然而,过于复杂的网络会降低模型的泛化。辍学是一种简单而有效的正则化技术,以防止过度学习(<xref ref-type="bibr" rid="B23"> 23</xref>]。因此,在我们的网络中,我们退出俱乐部层中的输入神经元的一半。</p> <p>Softmax可以被认为是一个有效的输出竞争的输出表示分类的可能性。因此,其输出的维数表示的类数。让<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M63"> <mml:mi> N</米米l:mi> </mml:math> </inline-formula>类的数量,输入数据的概率<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M64"> <mml:mi> N</米米l:mi> </mml:math> </inline-formula>不同的类将softmax预测的功能<disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M65"> <mml:mtable> <mml:mlabeledtr id="EEq8"> <mml:mtd> <mml:mtext> (8)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:mi> p</米米l:mi> <mml:msub> <mml:mrow> <mml:mfenced open="(" close=")"> <mml:mrow> <mml:mi> z</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> =</米米l:mo> <mml:mfrac> <mml:mrow> <mml:msup> <mml:mrow> <mml:mi> e</米米l:mi> </mml:mrow> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> z</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:msup> </mml:mrow> <mml:mrow> <mml:msubsup> <mml:mrow> <mml:mo> ∑</米米l:mo> </mml:mrow> <mml:mrow> <mml:mi> n</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> </mml:msubsup> <mml:msup> <mml:mrow> <mml:mi> e</米米l:mi> </mml:mrow> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> z</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> n</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfrac> <mml:mspace width="1em"></mml:mspace> <mml:mi> j</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 1</米米l:mn> <mml:mo> ,</米米l:mo> <mml:mo> …</米米l:mo> <mml:mo> ,</米米l:mo> <mml:mi> N</米米l:mi> <mml:mo> ,</米米l:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>在哪里<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M66"> <mml:msub> <mml:mrow> <mml:mi> z</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:msub> </mml:math> </inline-formula>FC的输出层每个类。最后,取决于最大概率预测的标签<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M67"> <mml:mrow> <mml:mtext> 马克斯</米米l:mtext> <mml:mi> p</米米l:mi> </mml:mrow> </mml:math> </inline-formula>。</p> <p>总之,该网络的体系结构和参数如表所示<xref ref-type="table" rid="tab1"> 1</xref>。</p> <table-wrap id="tab1"> <label>表1</label> <p>提出了网络的结构和参数。</p> <table> <thead> <tr> <th align="left">不。</th> <th align="center">层</th> <th align="center">内核大小/神经元数</th> <th align="center">的进步</th> <th align="center">输入通道</th> <th align="center">参数</th> </tr> </thead> <tbody> <tr> <td align="left">1</td> <td align="center">卷积1</td> <td align="center">(5,5)</td> <td align="center">(1,1)</td> <td align="center">1</td> <td align="center">1664年</td> </tr> <tr> <td align="left">2</td> <td align="center">卷积2</td> <td align="center">(5,5)</td> <td align="center">(1,1)</td> <td align="center">64年</td> <td align="center">102464年</td> </tr> <tr> <td align="left">3</td> <td align="center">池1</td> <td align="center">(2,2)</td> <td align="center">(2,2)</td> <td align="center">64年</td> <td align="center">- - - - - -</td> </tr> <tr> <td align="left">4</td> <td align="center">脑回的3</td> <td align="center">(5,5)</td> <td align="center">(1,1)</td> <td align="center">64年</td> <td align="center">102464年</td> </tr> <tr> <td align="left">5</td> <td align="center">脑回的4</td> <td align="center">(5,5)</td> <td align="center">(1,1)</td> <td align="center">64年</td> <td align="center">102464年</td> </tr> <tr> <td align="left">6</td> <td align="center">池2</td> <td align="center">(2,2)</td> <td align="center">(2,2)</td> <td align="center">64年</td> <td align="center">- - - - - -</td> </tr> <tr> <td align="left">7</td> <td align="center">卷积5</td> <td align="center">(5,5)</td> <td align="center">(1,1)</td> <td align="center">64年</td> <td align="center">102464年</td> </tr> <tr> <td align="left">8</td> <td align="center">卷积6</td> <td align="center">(5,5)</td> <td align="center">(1,1)</td> <td align="center">64年</td> <td align="center">102464年</td> </tr> <tr> <td align="left">9</td> <td align="center">池3</td> <td align="center">(2,2)</td> <td align="center">(2,2)</td> <td align="center">64年</td> <td align="center">- - - - - -</td> </tr> <tr> <td align="left">10</td> <td align="center">平</td> <td align="center">2496年</td> <td align="center">- - - - - -</td> <td align="center">- - - - - -</td> <td align="center">- - - - - -</td> </tr> <tr> <td align="left">11</td> <td align="center">完全连接</td> <td align="center">4096年</td> <td align="center">- - - - - -</td> <td align="center">- - - - - -</td> <td align="center">1.02 107∗</td> </tr> <tr> <td align="left">12</td> <td align="center">Softmax</td> <td align="center"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M68"> <mml:mi> N</米米l:mi> </mml:math> </inline-formula><sup>1</年代up></td> <td align="center">- - - - - -</td> <td align="center">- - - - - -</td> <td align="center">4096∗<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M69"> <mml:mi> N</米米l:mi> </mml:math> </inline-formula></td> </tr> </tbody> </table> <table-wrap-foot> <fn> <p><sup>1</年代up> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M70"> <mml:mi> N</米米l:mi> </mml:math> </inline-formula>取决于具体的类的数量。</p> </fn> </table-wrap-foot> </table-wrap> </sec> </sec> <sec id="sec3.3"> <title>3.3。提出了Pitch-Shifted语音识别算法</t我tle> <p>提出的识别算法是基于LFCC和CNN的一阶导数分类器。和一群相当于分布式三角过滤器,LFCC可以捕获更多的特征在低频和高频比较与其他声学特性如MFCC。因此,区别原始语音和pitch-shifting声音更容易区别。CNN是多层分类任务过程中具有更好的性能,用更少的时间和二次抽样层给更好的特征提取。该算法由训练和测试阶段,如图<xref ref-type="fig" rid="fig3"> 3</xref>。</p> <fig id="fig3"> <label>图3</label> <p>图的pitch-shifting识别算法。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.003"></graphic> </fig> <p>在训练阶段,声音pitch-shifted不同因素和原始的声音被认为是作为单独的类。提取后的一阶导数LFCC基于方程(<xref ref-type="disp-formula" rid="EEq5"> 5</xref>),功能图和标签一起被送入网络培训。</p> <p>在测试阶段,LFCC的一阶导数是首先提取,然后送入训练CNN模型。的概率softmax在方程(<xref ref-type="disp-formula" rid="EEq8"> 8</xref>)揭示了声音更可能是最初的一个或半音程的转移。</p> </sec> </sec> <sec id="sec4"> <title>4所示。结果与讨论</t我tle> <sec id="sec4.1"> <title>4.1。实验设置</t我tle> <p>在实验中,该算法评估TIMIT (<xref ref-type="bibr" rid="B19"> 19</xref>和梅花<xref ref-type="bibr" rid="B24"> 24</xref>]。TIMIT包括6300个声音样本630人3 s的平均持续时间。,变成了三个不同的sub-datasets使用试镜,音频编辑器,分别和无畏,每个包含16个变化因素<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M71"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:math> </inline-formula>半音来来<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M72"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 8</米米l:mn> </mml:mrow> </mml:math> </inline-formula>半音来。因此,完全有100800个声音样本在每个sub-dataset TIMIT。同样,梅花由4040 202扬声器声音样本的平均持续时间5 s。TIMIT梅花分别变成了三个sub-datasets,每个由64640的声音样本。在每个sub-dataset, 60%的声音样本是随机选择的训练数据集,20%样品验证数据集,剩下的20%样品测试数据集。演讲者的身份不被认为是同时分裂,两个数据集来自不同的扬声器。因此,数据集应该是演讲者独立。那些声音和样品转移因子小于<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M73"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 4</米米l:mn> </mml:mrow> </mml:math> </inline-formula>半音来视为弱pitch-shifted,而其他人则强烈pitch-shifted。所有的声音样本数据集都是WAV, 16千赫采样率,16位量化和mono。</p> <p>对于每一个声音样本,20维LFCC特性提取地图通过设置帧的长度<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M74"> <mml:mi> N</米米l:mi> </mml:math> </inline-formula>到256年,过滤器的数量<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M75"> <mml:mi> l</米米l:mi> </mml:math> </inline-formula>在方程(20<xref ref-type="disp-formula" rid="EEq2"> 2</xref>)。在[<xref ref-type="bibr" rid="B6"> 6</xref>],LFCC与支持向量机分类器实现了伟大的鲁棒性检测伪装声音嘈杂的环境。在我们的工作中,GMM分类器作为比较,其中GMM内核的数量设置为256。</p> <p>检测率是用来评估提出了网络的性能。让<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M76"> <mml:msub> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> p</米米l:mi> </mml:mrow> </mml:msub> </mml:math> </inline-formula>pitch-shifted声音样本的数量和<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M77"> <mml:msub> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> o</米米l:mi> </mml:mrow> </mml:msub> </mml:math> </inline-formula>是原始的声音样本的数量。假设<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M78"> <mml:msubsup> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> p</米米l:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</米米l:mo> </mml:mrow> </mml:msubsup> </mml:math> </inline-formula>和<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M79"> <mml:msubsup> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> o</米米l:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</米米l:mo> </mml:mrow> </mml:msubsup> </mml:math> </inline-formula>是声音样本pitch-shifted确认为pitch-shifted声音和原始声音。检测率被定义为<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M80"> <mml:mrow> <mml:msubsup> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> p</米米l:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</米米l:mo> </mml:mrow> </mml:msubsup> <mml:mo stretchy="false"> /</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> p</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>。与此同时,一场虚惊声纹认证系统的最严重的错误在某种程度上。因此,除了使用检出率来评估该算法,我们还考虑了假警报率(远)是测试阶段。被定义为<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M81"> <mml:mrow> <mml:msubsup> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> o</米米l:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</米米l:mo> </mml:mrow> </mml:msubsup> <mml:mo stretchy="false"> /</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> N</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> o</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>。</p> </sec> <sec id="sec4.2"> <title>4.2。CNN的培训</t我tle> <p>摘要双曲正切和激活函数提出了网络中使用。我们使用亚当算法(<xref ref-type="bibr" rid="B25"> 25</xref>),最初学习速率的0.0001加速训练。提出了网络训练了2000次迭代的批量大小32。培训过程呈现在图<xref ref-type="fig" rid="fig4"> 4</xref>,它显示了该网络既不是过度拟合也不是underfitting。</p> <fig-group id="fig4"> <label>图4</label> <p>提出了网络的训练过程。</p> <fig id="fig4a"> <label>(一)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.004a"></graphic> </fig> <fig id="fig4b"> <label>(b)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.004b"></graphic> </fig> </fig-group> <p> <italic> t</我talic>分布式随机邻居嵌入(<我talic> t</我talic>新力)是一种降维方法试图将低维空间中的对象以最佳保护社区的身份。它特别适合高维数据的可视化<xref ref-type="bibr" rid="B26"> 26</xref>等)的输出特征图卷积层。</p> <p>我们随机选择100的声音样本的每个sub-dataset TIMIT转移的变化因素<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M82"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:math> </inline-formula>半音来来<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M83"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 4</米米l:mn> </mml:mrow> </mml:math> </inline-formula>半音来试镜。每个样本分别送入训练网络,记录和卷积的输出特性映射层。图<xref ref-type="fig" rid="fig5"> 5</xref>显示四个特征图使用的可视化结果<我talic> t</我talic>新力。的过程数据<xref ref-type="fig" rid="fig5"> 5</xref>(一)<xref ref-type="fig" rid="fig5"> 5</xref>(d)演示了该网络可以捕获原始语音和声音的区别pitch-shifted与不同的因素。在图<xref ref-type="fig" rid="fig5"> 5</xref>(a),所有的声音样本混合在一起,这表明特征由一阶导数LFCC更相关的声音本身而不是pitch-shifting因素。在图<xref ref-type="fig" rid="fig5"> 5</xref>(d),同一个类的样本集中,这表明,经过训练的网络可以实现两个二进制和多个分类。</p> <fig-group id="fig5"> <label>图5</label> <p>不同特性的可视化地图<我talic> t</我talic>新力。(一)LFCC的一阶导数。(b)首次在CNN Conv组地图输出特性。(b)输出特性第二Conv集团在CNN的地图。(c)去年Conv集团在CNN地图输出特性。</p> <fig id="fig5a"> <label>(一)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.005a"></graphic> </fig> <fig id="fig5b"> <label>(b)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.005b"></graphic> </fig> <fig id="fig5c"> <label>(c)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.005c"></graphic> </fig> <fig id="fig5d"> <label>(d)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.005d"></graphic> </fig> </fig-group> </sec> <sec id="sec4.3"> <title>4.3。强烈Pitch-Shifted</t我tle> <p>在这种情况下,作为对比(<xref ref-type="bibr" rid="B6"> 6</xref>]和[<xref ref-type="bibr" rid="B8"> 8</xref>],我们强烈关注的声音从±5因素转向±8半音来。首先,我们试图确定是否原始或pitch-shifted怀疑的声音。所有pitch-shifted声音(±5转向±8半音来)在二进制分类作为负样本。在现实司法场景,pitch-shifted声音可以记录下各种设备在不同的环境中。因此,cross-dataset实验是必要的和重要的。这种情况下的检测率和法尔斯在表<xref ref-type="table" rid="tab2"> 2</xref>。</p> <table-wrap id="tab2"> <label>表2</label> <p>强烈pitch-shifted声音在二进制分类的检测性能。</p> <table> <thead> <tr> <th align="left" rowspan="3">音高变化软件</th> <th align="center" rowspan="3">训练数据集</th> <th align="center" rowspan="3">测试数据集</th> <th align="center" colspan="6">检测方法</th> </tr> <tr> <th align="center" colspan="2">(<xref ref-type="bibr" rid="B6"> 6</xref>]LFCC + GMM</th> <th align="center" colspan="2">(<xref ref-type="bibr" rid="B8"> 8</xref>]MFCC + GMM</th> <th align="center" colspan="2">提出了</th> </tr> <tr> <th align="center">率</th> <th align="center">远</th> <th align="center">率</th> <th align="center">远</th> <th align="center">率</th> <th align="center">远</th> </tr> </thead> <tbody> <tr> <td align="left" rowspan="4">试镜</td> <td align="center">TIMIT</td> <td align="center">TIMIT</td> <td align="center">99.86</td> <td align="center">0.02</td> <td align="center"> <bold> 99.88</bold></td> <td align="center"> <bold> 0.02</bold></td> <td align="center">99.54</td> <td align="center">0.10</td> </tr> <tr> <td align="center">TIMIT</td> <td align="center">梅花</td> <td align="center">97.60</td> <td align="center"> <bold> 1.10</bold></td> <td align="center"> <bold> 98.06</bold></td> <td align="center">1.19</td> <td align="center">95.89</td> <td align="center">1.52</td> </tr> <tr> <td align="center">梅花</td> <td align="center">TIMIT</td> <td align="center"> <bold> 99.52</bold></td> <td align="center">0.36</td> <td align="center">98.58</td> <td align="center"> <bold> 0.02</bold></td> <td align="center">97.51</td> <td align="center">1.45</td> </tr> <tr> <td align="center">梅花</td> <td align="center">梅花</td> <td align="center"> <bold> 99.79</bold></td> <td align="center">0.15</td> <td align="center"> <bold> 99.79</bold></td> <td align="center"> <bold> 0.12</bold></td> <td align="center">99.49</td> <td align="center"> <bold> 0.12</bold></td> </tr> <tr> <td colspan="9"> <hr></td> </tr> <tr> <td align="left" rowspan="4">音频编辑器</td> <td align="center">TIMIT</td> <td align="center">TIMIT</td> <td align="center"> <bold> 99.97</bold></td> <td align="center"> <bold> 0.00</bold></td> <td align="center">99.94</td> <td align="center">0.01</td> <td align="center">99.58</td> <td align="center">0.05</td> </tr> <tr> <td align="center">TIMIT</td> <td align="center">梅花</td> <td align="center"> <bold> 97.93</bold></td> <td align="center"> <bold> 0.75</bold></td> <td align="center">96.82</td> <td align="center">2.04</td> <td align="center">96.29</td> <td align="center">1.53</td> </tr> <tr> <td align="center">梅花</td> <td align="center">TIMIT</td> <td align="center"> <bold> 99.72</bold></td> <td align="center">0.05</td> <td align="center">98.45</td> <td align="center"> <bold> 0.01</bold></td> <td align="center">98.44</td> <td align="center">1.17</td> </tr> <tr> <td align="center">梅花</td> <td align="center">梅花</td> <td align="center"> <bold> 99.87</bold></td> <td align="center"> <bold> 0.02</bold></td> <td align="center">99.70</td> <td align="center">0.07</td> <td align="center">99.12</td> <td align="center">0.36</td> </tr> <tr> <td colspan="9"> <hr></td> </tr> <tr> <td align="left" rowspan="4">无畏</td> <td align="center">TIMIT</td> <td align="center">TIMIT</td> <td align="center"> <bold> 99.98</bold></td> <td align="center"> <bold> 0.00</bold></td> <td align="center">99.97</td> <td align="center"> <bold> 0.00</bold></td> <td align="center">99.97</td> <td align="center"> <bold> 0.00</bold></td> </tr> <tr> <td align="center">TIMIT</td> <td align="center">梅花</td> <td align="center">99.13</td> <td align="center">0.44</td> <td align="center">97.57</td> <td align="center">2.10</td> <td align="center"> <bold> 99.78</bold></td> <td align="center"> <bold> 0.07</bold></td> </tr> <tr> <td align="center">梅花</td> <td align="center">TIMIT</td> <td align="center"> <bold> 99.97</bold></td> <td align="center">0.01</td> <td align="center">98.72</td> <td align="center"> <bold> 0.00</bold></td> <td align="center">99.96</td> <td align="center">0.01</td> </tr> <tr> <td align="center">梅花</td> <td align="center">梅花</td> <td align="center"> <bold> 99.97</bold></td> <td align="center"> <bold> 0.00</bold></td> <td align="center">99.95</td> <td align="center"> <bold> 0.00</bold></td> <td align="center">99.84</td> <td align="center">0.11</td> </tr> </tbody> </table> <table-wrap-foot> <fn> <p>大胆的值代表了最佳性能相同的情况下(在同一行)的三个方法。标准检出率(率)、更高更好。标准误警率(远),降低更好。</p> </fn> </table-wrap-foot> </table-wrap> <p>可以看出,所有的检测方法实现检出率高于95%,远低于2%。该方法在<xref ref-type="bibr" rid="B6"> 6</xref>)执行的二进制分类,因为它达到检出率最高,最低在大多数情况下。尽管该方法不执行以及[<xref ref-type="bibr" rid="B6"> 6</xref>]和[<xref ref-type="bibr" rid="B8"> 8</xref>),检出率和法尔斯的差距不到1%。这些小差异可能对检测性能的影响不大。</p> <p>与二进制分类相比,多个分类为真正的法医应用程序更实用。在这种情况下,我们不仅认识到是否pitch-shifted怀疑的声音,但也决定了特定的转移因子。结果呈现在图<xref ref-type="fig" rid="fig6"> 6</xref>。首先,正如我们可以看到从图<xref ref-type="fig" rid="fig6"> 6</xref>和负面因素,声音转移的检出率高于那些积极因素。这一现象的主要原因是,将采样(提高音调)将放大带来的噪声的频谱,而upsampling压缩频谱。其次,不同的音高变化软件对检测性能的影响。该方法仍然稳定而其他波动很大。最后,cross-dataset评价检测率明显下降,尤其是对一些特定的半音来低于50% (<xref ref-type="bibr" rid="B6"> 6</xref>]和[<xref ref-type="bibr" rid="B8"> 8</xref>]。可以看出;方法的检测率仍高于60%时在任何情况下交叉训练集和测试集。因此,对于那些强烈pitch-shifted声音,与存在的方法相比,该方法通常达到相同的二进制分类和显示更多的表现在多个分类泛化能力。</p> <fig id="fig6"> <label>图6</label> <p>强烈pitch-shifted声音的检出率。(a -<我talic> x</我talic>)语音pitch-shifted试镜。(b -<我talic> x</我talic>)声音pitch-shifted音频编辑器。(c -<我talic> x</我talic>)语音pitch-shifted无畏;<我talic> x代表subfigures在同一列</我talic>。(<我talic> y</我talic>1)培训和TIMIT TIMIT进行测试。(<我talic> y</我talic>2)培训和梅花TIMIT进行测试。(<我talic> y</我talic>3)培训和TIMIT测试的梅花。(<我talic> y</我talic>4)测试培训和梅花梅花;<我talic> y代表subfigures在同一行。</我talic></p> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.006"></graphic> </fig> </sec> <sec id="sec4.4"> <title>4.4。弱Pitch-Shifted</t我tle> <p>在这种情况下,我们关注从弱pitch-shifted样本<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M84"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:math> </inline-formula>来<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M85"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 4</米米l:mn> </mml:mrow> </mml:math> </inline-formula>半音来检测更具挑战性。像节<xref ref-type="other" rid="sec4.2"> 4.2</xref>,首先使用二进制分类评估pitch-shifted语音负样本。检测率和法尔斯如表所示<xref ref-type="table" rid="tab3"> 3</xref>。与那些强烈pitch-shifted声音相比,所有检测方法的性能下降。但是,与表<xref ref-type="table" rid="tab2"> 2</xref>,该方法执行最好的表<xref ref-type="table" rid="tab3"> 3</xref>。实现最低检出率最高,在大多数情况下。虽然在intra-dataset性能下降一点,该方法达到显著改善cross-dataset评估。检测率仍然高于93%在任何情况下其他人则下降低于88%。这种现象可以归因于因素,LFCC和MFCC主要集中在静态特性更相关的语音特点,<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M86"> <mml:mrow> <mml:mi> Δ</米米l:mi> <mml:mi> l</米米l:mi> <mml:mi> F</米米l:mi> <mml:mi> C</米米l:mi> <mml:mi> C</米米l:mi> </mml:mrow> </mml:math> </inline-formula>捕捉动态特性更相关的变化的痕迹。</p> <table-wrap id="tab3"> <label>表3</label> <p>检测弱pitch-shifted声音二进制分类的性能。</p> <table> <thead> <tr> <th align="left" rowspan="3">音高变化软件</th> <th align="center" rowspan="3">训练数据集</th> <th align="center" rowspan="3">测试数据集</th> <th align="center" colspan="6">检测方法</th> </tr> <tr> <th align="center" colspan="2">(<xref ref-type="bibr" rid="B6"> 6</xref>]LFCC + GMM</th> <th align="center" colspan="2">(<xref ref-type="bibr" rid="B8"> 8</xref>]MFCC + GMM</th> <th align="center" colspan="2">提出了</th> </tr> <tr> <th align="center">率</th> <th align="center">远</th> <th align="center">率</th> <th align="center">远</th> <th align="center">率</th> <th align="center">远</th> </tr> </thead> <tbody> <tr> <td align="left" rowspan="4">试镜</td> <td align="center">TIMIT</td> <td align="center">TIMIT</td> <td align="center">98.11</td> <td align="center">0.83</td> <td align="center">97.29</td> <td align="center">1.34</td> <td align="center"> <bold> 98.72</bold></td> <td align="center"> <bold> 0.70</bold></td> </tr> <tr> <td align="center">TIMIT</td> <td align="center">梅花</td> <td align="center">92.95</td> <td align="center">5.50</td> <td align="center">93.25</td> <td align="center"> <bold> 1.67</bold></td> <td align="center"> <bold> 96.83</bold></td> <td align="center">1.84</td> </tr> <tr> <td align="center">梅花</td> <td align="center">TIMIT</td> <td align="center">96.72</td> <td align="center"> <bold> 0.47</bold></td> <td align="center">95.21</td> <td align="center">1.72</td> <td align="center"> <bold> 97.26</bold></td> <td align="center">0.52</td> </tr> <tr> <td align="center">梅花</td> <td align="center">梅花</td> <td align="center">97.70</td> <td align="center">0.88</td> <td align="center"> <bold> 97.82</bold></td> <td align="center"> <bold> 0.64</bold></td> <td align="center">96.82</td> <td align="center">0.91</td> </tr> <tr> <td colspan="9"> <hr></td> </tr> <tr> <td align="left" rowspan="4">音频编辑器</td> <td align="center">TIMIT</td> <td align="center">TIMIT</td> <td align="center">97.92</td> <td align="center">0.68</td> <td align="center"> <bold> 98.93</bold></td> <td align="center"> <bold> 0.42</bold></td> <td align="center">98.14</td> <td align="center">1.47</td> </tr> <tr> <td align="center">TIMIT</td> <td align="center">梅花</td> <td align="center">82.86</td> <td align="center">14.60</td> <td align="center">91.56</td> <td align="center"> <bold> 4.64</bold></td> <td align="center"> <bold> 92.98</bold></td> <td align="center">5.95</td> </tr> <tr> <td align="center">梅花</td> <td align="center">TIMIT</td> <td align="center">92.58</td> <td align="center"> <bold> 0.13</bold></td> <td align="center">93.93</td> <td align="center">0.25</td> <td align="center"> <bold> 96.84</bold></td> <td align="center">1.25</td> </tr> <tr> <td align="center">梅花</td> <td align="center">梅花</td> <td align="center">98.39</td> <td align="center"> <bold> 0.08</bold></td> <td align="center"> <bold> 98.78</bold></td> <td align="center">0.14</td> <td align="center">97.79</td> <td align="center">0.92</td> </tr> <tr> <td colspan="9"> <hr></td> </tr> <tr> <td align="left" rowspan="4">无畏</td> <td align="center">TIMIT</td> <td align="center">TIMIT</td> <td align="center">98.27</td> <td align="center">0.32</td> <td align="center"> <bold> 99.55</bold></td> <td align="center"> <bold> 0.06</bold></td> <td align="center">99.10</td> <td align="center">0.29</td> </tr> <tr> <td align="center">TIMIT</td> <td align="center">梅花</td> <td align="center">83.04</td> <td align="center">15.44</td> <td align="center">87.96</td> <td align="center">10.07</td> <td align="center"> <bold> 94.25</bold></td> <td align="center"> <bold> 4.05</bold></td> </tr> <tr> <td align="center">梅花</td> <td align="center">TIMIT</td> <td align="center">91.89</td> <td align="center">0.06</td> <td align="center">91.84</td> <td align="center"> <bold> 0.03</bold></td> <td align="center"> <bold> 98.12</bold></td> <td align="center">0.33</td> </tr> <tr> <td align="center">梅花</td> <td align="center">梅花</td> <td align="center">98.89</td> <td align="center"> <bold> 0.09</bold></td> <td align="center"> <bold> 99.30</bold></td> <td align="center"> <bold> 0.09</bold></td> <td align="center">98.39</td> <td align="center">0.87</td> </tr> </tbody> </table> </table-wrap> <p>像前一节中,多个分类采用二进制后评估。结果显示在图<xref ref-type="fig" rid="fig7"> 7</xref>揭示了该方法性能弱pitch-shifted语音形式<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M87"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:math> </inline-formula>来<我nl我ne-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M88"> <mml:mrow> <mml:mo> ±</米米l:mo> <mml:mn> 4</米米l:mn> </mml:mrow> </mml:math> </inline-formula>半音来。</p> <fig id="fig7"> <label>图7</label> <p>弱pitch-shifted声音的检出率。(a -<我talic> x</我talic>)语音pitch-shifted试镜。(b -<我talic> x</我talic>)声音pitch-shifted音频编辑器。(c -<我talic> x</我talic>)语音pitch-shifted无畏;<我talic> x代表subfigures在同一列</我talic>。(<我talic> y</我talic>1)培训和TIMIT TIMIT测试;(<我talic> y</我talic>2)培训和梅花TIMIT进行测试。(<我talic> y</我talic>3)培训和TIMIT测试的梅花。(<我talic> y</我talic>4)测试培训和梅花梅花;<我talic> y代表subfigures在同一行。</我talic></p> <graphic xlink:href="//www.newsama.com/downloads/journals/ijdmb/2020/8927031.fig.007"></graphic> </fig> <p>一般来说,在图<xref ref-type="fig" rid="fig7"> 7</xref>同样的趋势如图<xref ref-type="fig" rid="fig6"> 6</xref>,提高沥青仍很难发现而降低。并指出波动检测率当使用不同的音高变化软件仍然是不可避免的。第一行和最后一行图<xref ref-type="fig" rid="fig7"> 7</xref>表明intra-dataset结果,该方法的检测率高于90%在大多数情况下,而另一些则大大影响不同螺距改变软件甚至下降低于60%。2<年代up>nd</年代up>和3<年代up>理查德·道金斯</年代up>行显示cross-dataset结果,特别是对于一些特定的半音来,(<xref ref-type="bibr" rid="B6"> 6</xref>]和[<xref ref-type="bibr" rid="B8"> 8</xref>)低于20%。提出的方法仍然是一个最坏情况下的稳定性能~ 60% ~ 80%,大多数情况下。</p> <p>因此,两个二进制和多个分类表明,该算法取得了良好的性能和检测中具有较强的鲁棒性弱pitch-shifted声音。</p> </sec> </sec> <sec id="sec5"> <title>5。结论</t我tle> <p>在这篇文章中,一个算法pitch-shifted语音识别算法。卷积神经网络架构设计,采用分类器检测pitch-shifted声音而线性频率cepstral系数与声学特征提取。算法评估两个数据集和三个音频编辑软件。广泛的结果表明,该算法达到更好的检测率和法尔斯在大多数情况下,和提出的网络显示更好的泛化能力比较传统的GMM等分类器。接下来,网络体系结构,可以取代手工制作的声学特性也是一个值得研究的方向。</p> </sec> <back> <sec sec-type="data-availability"> <title>数据可用性</t我tle> <p>这项工作中使用的开源数据库中列出的参考。</p> <p></p> </sec> <sec> <title>的利益冲突</t我tle> <p>作者宣称他们没有利益冲突有关的出版。</p> </sec> <ack> <title>确认</t我tle> <p>这项研究是由中国国家自然科学基金资助数字(61300055,61300055);浙江省自然科学基金,资助数量[LY17F020010 LY20F020010];自然科学基金的宁波,格兰特[2017 a610123]和浙江省大学生科技创新训练计划,授予[2018 r405033]。</p> </ack> <ref-list> <ref id="B1" content-type="incollection"> <label>1</label> <element-citation publication-type="book"> <person-group person-group-type="author"> <name> <surname> Perrot</年代urname> <given-names> P。</given-names> </name> <name> <surname> Aversano</年代urname> <given-names> G。</given-names> </name> <name> <surname> Chollet</年代urname> <given-names> G。</given-names> </name> </person-group> <article-title> 声音伪装和自动检测:评论和观点</article-title> <source> <italic> 非线性语音处理的进展(在计算机科学课堂讲稿)</我talic> <year> 2007年</year> <publisher-loc> 纽约,纽约,美国</publisher-loc> <publisher-name> 斯普林格出版社</publisher-name> <fpage> 101年</fpage> <lpage> 117年</lpage> <pub-id pub-id-type="doi"> 10.1007 / 978 - 3 - 540 - 71505 - 4 - _7</pub-id> </element-citation> </ref> <ref id="B2" content-type="article"> <label>2</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 克拉克</年代urname> <given-names> J。</given-names> </name> <name> <surname> 福尔</年代urname> <given-names> P。</given-names> </name> </person-group> <article-title> 声音的识别电子伪装的演讲</article-title> <source> <italic> 国际杂志》的演讲中,语言和法律</我talic> <year> 2007年</year> <volume> 14</volume> <issue> 2</我年代年代ue> <fpage> 195年</fpage> <lpage> 221年</lpage> <pub-id pub-id-type="doi"> 10.1558 / ijsll.v14i2.195</pub-id> </element-citation> </ref> <ref id="B3" content-type="book"> <label>3</label> <element-citation publication-type="book"> <person-group person-group-type="author"> <name> <surname> 王</年代urname> <given-names> Y。</given-names> </name> <name> <surname> 邓</年代urname> <given-names> Y。</given-names> </name> <name> <surname> 吴</年代urname> <given-names> H。</given-names> </name> <name> <surname> 黄</年代urname> <given-names> J。</given-names> </name> </person-group> <source> <italic> 盲检测的电子声音转换与自然的伪装</我talic> <year> 2013年</year> <publisher-loc> 柏林,海德堡</publisher-loc> <publisher-name> 施普林格</publisher-name> </element-citation> </ref> <ref id="B4" content-type="inproceedings"> <label>4</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 吴</年代urname> <given-names> H。</given-names> </name> <name> <surname> 王</年代urname> <given-names> Y。</given-names> </name> <name> <surname> 黄</年代urname> <given-names> J。</given-names> </name> </person-group> <article-title> 盲检测电子伪装的声音</article-title> <conf-name> 2013年IEEE国际会议音响、演讲和信号处理</conf-name> <conf-date> 2013年</conf-date> <conf-loc> 加拿大的温哥华BC</conf-loc> <publisher-name> IEEE</publisher-name> <fpage> 3013年</fpage> <lpage> 3017年</lpage> <pub-id pub-id-type="doi"> 10.1109 / ICASSP.2013.6638211</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84890531940</pub-id> </element-citation> </ref> <ref id="B5" content-type="article"> <label>5</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 吴</年代urname> <given-names> H。</given-names> </name> <name> <surname> 王</年代urname> <given-names> Y。</given-names> </name> <name> <surname> 黄</年代urname> <given-names> J。</given-names> </name> </person-group> <article-title> 电子伪装声音的识别</article-title> <source> <italic> IEEE取证和安全信息</我talic> <year> 2014年</year> <volume> 9</volume> <issue> 3</我年代年代ue> <fpage> 489年</fpage> <lpage> 500年</lpage> <pub-id pub-id-type="doi"> 10.1109 / TIFS.2014.2301912</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84896829242</pub-id> </element-citation> </ref> <ref id="B6" content-type="incollection"> <label>6</label> <element-citation publication-type="book"> <person-group person-group-type="author"> <name> <surname> 曹</年代urname> <given-names> W。</given-names> </name> <name> <surname> 王</年代urname> <given-names> H。</given-names> </name> <name> <surname> 赵</年代urname> <given-names> H。</given-names> </name> <name> <surname> 钱</年代urname> <given-names> Q。</given-names> </name> <name> <surname> 阿卜杜拉希</年代urname> <given-names> s M。</given-names> </name> </person-group> <person-group person-group-type="editor"> <name> <surname> 史</年代urname> <given-names> Y。</given-names> </name> <name> <surname> 金</年代urname> <given-names> H。</given-names> </name> <name> <surname> Perez-Gonzalez</年代urname> <given-names> F。</given-names> </name> <name> <surname> 刘</年代urname> <given-names> F。</given-names> </name> </person-group> <article-title> 在嘈杂的环境中识别电子伪装的声音</article-title> <source> <italic> 数字取证和水印。IWDW 2016。在计算机科学的课堂讲稿</我talic> <year> 2017年</year> <volume> 10082年</volume> <publisher-loc> 可汗</publisher-loc> <publisher-name> 施普林格</publisher-name> <fpage> 75年</fpage> <lpage> 87年</lpage> <pub-id pub-id-type="doi"> 10.1007 / 978 - 3 - 319 - 53465 - 7 - _6</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85013380438</pub-id> </element-citation> </ref> <ref id="B7" content-type="inproceedings"> <label>7</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 梁</年代urname> <given-names> H。</given-names> </name> <name> <surname> 林</年代urname> <given-names> X。</given-names> </name> <name> <surname> 张</年代urname> <given-names> Q。</given-names> </name> <name> <surname> 康</年代urname> <given-names> X。</given-names> </name> </person-group> <article-title> 利用卷积神经网络识别欺骗的声音</article-title> <conf-name> 2017年IEEE全球信号与信息处理(GlobalSIP)会议</conf-name> <conf-date> 2017年</conf-date> <publisher-loc> 蒙特利尔,质量控制</publisher-loc> <publisher-name> IEEE</publisher-name> <fpage> 293年</fpage> <lpage> 297年</lpage> </element-citation> </ref> <ref id="B8" content-type="article"> <label>8</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 辛格</年代urname> <given-names> m·K。</given-names> </name> <name> <surname> 辛格</年代urname> <given-names> 答:K。</given-names> </name> <name> <surname> 辛格</年代urname> <given-names> N。</given-names> </name> </person-group> <article-title> 多媒体分析伪装声音和分类效率</article-title> <source> <italic> 多媒体工具和应用程序</我talic> <year> 2018年</year> <fpage> 1</fpage> <lpage> 17</lpage> <pub-id pub-id-type="doi"> 10.1007 / s11042 - 018 - 6718 - 6</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85054392212</pub-id> </element-citation> </ref> <ref id="B9" content-type="article"> <label>9</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 勒存</年代urname> <given-names> Y。</given-names> </name> <name> <surname> Bottou</年代urname> <given-names> l</given-names> </name> <name> <surname> Bengio</年代urname> <given-names> Y。</given-names> </name> <name> <surname> Haffner</年代urname> <given-names> P。</given-names> </name> </person-group> <article-title> Gradient-based学习应用于文档识别</article-title> <source> <italic> IEEE学报》</我talic> <year> 1998年</year> <volume> 86年</volume> <issue> 11</我年代年代ue> <fpage> 2278年</fpage> <lpage> 2324年</lpage> <pub-id pub-id-type="doi"> 10.1109/5.726791</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 0032203257</pub-id> </element-citation> </ref> <ref id="B10" content-type="article"> <label>10</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 阿里</年代urname> <given-names> H。</given-names> </name> <name> <surname> Tran</年代urname> <given-names> s . N。</given-names> </name> <name> <surname> Benetos</年代urname> <given-names> E。</given-names> </name> <name> <surname> d 'Avila Garcez</年代urname> <given-names> 答:S。</given-names> </name> </person-group> <article-title> 说话人识别和混合特性从一个深层的信念网络</article-title> <source> <italic> 神经计算应用</我talic> <year> 2018年</year> <volume> 29日</volume> <issue> 6</我年代年代ue> <fpage> 13</fpage> <lpage> 19</lpage> <pub-id pub-id-type="doi"> 10.1007 / s00521 - 016 - 2501 - 7</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84982255146</pub-id> </element-citation> </ref> <ref id="B11" content-type="article"> <label>11</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> Sundararajan</年代urname> <given-names> K。</given-names> </name> <name> <surname> Woodard</年代urname> <given-names> d . L。</given-names> </name> </person-group> <article-title> 深度学习的生物识别技术:一项调查</article-title> <source> <italic> ACM计算调查</我talic> <year> 2018年</year> <volume> 51</volume> <issue> 3</我年代年代ue> <fpage> 65年</fpage> <pub-id pub-id-type="doi"> 10.1145 / 3190618</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85051431484</pub-id> </element-citation> </ref> <ref id="B12" content-type="inproceedings"> <label>12</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 陈</年代urname> <given-names> B。</given-names> </name> <name> <surname> 罗</年代urname> <given-names> W。</given-names> </name> <name> <surname> 罗</年代urname> <given-names> D。</given-names> </name> </person-group> <article-title> 基于卷积神经网络识别的音频处理操作</article-title> <conf-name> 学报第六届ACM研讨会信息隐藏和多媒体安全——IH&MMSec 18</conf-name> <conf-date> 2018年</conf-date> <publisher-loc> 纽约,纽约,美国</publisher-loc> <publisher-name> ACM</publisher-name> <fpage> 73年</fpage> <lpage> 77年</lpage> </element-citation> </ref> <ref id="B13" content-type="inproceedings"> <label>13</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 陈</年代urname> <given-names> B。</given-names> </name> <name> <surname> 罗</年代urname> <given-names> W。</given-names> </name> <name> <surname> 李</年代urname> <given-names> H。</given-names> </name> </person-group> <article-title> 与卷积神经网络音频隐写式密码解密</article-title> <conf-name> 第五届ACM学报》研讨会信息隐藏和多媒体安全——IHMMSec 17</conf-name> <conf-date> 2017年</conf-date> <publisher-loc> 纽约,纽约,美国</publisher-loc> <publisher-name> ACM</publisher-name> <fpage> 85年</fpage> <lpage> 90年</lpage> </element-citation> </ref> <ref id="B14" content-type="inproceedings"> <label>14</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 贝纳</年代urname> <given-names> F。</given-names> </name> <name> <surname> 斯特拉</年代urname> <given-names> M。</given-names> </name> </person-group> <article-title> Diphone合成波形连接使用一个交叠相加技术演讲</article-title> <conf-name> ICASSP 86年。IEEE国际会议音响、演讲和信号处理、卷。11</conf-name> <conf-date> 1986年</conf-date> <fpage> 2015年</fpage> <lpage> 2018年</lpage> <pub-id pub-id-type="doi"> 10.1109 / ICASSP.1986.1168657</pub-id> </element-citation> </ref> <ref id="B15" content-type="misc"> <label>15</label> <element-citation publication-type="other"> <article-title> 音频处理CC。一个专业音频工作站</article-title> <year> Febraury 2019</year> <comment> <ext-link ext-link-type="url" xlink:href="https://www.adobe.com/products/audition.html"> https://www.adobe.com/products/audition.html</ext-link> </comment> </element-citation> </ref> <ref id="B16" content-type="misc"> <label>16</label> <element-citation publication-type="other"> <article-title> 音频编辑器——音频编辑,录音机,转换器,修复,和分析软件</article-title> <year> Febraury 2019</year> <comment> <ext-link ext-link-type="url" xlink:href="http://www.goldwave.ca/"> http://www.goldwave.ca/</ext-link> </comment> </element-citation> </ref> <ref id="B17" content-type="misc"> <label>17</label> <element-citation publication-type="other"> <article-title> 无畏:免费音频编辑和录音机</article-title> <year> Febraury 2019</year> <comment> <ext-link ext-link-type="url" xlink:href="https://www.audacityteam.org/"> https://www.audacityteam.org/</ext-link> </comment> </element-citation> </ref> <ref id="B18" content-type="article"> <label>18</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> Trehub</年代urname> <given-names> 年代。</given-names> </name> <name> <surname> 科恩</年代urname> <given-names> 一个。</given-names> </name> <name> <surname> 索普</年代urname> <given-names> l</given-names> </name> <name> <surname> Morrongiello</年代urname> <given-names> B。</given-names> </name> </person-group> <article-title> 音乐的感知关系的发展:半音程和自然音阶的结构</article-title> <source> <italic> 实验心理学杂志》:人类感知性能</我talic> <year> 1986年</year> <volume> 12</volume> <issue> 3</我年代年代ue> <fpage> 295年</fpage> <lpage> 301年</lpage> <pub-id pub-id-type="doi"> 10.1037 / 0096 - 1523.12.3.295</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 0022764511</pub-id> </element-citation> </ref> <ref id="B19" content-type="misc"> <label>19</label> <element-citation publication-type="other"> <article-title> Timit Acoustic-Phonetic连续语音语料库</article-title> <year> Febraury 2019</year> <comment> <ext-link ext-link-type="url" xlink:href="https://catalog.ldc.upenn.edu/LDC93S1"> https://catalog.ldc.upenn.edu/LDC93S1</ext-link> </comment> </element-citation> </ref> <ref id="B20" content-type="inproceeding"> <label>20.</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 圣保罗</年代urname> <given-names> F。</given-names> </name> <name> <surname> Vipperla</年代urname> <given-names> R。</given-names> </name> <name> <surname> Amehraye</年代urname> <given-names> 一个。</given-names> </name> <name> <surname> 埃文斯</年代urname> <given-names> N。</given-names> </name> </person-group> <article-title> 一个新的议长验证欺骗对策基于局部二进制模式</article-title> <conf-name> INTERSPEECH 2013年,14日国际言语交际协会年会上</conf-name> <conf-date> 2013年</conf-date> <fpage> 5</fpage> </element-citation> </ref> <ref id="B21" content-type="inproceedings"> <label>21</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> Sahidullah</年代urname> <given-names> M。</given-names> </name> <name> <surname> Kinnunen</年代urname> <given-names> T。</given-names> </name> <name> <surname> Hanilci</年代urname> <given-names> C。</given-names> </name> </person-group> <article-title> 比较合成语音的功能检测</article-title> <conf-name> INTERSPEECH 2015年第16届国际言语交际协会会议</conf-name> <conf-date> 2015年</conf-date> <fpage> 2087年</fpage> <lpage> 2091年</lpage> </element-citation> </ref> <ref id="B22" content-type="article"> <label>22</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 宋子文</年代urname> <given-names> F。</given-names> </name> <name> <surname> 罗森博格</年代urname> <given-names> 一个。</given-names> </name> </person-group> <article-title> 瞬时和过渡的使用在说话人识别光谱信息</article-title> <source> <italic> IEEE声学,演讲,信号处理</我talic> <year> 1988年</year> <volume> 36</volume> <issue> 6</我年代年代ue> <fpage> 871年</fpage> <lpage> 879年</lpage> <pub-id pub-id-type="doi"> 10.1109/29.1598</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 0024035182</pub-id> </element-citation> </ref> <ref id="B23" content-type="article"> <label>23</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 斯利瓦斯塔瓦</年代urname> <given-names> N。</given-names> </name> <name> <surname> 辛顿</年代urname> <given-names> G。</given-names> </name> <name> <surname> Krizhevsky</年代urname> <given-names> 一个。</given-names> </name> <name> <surname> Sutskever</年代urname> <given-names> 我。</given-names> </name> <name> <surname> Salakhutdinov</年代urname> <given-names> R。</given-names> </name> </person-group> <article-title> 辍学:一个简单的方法来防止神经网络过度拟合</article-title> <source> <italic> 机器学习的研究》杂志上</我talic> <year> 2014年</year> <volume> 15</volume> <issue> 1</我年代年代ue> <fpage> 1929年</fpage> <lpage> 1958年</lpage> </element-citation> </ref> <ref id="B24" content-type="misc"> <label>24</label> <element-citation publication-type="other"> <article-title> 利用先进的多媒体数据库促进高等教育改革演讲</article-title> <year> 2019年2月</year> <comment> <ext-link ext-link-type="url" xlink:href="http://research.nii.ac.jp/src/en/UME-ERJ.html"> http://research.nii.ac.jp/src/en/UME-ERJ.html</ext-link> </comment> </element-citation> </ref> <ref id="B25" content-type="misc"> <label>25</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Kingma</年代urname> <given-names> d . P。</given-names> </name> <name> <surname> 英航</年代urname> <given-names> J。</given-names> </name> </person-group> <article-title> 亚当一个随机优化方法</article-title> <year> 2014年</year> <comment> <ext-link ext-link-type="url" xlink:href="https://arxiv.org/abs/1412.6980"> https://arxiv.org/abs/1412.6980</ext-link> </comment> </element-citation> </ref> <ref id="B26" content-type="article"> <label>26</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> Maaten</年代urname> <given-names> l . v . D。</given-names> </name> <name> <surname> 辛顿</年代urname> <given-names> G。</given-names> </name> </person-group> <article-title> 可视化数据使用<我talic> t</我talic>新力</article-title> <source> <italic> 机器学习研究杂志》上</我talic> <year> 2008年</year> <volume> 9</volume> <fpage> 2579年</fpage> <lpage> 2605年</lpage> </element-citation> </ref> </ref-list> </back> </article> </body> </html>