CINgydF4y2Ba 计算智能和神经科学gydF4y2Ba 1687 - 5273gydF4y2Ba 1687 - 5265gydF4y2Ba HindawigydF4y2Ba 10.1155 / 2019/4368036gydF4y2Ba 4368036gydF4y2Ba 评论文章gydF4y2Ba 语音技术进步基于机器学习的新范式gydF4y2Ba https://orcid.org/0000 - 0002 - 4558 - 9918gydF4y2Ba DelićgydF4y2Ba VladogydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 8267 - 9541gydF4y2Ba PerićgydF4y2Ba ZorangydF4y2Ba 2gydF4y2Ba https://orcid.org/0000 - 0002 - 3426 - 3277gydF4y2Ba SečujskigydF4y2Ba 米兰gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 7283 - 3939gydF4y2Ba JakovljevićgydF4y2Ba NikšagydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 3552 - 7211gydF4y2Ba NikolićgydF4y2Ba 伊莲娜gydF4y2Ba 2gydF4y2Ba https://orcid.org/0000 - 0002 - 0455 - 9552gydF4y2Ba MiškovićgydF4y2Ba DragišagydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 0748 - 4672gydF4y2Ba SimićgydF4y2Ba 尼古拉gydF4y2Ba 2gydF4y2Ba https://orcid.org/0000 - 0002 - 0511 - 6729gydF4y2Ba SuzićgydF4y2Ba SinišagydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 3707 - 0286gydF4y2Ba DelićgydF4y2Ba 谢谢你们gydF4y2Ba 1gydF4y2Ba GastaldogydF4y2Ba 保罗gydF4y2Ba 1gydF4y2Ba 诺维萨德大学gydF4y2Ba 科学技术学院gydF4y2Ba 21000年诺维萨德gydF4y2Ba 塞尔维亚gydF4y2Ba uns.ac.rsgydF4y2Ba 2gydF4y2Ba Niš大学gydF4y2Ba 电子工程学院gydF4y2Ba 18000年NišgydF4y2Ba 塞尔维亚gydF4y2Ba ni.ac.rsgydF4y2Ba 2019年gydF4y2Ba 25gydF4y2Ba 6gydF4y2Ba 2019年gydF4y2Ba 2019年gydF4y2Ba 22gydF4y2Ba 02gydF4y2Ba 2019年gydF4y2Ba 29日gydF4y2Ba 04gydF4y2Ba 2019年gydF4y2Ba 09年gydF4y2Ba 05年gydF4y2Ba 2019年gydF4y2Ba 25gydF4y2Ba 6gydF4y2Ba 2019年gydF4y2Ba 2019年gydF4y2Ba 版权©2019 Vlado Delićet al。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

语音技术已经发展几十年来作为一个典型的信号处理领域,在过去的十年里带来了一个巨大的进步基于新的机器学习范式。不仅由于其内在的复杂性还与认知科学,语音技术跨学科知识的现在被视为一个典型的例子。这个评论文章在语音信号分析和处理,相应的机器学习算法,并应用计算智能旨在深入了解几个字段,包括言语生成和听觉感知、认知方面的言语交际和语言理解、语音识别和语音合成更多的细节,因此口语对话系统的主要发展方向。此外,本文论述了概念和最新进展在语音信号压缩、编码、传输,包括认知语音编码。最后,本文的主要目的是突出最近的成就和挑战基于机器学习的新模式,在过去的十年里,有一个语音信号处理领域的巨大影响。gydF4y2Ba

Ministarstvo Prosvete, Nauke Tehnološkog RazvojagydF4y2Ba TR32035gydF4y2Ba
1。介绍gydF4y2Ba

根据库恩的科学革命理论(gydF4y2Ba 1gydF4y2Ba),科学使进步通过流行的科学范式的革命性的改变,一个范例表示一组信仰和价值观,技术和方法程序共同科学界。范式定义框架和模型求解科学挑战。新的解决方案来与新一代已经准备好接受新的真理和跨学科的方法。新范式突然出现并提供新的灯一个科学问题,基于协同的和专业知识整合成有功能的和一致的统一。语音识别技术社区调查口语处理为一个跨学科的研究领域(图gydF4y2Ba 1gydF4y2Ba),(gydF4y2Ba 2gydF4y2Ba]。经过短暂的回顾主要的科学范式基于演讲的知识生产和听觉感知,本文介绍了新成果和观点基于机器学习的新范式相关神经科学和先进的信号处理。gydF4y2Ba

语音技术的跨学科性质,即。,语言处理(采用(gydF4y2Ba 2gydF4y2Ba])。gydF4y2Ba

语音信号处理研究的根源与语音信号数字化的需要密切相关。开创性的解决方案被部署在二战期间由于需要盟友之间的安全通信。系统被评为SIGSALY,它利用脉码调制(PCM)启用的第一个传输语音使用数码设备(gydF4y2Ba 3gydF4y2Ba]。在接下来的几十年里,研究的重点是在规范规定的数字电话为了提供高质量的重建语音信号在各种语音信号方差(gydF4y2Ba 4gydF4y2Ba- - - - - -gydF4y2Ba 7gydF4y2Ba]。压缩模式对这些系统没有明显改变了几十年。特别是略有研究的重点是朝着改善信号质量在接收端或对减少所需的比特率gydF4y2Ba 8gydF4y2Ba- - - - - -gydF4y2Ba 13gydF4y2Ba]。然而,计算机技术的重大发展在过去十年里使得研究先进的语音信号处理的新方法,包括自适应机器学习方法(gydF4y2Ba 14gydF4y2Ba]。最近的趋势包括认知语音编码,以便有一个范式转换,即从知觉(听觉)对认知(听觉+皮质)语音信号处理(gydF4y2Ba 15gydF4y2Ba]。gydF4y2Ba

现代语音识别技术系统依赖于跨学科研究领域的多通道信号处理和人工智能,和一系列的方法和算法开发,目的是解决各种各样的问题:对话系统基于语音识别和合成,包括情感上的演讲中,演讲者识别和验证,以及语音信号编码和传输,信号的去噪和检测噪声的存在,质量提高,和医疗诊断分析的基础上人类的声音。最近大多数语音识别技术的进展话题将在以下部分中讨论更多的细节。gydF4y2Ba

语言处理(SLP)是一个跨学科的研究领域,计算智能的属性。SLP位于十字路口的语言学、心理学、工程和人工智能(AI) (gydF4y2Ba 2gydF4y2Ba]。先进的信号处理和机器学习方法定位采用视图中的SLP的跨学科特征,显示了不同学科的相互连接和交点和小说的角度来看(图中给出gydF4y2Ba 1gydF4y2Ba)。而不是使用原来的术语“模式处理”图gydF4y2Ba 1gydF4y2Ba,我们已经选择了更常见的术语“信号处理和机器学习(SP&ML)”代表之间的重叠社区工程和人工智能学科。包括语言方面,他们组成了自然语言处理(NLP)领域。人机交互(HCI)吸引了从工程和心理学领域的经验和方法,包括从语言学的知识,他们形成一个对话系统的研究和开发的基础。gydF4y2Ba

语言心理学和AI的互连是认知科学和神经语言学的基础。的神经科学神经语言学一直待在这里演讲。神经语言学提出了图gydF4y2Ba 1gydF4y2Ba作为主导性语言学学科但通过计算机语言学与人工智能AI和语言学之间的十字路口上从一边也通过语言心理学与心理学,心理学和语言学之间的十字路口上的另一边。神经语言学对面从工程的观点。神经科学的演讲也可以被认为是认知科学的一个区域,与认知是两种言语知觉的固有部分(阶段的理解、口语)传达出来的信息的意义和语言生产(在创作阶段,消息旨在传达某种意义)。最后,SLP SP&ML跨学科领域的知识,结合人机交互,心理语言学,语言学和计算机,或更准确的NLP,认知科学,对话系统和信息访问。gydF4y2Ba

语音技术是基于语音信号处理,跨越广泛的主题,而重点综述文章是作者三个领域最专业知识:gydF4y2Ba

基本主题(语音分析与合成、声波和语音功能,语音生产、听觉感知和认知包括语言方面)gydF4y2Ba

对话系统基于语音识别和语音合成(情感语音识别和语音合成包括声音和风格转换)gydF4y2Ba

语音编码、压缩和传输gydF4y2Ba

语音识别技术领域范围内呈现在图gydF4y2Ba 2gydF4y2Ba作为一个统一的框架,包括覆盖的主题,展示他们的互补性,范围和边界,互联,十字路口在SLP的跨学科领域。gydF4y2Ba

统一的框架,包括语音信号处理领域的范围。gydF4y2Ba

一个简短的回顾和语音识别技术的一些观点字段如图gydF4y2Ba 2gydF4y2Ba在以下部分中给出。基本主题图中所示gydF4y2Ba 2gydF4y2Ba和介绍部分gydF4y2Ba 2gydF4y2Ba言论,包括生产和感知分析,包括认知和语言的观点。更多细节相关的语音识别和语音合成的研究进展,以及他们的贡献,新一代的人机语音对话系统,介绍了部分gydF4y2Ba 3gydF4y2Ba。最后,进展语音信号压缩、编码和传输提出了部分gydF4y2Ba 4gydF4y2Ba,包括作者的贡献。大多数这些进步是基于新的深度学习范式,我们更好地了解神经科学和认知方面的造型语言沟通。gydF4y2Ba

2。进步在自然语言分析和口语的知识gydF4y2Ba

知识与口语的本质是必不可少的有效的编码和传输以及满意的实时人机语音交互。语音模型基于言语生成或听觉感知是最成功的算法的固有部分。最近neuro-inspired计算模型是基于知识的认知语言处理模型(gydF4y2Ba 16gydF4y2Ba]。之后简要回顾声压波和语音信号的特性,语言产生和听觉感知包括认知和语言的观点将在下面更详细地阐述了部分。gydF4y2Ba

2.1。声压波和语音信号的特性gydF4y2Ba

声音传播作为一个连续的声波(声压),一旦收到,它可以记录,数字化、编码,传输,处理,和复制。语音,频率相关的识别是什么说,谁已表示,它位于大多低于4 kHz和很少高于7 - 8 kHz,也就是整个频率范围的一部分人类的听觉感(gydF4y2Ba 17gydF4y2Ba]。这一事实的基础上模拟电话通信系统的设计,包括麦克风的选择使用。因此,语音信号是采样8 kHz(对于一个基本水平的质量)或16赫兹(如果需要更高层次的质量)。它也是众所周知,动态范围的平均人类语言最柔软最响亮的声音大约是40 dB。即使低语,声音包括升高,这种动态范围是很少高于50 dB (gydF4y2Ba 14gydF4y2Ba]。由于这些原因,一个麦克风的要求需要严格记录声音通常小于记录,例如,音乐。量子化,众所周知,每一位导致信噪比(信噪比)6 dB,这意味着量化噪声几乎是听不清如果8位用于编码每一个声音样本(gydF4y2Ba 4gydF4y2Ba]。因此,使用8 kHz的采样率的典型案例和8位/样品生产64 kbits / s的比特率。投入了很多努力来减少这种速度没有显著损失质量在接收端和部分gydF4y2Ba 4gydF4y2Ba致力于这个问题。gydF4y2Ba

数字化包括量子化是所有数字语音处理技术的基础。如果目标是代表语言简洁和强劲,一样在自动语音识别或大多数类型的语音编码传输的一个基本问题是选择相关特性,使快速、准确、言论和健壮的识别(或演讲者、语言、甚至情感),和/或快速和高效的语音编码传输没有质量的重大损失。线性预测编码(LPC)造型和LPC分析语音信号的基本意义和语言特性估计(gydF4y2Ba 18gydF4y2Ba]。许多语音编码方案是基于LPC分析包括低Delay-Code兴奋线性预测(LD-CELP)编码方案由G.728定义标准,共轭结构代数Code-Excited线性预测(CS-ACELP)编码方案由G.729A定义标准,代数Code-Excited线性预测编码方案由G.723.1定义标准,和自适应多速率宽带(AMR-WB)编码方案由G.722.2定义,标准用于今天移动语音通信和VoIP (gydF4y2Ba 5gydF4y2Ba,gydF4y2Ba 7gydF4y2Ba]。gydF4y2Ba

演讲之一生产模型也是基于LPC分析和提供语音特性集描述语音频谱,对语音识别(这是最重要的gydF4y2Ba 19gydF4y2Ba]。语音信号的主要范围和实时数据处理(或有限的时间)是减少的数据量(语音特性),同时提供高质量的表示这样的信号降低,也就是说,数据源。这一目标的实现是由统计信号和数据处理方法和算法处理信号和数据简化gydF4y2Ba 20.gydF4y2Ba]。最有效的方法和算法结合适应,这些主题将阐述更多细节在接下来的部分。gydF4y2Ba

2.2。言语生成和听觉感知gydF4y2Ba

图gydF4y2Ba 3gydF4y2Ba显示了一个框图语言产生和感知。语音合成(TTS)和自动语音识别(ASR)所示的平行对应流程执行的机器。演讲和语言学习,而听觉是天生的。有很多人类和机器语言产生和感知差异,但增加机器学习模式来模拟人类语言能力的生产机制,以及听觉感知和认知能力,将不可避免地带来的增加的准确性ASR和TTS的自然性。gydF4y2Ba

语言产生和语言感知的框图和相应的过程由机器进行语音合成(TTS)和自动语音识别(ASR)。gydF4y2Ba

人类开始和结束之间的言语交际信息的认知水平组成和解释。考虑演讲的速度平均每秒钟10 - 12电话和手机的数量在一个语言,通常对应于5或6位需要编码,语音消息传达文本可以被认为对应的比特率50 - 60位每秒。演讲者计划不仅要说什么,还怎么说——(s)他控制体积,演讲,和语调(韵律)——每它可以携带的语言,以及副语言的和语言以外的信息(gydF4y2Ba 21gydF4y2Ba]。信息添加,比特率可以考虑增加一些数百位/秒。gydF4y2Ba

一旦说话人决定说什么和怎么说,一个适当的声波通过神经和肌肉活动产生gydF4y2Ba 22gydF4y2Ba,gydF4y2Ba 23gydF4y2Ba]。,手机在隔离并不明显,但相应音素的发音目标要求很少,导致协同发音的影响,加剧了ASR的任务。通常,整个演讲装置被认为是通过source-filter模型,声带的活动定义了激发和声道的其余部分充当一个过滤器和形状声谱[gydF4y2Ba 19gydF4y2Ba,gydF4y2Ba 21gydF4y2Ba]。除了依赖于手机,语音信号的声学特征在特定时刻也携带信息相关的演讲者,因此代表了生物统计的功能,可以揭示演讲者的身份(gydF4y2Ba 24gydF4y2Ba)和可能的其他因素相关的演讲者或消息。包括议长变异性的影响,这个层次的比特率增加到每秒几千比特。这段演讲交流是学习发音和声学语音学、及其机器对应TTS,即模块负责生产的人工语音信号本身。gydF4y2Ba

语音样本振幅分布是不均匀的,这些知识用于非均匀语音信号编码定义gydF4y2Ba µgydF4y2Ba法律和法gydF4y2Ba 25gydF4y2Ba),而一些新的研究成果提供更好的解决方案基于自适应算法。言语生成机制制定一系列音位不均匀,根据实证统计法律由乔治•金斯利Zipf制定一个语言学家gydF4y2Ba 26gydF4y2Ba),指的是最少的原则努力进化生物学领域:对话者试图理解对方使用音素和单词更容易生产和感知在一个特定的上下文。音素和单词统计的知识引入ASR算法很久以前,言论和随机模型隐马尔科夫模型(HMM) [gydF4y2Ba 27gydF4y2Ba)是流行的科学范式和代表了最先进的语音识别和合成几十年来社区。gydF4y2Ba

另一方面,连续的声波到达听众的耳朵和某些频率刺激耳膜,和锤骨、砧骨,镫骨,他们刺激耳蜗,进行光谱分析,基于基膜的运动,其长度约为35毫米(gydF4y2Ba 17gydF4y2Ba,gydF4y2Ba 22gydF4y2Ba,gydF4y2Ba 23gydF4y2Ba,gydF4y2Ba 25gydF4y2Ba,gydF4y2Ba 28gydF4y2Ba]。耳蜗毛细胞的根据他们的频率,以便应对不同的声音尖锐的声音刺激的下部耳蜗毛细胞,而低沉的声音刺激的上部耳蜗(gydF4y2Ba 28gydF4y2Ba]。因此形成的神经冲动被发送到大脑中枢听觉系统(gydF4y2Ba 22gydF4y2Ba],基于光谱差异,大脑识别相关的声学差异并试图恢复手机原始消息的字符串组成,考虑其语言模型(在形态学、语法、语义和语用学)。因此,可以认为,ASR的任务是减少的比特率,例如,64 kbits / s(数字化语音)比特率为50 - 60位/秒(纯文本),将对应的文本内容消息没有语音韵律。gydF4y2Ba

然而,言语知觉,这主要依赖于听觉,是一个非线性的过程。一样与其他人类感官(视觉,味觉,触觉,嗅觉),听觉感知的声压级(SPL)和基频(f0,音高)遵循Weber-Fechner法律[gydF4y2Ba 28gydF4y2Ba从心理物理学:改变视为线性对应于一个指数变化的物理刺激。除了SPL和音高,对声音的感知影响的声能分布频率,即。,the spectrum of the sound, which usually represents a mixture of a sequence of discrete frequency components (timbre), as in the case of periodic sounds, and a continuous mix of nonharmonic or random frequency components, as in the case of various types of noise [ 22gydF4y2Ba,gydF4y2Ba 28gydF4y2Ba]。这就是为什么公共演讲等功能cepstral系数被认为是位于新频率从赫兹到mel-scale-MFCC;他们估计cepstral分析语音帧的20 - 30 ms与第一和二阶导数计算从连续几帧gydF4y2Ba 29日gydF4y2Ba]。gydF4y2Ba

听觉场景分析听觉系统分离个体声音的过程在自然界的情况下(gydF4y2Ba 30.gydF4y2Ba,gydF4y2Ba 31日gydF4y2Ba]。无论收到声音人耳或麦克风,入射声压波代表一笔来自不同个体的压力波的来源,可以是人类的声音或任何其他声音的来源。这些声音通常在时域和频域重叠。然而,人类听觉系统通常能够专注于一个人一次声源(gydF4y2Ba 23gydF4y2Ba,gydF4y2Ba 31日gydF4y2Ba]。虽然听和分离一个源,侦听器构造一个单独的心理描述源。虽然他/她不能积极同时听两个声音的来源,他/她可以立即切换他/她的注意力从一个到另一个(gydF4y2Ba 30.gydF4y2Ba]。举个例子,如果一个学生听老师,他忽略了噪声从液晶投影仪和一个同事可能会说他;如果他的焦点切换到他的同事,他不能积极地听老师讲课了。此外,如果一个人侦听器上下文,他/她能够重建一些音素或整个的话,他/她可能因为某种原因无法听到。人类是他们成功的声音分离更有经验在实际情况下,他们总是使用启发式过程分析传入的信号。听力的最终步骤的过程,人类听觉皮层结构的认知表示接收到的声波。没有认知步骤中,声波进入耳朵不感知。启发式分析是基于(ir)规律的和潜在的声音。gydF4y2Ba

个人的声音互相区分下列至少在一个维度:时间、空间、和频谱(gydF4y2Ba 28gydF4y2Ba,gydF4y2Ba 31日gydF4y2Ba]。时间和空间的感觉在人类听觉系统提出了更多的细节在gydF4y2Ba 32gydF4y2Ba]。在时间维度,两个声音可以有一些发作/抵消异步。在一个特定的环境中,双耳听力使声源的定位,这是容易,但也往往更重要的是,在人耳的水平面比在垂直平面定位。频率成分的频谱可以确定感知,音色,响度,不同光谱的声音受到双耳使声源的定位(gydF4y2Ba 23gydF4y2Ba,gydF4y2Ba 31日gydF4y2Ba,gydF4y2Ba 32gydF4y2Ba]。音高与基频f0在音乐音调等周期性的声波在演讲或元音;他们的光谱包含f0及其谐波。颞f0结果的变异在音乐旋律在语音和语调。音色代表一个特定的强度分布f0及其谐波频谱。两个版的相同的语气从两个不同的乐器,拥有相同的f0,会有不同的音色,由于特定的谐波的相对强度的差异(包络谱),因此,他们会听起来不同gydF4y2Ba 22gydF4y2Ba]。如果一个声谱不包含谐波音调(f0及其谐波),光谱不是离散;声谱丰富频率成分在部分或整个人类听觉频率范围。这样的声音,或多或少是连续的频谱,在本质上更频繁(例如,汽车的噪音或机器或任何瞬态噪声)。谱组件为响度大小;声压级定义在dB相对于听力1 kHz的阈值(20gydF4y2Ba µgydF4y2BaPa)和范围0 - 120 dB疼痛的阈值(gydF4y2Ba 17gydF4y2Ba,gydF4y2Ba 22gydF4y2Ba]。最后,可以分开两个声音听觉场景分析中根据不同的响度,音高(f0,如果存在),和音色或光谱作为一个整体,以及在他们的时间和/或空间变化,可以创建多种声音的印象。gydF4y2Ba

声信号由一个监听器接收和语言和非语言行为转化为类别,但不知道如何。有持续的神经生理学研究言语交际使用最新的侵入性和非侵入性的进步人类记录技术,目的是发现皮质语音处理的基本特征(gydF4y2Ba 16gydF4y2Ba]。问题的研究小组研究了语音特征编码和噪声机制健壮的听觉皮层的言论表示基于证据表明人类和动物可以可靠地感知行为相关的声音噪声和混响环境。gydF4y2Ba

Neuro-inspired计算模型试图提供进展人工深层神经网络(款)的性能,更好的理解的基础上由这些模型表示和转换。一个案例研究在ASR的gydF4y2Ba 33gydF4y2Ba]试图确定规范化语言的自然变化的机制和比较这些机制的发现在人类听觉皮层的言论表示。目的是比较与生物同行款,确定其局限性,并减少生物系统之间的性能差距和人工计算。例如,人类能够专注于一个喇叭的声音而忽略其他声音和声音gydF4y2Ba 23gydF4y2Ba,gydF4y2Ba 31日gydF4y2Ba),根据不同的空间位置,音高、音色,一致性水平的变化和/或频率、时间和特征(开始/抵消异步)(gydF4y2Ba 30.gydF4y2Ba]。一个算法,旨在关注一个喇叭在一群许多发言者提出基于深度吸引子网络(gydF4y2Ba 34gydF4y2Ba),基于相似的原则。它已经表明,注意力转向一个新的演讲者立刻改变声音的神经表征在大脑中。一个自适应系统应该改变感觉表示实时实现小说,该计算,促进相关的声学参数的提取。gydF4y2Ba

人类的听众有一个非凡的能力快速有效地了解他们周围的世界基于已知的声音来源的行为。此外,他们可以注意和关注演讲的演讲者的意思。注意力的焦点可以集成到人机交互对话策略gydF4y2Ba 35gydF4y2Ba),而人类的认知努力有关的数据可用于后处理和改善ASR系统的性能(gydF4y2Ba 36gydF4y2Ba]。不仅人类有能力单独的一位发言者或集中只有一个声源,还要组织更多的声音来源和听到,例如,整个管弦乐队作为一个音乐声音基于调和性和同步特定声音的来源。并发和顺序分组过程中描述的更多细节在gydF4y2Ba 37gydF4y2Ba]。gydF4y2Ba

款的非线性分类的作用音素的非均匀和非线性声学空间扭曲研究[gydF4y2Ba 38gydF4y2Ba),以及知觉不变分类的方式创建。生物神经元能够动态改变突触效能响应变量输入条件。叫做突触抑郁和当它被添加到隐藏层的训练款音素分类,ASR系统变得更加健壮的嘈杂的条件没有明确被训练。的结果(gydF4y2Ba 39gydF4y2Ba]表明,更完整的神经元模型可能进一步减少之间的差距生物性能和人工计算,导致网络,更好地推广新信号的条件。gydF4y2Ba

2.3。工程与语言学的观点NLP是典型的人工智能的话题gydF4y2Ba

语言产生的机理和物理组成部分声音感知相对研究主题(gydF4y2Ba 22gydF4y2Ba,gydF4y2Ba 31日gydF4y2Ba),而言语交际的认知方面仍然是一个广泛开放的研究领域。人机语音通信的各个方面相关的语言学、自然语言处理(NLP)等认知sciences-neurolinguistics和对话管理(见图gydF4y2Ba 1gydF4y2Ba),代表了科学界的巨大挑战。在最近的过去,语音技术的发展,口语对话系统工程学科了大多数的势头,通过自动学习的可能性,从大量的数据,计算设施的发展,复杂的学习算法,复杂的神经模型架构解决特定认知语言学的现象和问题。同时,认知科学演讲主要仍以外的工程学科的直接利益的范围相关的语音技术的发展。然而,在这些领域的知识与机器学习的概念和范围,重叠,受神经科学的启发,带来了进步不仅在人机交互和计算语言学领域的也口语处理,在于他们的十字路口。这是显示在图gydF4y2Ba 1gydF4y2Ba,这也显示了一个相对广泛的认知科学之间的差距(神经学)和心理语言学和主要工程学科。gydF4y2Ba

至于机器学习在语音识别技术的发展,它提供了一个强大的替代模型依赖于语言资源和模块执行特定的语言激发子任务。字典和语言等语言资源数据库通常是相当昂贵和耗时的收集和注释,而模块组成一个语音技术的发展系统需要深厚的领域知识和专家的努力。在过去的二十年里,一些基于规则的系统执行的任务和简单的机器学习方法,一个接一个,被神经网络取代。即在声学语音识别,神经网络已被证明比隐马尔可夫模型(摘要)声学模型(gydF4y2Ba 40gydF4y2Ba),但也优于经典gydF4y2Ba NgydF4y2Ba克语言模型的泛化,使用架构基于长期短期记忆(LSTM)神经元gydF4y2Ba 41gydF4y2Ba递归神经网络(RNN)[]或gydF4y2Ba 42gydF4y2Ba]。基于神经网络解决方案已被证明达到人类平价像平常说话的语音识别任务复杂(gydF4y2Ba 43gydF4y2Ba]。结合一系列数据综合技术培训,获得大量不同的数据现在可以获得一个端到端的ASR的能力优于认识清楚对话演讲中最先进的管道以及嘈杂的一个(gydF4y2Ba 44gydF4y2Ba,gydF4y2Ba 45gydF4y2Ba]。他们也被用于多通道语音识别,即。,从音频和视频识别的语音gydF4y2Ba 46gydF4y2Ba]。语音合成的任务更依赖语言,它是更具挑战性,因为它旨在引入的冗余丢失语音转换成文本时,用这样一种方式,在众多的韵律版的一个特定的话语,它产生一个侦听器将考虑接受在一个给定的上下文。在这里,神经网络显示超乐谱演奏古典模型在参数化的演讲如摘要(gydF4y2Ba 47gydF4y2Ba,gydF4y2Ba 48gydF4y2Ba在声学模型,它们也被用于韵律建模(gydF4y2Ba 49gydF4y2Ba)以及声轨迹造型(gydF4y2Ba 50gydF4y2Ba]。神经网络也解决的问题有点低沉的合成语音声码器的使用,通过执行原始语音波形的合成(而不是gydF4y2Ba 51gydF4y2Ba]。最后,为了克服需要复杂的演讲和语言资源需要深层次的专业知识,提出了一系列的端到端体系结构,系统的终极目的应该被训练成对的文本和音频,利用神经网络的功能自动开发更高级的抽象(gydF4y2Ba 52gydF4y2Ba]。这样一个强大的数据驱动方法的灵活性与古典语言串联合成器相比也带来了重大进展领域的multispeaker TTS和调适gydF4y2Ba 53gydF4y2Ba- - - - - -gydF4y2Ba 55gydF4y2Ba]的能力符合一个特定的演讲风格或情感gydF4y2Ba 56gydF4y2Ba]。尤其相关,因为它伴随着出现应用程序,如智能环境中,虚拟助理,和智能机器人,要求高质量的语音合成不同的声音和不同的风格和表达的不同情感状态感知议长[gydF4y2Ba 57gydF4y2Ba]。其他语言技术任务也已成功地通过神经网络来解决,如问答(gydF4y2Ba 58gydF4y2Ba),文本分类(gydF4y2Ba 59gydF4y2Ba,gydF4y2Ba 60gydF4y2Ba),机器翻译(gydF4y2Ba 61年gydF4y2Ba,gydF4y2Ba 62年gydF4y2Ba),和情绪分析gydF4y2Ba 63年gydF4y2Ba]。神经网络也被用作一个强大的语言工具,为造型的句子语法(gydF4y2Ba 64年gydF4y2Ba]或探索特定的语言现象,比如建立词表示向量空间(gydF4y2Ba 65年gydF4y2Ba]。然而,而不是提供一个分解的问题和一个清晰的分析洞察,神经网络提供了一种替代方法,数据驱动的观点,因此不能认为是一个古典理论语言学的工具。另一方面,他们的表现在解决这些问题的公正使得神经网络的语音识别技术的发展。gydF4y2Ba

3所示。语音识别和合成的进展,以及对话系统gydF4y2Ba

除了自动语音识别(ASR)和合成语音(TTS),一个人机语音对话系统还包括一个对话与相应的对话策略和语言技术管理模块对口语的理解(SLU)和口语代(SLG),如图gydF4y2Ba 4gydF4y2Ba。gydF4y2Ba

人机语音对话系统的组件。gydF4y2Ba

该部分提出了一些成就领域的演讲如ASR和TTS技术。他们用努力开发组合来自不同领域的跨学科知识如语言学、音响、计算机科学和数学。信号处理工程师通常有整合的角色从一边在语言学家和数学家从另一边。gydF4y2Ba

3.1。自动语音识别系统的进步gydF4y2Ba

ASR系统的研究和开发在贝尔实验室开始于1950年代,通过简单的数字识别系统,并从那时起识别任务变得更加的孤立的数字的识别,然后单词,然后连续口语词汇在寂静的环境中,识别的自发的演讲在嘈杂的环境中。因此,算法的复杂性也急剧增加。简要回顾历史发展ASR中可以找到的gydF4y2Ba 66年gydF4y2Ba]。有三个重要的时刻在ASR系统的开发:引入mel-frequency cepstral系数(gydF4y2Ba 67年gydF4y2Ba),引入统计方法(隐马尔科夫模型(HMM)与高斯混合模型(GMM)) (gydF4y2Ba 68年gydF4y2Ba),引入深神经网络(款)gydF4y2Ba 69年gydF4y2Ba]。这种发展也支持的计算机行业的技术发展以及增加可用于培训这些系统的数据量。gydF4y2Ba

款的统治ASR开始(gydF4y2Ba 40gydF4y2Ba),这表明,前馈款优于GMM估计任务的上下文相关的HMM状态发射概率。对于一个小的数据库,例如英语广播新闻(约30 h(训练数据),不同的字错误率(回答)不显著,但对交换机数据库,这是更大的(约300 h(训练数据),成为实质性的区别。进一步改善款是基于更好的优化,新激活函数,新的网络架构,新的语音预处理方法,利用多种语言和方言gydF4y2Ba 70年gydF4y2Ba]。其中一个重要的发现是,逐层pretraining使用限制玻耳兹曼机遏制不是义务和反向传播算法是充分的培训,以防可用的大量的训练数据,以及大量的隐藏层单元。此外,勒存等人显示在[gydF4y2Ba 71年gydF4y2Ba),对于足够宽款(大量的单位在一层),没有问题的局部最小值和局部最小值的值非常接近。接下来关键的一步是完全消除的HMM模型。坟墓和Jaitly [gydF4y2Ba 72年gydF4y2Ba]报道一个语音识别系统,直接与文本转录音频数据,而不需要一个中间语音表示。的系统是基于结合双向多空词记忆递归神经网络(LSTM)体系结构和联结主义时间分类(CTC)的目标函数。音频信号的直接映射为一个字母序列允许简单的应用系统等新语言塞尔维亚(gydF4y2Ba 73年gydF4y2Ba]。灵感来自CTC, Povey在人gydF4y2Ba 74年gydF4y2Ba使用电话]发达lattice-free最大互信息gydF4y2Ba ngydF4y2Ba克语言模型从随机神经网络初始化。这种方法也被成功地应用于塞尔维亚(gydF4y2Ba 75年gydF4y2Ba];即。,the relative reduction of WER was about 25% with respect to the best previous system.

3.2。语音情感识别的进展gydF4y2Ba

因为人类并不总是理性和逻辑beings-emotions扮演非常重要的方面在接受新产品和新技术gydF4y2Ba 76年gydF4y2Ba]。最早试图识别说话者的情绪状态声音特点的基础上,可以追溯到1980年代(gydF4y2Ba 77年gydF4y2Ba]。这个研究方向的初始动机是适应ASR系统的情感强调演讲(gydF4y2Ba 78年gydF4y2Ba),但另一个动机出现口语对话系统的发展,它是有用的修改基于对话策略,例如,用户烦恼(gydF4y2Ba 79年gydF4y2Ba]。有很多情绪,可以很容易地表示在activation-evaluation空间(gydF4y2Ba 80年gydF4y2Ba),但分类等大量的情感是很困难的。因此,分类空间减少中性和6原型情绪:愤怒,厌恶,恐惧,快乐,悲伤和惊奇,这是最明显的和独特的情感gydF4y2Ba 80年gydF4y2Ba]。应该注意的是,典型的情绪并不主要情绪在所谓的“托盘理论”,每一种情绪都可以表示成一个主要的组合。gydF4y2Ba

的一个重要的步骤在语音情感识别系统的设计是有效的提取特征区分情感独立的词汇内容,演讲者,和声学环境。众所周知,韵律特征是与情感有关gydF4y2Ba 80年gydF4y2Ba),这就是为什么标准特性用于情感识别系统包括音高、能源、和电话持续时间(gydF4y2Ba 81年gydF4y2Ba]。这些特性也与情绪相关的语音质量(gydF4y2Ba 82年gydF4y2Ba]。情绪影响语音能量分布在范围广泛的频率,因此光谱特性,比如MFCCs,线性预测cepstral系数,对数频率功率系数和共振峰进一步提出(gydF4y2Ba 83年gydF4y2Ba,gydF4y2Ba 84年gydF4y2Ba]。特征提取过程开始于输入信号的细分到20 - 30 ms长帧转移10毫秒,因为演讲是一个非平稳的信号。之后,选择的特征提取部分(对应于一个特定的音素、音节、单词或句子)被映射到一个单独的向量使用泛函,如意思是,二次矩,轮廓斜率和范围。以后,“浓缩”以这样一种方式表示的输入标准分类算法,如线性贝叶斯(gydF4y2Ba 85年gydF4y2Ba),gydF4y2Ba kgydF4y2Ba最近的邻居(gydF4y2Ba 85年gydF4y2Ba,gydF4y2Ba 86年gydF4y2Ba),支持向量机(gydF4y2Ba 87年gydF4y2Ba],GMM [gydF4y2Ba 86年gydF4y2Ba)和人工神经网络gydF4y2Ba 88年gydF4y2Ba]。另一方面,这样的框架特性也可以归类为一个序列使用嗯[gydF4y2Ba 84年gydF4y2Ba]和RNN [gydF4y2Ba 89年gydF4y2Ba]。除了底层声学特征,个别单词或单词序列获得的ASR还可以用来进行情感分类(gydF4y2Ba 90年gydF4y2Ba]。经过一个巨大的成功的卷积神经网络(CNN)在图像分类、低层次的网络进行特征提取,一些研究小组试图实现CNN以同样的方式获得特性(gydF4y2Ba 91年gydF4y2Ba,gydF4y2Ba 92年gydF4y2Ba]。由于语音情感识别是一个稀缺的数据问题,的一个未来趋势将应用程序semisupervised学习(gydF4y2Ba 93年gydF4y2Ba]。更多细节特征,分类算法和数据库可以在[gydF4y2Ba 94年gydF4y2Ba- - - - - -gydF4y2Ba 97年gydF4y2Ba]。gydF4y2Ba

3.3。在语音合成的发展进步gydF4y2Ba

第一个“演讲机器”是机械设备能够产生单个音素,并介绍了它们的一些组合基督教Kratzenstein和沃尔夫冈·冯·Kempelen十八世纪的末尾(gydF4y2Ba 98年gydF4y2Ba]。语音合成器,1939年由荷马达德利,可以被认为是第一个合成器可以生成整个句子(gydF4y2Ba 99年gydF4y2Ba]。第一个完整的TTS系统介绍了英语在1968年由Teranishi和繁华gydF4y2Ba One hundred.gydF4y2Ba]。这是一个articulatory-based系统可以执行文本分析和确定停顿在文本使用一个复杂的解析器gydF4y2Ba 101年gydF4y2Ba]。gydF4y2Ba

然而,直到衔接合成器发明,TTS被广泛使用。衔接TTS的想法是将适当的部分预先录制的数据库(gydF4y2Ba 102年gydF4y2Ba]。如果目标是特定于域的合成或一个非常大的演讲数据库可用,这种方法可以产生高质量的语音。然而,有声音在连接故障点如果在数据库中无法找到合适的单位。方法也是非常灵活的改变说话方式或演讲者的声音;它需要一个全新的数据库记录和注释。gydF4y2Ba

TTS的应用程序变得更受欢迎和广泛应用,算法的必要性,可能产生不同的声音和讲话风格已从较小的数据库。从2000年左右,统计参数语音合成、光谱,基本频率和持续时间的演讲被摘要multispace概率分布模型和多维高斯分布(gydF4y2Ba 103年gydF4y2Ba),开始流行起来。嗯合成使转换与说话者不相关的系统向目标说话人使用少量的语音数据(gydF4y2Ba 104年gydF4y2Ba),创建富有表现力的声音(gydF4y2Ba 105年gydF4y2Ba),以及多语言的声音(gydF4y2Ba 106年gydF4y2Ba]。然而,这个方法从未实现衔接TTS的自然性。的一个主要问题是造成的信号平滑造型类似上下文相同的高斯混合。另一个大问题介绍了参数方法是声码器的使用,系统产生语音波形预测的声学特性。语音编码器,尽管时间显著提高,介绍一些文物影响的总体质量生成的演讲。详细审查HMM-based语音合成中可以找到(gydF4y2Ba 107年gydF4y2Ba]。gydF4y2Ba

第一次尝试使用神经网络在语音合成中可以找到gydF4y2Ba 108年gydF4y2Ba]。然而,最近开发的硬件,尤其是图形处理单元(gpu),推广这种方法,建立了其主导地位TTS研究社会。深层神经网络(款)取代了决策树和高斯混合模型的输入语言特征映射到输出声学特性,使非线性映射(gydF4y2Ba 109年gydF4y2Ba]。虽然简单的前馈神经网络,一些隐藏层和乙状结肠或切线双曲激活是充分理解和自然生产的合成语音,引入LSTM(长短期记忆)单位带来了进一步改善合成语音的质量(gydF4y2Ba 110年gydF4y2Ba]。一些改进也被报道通过引入生成对抗网络(gydF4y2Ba 111年gydF4y2Ba)和堆叠瓶颈特征(gydF4y2Ba 112年gydF4y2Ba]。gydF4y2Ba

款不仅只是启用生成高质量的合成语音,还介绍了许多可能性为生产不同声音和讲话的讲话风格。大多数方法创建新的款声音使用有限的训练数据是基于使用multispeaker模型。在multispeaker造型,需要由多个扬声器组成的大型数据库。每个演讲者通常是用比较少的数据表示人的造型。由于各种上下文信息和更好的网络推广,语音产生的质量与multispeaker模型是相似的,甚至比演讲与单扬声器模型获得。演讲者身份multispeaker系统可以以几种不同的方式来表示。一组的方法是基于使用一个独特的向量为每个演讲者。这个向量可以表示为gydF4y2Ba 我gydF4y2Ba向量(gydF4y2Ba 113年gydF4y2Ba)或只是一个炎热的向量(gydF4y2Ba 54gydF4y2Ba)和用于训练的扩展标准输入或其他任何的隐藏层的输入。另一组代表说话人身份的方法是基于分割网络speaker-specific和共享的部分。在[gydF4y2Ba 53gydF4y2Ba),单独为每个演讲者介绍了输出层。在[gydF4y2Ba 114年gydF4y2Ba),甚至语言相关的部分添加了网络,但这种方法需要的数据来自同一个扬声器用多种语言。创建一个新的声音,样品没有出现在训练阶段,在multispeaker框架是基于适应只有依赖网络的一部分gydF4y2Ba 53gydF4y2Ba),估计新议长speaker-specific向量(gydF4y2Ba 55gydF4y2Ba]或调整开始神经元模型的参数(gydF4y2Ba 113年gydF4y2Ba]。而不是使用multispeaker模型作为初始模型适应,在gydF4y2Ba 115年gydF4y2Ba),适应从一个扬声器模式研究。它已被证明,只有∼10分钟目标说话人的声音是必需的,为了在目标说话人的声音达到生产合成语音质量的传统方法建立在几个小时的语音数据库。扬声器的假说是,模型A和B更类似一个随机初始化模型和模型的发言人B,因此要求更少的数据训练模型的发言人B从演讲者的模型比从一个随机初始化模型。gydF4y2Ba

合成语音不仅要传达信息,但也副语言的情绪状态等信息。还有一个需要支持一些特定于任务的演讲风格如新闻,广告,讲故事,和警告gydF4y2Ba 116年gydF4y2Ba]。它已经表明,情感,情绪,情绪影响注意力,内存,性能,判断,和人类的决策(gydF4y2Ba 117年gydF4y2Ba),它支持的必要性,对许多应用程序使用不同的讲话风格在合成语音。三种不同风格的造型方法比较(gydF4y2Ba 118年gydF4y2Ba]。提出的方法是基于思想引入multispeaker造型使用输入代码,网络适应性和输出层分离。它已被证明,只有∼5分钟的演讲/风格足够为了产生语音的可接受的质量在一个特定的风格。使用输入编码代表不同的风格也呈现在gydF4y2Ba 119年gydF4y2Ba,gydF4y2Ba 120年gydF4y2Ba]。也有尝试风格移植,即。,producing speech in the voice of speaker A in style X without having any sentence from speaker A in style X in the training data, in which case the network is forced to learn the style X from other speakers in the training database [ 121年gydF4y2Ba,gydF4y2Ba 122年gydF4y2Ba]。gydF4y2Ba

尽管款已经证明是非常强大和灵活的,在很长一段时间里,他们的一个主要缺点在语音合成声码器的使用的依赖。第一次在2016年,原始音频样本直接预测款使用WaveNet架构(gydF4y2Ba 51gydF4y2Ba]。这个模型是完全概率和自回归,每个音频样本的预测分布在所有之前的条件。当条件语言特征源自文本和议长的身份,它可以用作TTS显著优于所有其他TTS系统。这个系统的主要缺点是它需要非常大的数据库和极端的计算能力,虽然已经加速了合成方法的引入等平行WaveNet [gydF4y2Ba 123年gydF4y2Ba]。2017年引进类似的模型称为DeepVoice [gydF4y2Ba 124年gydF4y2Ba]。在DeepVoice,每一部分的TTS管道被相应款所取代。其主要缺点是TTS系统的所有组件独立训练,这导致一个累积误差的合成语音。gydF4y2Ba

而不是WaveNet和DeepVoice系统,使用词汇特征作为输入,有系统使用原始正字法的文本作为输入,如Tacotron [gydF4y2Ba 52gydF4y2Ba],Tacotron 2 [gydF4y2Ba 125年gydF4y2Ba),低沉的声音3 (gydF4y2Ba 126年gydF4y2Ba]。Tacotron输出谱图转换为语音样本使用Griffin-Lim算法,生成的演讲中也介绍了文物。另一方面,Tacotron 2系统生成的声音(用于调节标准WaveNet架构,它生成语音样本。DeepVoice 3架构可以输出声音(或其他特性,可以作为一些波形合成模型的输入。适应新的扬声器也调查了端到端系统(gydF4y2Ba 127年gydF4y2Ba,gydF4y2Ba 128年gydF4y2Ba在不同的风格中以及合成gydF4y2Ba 129年gydF4y2Ba,gydF4y2Ba 130年gydF4y2Ba]。gydF4y2Ba

集成的端到端TTS系统的主要优势是,需要最少的人类努力因为不需要标签输入数据。因为在端到端系统,直接抽样值往往预测(gydF4y2Ba 29日gydF4y2Ba),使用16位样品会使预测复杂,执行某种类型的量化。出于这个原因,改进的编码和压缩算法对TTS很重要。gydF4y2Ba

3.4。对话系统gydF4y2Ba

自动语音识别和语音合成技术具有悠久历史。在过去五年中,各种算法的语音技术领域内的知识。最新进展的深度学习和人工神经网络的世界里,我们能够在一定程度上模仿人类听觉系统的灵敏度,识别准确性,人类语音可懂度和自然,情感在合成语言,等结果,机器能够识别特定的扬声器,认识人类在一个嘈杂的环境或执行大词汇连续语音识别精度高。此外,少量数据从目标的说话,他们合成的语音质量高,足以成为一个威胁扬声器自动验证系统。gydF4y2Ba

自然产生的一个问题是这是否足以实现聪慧如,自然和长期人机语音交互。不幸的是,事实并非如此。gydF4y2Ba

语音识别和合成只是两个的六个模块在一个典型的语音对话系统的体系结构,在图gydF4y2Ba 4gydF4y2Ba,每六个模块对应于某些认知方面潜在的人类语言处理系统。因此,对话管理成为一个复杂的结构,涉及合作的几个完全不同的功能单元。抛开对话系统的划分为任务导向和non-task-oriented,我们必须强调,科学家面临的最大的挑战在这一领域的研究是模仿人类能够理解的意义和前瞻性进行对话,信息和连贯的。关于对话活动,机器是成功的在处理对话系统计划(或单独的项目)。在这种情况下,该系统完全控制语音识别的谈话和维护过程,提取意义,答案一代,和语音生产。然而,众所周知,自然对话是不确定的,实际改善人机语音交互只能如果适应性行为的意图,当前上下文,提供互动的历史。gydF4y2Ba

作为一个传统的范式转变,最近的工作在这一领域解决一系列的数据驱动,端到端可训练的,non-goal-driven系统基于生成概率模型(gydF4y2Ba 131年gydF4y2Ba]。因此,这些模型可以看作是人工认知系统,旨在组织和实施传统的对话管理任务:语言理解、推理、决策、和自然语言生成。他们是基于语料库数据驱动的对话系统,基于机器学习算法使用语料库从真正的单词创建数据。对话语料的统计观察到的主要知识的优化参数和变量。gydF4y2Ba

值得指出的是,除了领域知识的重要性,语言环境有至关重要的影响积极参与谈话。然而,这些方法的主要缺点之一是有关稀疏问题,预计会在上下文信息在统计模型的集成。工作的Sordoni et al。gydF4y2Ba 132年gydF4y2Ba),用于解决这一问题的神经网络结构,允许系统考虑前面的对话话语。而造型的上下文信息,作者确定三个语言实体模型对话:上下文(gydF4y2Ba cgydF4y2Ba)、信息(gydF4y2Ba 米gydF4y2Ba)和反应(gydF4y2Ba rgydF4y2Ba)。在此基础上,他们提出三种基于上下文的一代模型来估计一个响应gydF4y2Ba rgydF4y2Ba =gydF4y2Ba rgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba rgydF4y2Ba TgydF4y2Ba 如下:gydF4y2Ba (1)gydF4y2Ba pgydF4y2Ba rgydF4y2Ba ∣gydF4y2Ba cgydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba =gydF4y2Ba ∏gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba pgydF4y2Ba rgydF4y2Ba tgydF4y2Ba ∣gydF4y2Ba rgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba rgydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba 。gydF4y2Ba

这项工作扩展了语言递归神经网络模型(RNNLM)作为句子的生成模型gydF4y2Ba 133年gydF4y2Ba]。作为神经网络模型的基本原理,输入向量,表示当前词时即时gydF4y2Ba tgydF4y2Ba是连接在网络语境层神经元的输出时间gydF4y2Ba tgydF4y2Ba−1。为了捕捉大跨度的依赖关系与语义和语法相似之处,作者选择嵌入的连续表示单词的单词和短语。类似的方法已先进的古典造型语言,基于传统gydF4y2Ba ngydF4y2Ba克语言模型(gydF4y2Ba 134年gydF4y2Ba,gydF4y2Ba 135年gydF4y2Ba]。gydF4y2Ba

符合这一点,许多研究试图利用神经网络和端到端培训相结合的可能性和大量的免费文字或音频材料从社交媒体,电影脚本等。gydF4y2Ba 136年gydF4y2Ba]。Serban et al。gydF4y2Ba 137年gydF4y2Ba),例如,证明引入潜在变量层次复发encoder-decoder架构。中给出的研究(gydF4y2Ba 138年gydF4y2Ba]延长注意力机制的层次结构(字级别的关注和话语的关注),考虑到不同重要词汇和话语的上下文。gydF4y2Ba

虽然端到端,统计模型得到了大多数的最近的研究在对话系统中,许多问题仍未根本解决gydF4y2Ba 131年gydF4y2Ba]。神经网络模型能够处理大量的数据,但仍然很难设计一个智能系统基于模仿反应(尤其是如果我们考虑到对话的数据为一个特定的领域十分有限)。因此,为了减少这些限制,Miškovićet al。gydF4y2Ba 36gydF4y2Ba)提出了一个不同的,表征方法。这项工作扩展了焦点树模型,工作记忆的认知启发的计算模型,允许自适应人机交互对话管理。的研究不仅关注改进语音识别模块,但也指出可能的新系统架构方面的对话。以下的假设人类的记忆系统的层次结构和关联性质和事实的处理用户的对话在人机交互行为始终是上下文相关的,这个模型支持,在某种程度上,了解语言和真实的数据。gydF4y2Ba

4所示。进步在语音信号压缩、编码和传输gydF4y2Ba

一般来说,语音编码人员可以分为三大类根据应用编码技术:波形编码、参数编码和混合编码。波形编码器设计背后的主要思想是保持语音信号波形的形状,因此原始时域波形编码信息(gydF4y2Ba 4gydF4y2Ba- - - - - -gydF4y2Ba 6gydF4y2Ba,gydF4y2Ba 14gydF4y2Ba,gydF4y2Ba 139年gydF4y2Ba]。这样的程序员是广泛应用于嵌入式应用程序由于几个原因:低成本的制造、低计算资源的使用,和高话音质量(gydF4y2Ba 4gydF4y2Ba- - - - - -gydF4y2Ba 7gydF4y2Ba,gydF4y2Ba 14gydF4y2Ba,gydF4y2Ba 139年gydF4y2Ba]。最简单、最著名的类型的波形编码脉冲编码调制(PCM)编码器,这被认为是一个标准的数字电话。PCM编码人员的关键优势之一是瞬时的,暗示的信号延迟不超过一个样本时期(gydF4y2Ba 4gydF4y2Ba]。与波形编码人员倾向于重建原始语音信号在时域的形状,参数编码重构语音信号从某些参数模型的源信号,并没有刻意保留原始波形的形状(gydF4y2Ba 4gydF4y2Ba- - - - - -gydF4y2Ba 7gydF4y2Ba,gydF4y2Ba 14gydF4y2Ba,gydF4y2Ba 139年gydF4y2Ba]。由于这个限制,参数编码者更少依赖、通用的信号。此外,与波形编码人员相比,他们提供低质量的语音信号。参数编码者,人类语言产生机制与时变滤波器模型,有系数一般由线性预测分析过程。最后,混合编码人员代表一个类的程序员,以前的结合特性描述类的程序员,即混合编码人员倾向于保护信号在时域的形状也利用感知特征,即参数方法(gydF4y2Ba 4gydF4y2Ba- - - - - -gydF4y2Ba 6gydF4y2Ba,gydF4y2Ba 14gydF4y2Ba,gydF4y2Ba 140年gydF4y2Ba]。性能比较图中展示了这三个类的程序员gydF4y2Ba 5gydF4y2Ba,意思是意见分数(MOS)作为一个标准的重建语音信号质量的主观评估(gydF4y2Ba 4gydF4y2Ba]。gydF4y2Ba

从图gydF4y2Ba 5gydF4y2Ba,可以得出这样的结论:重建语音信号的波形编码人员提供优良的品质,他们是最好的选择在16比特率高于kbits / s,而参数编码人员不能提供高质量的比特率。另一方面,参数编码人员提供更好的质量比波形编码人员在低比特率。最后,混合编码人员在中比特率才是最合适的。至于语音合成和自动语音识别的目的,尽可能高质量的重建信号是可取的和波形编码人员通常认为是一个适当的选择。因此,下面是专注于PCM和自适应脉码调制(ADPCM编码技术)。gydF4y2Ba

语音信号质量根据金属氧化物半导体和各种语音信号的比特率编码技术。gydF4y2Ba

4.1。自适应PCMgydF4y2Ba

语音信号可以被认为是一个非平稳的过程,其在时域平均功率大幅波动,导致宽动态范围(gydF4y2Ba 4gydF4y2Ba]。然而,语音信号几乎可以被认为是静止不动在很短的时间内(30 ms)。这意味着语音信号具有高度可预测的特征在很短的时间,适合利用自适应量化(gydF4y2Ba 4gydF4y2Ba,gydF4y2Ba 8gydF4y2Ba- - - - - -gydF4y2Ba 10gydF4y2Ba,gydF4y2Ba 141年gydF4y2Ba- - - - - -gydF4y2Ba 147年gydF4y2Ba]。通常,自适应量化框架,框架由一个输入语音信号划分成的样本集。gydF4y2Ba

有两种从根本上不同的类别的自适应量化技术:向前和向后的自适应量化技术(gydF4y2Ba 141年gydF4y2Ba]。提出自适应技术要求关于估计得到的附加信息的传播,用于适应。此外,提出自适应技术要求处理延迟超过自适应技术落后,样品在一个帧必须存储在一个缓冲区,以估计预测每一帧的特征。当获得估计和量化器是改编,样品可以量化,进一步传播译码器以及量化的收益。gydF4y2Ba

一般向前适应性PCM模型图gydF4y2Ba 6gydF4y2Ba(gydF4y2Ba 8gydF4y2Ba,gydF4y2Ba 10gydF4y2Ba]。编码器形成两个部分:一个固定的(非适应)的一部分,由一个固定的量化器gydF4y2Ba 问gydF4y2BafgydF4y2Ba,一个自适应部分组成的缓冲区,得到估计量,一个分频器,固定增益量化器gydF4y2Ba 问gydF4y2BaggydF4y2Ba。如果gydF4y2Ba 问gydF4y2BafgydF4y2Ba是一个分段线性gydF4y2Ba μgydF4y2Ba法量化器为8位/样本和设计的gydF4y2Ba μgydF4y2Ba= 255,一般适应模型成为提出适应性PCM模型定义为G.711标准(gydF4y2Ba 148年gydF4y2Ba]。gydF4y2Ba

提出自适应PCM: (a)编码器;(b)译码器。gydF4y2Ba

向后向前与适应,适应不估计样本的特征在一帧编码,这意味着没有附加信息,传播(gydF4y2Ba 149年gydF4y2Ba]。事实上,在接收机增益估计执行解码后,考虑到之前量化样本。最简单落后的自适应量化模型是基于统一的量化与一个码字内存利用增益估计,它通常被称为Jayant的模型(gydF4y2Ba 4gydF4y2Ba]。gydF4y2Ba

先进落后自适应模型通常包含更复杂的评估方法,或方差gydF4y2Ba σgydF4y2Ba ^gydF4y2Ba ygydF4y2Ba 2gydF4y2Ba ngydF4y2Ba 的量化评估方法,目前的样品gydF4y2Ba xgydF4y2Ba(gydF4y2Ba ngydF4y2Ba),通常利用大量的先前解码样本gydF4y2Ba ygydF4y2Ba ngydF4y2Ba −gydF4y2Ba 我gydF4y2Ba (gydF4y2Ba 4gydF4y2Ba]:gydF4y2Ba (2)gydF4y2Ba σgydF4y2Ba ^gydF4y2Ba ygydF4y2Ba 2gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba αgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba αgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba ∞gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ygydF4y2Ba 2gydF4y2Ba ngydF4y2Ba −gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba αgydF4y2Ba是一个加权参数,可以值0 αgydF4y2Ba< 1。参数gydF4y2Ba αgydF4y2Ba定义了一个学习期,即方差估计所需时间(gydF4y2Ba 4gydF4y2Ba]:gydF4y2Ba (3)gydF4y2Ba lgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba αgydF4y2Ba 1gydF4y2Ba −gydF4y2Ba αgydF4y2Ba 。gydF4y2Ba

方程(gydF4y2Ba 2gydF4y2Ba)可以用递归形式如下:gydF4y2Ba (4)gydF4y2Ba σgydF4y2Ba ^gydF4y2Ba ygydF4y2Ba 2gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba αgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba αgydF4y2Ba ygydF4y2Ba 2gydF4y2Ba ngydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba αgydF4y2Ba σgydF4y2Ba ^gydF4y2Ba ygydF4y2Ba 2gydF4y2Ba ngydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 这是直接用于最简单的Jayant向后量化器的数学模型与一个码字的记忆。一个落后的自适应的实现PCM与一个码字的内存包含一种广泛使用的压缩量化模型如图gydF4y2Ba 7gydF4y2Ba,在那里gydF4y2Ba 米gydF4y2Ba ngydF4y2Ba −gydF4y2Ba 1gydF4y2Ba 代表一个步长乘法器,用于适应,gydF4y2Ba cgydF4y2Ba(gydF4y2Ba xgydF4y2Ba),gydF4y2Ba cgydF4y2Ba−1gydF4y2Ba(gydF4y2Ba xgydF4y2Ba)是一个压缩机函数和一个扩展器函数,分别。gydF4y2Ba

一个落后的自适应的实现PCM与一个码字的记忆:(一)编码器;(b)译码器。gydF4y2Ba

4.2。双模量子化gydF4y2Ba

双模式和自适应双模式亦然属于一个相对较新的类亦然的设计是基于多参数适应,如方差和最大振幅(gydF4y2Ba 8gydF4y2Ba,gydF4y2Ba 9gydF4y2Ba,gydF4y2Ba 11gydF4y2Ba]。根据目的和应用程序,他们可以执行量化器根据方差和帧适应最大振幅gydF4y2Ba xgydF4y2Ba马克斯gydF4y2Ba并根据子帧的最大振幅。利用两个亦然,构成双模系统,和通过应用交换技术,可以实现更好的量化信号的质量,或更高的压缩,而普通单模亦然。在图gydF4y2Ba 8gydF4y2Ba双模量子化方案显示,编码器和译码器1有关量化器申请处理信号振幅范围限制,而2编码器和译码器2相关的量化器申请处理的信号有无限制的振幅范围(gydF4y2Ba 8gydF4y2Ba,gydF4y2Ba 9gydF4y2Ba,gydF4y2Ba 11gydF4y2Ba]。切换过程框架,以便执行限制量化器的情况中使用一个框架内的所有样本属于限制量化器的支持区域,而无限制的量化器使用否则[gydF4y2Ba 8gydF4y2Ba,gydF4y2Ba 9gydF4y2Ba,gydF4y2Ba 11gydF4y2Ba]。这样量化模型背后的主要思想是使一个更可取的选择限制量化器,用相对较低的地区的支持,比不受限制的,因为,以这样一种方式,增加可以提供信号量化噪声比。gydF4y2Ba

双模量子化方案:(一)编码器;(b)译码器。gydF4y2Ba

考虑到语音信号可以被描述使用高斯概率密度函数(PDF)或拉普拉斯算子的PDF,重尾,预计只有一小部分语音帧会有一些样品的大值。然而,这也取决于帧的大小。因此,支持区域阈值对亦然应该选择这样限制量化器的使用应占主导地位,但考虑到还整个帧大小和输入信号动态以达到最低总失真的量化过程中(gydF4y2Ba 8gydF4y2Ba,gydF4y2Ba 9gydF4y2Ba,gydF4y2Ba 11gydF4y2Ba]。gydF4y2Ba

4.3。差分脉冲编码调制gydF4y2Ba

差分脉码调制(DPCM)代表了一种简单而又高质量的语音信号编码方案中比特率。它最初利用统一的量化和一阶预测(gydF4y2Ba 150年gydF4y2Ba,gydF4y2Ba 151年gydF4y2Ba]。已经讨论过,在一帧语音信号具有高度可预测的特征,这是用来减少振幅的动态范围的量化DPCM计划(gydF4y2Ba 4gydF4y2Ba,gydF4y2Ba 12gydF4y2Ba,gydF4y2Ba 13gydF4y2Ba,gydF4y2Ba 152年gydF4y2Ba,gydF4y2Ba 153年gydF4y2Ba]。特别是,DPCM预测下一个示例振幅值和编码的区别预测价值和当前输入信号幅度的价值。由于高度相关,这些差异较小值与输入信号的样本相比,这样的动态范围振幅量化前显著降低。因此,合适的DPCM系统的设计,一定失真可能提供较低的比特率相比PCM系统。换句话说,一个有价值的压缩与DPCM系统可以实现PCM相比。gydF4y2Ba

更复杂的解决方案可能将预测高阶或其他类型的量化模型,比如gain-adaptive量化模型(gydF4y2Ba 154年gydF4y2Ba]。图gydF4y2Ba 9gydF4y2Ba显示了DPCM方案包含简单的一阶预测和转发gain-adaptive量化器基于最优压缩模型(gydF4y2Ba 151年gydF4y2Ba]。gydF4y2Ba

DPCM: (a)编码器;(b)译码器。gydF4y2Ba

DPCM系统图gydF4y2Ba 9gydF4y2Ba,重建语音信号gydF4y2Ba xgydF4y2Ba ^gydF4y2Ba 是由gydF4y2Ba (5)gydF4y2Ba xgydF4y2Ba ^gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 一个gydF4y2Ba ⋅gydF4y2Ba xgydF4y2Ba ^gydF4y2Ba ngydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba ygydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ygydF4y2Ba 一个gydF4y2Ba 表示自适应量化器的输出,而gydF4y2Ba ngydF4y2Ba表示gydF4y2Ba ngydF4y2Bath样品的信号。它可以指出,参数的值gydF4y2Ba 一个gydF4y2Ba取决于输入信号的性质。如果一个输入信号是高度相关,优先使用值接近1(例如,gydF4y2Ba 一个gydF4y2Ba= 0.8),而值接近于零的首选低相关信号(例如,gydF4y2Ba 一个gydF4y2Ba= 0.3)。然而,参数的选择gydF4y2Ba 一个gydF4y2Ba不是一项容易的任务,即使适应。线性预测系数的确定可以通过使用基于统计学习的方法如至少意味着广场(LMS)估算方法gydF4y2Ba 155年gydF4y2Ba]。LMS搜索算法减少失真通过为每个输入样本,调整系数及其主要特点,吸引研究,较低的计算复杂度,证明收敛在固定环境中,无偏收敛的意思是维纳解,和稳定的行为当用有限精度算法实现(gydF4y2Ba 156年gydF4y2Ba]。此外,线性预测系数以及其他重要参数的确定量化器设计可以利用人工神经网络来确定或回归方法。gydF4y2Ba

5。结论gydF4y2Ba

这种评论文章概述了语音技术的最新发展和其他科学领域相关,主要是由于新机器学习的发展模式,在这一领域产生了极大的影响。除了自然语言产生和语言感知、理解的认知方面的言语交际是非常重要的对于未来的人机交互系统包括语言理解和生成语言的技术。机器学习模式已经有了很大的影响在自动语音识别(ASR)和合成语音(TTS)作为基本的语音技术。预计ASR系统基于深度学习和自适应算法在不久的将来能够识别在复杂声学环境中自发的演讲,与人类的准确性将超过相应的能力。合成语音已经达到这样的质量是很难或不可能从人类语言来区分。改变说话的灵活性和风格,人机交互是人与人之间的互动变得愉快和自然。无监督和reinforcement-based机器学习算法也将进一步发展,这将反过来,带来进步的地区大型数据集并不可用,一样在演讲的语音识别和合成分析资源不足的语言。短的概述在自适应语音编码技术和当前进展标量量化提出了数字化和压缩语音信号的质量是重要的准确自动语音信号检测和合成。尽管这些技术可以设计成健壮的宽动态范围的语音信号变化,或frame-adaptive,可以预计,机器学习的工具日益普及会导致新的解决方案,这将提高性能适应各种系统的预测系数。最后,我们正在见证一个日益快速进展领域的语音信号处理由于机器学习范式,而且看起来很难预测接下来他们会带来什么,多久可以预期。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突有关的出版。gydF4y2Ba

确认gydF4y2Ba

本文中描述的工作由教育部支持部分,塞尔维亚共和国的科学和技术的发展,通过项目”开发的对话系统对塞尔维亚和其他南部斯拉夫语言”(TR32035)。gydF4y2Ba

库恩gydF4y2Ba t·S。gydF4y2Ba 科学Revolutions-50th周年纪念版的结构gydF4y2Ba 2012年gydF4y2Ba 3gydF4y2Ba 4日gydF4y2Ba 美国芝加哥gydF4y2Ba 芝加哥大学出版社gydF4y2Ba 摩尔gydF4y2Ba r·K。gydF4y2Ba 认知信息:语言处理的未来?gydF4y2Ba 第十届国际会议上演讲和计算机学报》(SPECOM)gydF4y2Ba 2005年10月gydF4y2Ba 佩特雷,希腊gydF4y2Ba 保罗gydF4y2Ba j . D。gydF4y2Ba 重新创建sigsaly量化器:这1943模拟-数字转换器给盟军一个牢不可破的扰频器-(资源)gydF4y2Ba IEEE频谱gydF4y2Ba 2019年gydF4y2Ba 56gydF4y2Ba 2gydF4y2Ba 16gydF4y2Ba 17gydF4y2Ba 10.1109 / mspec.2019.8635806gydF4y2Ba 2 - s2.0 - 85061344442gydF4y2Ba JayantgydF4y2Ba n S。gydF4y2Ba 诺尔gydF4y2Ba P。gydF4y2Ba 数字编码的波形。原理及应用语音和视频gydF4y2Ba 信号处理gydF4y2Ba 1985年gydF4y2Ba 9gydF4y2Ba 2gydF4y2Ba 139年gydF4y2Ba 140年gydF4y2Ba 10.1016 / 0165 - 1684 (85)90053 - 2gydF4y2Ba 楚gydF4y2Ba w . C。gydF4y2Ba 语音编码算法:基金会和标准化的程序员的进化gydF4y2Ba 2003年gydF4y2Ba 美国新泽西州霍博肯gydF4y2Ba 约翰威利& SonsgydF4y2Ba HanzogydF4y2Ba lgydF4y2Ba 萨默维尔市gydF4y2Ba f . c。gydF4y2Ba WoodardgydF4y2Ba j . P。gydF4y2Ba 声音和音频压缩为无线通信gydF4y2Ba 2007年gydF4y2Ba 2日gydF4y2Ba 英国奇切斯特gydF4y2Ba 约翰威利& Sons有限公司。gydF4y2Ba KondozgydF4y2Ba a . M。gydF4y2Ba 数字语音:对低比特率通信系统的编码gydF4y2Ba 2004年gydF4y2Ba 2日gydF4y2Ba 英国奇切斯特gydF4y2Ba 约翰威利& Sons有限公司。gydF4y2Ba 斯佩里奇gydF4y2Ba z H。gydF4y2Ba 尼克里奇gydF4y2Ba J。gydF4y2Ba 一种自适应波形编码算法及其在语音编码中的应用gydF4y2Ba 数字信号处理gydF4y2Ba 2012年gydF4y2Ba 22gydF4y2Ba 1gydF4y2Ba 199年gydF4y2Ba 209年gydF4y2Ba 10.1016 / j.dsp.2011.09.001gydF4y2Ba 2 - s2.0 - 81555219220gydF4y2Ba 尼克里奇gydF4y2Ba J。gydF4y2Ba 斯佩里奇gydF4y2Ba z H。gydF4y2Ba 约万诺维奇gydF4y2Ba 答:Z。gydF4y2Ba 前面的两个自适应高斯源的双模压缩标量亦然gydF4y2Ba 信号处理gydF4y2Ba 2016年gydF4y2Ba 120年gydF4y2Ba 129年gydF4y2Ba 140年gydF4y2Ba 10.1016 / j.sigpro.2015.08.016gydF4y2Ba 2 - s2.0 - 84943424418gydF4y2Ba 尼克里奇gydF4y2Ba J。gydF4y2Ba 斯佩里奇gydF4y2Ba z H。gydF4y2Ba Lloyd-Max算法实现的语音编码算法基于自适应技术gydF4y2Ba Informatica(立陶宛科学院)gydF4y2Ba 2008年gydF4y2Ba 19gydF4y2Ba 2gydF4y2Ba 255年gydF4y2Ba 270年gydF4y2Ba 斯佩里奇gydF4y2Ba Z。gydF4y2Ba 尼克里奇gydF4y2Ba J。gydF4y2Ba 高质量的源量子化使用拉普拉斯算子的限制和无限制的对数quantisers的组合gydF4y2Ba 信号处理专业gydF4y2Ba 2012年gydF4y2Ba 6gydF4y2Ba 7gydF4y2Ba 633年gydF4y2Ba 640年gydF4y2Ba 10.1049 / iet-spr.2011.0213gydF4y2Ba 2 - s2.0 - 84868631107gydF4y2Ba OrdentlichgydF4y2Ba O。gydF4y2Ba ErezgydF4y2Ba U。gydF4y2Ba 性能分析和最优滤波器设计与DPCM通过对偶法调制gydF4y2Ba IEEE信息理论gydF4y2Ba 2019年gydF4y2Ba 65年gydF4y2Ba 2gydF4y2Ba 1153年gydF4y2Ba 1164年gydF4y2Ba 10.1109 / tit.2018.2881750gydF4y2Ba 2 - s2.0 - 85056735087gydF4y2Ba 法瑞斯gydF4y2Ba r . C。gydF4y2Ba BrossiergydF4y2Ba j . M。gydF4y2Ba 自适应亦然估计gydF4y2Ba 信号处理gydF4y2Ba 2013年gydF4y2Ba 93年gydF4y2Ba 11gydF4y2Ba 3076年gydF4y2Ba 3087年gydF4y2Ba 10.1016 / j.sigpro.2013.04.012gydF4y2Ba 2 - s2.0 - 84879316238gydF4y2Ba 麦克劳林gydF4y2Ba i V。gydF4y2Ba 语音和音频处理:一种基于matlab的方法gydF4y2Ba 2016年gydF4y2Ba 英国剑桥gydF4y2Ba 剑桥大学出版社gydF4y2Ba CernakgydF4y2Ba M。gydF4y2Ba AsaeigydF4y2Ba 一个。gydF4y2Ba HyafilgydF4y2Ba 一个。gydF4y2Ba 认知语音编码:研究认知语言处理语音压缩的影响gydF4y2Ba IEEE信号处理杂志gydF4y2Ba 2018年gydF4y2Ba 35gydF4y2Ba 3gydF4y2Ba 97年gydF4y2Ba 109年gydF4y2Ba 10.1109 / MSP.2017.2761895gydF4y2Ba 2 - s2.0 - 85046627251gydF4y2Ba 神经生理学的言语交际,gydF4y2Ba http://naplab.ee.columbia.edu/speech-neurophysiology.htmlgydF4y2Ba 珠穆朗玛峰gydF4y2Ba f。gydF4y2Ba PohlmanngydF4y2Ba k . C。gydF4y2Ba 掌握手册的音响gydF4y2Ba 2009年gydF4y2Ba 5日gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 麦格劳-希尔gydF4y2Ba http://www.roletech.net/books/HandbookAcoustics.pdfgydF4y2Ba O ' shaughnessygydF4y2Ba D。gydF4y2Ba 线性预测编码gydF4y2Ba IEEE势gydF4y2Ba 1988年gydF4y2Ba 7gydF4y2Ba 1gydF4y2Ba 29日gydF4y2Ba 32gydF4y2Ba 10.1109/45.1890gydF4y2Ba 2 - s2.0 - 0023962645gydF4y2Ba 拉宾gydF4y2Ba l R。gydF4y2Ba 谢弗gydF4y2Ba r·W。gydF4y2Ba 介绍了数字语音处理gydF4y2Ba 基金会和信号处理的趋势gydF4y2Ba 2007年gydF4y2Ba 1gydF4y2Ba 1 - 2gydF4y2Ba 1gydF4y2Ba 194年gydF4y2Ba 10.1561 / 2000000001gydF4y2Ba 2 - s2.0 - 76249085823gydF4y2Ba 黄gydF4y2Ba X。gydF4y2Ba AcerogydF4y2Ba 一个。gydF4y2Ba 亲爱的gydF4y2Ba h·W。gydF4y2Ba ReddygydF4y2Ba R。gydF4y2Ba 口语处理:指导理论,算法和系统开发gydF4y2Ba 2001年gydF4y2Ba 上台北,美国gydF4y2Ba 普伦蒂斯霍尔PTRgydF4y2Ba JovičićgydF4y2Ba 年代。gydF4y2Ba 演讲Communication-Physiology心理声学和知觉gydF4y2Ba 1999年gydF4y2Ba 贝尔格莱德,塞尔维亚gydF4y2Ba Izdavačko Preduzeće NaukagydF4y2Ba 在塞尔维亚gydF4y2Ba 罗欣gydF4y2Ba t D。gydF4y2Ba 施普林格手册的音响gydF4y2Ba 2007年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 施普林格自然gydF4y2Ba BlauertgydF4y2Ba J。gydF4y2Ba 通信声学gydF4y2Ba 2005年gydF4y2Ba 柏林,德国gydF4y2Ba 施普林格gydF4y2Ba 汉森gydF4y2Ba j·h·L。gydF4y2Ba 哈桑gydF4y2Ba T。gydF4y2Ba 说话人识别由机器和人类:教程审查gydF4y2Ba IEEE信号处理杂志gydF4y2Ba 2015年gydF4y2Ba 32gydF4y2Ba 6gydF4y2Ba 74年gydF4y2Ba 99年gydF4y2Ba 10.1109 / MSP.2015.2462851gydF4y2Ba 2 - s2.0 - 85032751641gydF4y2Ba BrokishgydF4y2Ba C。gydF4y2Ba 刘易斯gydF4y2Ba M。gydF4y2Ba 使用TMS320C54x法和Mu-Law扩展实现。应用注释SPRA163AgydF4y2Ba 1997年gydF4y2Ba 美国达拉斯,TXgydF4y2Ba 德州仪器公司gydF4y2Ba http://www.ti.com/lit/an/spra163a/spra163a.pdfgydF4y2Ba 权力gydF4y2Ba d·m·W。gydF4y2Ba 的应用程序和解释Zipf定律gydF4y2Ba 诉讼的联合会议上新方法学习语言自然语言处理和计算,NeMLaP / CoNLLgydF4y2Ba 1998年1月gydF4y2Ba 澳大利亚悉尼gydF4y2Ba 151年gydF4y2Ba 160年gydF4y2Ba 10.3115/1603899.1603924gydF4y2Ba 黄gydF4y2Ba x D。gydF4y2Ba 杰克gydF4y2Ba M。gydF4y2Ba ArikigydF4y2Ba M。gydF4y2Ba 隐马尔可夫模型的语音识别gydF4y2Ba 1990年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 哥伦比亚大学出版社gydF4y2Ba 霍华德gydF4y2Ba d . M。gydF4y2Ba 安格斯gydF4y2Ba j·a·S。gydF4y2Ba 声学、心理声学gydF4y2Ba 2009年gydF4y2Ba 4日gydF4y2Ba 牛津大学,英国gydF4y2Ba 爱思唯尔有限公司gydF4y2Ba https://www.sciencedirect.com/book/9780240521756/acoustics-and-psychoacousticsgydF4y2Ba FuruigydF4y2Ba 年代。gydF4y2Ba 非特定人孤立词识别语音频谱的使用动态特征gydF4y2Ba IEEE声学,演讲,和信号处理gydF4y2Ba 1986年gydF4y2Ba 34gydF4y2Ba 1gydF4y2Ba 52gydF4y2Ba 59gydF4y2Ba 10.1109 / TASSP.1986.1164788gydF4y2Ba 2 - s2.0 - 0022667694gydF4y2Ba 师gydF4y2Ba 答:S。gydF4y2Ba 听觉场景分析:声音的知觉组织gydF4y2Ba 1994年gydF4y2Ba 美国剑桥,马gydF4y2Ba 麻省理工学院出版社gydF4y2Ba VorlandergydF4y2Ba M。gydF4y2Ba 化技术:声学基础、造型、虚拟现实仿真,算法和声学gydF4y2Ba 2008年gydF4y2Ba 柏林,德国gydF4y2Ba 施普林格gydF4y2Ba 安藤gydF4y2Ba Y。gydF4y2Ba 听觉和视觉感受gydF4y2Ba 2010年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 施普林格gydF4y2Ba https://link.springer.com/book/10.1007/b13253gydF4y2Ba NagaminegydF4y2Ba T。gydF4y2Ba MesgaranigydF4y2Ba N。gydF4y2Ba 理解的表示和计算多层感知器:一个案例研究在语音识别gydF4y2Ba 美国第34机器学习(ICML)国际会议上gydF4y2Ba 2017年8月gydF4y2Ba 澳大利亚悉尼gydF4y2Ba 2564年gydF4y2Ba 2573年gydF4y2Ba 罗gydF4y2Ba Y。gydF4y2Ba 程ydF4y2Ba Z。gydF4y2Ba MesgaranigydF4y2Ba N。gydF4y2Ba 非特定人语音分离与深深的吸引子网络gydF4y2Ba IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2018年gydF4y2Ba 26gydF4y2Ba 4gydF4y2Ba 787年gydF4y2Ba 796年gydF4y2Ba 10.1109 / taslp.2018.2795749gydF4y2Ba 2 - s2.0 - 85040946977gydF4y2Ba GnjatovićgydF4y2Ba M。gydF4y2Ba DelićgydF4y2Ba V。gydF4y2Ba 在机器对话Cognitively-inspired表征方法意义gydF4y2Ba 基于知识的系统gydF4y2Ba 2014年gydF4y2Ba 71年gydF4y2Ba 1gydF4y2Ba 25gydF4y2Ba 33gydF4y2Ba 10.1016 / j.knosys.2014.05.001gydF4y2Ba 2 - s2.0 - 84908074720gydF4y2Ba MiškovićgydF4y2Ba D。gydF4y2Ba GnjatovićgydF4y2Ba M。gydF4y2Ba ŠtrbacgydF4y2Ba P。gydF4y2Ba TrenkićgydF4y2Ba B。gydF4y2Ba JakovljevićgydF4y2Ba N。gydF4y2Ba DelićgydF4y2Ba V。gydF4y2Ba 混合方法的上下文相关的语音识别方法gydF4y2Ba 国际先进的机器人系统杂志》上gydF4y2Ba 2017年gydF4y2Ba 14gydF4y2Ba 1gydF4y2Ba 10.1177 / 1729881416687131gydF4y2Ba 2 - s2.0 - 85014492816gydF4y2Ba 麦克亚当斯gydF4y2Ba 年代。gydF4y2Ba 德雷克gydF4y2Ba C。gydF4y2Ba PashlergydF4y2Ba H。gydF4y2Ba 听觉感知和认知gydF4y2Ba 史蒂文斯的实验心理学手册gydF4y2Ba 2002年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 约翰威利& SonsgydF4y2Ba 397年gydF4y2Ba 452年gydF4y2Ba 10.1002/0471214426. pas0110gydF4y2Ba NagaminegydF4y2Ba T。gydF4y2Ba 苏打水gydF4y2Ba m . L。gydF4y2Ba MesgaranigydF4y2Ba N。gydF4y2Ba 在深层神经网络非线性的角色转换声学模型gydF4y2Ba Interspeech学报》2016年17国际言语交际协会年会上gydF4y2Ba 2016年9月gydF4y2Ba 旧金山,加州,美国gydF4y2Ba 803年gydF4y2Ba 807年gydF4y2Ba 10.21437 / interspeech.2016 - 1406gydF4y2Ba 2 - s2.0 - 84994207070gydF4y2Ba 张gydF4y2Ba W。gydF4y2Ba 李gydF4y2Ba H。gydF4y2Ba 杨gydF4y2Ba M。gydF4y2Ba MesgaranigydF4y2Ba N。gydF4y2Ba 突触抑郁深层神经网络进行语音处理gydF4y2Ba 学报2016年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2016年3月gydF4y2Ba 中国上海gydF4y2Ba 5865年gydF4y2Ba 5869年gydF4y2Ba 10.1109 / ICASSP.2016.7472802gydF4y2Ba 2 - s2.0 - 84973380269gydF4y2Ba 辛顿gydF4y2Ba G。gydF4y2Ba 邓gydF4y2Ba lgydF4y2Ba 余gydF4y2Ba D。gydF4y2Ba 深层神经网络语音识别的声学建模:共享四个研究小组的观点gydF4y2Ba IEEE信号处理杂志gydF4y2Ba 2012年gydF4y2Ba 29日gydF4y2Ba 6gydF4y2Ba 82年gydF4y2Ba 97年gydF4y2Ba 10.1109 / MSP.2012.2205597gydF4y2Ba 2 - s2.0 - 85032751458gydF4y2Ba SundermeyergydF4y2Ba M。gydF4y2Ba 奈伊gydF4y2Ba H。gydF4y2Ba SchlutergydF4y2Ba R。gydF4y2Ba 从前馈复发LSTM语言建模的神经网络gydF4y2Ba IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2015年gydF4y2Ba 23gydF4y2Ba 3gydF4y2Ba 517年gydF4y2Ba 529年gydF4y2Ba 10.1109 / TASLP.2015.2400218gydF4y2Ba 2 - s2.0 - 84924036578gydF4y2Ba 老大gydF4y2Ba K。gydF4y2Ba TuskegydF4y2Ba Z。gydF4y2Ba AlkhouligydF4y2Ba T。gydF4y2Ba SchlutergydF4y2Ba R。gydF4y2Ba 奈伊gydF4y2Ba H。gydF4y2Ba LSTM格勒乌,高速公路和一点注意:语音识别的经验概述语言建模gydF4y2Ba Interspeech学报》2016年,17日国际言语交际协会年会上gydF4y2Ba 2016年9月gydF4y2Ba 旧金山,加州,美国gydF4y2Ba 3519年gydF4y2Ba 3523年gydF4y2Ba 10.21437 / interspeech.2016 - 491gydF4y2Ba 2 - s2.0 - 84994318625gydF4y2Ba 熊gydF4y2Ba W。gydF4y2Ba DroppogydF4y2Ba J。gydF4y2Ba 黄gydF4y2Ba X。gydF4y2Ba 实现人类平等对话语音识别gydF4y2Ba https://arxiv.org/pdf/1610.05256.pdfgydF4y2Ba HannungydF4y2Ba 一个。gydF4y2Ba 情况下gydF4y2Ba C。gydF4y2Ba 卡斯珀gydF4y2Ba J。gydF4y2Ba 深刻的演讲:扩大端到端语音识别gydF4y2Ba http://arxiv.org/abs/1412.5567gydF4y2Ba 陈gydF4y2Ba W。gydF4y2Ba JaitlygydF4y2Ba N。gydF4y2Ba 勒gydF4y2Ba 问:V。gydF4y2Ba VinyalsgydF4y2Ba O。gydF4y2Ba 听着,参加和法术:大词汇量的语音识别的神经网络gydF4y2Ba 学报2016年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2016年3月gydF4y2Ba 中国上海gydF4y2Ba 4960年gydF4y2Ba 4964年gydF4y2Ba 10.1109 / ICASSP.2016.7472621gydF4y2Ba 2 - s2.0 - 84973351869gydF4y2Ba 野田佳彦gydF4y2Ba K。gydF4y2Ba 山口那津男gydF4y2Ba Y。gydF4y2Ba NakadaigydF4y2Ba K。gydF4y2Ba OkunogydF4y2Ba h·G。gydF4y2Ba OgatagydF4y2Ba T。gydF4y2Ba 使用深度学习视听语音识别gydF4y2Ba 应用智能gydF4y2Ba 2015年gydF4y2Ba 42gydF4y2Ba 4gydF4y2Ba 722年gydF4y2Ba 737年gydF4y2Ba 10.1007 / s10489 - 014 - 0629 - 7gydF4y2Ba 2 - s2.0 - 84939956018gydF4y2Ba 禅gydF4y2Ba H。gydF4y2Ba 高级gydF4y2Ba 一个。gydF4y2Ba 舒斯特尔gydF4y2Ba M。gydF4y2Ba 使用深层神经网络统计参数语音合成gydF4y2Ba 学报2013年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2013年5月gydF4y2Ba 加拿大的温哥华BCgydF4y2Ba 7962年gydF4y2Ba 7966年gydF4y2Ba 10.1109 / ICASSP.2013.6639215gydF4y2Ba 2 - s2.0 - 84890490547gydF4y2Ba 禅gydF4y2Ba H。gydF4y2Ba 高级gydF4y2Ba 答:W。gydF4y2Ba 深混合物密度的声学建模网络统计参数语音合成gydF4y2Ba 学报2014年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2014年5月gydF4y2Ba 意大利的佛罗伦萨gydF4y2Ba 3844年gydF4y2Ba 3848年gydF4y2Ba 10.1109 / ICASSP.2014.6854321gydF4y2Ba 2 - s2.0 - 84905262874gydF4y2Ba 风扇gydF4y2Ba Y。gydF4y2Ba 钱gydF4y2Ba Y。gydF4y2Ba 谢gydF4y2Ba f . L。gydF4y2Ba 宋子文gydF4y2Ba f·K。gydF4y2Ba 基于TTS合成与双向LSTM复发性神经网络gydF4y2Ba Interspeech学报》2014年,第15届国际言语交际协会会议gydF4y2Ba 2014年9月gydF4y2Ba 新加坡gydF4y2Ba 1964年gydF4y2Ba 1968年gydF4y2Ba 费尔南德斯gydF4y2Ba R。gydF4y2Ba RendelgydF4y2Ba 一个。gydF4y2Ba RamabhadrangydF4y2Ba B。gydF4y2Ba HoorygydF4y2Ba R。gydF4y2Ba 韵律轮廓预测与短期记忆,双向深度递归神经网络gydF4y2Ba Interspeech学报》2014年,第15届国际言语交际协会会议gydF4y2Ba 2014年9月gydF4y2Ba 新加坡gydF4y2Ba 2268年gydF4y2Ba 2272年gydF4y2Ba van den OordgydF4y2Ba 一个。gydF4y2Ba DielemangydF4y2Ba 年代。gydF4y2Ba 禅gydF4y2Ba H。gydF4y2Ba WaveNet:原始音频的生成模型gydF4y2Ba https://arxiv.org/abs/1609.03499gydF4y2Ba 王gydF4y2Ba Y。gydF4y2Ba Skerry-RyangydF4y2Ba r . J。gydF4y2Ba 斯坦顿gydF4y2Ba D。gydF4y2Ba Tacotron:对端到端语音合成gydF4y2Ba 2017年Interspeech学报,第十八届国际言语交际协会会议gydF4y2Ba 2017年8月gydF4y2Ba 斯德哥尔摩,瑞典gydF4y2Ba 4006年gydF4y2Ba 4010年gydF4y2Ba 10.21437 / interspeech.2017 - 1452gydF4y2Ba 2 - s2.0 - 85038442478gydF4y2Ba 风扇gydF4y2Ba Y。gydF4y2Ba 钱gydF4y2Ba Y。gydF4y2Ba 宋子文gydF4y2Ba f·K。gydF4y2Ba 他gydF4y2Ba lgydF4y2Ba Multi-speaker建模和议长适应DNN-based TTS合成gydF4y2Ba 学报2015年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2015年4月gydF4y2Ba 南布里斯班,澳大利亚gydF4y2Ba 4475年gydF4y2Ba 4479年gydF4y2Ba 10.1109 / ICASSP.2015.7178817gydF4y2Ba 2 - s2.0 - 84946051934gydF4y2Ba 北条gydF4y2Ba N。gydF4y2Ba IjimagydF4y2Ba Y。gydF4y2Ba 美津浓gydF4y2Ba H。gydF4y2Ba 调查DNN-based使用扬声器编码语音合成gydF4y2Ba 学报2016年Interspeech 17国际言语交际协会年会上gydF4y2Ba 2016年9月gydF4y2Ba 旧金山,加州,美国gydF4y2Ba 2278年gydF4y2Ba 2282年gydF4y2Ba 10.21437 / interspeech.2016 - 589gydF4y2Ba 2 - s2.0 - 84994324013gydF4y2Ba 陈德良gydF4y2Ba h·T。gydF4y2Ba 高木gydF4y2Ba 年代。gydF4y2Ba 抓gydF4y2Ba g . E。gydF4y2Ba 山gydF4y2Ba J。gydF4y2Ba 调整和控制DNN-based语音合成使用输入代码gydF4y2Ba 学报2017年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2017年3月gydF4y2Ba 新奥尔良,洛杉矶,美国gydF4y2Ba 4905年gydF4y2Ba 4909年gydF4y2Ba 10.1109 / ICASSP.2017.7953089gydF4y2Ba 2 - s2.0 - 85023745057gydF4y2Ba 王gydF4y2Ba Y。gydF4y2Ba 斯坦顿gydF4y2Ba D。gydF4y2Ba 张gydF4y2Ba Y。gydF4y2Ba 风格标记:无监督风格建模、控制和传输端到端语音合成gydF4y2Ba 美国第35届国际会议上机器学习(ICML)gydF4y2Ba 2018年6月gydF4y2Ba 斯德哥尔摩,瑞典gydF4y2Ba 5167年gydF4y2Ba 5176年gydF4y2Ba 艾德gydF4y2Ba E。gydF4y2Ba 亚伦gydF4y2Ba 一个。gydF4y2Ba BakisgydF4y2Ba R。gydF4y2Ba 哈姆萨gydF4y2Ba W。gydF4y2Ba PichenygydF4y2Ba M。gydF4y2Ba PitrelligydF4y2Ba J。gydF4y2Ba 基于语料库的方法表达语音合成gydF4y2Ba 《第五ISCA ITRW语音合成gydF4y2Ba 2004年6月gydF4y2Ba 美国宾夕法尼亚州匹兹堡gydF4y2Ba 79年gydF4y2Ba 84年gydF4y2Ba 安德烈亚斯gydF4y2Ba J。gydF4y2Ba Rohrbach说道gydF4y2Ba M。gydF4y2Ba 达雷尔gydF4y2Ba T。gydF4y2Ba 克莱因gydF4y2Ba D。gydF4y2Ba 学习为问答组合神经网络gydF4y2Ba 学报2016年大会北美的计算语言学协会章:人类语言技术gydF4y2Ba 2016年6月gydF4y2Ba 圣地亚哥,加州,美国gydF4y2Ba 1545年gydF4y2Ba 1554年gydF4y2Ba 金gydF4y2Ba Y。gydF4y2Ba 卷积神经网络对句子的分类gydF4y2Ba 学报2014年会议上实证方法在自然语言处理(EMNLP)gydF4y2Ba 2014年10月gydF4y2Ba 卡塔尔多哈gydF4y2Ba 1746年gydF4y2Ba 1751年gydF4y2Ba 10.3115 / v1 / d14 - 1181gydF4y2Ba 张gydF4y2Ba X。gydF4y2Ba 赵gydF4y2Ba J·J。gydF4y2Ba 勒存gydF4y2Ba Y。gydF4y2Ba 字符级卷积网络文本分类gydF4y2Ba 诉讼进展的神经信息处理系统28:年会在神经信息处理系统gydF4y2Ba 2015年12月gydF4y2Ba 加拿大蒙特利尔gydF4y2Ba 649年gydF4y2Ba 657年gydF4y2Ba SutskevergydF4y2Ba 我。gydF4y2Ba VinyalsgydF4y2Ba O。gydF4y2Ba 勒gydF4y2Ba 问:V。gydF4y2Ba 序列,序列与神经网络学习gydF4y2Ba 诉讼进展的神经信息处理系统27:年会在神经信息处理系统gydF4y2Ba 2014年12月gydF4y2Ba 加拿大蒙特利尔gydF4y2Ba 3104年gydF4y2Ba 3112年gydF4y2Ba BahdanaugydF4y2Ba D。gydF4y2Ba 赵gydF4y2Ba K。gydF4y2Ba BengiogydF4y2Ba Y。gydF4y2Ba 神经机器翻译的共同学习和翻译一致gydF4y2Ba 第三届国际会议上学习表示学报》上gydF4y2Ba 2015年5月gydF4y2Ba 圣地亚哥,加州,美国gydF4y2Ba 桑托斯gydF4y2Ba c . n D。gydF4y2Ba •加蒂gydF4y2Ba M。gydF4y2Ba 深卷积神经网络短的文本的情感分析gydF4y2Ba 学报2014年科尔,25日计算语言学国际会议:技术论文gydF4y2Ba 2014年8月gydF4y2Ba 爱尔兰都柏林gydF4y2Ba 69年gydF4y2Ba 78年gydF4y2Ba KalchbrennergydF4y2Ba N。gydF4y2Ba GrefenstettegydF4y2Ba E。gydF4y2Ba BlunsomgydF4y2Ba P。gydF4y2Ba 的卷积神经网络建模的句子gydF4y2Ba 美国52的计算语言学协会年度会议(卷1:长论文)gydF4y2Ba 2014年6月gydF4y2Ba 美国马里兰州巴尔的摩gydF4y2Ba 655年gydF4y2Ba 665年gydF4y2Ba 10.3115 / v1 /好- 1062gydF4y2Ba MikolovgydF4y2Ba T。gydF4y2Ba YihgydF4y2Ba w·t。gydF4y2Ba 茨威格gydF4y2Ba G。gydF4y2Ba 语言规律在连续空间词表示gydF4y2Ba 学报2013年大会北美的计算语言学协会章:人类语言技术gydF4y2Ba 2013年6月gydF4y2Ba 亚特兰大,乔治亚州,美国gydF4y2Ba 746年gydF4y2Ba 751年gydF4y2Ba 黄金gydF4y2Ba B。gydF4y2Ba 摩根gydF4y2Ba N。gydF4y2Ba 埃利斯gydF4y2Ba D。gydF4y2Ba 语音和音频信号处理:处理和语音和音乐的看法gydF4y2Ba 2011年gydF4y2Ba 2日gydF4y2Ba 美国新泽西州霍博肯gydF4y2Ba 约翰威利& SonsgydF4y2Ba MermelsteingydF4y2Ba P。gydF4y2Ba 程ydF4y2Ba c . H。gydF4y2Ba 距离语音识别办法,心理和工具性gydF4y2Ba 模式识别和人工智能gydF4y2Ba 1976年gydF4y2Ba 116年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 学术出版社gydF4y2Ba 374年gydF4y2Ba 388年gydF4y2Ba 内克gydF4y2Ba F。gydF4y2Ba 连续语音识别的统计方法gydF4y2Ba IEEE学报》gydF4y2Ba 1976年gydF4y2Ba 64年gydF4y2Ba 4gydF4y2Ba 532年gydF4y2Ba 556年gydF4y2Ba 10.1109 / PROC.1976.10159gydF4y2Ba 2 - s2.0 - 0016939124gydF4y2Ba 默罕默德gydF4y2Ba a。R。gydF4y2Ba 达尔gydF4y2Ba G。gydF4y2Ba 辛顿gydF4y2Ba g . E。gydF4y2Ba 深度信念网络电话识别gydF4y2Ba 诉讼的损害深度学习研讨会为语音识别和相关应用程序gydF4y2Ba 2009年12月gydF4y2Ba 惠斯勒,加拿大gydF4y2Ba 邓gydF4y2Ba lgydF4y2Ba 辛顿gydF4y2Ba g . E。gydF4y2Ba 金斯伯里gydF4y2Ba B。gydF4y2Ba 新类型的深层神经网络学习语音识别和相关应用程序:概述gydF4y2Ba 学报2013年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2013年5月gydF4y2Ba 加拿大温哥华gydF4y2Ba 8599年gydF4y2Ba 8603年gydF4y2Ba 10.1109 / ICASSP.2013.6639344gydF4y2Ba 2 - s2.0 - 84890526837gydF4y2Ba 勒存gydF4y2Ba Y。gydF4y2Ba BengiogydF4y2Ba Y。gydF4y2Ba 辛顿gydF4y2Ba G。gydF4y2Ba 深度学习gydF4y2Ba 自然gydF4y2Ba 2015年gydF4y2Ba 521年gydF4y2Ba 7553年gydF4y2Ba 436年gydF4y2Ba 444年gydF4y2Ba 10.1038 / nature14539gydF4y2Ba 2 - s2.0 - 84930630277gydF4y2Ba 格雷夫斯gydF4y2Ba 一个。gydF4y2Ba JaitlygydF4y2Ba N。gydF4y2Ba 对端到端与复发性神经网络语音识别gydF4y2Ba 31日学报》国际会议上机器学习gydF4y2Ba 2014年6月gydF4y2Ba 中国,北京gydF4y2Ba 1764年gydF4y2Ba 1772年gydF4y2Ba 瑞尔gydF4y2Ba b . M。gydF4y2Ba PakocigydF4y2Ba E。gydF4y2Ba 之中gydF4y2Ba D。gydF4y2Ba 塞尔维亚的端到端大词汇量语音识别语言gydF4y2Ba 19国际会议的演讲和计算机学报》(SPECOM)gydF4y2Ba 2017年9月gydF4y2Ba 英国哈特菲尔德gydF4y2Ba 343年gydF4y2Ba 352年gydF4y2Ba 10.1007 / 978 - 3 - 319 - 66429 - 3 - _33gydF4y2Ba 2 - s2.0 - 85029494384gydF4y2Ba PoveygydF4y2Ba D。gydF4y2Ba PeddintigydF4y2Ba V。gydF4y2Ba GalvezgydF4y2Ba D。gydF4y2Ba 纯粹的ASR基于lattice-free MMI sequence-trained神经网络gydF4y2Ba 学报2016年Interspeech 17国际言语交际协会年会上gydF4y2Ba 2016年9月gydF4y2Ba 旧金山,加州,美国gydF4y2Ba 2751年gydF4y2Ba 2755年gydF4y2Ba 10.21437 / interspeech.2016 - 595gydF4y2Ba 2 - s2.0 - 84994310412gydF4y2Ba PakocigydF4y2Ba E。gydF4y2Ba PopovićgydF4y2Ba B。gydF4y2Ba 之中gydF4y2Ba d . J。gydF4y2Ba 改善塞尔维亚使用sequence-trained深层神经网络语音识别gydF4y2Ba SPIIRAS诉讼gydF4y2Ba 2018年gydF4y2Ba 3gydF4y2Ba 58gydF4y2Ba 53gydF4y2Ba 76年gydF4y2Ba 10.15622 / sp.58.3gydF4y2Ba 2 - s2.0 - 85048407301gydF4y2Ba 张gydF4y2Ba P。gydF4y2Ba 李gydF4y2Ba N。gydF4y2Ba 情感品质的重要性gydF4y2Ba ACM的通信gydF4y2Ba 2005年gydF4y2Ba 48gydF4y2Ba 9gydF4y2Ba 105年gydF4y2Ba 108年gydF4y2Ba 10.1145/1081992.1081997gydF4y2Ba 2 - s2.0 - 25444493655gydF4y2Ba BezooijengydF4y2Ba R。gydF4y2Ba 特点和可认可的口头表达的情感gydF4y2Ba 1984年gydF4y2Ba 荷兰多德雷赫特gydF4y2Ba 市中心出版物荷兰gydF4y2Ba 凯恩斯gydF4y2Ba d . A。gydF4y2Ba 汉森gydF4y2Ba j·h·L。gydF4y2Ba 在压力条件下非线性分析和分类的言论gydF4y2Ba 美国声学学会杂志》上gydF4y2Ba 1994年gydF4y2Ba 96年gydF4y2Ba 6gydF4y2Ba 3392年gydF4y2Ba 3400年gydF4y2Ba 10.1121/1.410601gydF4y2Ba 2 - s2.0 - 0028630509gydF4y2Ba 盎gydF4y2Ba J。gydF4y2Ba DhillongydF4y2Ba R。gydF4y2Ba KrupskigydF4y2Ba 一个。gydF4y2Ba ShriberggydF4y2Ba E。gydF4y2Ba StolckegydF4y2Ba 一个。gydF4y2Ba Prosody-based自动检测的烦恼和沮丧在人机对话框gydF4y2Ba ICSLP学报2002年第七届国际会议上口头语言处理gydF4y2Ba 2002年9月gydF4y2Ba 美国科罗拉多州丹佛市gydF4y2Ba 2037年gydF4y2Ba 2040年gydF4y2Ba 考伊gydF4y2Ba R。gydF4y2Ba Douglas-CowiegydF4y2Ba E。gydF4y2Ba TsapatsoulisgydF4y2Ba N。gydF4y2Ba 情感识别在人机交互gydF4y2Ba IEEE信号处理杂志gydF4y2Ba 2001年gydF4y2Ba 18gydF4y2Ba 1gydF4y2Ba 32gydF4y2Ba 80年gydF4y2Ba 10.1109/79.911197gydF4y2Ba 2 - s2.0 - 85032751766gydF4y2Ba 王gydF4y2Ba Y。gydF4y2Ba 杜gydF4y2Ba 年代。gydF4y2Ba 张ydF4y2Ba Y。gydF4y2Ba 自适应语音情感识别和最优分类gydF4y2Ba 5gydF4y2Ba 学报自然计算ICNC第四国际会议gydF4y2Ba 2008年10月gydF4y2Ba 济南,中国gydF4y2Ba 407年gydF4y2Ba 411年gydF4y2Ba 10.1109 / ICNC.2008.713gydF4y2Ba 2 - s2.0 - 57649193345gydF4y2Ba GoblgydF4y2Ba C。gydF4y2Ba ChasaidegydF4y2Ba a . N。gydF4y2Ba 语音质量的作用沟通情感,情绪和态度gydF4y2Ba 言语交际gydF4y2Ba 2003年gydF4y2Ba 40gydF4y2Ba 1 - 2gydF4y2Ba 189年gydF4y2Ba 212年gydF4y2Ba 10.1016 / s0167 - 6393 (02) 00082 - 1gydF4y2Ba 2 - s2.0 - 0037380186gydF4y2Ba 周gydF4y2Ba G。gydF4y2Ba 汉森gydF4y2Ba j·h·L。gydF4y2Ba 凯撒gydF4y2Ba j·F。gydF4y2Ba 基于非线性特性分类演讲在压力之下gydF4y2Ba IEEE语音和音频处理gydF4y2Ba 2001年gydF4y2Ba 9gydF4y2Ba 3gydF4y2Ba 201年gydF4y2Ba 216年gydF4y2Ba 10.1109/89.905995gydF4y2Ba 2 - s2.0 - 0035278948gydF4y2Ba 净化工艺gydF4y2Ba t . L。gydF4y2Ba 喷火gydF4y2Ba s W。gydF4y2Ba 德席尔瓦gydF4y2Ba l . C。gydF4y2Ba 语音情感识别使用隐马尔科夫模型gydF4y2Ba 言语交际gydF4y2Ba 2003年gydF4y2Ba 41gydF4y2Ba 4gydF4y2Ba 603年gydF4y2Ba 623年gydF4y2Ba 10.1016 / s0167 - 6393 (03) 00099 - 2gydF4y2Ba 2 - s2.0 - 0242721417gydF4y2Ba DelicgydF4y2Ba V。gydF4y2Ba ·博gydF4y2Ba M。gydF4y2Ba GnjatovicgydF4y2Ba M。gydF4y2Ba SecujskigydF4y2Ba M。gydF4y2Ba JovicicgydF4y2Ba s T。gydF4y2Ba 歧视能力情感语音识别的韵律和光谱特性gydF4y2Ba 电子和电气工程gydF4y2Ba 2012年gydF4y2Ba 18gydF4y2Ba 9gydF4y2Ba 51gydF4y2Ba 54gydF4y2Ba 10.5755 / j01.eee.18.9.2806gydF4y2Ba 2 - s2.0 - 84872731820gydF4y2Ba LanjewargydF4y2Ba r B。gydF4y2Ba MathurkargydF4y2Ba 年代。gydF4y2Ba 帕特尔gydF4y2Ba N。gydF4y2Ba 语音情感识别系统的实现和比较使用高斯混合模型(GMM)和再(事例)技术gydF4y2Ba Procedia计算机科学gydF4y2Ba 2015年gydF4y2Ba 49gydF4y2Ba 50gydF4y2Ba 57gydF4y2Ba 10.1016 / j.procs.2015.04.226gydF4y2Ba 2 - s2.0 - 84938937624gydF4y2Ba 沈gydF4y2Ba P。gydF4y2Ba 导致长郡gydF4y2Ba Z。gydF4y2Ba 程ydF4y2Ba X。gydF4y2Ba 使用支持向量机自动语音情感识别gydF4y2Ba 2gydF4y2Ba 《2011年国际会议上电子与机械工程和信息技术gydF4y2Ba 2011年8月gydF4y2Ba 哈尔滨,中国gydF4y2Ba 621年gydF4y2Ba 625年gydF4y2Ba 10.1109 / EMEIT.2011.6023178gydF4y2Ba 2 - s2.0 - 80053389742gydF4y2Ba 汉gydF4y2Ba K。gydF4y2Ba 余gydF4y2Ba D。gydF4y2Ba TashevgydF4y2Ba 我。gydF4y2Ba 语音情感识别使用深层神经网络和极端的学习机器gydF4y2Ba Interspeech学报2014年第15届国际言语交际协会会议gydF4y2Ba 2014年9月gydF4y2Ba 新加坡gydF4y2Ba 223年gydF4y2Ba 227年gydF4y2Ba 李gydF4y2Ba J。gydF4y2Ba TashevgydF4y2Ba 我。gydF4y2Ba 高级功能表示使用递归神经网络进行语音情感识别gydF4y2Ba Interspeech学报2015年第16届国际言语交际协会会议gydF4y2Ba 2015年9月gydF4y2Ba 德国德累斯顿gydF4y2Ba 1537年gydF4y2Ba 1540年gydF4y2Ba 李gydF4y2Ba c . M。gydF4y2Ba NarayanangydF4y2Ba 美国年代。gydF4y2Ba PieraccinigydF4y2Ba R。gydF4y2Ba 结合情感识别的声学和语言信息gydF4y2Ba 第七届国际会议上口头语言处理学报》(ICSLP2002)gydF4y2Ba 2002年9月gydF4y2Ba 美国科罗拉多州丹佛市gydF4y2Ba 873年gydF4y2Ba 876年gydF4y2Ba FayekgydF4y2Ba h . M。gydF4y2Ba 莱赫gydF4y2Ba M。gydF4y2Ba CavedongydF4y2Ba lgydF4y2Ba 语音情感识别评估深度学习架构gydF4y2Ba 神经网络gydF4y2Ba 2017年gydF4y2Ba 92年gydF4y2Ba 60gydF4y2Ba 68年gydF4y2Ba 10.1016 / j.neunet.2017.02.013gydF4y2Ba 2 - s2.0 - 85017190163gydF4y2Ba 赵gydF4y2Ba J。gydF4y2Ba 毛gydF4y2Ba X。gydF4y2Ba 程ydF4y2Ba lgydF4y2Ba 语音情感识别使用深1 d和2 d CNN LSTM网络gydF4y2Ba 生物医学信号处理和控制gydF4y2Ba 2019年gydF4y2Ba 47gydF4y2Ba 1gydF4y2Ba 312年gydF4y2Ba 323年gydF4y2Ba 10.1016 / j.bspc.2018.08.035gydF4y2Ba 2 - s2.0 - 85053083897gydF4y2Ba 邓gydF4y2Ba J。gydF4y2Ba 徐gydF4y2Ba X。gydF4y2Ba 张gydF4y2Ba Z。gydF4y2Ba FruhholzgydF4y2Ba 年代。gydF4y2Ba 舒乐问gydF4y2Ba B。gydF4y2Ba Semisupervised autoencoders语音情感识别gydF4y2Ba IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2018年gydF4y2Ba 26gydF4y2Ba 1gydF4y2Ba 31日gydF4y2Ba 43gydF4y2Ba 10.1109 / TASLP.2017.2759338gydF4y2Ba 2 - s2.0 - 85031775011gydF4y2Ba VerveridisgydF4y2Ba D。gydF4y2Ba KotropoulosgydF4y2Ba C。gydF4y2Ba 情感语音识别:资源、功能和方法gydF4y2Ba 言语交际gydF4y2Ba 2006年gydF4y2Ba 48gydF4y2Ba 9gydF4y2Ba 1162年gydF4y2Ba 1181年gydF4y2Ba 10.1016 / j.specom.2006.04.003gydF4y2Ba 2 - s2.0 - 33746410556gydF4y2Ba El AyadigydF4y2Ba M。gydF4y2Ba 卡迈勒gydF4y2Ba m . S。gydF4y2Ba KarraygydF4y2Ba F。gydF4y2Ba 语音情感识别:调查功能,分类方案和数据库gydF4y2Ba 模式识别gydF4y2Ba 2011年gydF4y2Ba 44gydF4y2Ba 3gydF4y2Ba 572年gydF4y2Ba 587年gydF4y2Ba 10.1016 / j.patcog.2010.09.020gydF4y2Ba 2 - s2.0 - 78649328053gydF4y2Ba 斯温gydF4y2Ba M。gydF4y2Ba RoutraygydF4y2Ba 一个。gydF4y2Ba KabisatpathygydF4y2Ba P。gydF4y2Ba 数据库、功能和语音情感识别的分类器:一个回顾gydF4y2Ba 国际语音识别技术杂志》上gydF4y2Ba 2018年gydF4y2Ba 21gydF4y2Ba 1gydF4y2Ba 93年gydF4y2Ba 120年gydF4y2Ba 10.1007 / s10772 - 018 - 9491 - zgydF4y2Ba 2 - s2.0 - 85040668574gydF4y2Ba 程ydF4y2Ba lgydF4y2Ba 毛gydF4y2Ba X。gydF4y2Ba 雪gydF4y2Ba Y。gydF4y2Ba 程gydF4y2Ba L . L。gydF4y2Ba 语音情感识别:特性和分类模型gydF4y2Ba 数字信号处理gydF4y2Ba 2012年gydF4y2Ba 22gydF4y2Ba 6gydF4y2Ba 1154年gydF4y2Ba 1160年gydF4y2Ba 10.1016 / j.dsp.2012.05.007gydF4y2Ba 2 - s2.0 - 84865985745gydF4y2Ba 施罗德gydF4y2Ba m·R。gydF4y2Ba 一个简短的合成语音的历史gydF4y2Ba 言语交际gydF4y2Ba 1993年gydF4y2Ba 13gydF4y2Ba 1 - 2gydF4y2Ba 231年gydF4y2Ba 237年gydF4y2Ba 10.1016 / 0167 - 6393 (93)90074 - ugydF4y2Ba 2 - s2.0 - 0040677603gydF4y2Ba 达德利gydF4y2Ba H。gydF4y2Ba 承运人的演讲gydF4y2Ba 贝尔系统技术杂志gydF4y2Ba 1940年gydF4y2Ba 19gydF4y2Ba 4gydF4y2Ba 495年gydF4y2Ba 515年gydF4y2Ba 10.1002 / j.1538-7305.1940.tb00843.xgydF4y2Ba 2 - s2.0 - 84867647316gydF4y2Ba TeranishigydF4y2Ba R。gydF4y2Ba 繁华gydF4y2Ba N。gydF4y2Ba 在语音合成实验中使用发音字典gydF4y2Ba 第六届国际声学国会的报告gydF4y2Ba 1968年gydF4y2Ba 2gydF4y2Ba 155年gydF4y2Ba 158年gydF4y2Ba KlattgydF4y2Ba d . H。gydF4y2Ba 复习英语的语音转换gydF4y2Ba 美国声学学会杂志》上gydF4y2Ba 1987年gydF4y2Ba 82年gydF4y2Ba 3gydF4y2Ba 737年gydF4y2Ba 793年gydF4y2Ba 10.1121/1.395275gydF4y2Ba 2 - s2.0 - 0023407575gydF4y2Ba 亨特gydF4y2Ba a·J。gydF4y2Ba 黑色的gydF4y2Ba 答:W。gydF4y2Ba 单位选择衔接语音合成系统中使用一个大的语音数据库gydF4y2Ba 1gydF4y2Ba 学报1996年IEEE国际会议音响、演讲,和信号处理(ICASSP)gydF4y2Ba 1996年5月gydF4y2Ba 亚特兰大,乔治亚州,美国gydF4y2Ba 373年gydF4y2Ba 376年gydF4y2Ba 10.1109 / ICASSP.1996.541110gydF4y2Ba YoshimuragydF4y2Ba T。gydF4y2Ba 德田gydF4y2Ba K。gydF4y2Ba 益gydF4y2Ba T。gydF4y2Ba 小林gydF4y2Ba T。gydF4y2Ba KitamuragydF4y2Ba T。gydF4y2Ba 同时建模光谱,音高和时间在HMM-based语音合成gydF4y2Ba Eurospeech学报1999年6日欧洲会议上演讲沟通和技术gydF4y2Ba 1999年9月gydF4y2Ba 匈牙利布达佩斯gydF4y2Ba 2347年gydF4y2Ba 2350年gydF4y2Ba 山gydF4y2Ba J。gydF4y2Ba 小林gydF4y2Ba T。gydF4y2Ba NakanogydF4y2Ba Y。gydF4y2Ba OgatagydF4y2Ba K。gydF4y2Ba IsogaigydF4y2Ba J。gydF4y2Ba 分析议长适应算法HMM-based语音合成和约束SMAPLR适应算法gydF4y2Ba IEEE音频、语音和语言处理gydF4y2Ba 2009年gydF4y2Ba 17gydF4y2Ba 1gydF4y2Ba 66年gydF4y2Ba 83年gydF4y2Ba 10.1109 / TASL.2008.2006647gydF4y2Ba 2 - s2.0 - 67650854725gydF4y2Ba 山gydF4y2Ba J。gydF4y2Ba 馆gydF4y2Ba K。gydF4y2Ba 益gydF4y2Ba T。gydF4y2Ba 小林gydF4y2Ba T。gydF4y2Ba 建模的各种讲话风格和情感HMM-based语音合成gydF4y2Ba 学报2003年Eurospeech 8日欧洲会议上演讲沟通和技术gydF4y2Ba 2003年9月gydF4y2Ba 瑞士日内瓦gydF4y2Ba 2461年gydF4y2Ba 2464年gydF4y2Ba 钱gydF4y2Ba Y。gydF4y2Ba 梁gydF4y2Ba H。gydF4y2Ba 宋子文gydF4y2Ba f·K。gydF4y2Ba 一个跨语言的状态共享和双语(有中英文语言交流)者TTS映射方法gydF4y2Ba IEEE音频、语音和语言处理gydF4y2Ba 2009年gydF4y2Ba 17gydF4y2Ba 6gydF4y2Ba 1231年gydF4y2Ba 1239年gydF4y2Ba 10.1109 / TASL.2009.2015708gydF4y2Ba 2 - s2.0 - 85008020260gydF4y2Ba 德田gydF4y2Ba K。gydF4y2Ba NankakugydF4y2Ba Y。gydF4y2Ba 户田拓夫gydF4y2Ba T。gydF4y2Ba 禅gydF4y2Ba H。gydF4y2Ba 山gydF4y2Ba J。gydF4y2Ba OuragydF4y2Ba K。gydF4y2Ba 基于隐马尔可夫模型的语音合成gydF4y2Ba IEEE学报》gydF4y2Ba 2013年gydF4y2Ba 101年gydF4y2Ba 5gydF4y2Ba 1234年gydF4y2Ba 1252年gydF4y2Ba 10.1109 / JPROC.2013.2251852gydF4y2Ba 2 - s2.0 - 84876687945gydF4y2Ba WeijtersgydF4y2Ba T。gydF4y2Ba 有耐心gydF4y2Ba J。gydF4y2Ba 语音合成的人工神经网络gydF4y2Ba 《IEEE国际会议上神经网络gydF4y2Ba 1993年4月gydF4y2Ba 旧金山,加州,美国gydF4y2Ba 1764年gydF4y2Ba 1769年gydF4y2Ba 10.1109 / ICNN.1993.298824gydF4y2Ba 2 - s2.0 - 84943244665gydF4y2Ba 吴gydF4y2Ba Z。gydF4y2Ba 美国瓦茨gydF4y2Ba O。gydF4y2Ba 王gydF4y2Ba 年代。gydF4y2Ba 梅林:一个开放源码的神经网络的语音合成系统gydF4y2Ba 《9日ISCA语音合成车间gydF4y2Ba 2016年7月gydF4y2Ba 美国加州森尼维尔市gydF4y2Ba 202年gydF4y2Ba 207年gydF4y2Ba 10.21437 / SSW.2016-33gydF4y2Ba 禅gydF4y2Ba H。gydF4y2Ba AgiomyrgiannakisgydF4y2Ba Y。gydF4y2Ba 埃格伯特gydF4y2Ba N。gydF4y2Ba 亨德森gydF4y2Ba F。gydF4y2Ba SzczepaniakgydF4y2Ba P。gydF4y2Ba 基于快速、紧凑型、高质量LSTM-RNN统计参数语音合成器为移动设备gydF4y2Ba 学报2016年Interspeech 17国际言语交际协会年会上gydF4y2Ba 2016年9月gydF4y2Ba 旧金山,加州,美国gydF4y2Ba 2273年gydF4y2Ba 2277年gydF4y2Ba 10.21437 / interspeech.2016 - 522gydF4y2Ba 2 - s2.0 - 84994314564gydF4y2Ba 斋藤gydF4y2Ba Y。gydF4y2Ba TakamichigydF4y2Ba 年代。gydF4y2Ba SaruwatarigydF4y2Ba H。gydF4y2Ba 统计参数语音合成结合生成对抗的网络gydF4y2Ba IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2018年gydF4y2Ba 26gydF4y2Ba 1gydF4y2Ba 84年gydF4y2Ba 96年gydF4y2Ba 10.1109 / TASLP.2017.2761547gydF4y2Ba 2 - s2.0 - 85031781820gydF4y2Ba 吴gydF4y2Ba Z。gydF4y2Ba 王gydF4y2Ba 年代。gydF4y2Ba 提高轨迹造型DNN-based语音合成通过堆叠瓶颈特性和最小生成错误的训练gydF4y2Ba IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2016年gydF4y2Ba 24gydF4y2Ba 7gydF4y2Ba 1255年gydF4y2Ba 1265年gydF4y2Ba 10.1109 / TASLP.2016.2551865gydF4y2Ba 2 - s2.0 - 84978086501gydF4y2Ba 吴gydF4y2Ba Z。gydF4y2Ba SwietojanskigydF4y2Ba P。gydF4y2Ba VeauxgydF4y2Ba C。gydF4y2Ba RenalsgydF4y2Ba 年代。gydF4y2Ba 王gydF4y2Ba 年代。gydF4y2Ba 演讲者的研究适应DNN-based语音合成gydF4y2Ba Interspeech学报2015年第16届国际言语交际协会会议gydF4y2Ba 2015年9月gydF4y2Ba 德国德累斯顿gydF4y2Ba 879年gydF4y2Ba 883年gydF4y2Ba 风扇gydF4y2Ba Y。gydF4y2Ba 钱gydF4y2Ba Y。gydF4y2Ba 宋子文gydF4y2Ba f·K。gydF4y2Ba 他gydF4y2Ba lgydF4y2Ba 演讲者和语言分解DNN-based TTS合成gydF4y2Ba 学报2016年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2016年4月gydF4y2Ba 中国上海gydF4y2Ba 5540年gydF4y2Ba 5544年gydF4y2Ba 10.1109 / ICASSP.2016.7472737gydF4y2Ba 2 - s2.0 - 84973333167gydF4y2Ba DelicgydF4y2Ba T。gydF4y2Ba SuzicgydF4y2Ba 年代。gydF4y2Ba SecujskigydF4y2Ba M。gydF4y2Ba 之中gydF4y2Ba D。gydF4y2Ba 快速发展的新TTS的声音通过神经网络的适应gydF4y2Ba 《2018年17国际研讨会Infoteh-Jahorina (Infoteh)gydF4y2Ba 2018年3月gydF4y2Ba 波斯尼亚和黑塞哥维那Istočno萨拉热窝gydF4y2Ba 1gydF4y2Ba 6gydF4y2Ba 10.1109 / INFOTEH.2018.8345518gydF4y2Ba 2 - s2.0 - 85050860263gydF4y2Ba 安倍gydF4y2Ba M。gydF4y2Ba 范SantengydF4y2Ba j . p . H。gydF4y2Ba 讲话风格:统计分析和合成的语音合成系统gydF4y2Ba 语音合成的进展gydF4y2Ba 1997年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 施普林格gydF4y2Ba 495年gydF4y2Ba 510年gydF4y2Ba https://link.springer.com/chapter/10.1007/978 - 1 - 4612 - 1894 - 4 - _39gydF4y2Ba 勇敢的gydF4y2Ba 年代。gydF4y2Ba 克利福德gydF4y2Ba N。gydF4y2Ba 西尔斯gydF4y2Ba 一个。gydF4y2Ba JackogydF4y2Ba j . A。gydF4y2Ba 情感在人机交互gydF4y2Ba 人机交互基础gydF4y2Ba 2009年gydF4y2Ba 美国佛罗里达州波卡拉顿的gydF4y2Ba CRC的新闻gydF4y2Ba 54gydF4y2Ba 66年gydF4y2Ba 10.1201 / b10368gydF4y2Ba SuzićgydF4y2Ba 年代。gydF4y2Ba DelićgydF4y2Ba T。gydF4y2Ba JovanovićgydF4y2Ba V。gydF4y2Ba 比较风格DNN-based TTS方法使用小型数据集gydF4y2Ba 161年gydF4y2Ba 13学报》国际科技会议上机电和机器人Zavalishin的读数gydF4y2Ba 2018年5月gydF4y2Ba 俄罗斯圣彼得堡gydF4y2Ba 1gydF4y2Ba 6gydF4y2Ba Lorenzo-TruebagydF4y2Ba J。gydF4y2Ba 倘使抓gydF4y2Ba G。gydF4y2Ba 高木gydF4y2Ba 年代。gydF4y2Ba 山gydF4y2Ba J。gydF4y2Ba 森野gydF4y2Ba Y。gydF4y2Ba 落gydF4y2Ba Y。gydF4y2Ba 调查不同表示形式的建模和控制多个情感DNN-based语音合成gydF4y2Ba 言语交际gydF4y2Ba 2018年gydF4y2Ba 99年gydF4y2Ba 135年gydF4y2Ba 143年gydF4y2Ba 10.1016 / j.specom.2018.03.002gydF4y2Ba 2 - s2.0 - 85044579518gydF4y2Ba 盎ydF4y2Ba 年代。gydF4y2Ba 凌gydF4y2Ba Z。gydF4y2Ba 戴gydF4y2Ba lgydF4y2Ba 情感上的统计参数使用LSTM-RNNs语音合成gydF4y2Ba 学报2017年亚太信号和信息处理协会年度峰会和会议(APSIPA ASC)gydF4y2Ba 2017年12月gydF4y2Ba 吉隆坡,马来西亚gydF4y2Ba 1613年gydF4y2Ba 1616年gydF4y2Ba 10.1109 / APSIPA.2017.8282282gydF4y2Ba 2 - s2.0 - 85050485102gydF4y2Ba SuzićgydF4y2Ba 年代。gydF4y2Ba DelićgydF4y2Ba T。gydF4y2Ba 之中gydF4y2Ba D。gydF4y2Ba DelićgydF4y2Ba V。gydF4y2Ba SečujskigydF4y2Ba M。gydF4y2Ba 在基于神经网络的语音合成风格移植gydF4y2Ba Acta Polytechnica HungaricagydF4y2Ba 2019年gydF4y2Ba 井上gydF4y2Ba K。gydF4y2Ba HaragydF4y2Ba 年代。gydF4y2Ba 安倍gydF4y2Ba M。gydF4y2Ba 北条gydF4y2Ba N。gydF4y2Ba IjimagydF4y2Ba Y。gydF4y2Ba 调查移植DNN-based TTS合成的情感表达gydF4y2Ba 学报2017年亚太信号和信息处理协会年度峰会和会议(APSIPA ASC)gydF4y2Ba 2017年12月gydF4y2Ba 吉隆坡,马来西亚gydF4y2Ba 1253年gydF4y2Ba 1258年gydF4y2Ba 10.1109 / APSIPA.2017.8282231gydF4y2Ba 2 - s2.0 - 85050452709gydF4y2Ba van den OordgydF4y2Ba 一个。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba BabuschkingydF4y2Ba 我。gydF4y2Ba 平行WaveNet:快速高保真语音合成gydF4y2Ba 美国第35届国际会议上机器学习(ICML)gydF4y2Ba 2018年6月gydF4y2Ba 斯德哥尔摩,瑞典gydF4y2Ba 3915年gydF4y2Ba 3923年gydF4y2Ba ArikgydF4y2Ba s . O。gydF4y2Ba ChrzanowskigydF4y2Ba M。gydF4y2Ba 科茨gydF4y2Ba 一个。gydF4y2Ba 低沉的声音:实时神经语音gydF4y2Ba 美国第34国际会议上机器学习gydF4y2Ba 2017年8月gydF4y2Ba 澳大利亚悉尼gydF4y2Ba 195年gydF4y2Ba 204年gydF4y2Ba 沈gydF4y2Ba J。gydF4y2Ba 庞gydF4y2Ba R。gydF4y2Ba 维斯gydF4y2Ba r . J。gydF4y2Ba 自然通过调节wavenet TTS合成梅尔声谱图预测gydF4y2Ba 学报2018年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2018年9月gydF4y2Ba 加拿大卡尔加里gydF4y2Ba 4779年gydF4y2Ba 4783年gydF4y2Ba 10.1109 / ICASSP.2018.8461368gydF4y2Ba 2 - s2.0 - 85052990096gydF4y2Ba 平gydF4y2Ba W。gydF4y2Ba 彭gydF4y2Ba K。gydF4y2Ba GibianskygydF4y2Ba 一个。gydF4y2Ba 低沉的声音3:扩展与卷积序列学习语音gydF4y2Ba https://arxiv.org/abs/1710.07654gydF4y2Ba ArikgydF4y2Ba s . O。gydF4y2Ba 程ydF4y2Ba J。gydF4y2Ba 彭gydF4y2Ba K。gydF4y2Ba 平gydF4y2Ba W。gydF4y2Ba 周gydF4y2Ba Y。gydF4y2Ba 神经的声音克隆一些样品gydF4y2Ba 诉讼进展的神经信息处理系统31日:2018年年度会议在神经信息处理系统gydF4y2Ba 2018年12月gydF4y2Ba 加拿大蒙特利尔gydF4y2Ba 10040年gydF4y2Ba 10050年gydF4y2Ba NachmanigydF4y2Ba E。gydF4y2Ba 波里亚克gydF4y2Ba 一个。gydF4y2Ba TaigmangydF4y2Ba Y。gydF4y2Ba 狼gydF4y2Ba lgydF4y2Ba 基于短untranscribed样本拟合新喇叭gydF4y2Ba 美国第35届国际会议上机器学习(ICML)gydF4y2Ba 2018年6月gydF4y2Ba 斯德哥尔摩,瑞典gydF4y2Ba 3680年gydF4y2Ba 3688年gydF4y2Ba Skerry-RyangydF4y2Ba R。gydF4y2Ba 巴腾堡蛋糕gydF4y2Ba E。gydF4y2Ba 肖gydF4y2Ba Y。gydF4y2Ba 对端到端韵律转移与Tacotron表达语音合成gydF4y2Ba 美国第35届国际会议上机器学习gydF4y2Ba 2018年7月gydF4y2Ba 斯德哥尔摩,瑞典gydF4y2Ba 4693年gydF4y2Ba 4702年gydF4y2Ba AkuzawagydF4y2Ba K。gydF4y2Ba IwasawagydF4y2Ba Y。gydF4y2Ba 松尾gydF4y2Ba Y。gydF4y2Ba 通过建模与变分autoencoder表达式表达语音合成gydF4y2Ba 学报2018年Interspeech 19国际言语交际协会的年度会议gydF4y2Ba 2018年9月gydF4y2Ba 海得拉巴,印度gydF4y2Ba 3067年gydF4y2Ba 3071年gydF4y2Ba 10.21437 / interspeech.2018 - 1113gydF4y2Ba 2 - s2.0 - 85055001460gydF4y2Ba 程ydF4y2Ba H。gydF4y2Ba 刘gydF4y2Ba X。gydF4y2Ba 阴gydF4y2Ba D。gydF4y2Ba 唐gydF4y2Ba J。gydF4y2Ba 一项调查显示对话系统gydF4y2Ba ACM SIGKDD探索通讯gydF4y2Ba 2017年gydF4y2Ba 19gydF4y2Ba 2gydF4y2Ba 25gydF4y2Ba 35gydF4y2Ba 10.1145/3166054.3166058gydF4y2Ba SordonigydF4y2Ba 一个。gydF4y2Ba 厨房gydF4y2Ba M。gydF4y2Ba AuligydF4y2Ba M。gydF4y2Ba 上下文敏感的神经网络方法一代的会话响应gydF4y2Ba 学报2015年大会北美协会的计算语言学的一章:人类语言技术(NAACL停止)gydF4y2Ba 2015年5月gydF4y2Ba 美国科罗拉多州丹佛市gydF4y2Ba 196年gydF4y2Ba 205年gydF4y2Ba 10.3115 / v1 / n15 - 1020gydF4y2Ba MikolovgydF4y2Ba T。gydF4y2Ba KarafiatgydF4y2Ba M。gydF4y2Ba BurgetgydF4y2Ba lgydF4y2Ba ČernockygydF4y2Ba j . H。gydF4y2Ba KhudanpurgydF4y2Ba 年代。gydF4y2Ba 递归神经网络建立语言模型gydF4y2Ba 学报2011年Interspeech 12国际言语交际协会年会上gydF4y2Ba 2011年8月gydF4y2Ba 意大利的佛罗伦萨gydF4y2Ba 1045年gydF4y2Ba 1048年gydF4y2Ba BengiogydF4y2Ba Y。gydF4y2Ba DucharmegydF4y2Ba R。gydF4y2Ba 文森特gydF4y2Ba P。gydF4y2Ba JanvingydF4y2Ba C。gydF4y2Ba 一个神经概率语言模型gydF4y2Ba 机器学习研究杂志》上gydF4y2Ba 2003年gydF4y2Ba 3gydF4y2Ba 6gydF4y2Ba 1137年gydF4y2Ba 1155年gydF4y2Ba 高gydF4y2Ba J。gydF4y2Ba 他gydF4y2Ba X。gydF4y2Ba YihgydF4y2Ba W.-T。gydF4y2Ba 邓gydF4y2Ba lgydF4y2Ba 学习连续短语翻译模型表示gydF4y2Ba 1gydF4y2Ba 美国52的计算语言学协会年度会议(卷1:长论文)gydF4y2Ba 2014年6月gydF4y2Ba 美国马里兰州巴尔的摩gydF4y2Ba 699年gydF4y2Ba 709年gydF4y2Ba 10.3115 / v1 /好- 1066gydF4y2Ba SerbangydF4y2Ba i V。gydF4y2Ba 劳gydF4y2Ba R。gydF4y2Ba 亨德森gydF4y2Ba P。gydF4y2Ba CharlingydF4y2Ba lgydF4y2Ba PineaugydF4y2Ba J。gydF4y2Ba 可用语料的调查来构建数据驱动的对话系统gydF4y2Ba https://arxiv.org/pdf/1512.05742.pdfgydF4y2Ba SerbangydF4y2Ba i V。gydF4y2Ba SordonigydF4y2Ba 一个。gydF4y2Ba BengiogydF4y2Ba Y。gydF4y2Ba 考维尔gydF4y2Ba a . C。gydF4y2Ba PineaugydF4y2Ba J。gydF4y2Ba 建立端到端的对话系统使用生成分层神经网络模型gydF4y2Ba 《第三十AAAI会议上人工智能gydF4y2Ba 2016年2月gydF4y2Ba 美国凤凰城,基于“增大化现实”技术gydF4y2Ba 3776年gydF4y2Ba 3783年gydF4y2Ba 兴gydF4y2Ba C。gydF4y2Ba 吴gydF4y2Ba Y。gydF4y2Ba 吴gydF4y2Ba W。gydF4y2Ba 黄gydF4y2Ba Y。gydF4y2Ba 周gydF4y2Ba M。gydF4y2Ba 分层经常性关注网络响应的一代gydF4y2Ba 三十二AAAI学报》关于人工智能的会议gydF4y2Ba 2018年2月gydF4y2Ba 新奥尔良,洛杉矶,美国gydF4y2Ba 5610年gydF4y2Ba 5617年gydF4y2Ba SinhagydF4y2Ba P。gydF4y2Ba 在嵌入式语音处理系统gydF4y2Ba 2009年gydF4y2Ba 柏林,德国gydF4y2Ba 施普林格gydF4y2Ba Hasegawa-JohnsongydF4y2Ba M。gydF4y2Ba AlwangydF4y2Ba 一个。gydF4y2Ba ProakisgydF4y2Ba j·G。gydF4y2Ba 语音编码:基本面和应用程序gydF4y2Ba 威利的百科全书的电信gydF4y2Ba 2003年gydF4y2Ba 美国新泽西州霍博肯gydF4y2Ba 约翰威利& SonsgydF4y2Ba 10.1002/0471219282. eot156gydF4y2Ba GershogydF4y2Ba 一个。gydF4y2Ba 灰色的gydF4y2Ba r·M。gydF4y2Ba 矢量量化和信号压缩gydF4y2Ba 1991年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 施普林格自然gydF4y2Ba PerićgydF4y2Ba z H。gydF4y2Ba NikolićgydF4y2Ba j . R。gydF4y2Ba MosićgydF4y2Ba 答:V。gydF4y2Ba PetkovićgydF4y2Ba m D。gydF4y2Ba 设计的固定和自适应压缩量化器无记忆的高斯源的变长码字gydF4y2Ba Informatica(立陶宛科学院)gydF4y2Ba 2013年gydF4y2Ba 24gydF4y2Ba 1gydF4y2Ba 71年gydF4y2Ba 86年gydF4y2Ba 尼克里奇gydF4y2Ba J。gydF4y2Ba 斯佩里奇gydF4y2Ba Z。gydF4y2Ba 约万诺维奇gydF4y2Ba 一个。gydF4y2Ba 滑稽可笑的gydF4y2Ba D。gydF4y2Ba 提出自适应分段均匀标量量化器的设计与优化每段繁殖水平分布gydF4y2Ba 电子和电气工程gydF4y2Ba 2012年gydF4y2Ba 119年gydF4y2Ba 3gydF4y2Ba 19gydF4y2Ba 22gydF4y2Ba 10.5755 / j01.eee.119.3.1356gydF4y2Ba 2 - s2.0 - 84859055929gydF4y2Ba NikolićgydF4y2Ba J。gydF4y2Ba PerićgydF4y2Ba Z。gydF4y2Ba AntićgydF4y2Ba D。gydF4y2Ba JovanovićgydF4y2Ba 一个。gydF4y2Ba DenićgydF4y2Ba D。gydF4y2Ba 向前低复杂适应性损失在语音编码压缩算法及其应用gydF4y2Ba 电子杂志Engineering-Elektrotechnicky CasopisgydF4y2Ba 2011年gydF4y2Ba 62年gydF4y2Ba 1gydF4y2Ba 19gydF4y2Ba 24gydF4y2Ba 10.2478 / v10187 - 011 - 0003 - 5gydF4y2Ba 2 - s2.0 - 79951595777gydF4y2Ba PerićgydF4y2Ba Z。gydF4y2Ba JocićgydF4y2Ba 一个。gydF4y2Ba NikolićgydF4y2Ba J。gydF4y2Ba VelimirovićgydF4y2Ba lgydF4y2Ba DenićgydF4y2Ba D。gydF4y2Ba 微分脉冲编码调制的分析提出适应性Lloyd-Max低码率语音编码的量化器gydF4y2Ba Revue Roumaine des科学技术。爵士。Electrotechnique et EnergetiquegydF4y2Ba 2013年gydF4y2Ba 58gydF4y2Ba 4gydF4y2Ba 424年gydF4y2Ba 434年gydF4y2Ba 10.1134 / s1064226913130068gydF4y2Ba 2 - s2.0 - 84891806326gydF4y2Ba 斯佩里奇́gydF4y2Ba z H。gydF4y2Ba 尼克里奇́gydF4y2Ba j . R。gydF4y2Ba MosićgydF4y2Ba 答:V。gydF4y2Ba 设计的自适应混合使量子化golomb-rice高斯源的编码压缩gydF4y2Ba 专业的沟通gydF4y2Ba 2014年gydF4y2Ba 8gydF4y2Ba 3gydF4y2Ba 372年gydF4y2Ba 377年gydF4y2Ba 10.1049 / iet-com.2012.0791gydF4y2Ba TomicgydF4y2Ba 年代。gydF4y2Ba 斯佩里奇gydF4y2Ba Z。gydF4y2Ba TancicgydF4y2Ba M。gydF4y2Ba 尼克里奇gydF4y2Ba J。gydF4y2Ba 落后的适应性和域低频quasi-logarithmic量化器的音频gydF4y2Ba 信息技术和控制gydF4y2Ba 2018年gydF4y2Ba 47gydF4y2Ba 1gydF4y2Ba 131年gydF4y2Ba 139年gydF4y2Ba 10.5755 / j01.itc.47.1.16190gydF4y2Ba 2 - s2.0 - 85042915370gydF4y2Ba 之间理工学院gydF4y2Ba 推荐G.711,脉冲编码调制(PCM)的声音频率gydF4y2Ba 1972年gydF4y2Ba 印尼的万隆gydF4y2Ba 之间理工学院gydF4y2Ba https://www.itu.int/rec/T-REC-G.711gydF4y2Ba 奥尔特加gydF4y2Ba 一个。gydF4y2Ba VetterligydF4y2Ba M。gydF4y2Ba 自适应标量量化没有边信息gydF4y2Ba IEEE图像处理gydF4y2Ba 1997年gydF4y2Ba 6gydF4y2Ba 5gydF4y2Ba 665年gydF4y2Ba 676年gydF4y2Ba 10.1109/83.568924gydF4y2Ba 2 - s2.0 - 0031143809gydF4y2Ba CummiskeygydF4y2Ba P。gydF4y2Ba JayantgydF4y2Ba n S。gydF4y2Ba 弗拉纳根gydF4y2Ba j·L。gydF4y2Ba 自适应量化在微分PCM编码的言论gydF4y2Ba 贝尔系统技术杂志gydF4y2Ba 1973年gydF4y2Ba 52gydF4y2Ba 7gydF4y2Ba 1105年gydF4y2Ba 1118年gydF4y2Ba 10.1002 / j.1538-7305.1973.tb02007.xgydF4y2Ba 2 - s2.0 - 0015667947gydF4y2Ba DespotovicgydF4y2Ba 诉M。gydF4y2Ba 斯佩里奇gydF4y2Ba z H。gydF4y2Ba VelimirovicgydF4y2Ba lgydF4y2Ba DelicgydF4y2Ba 诉D。gydF4y2Ba DPCM向前gain-adaptive量化器和简单的切换预示高质量的语音信号gydF4y2Ba 电气和计算机工程的进步gydF4y2Ba 2010年gydF4y2Ba 10gydF4y2Ba 4gydF4y2Ba 95年gydF4y2Ba 98年gydF4y2Ba 10.4316 / AECE.2010.04015gydF4y2Ba 2 - s2.0 - 78649687551gydF4y2Ba TomicgydF4y2Ba 美国年代。gydF4y2Ba 斯佩里奇gydF4y2Ba z H。gydF4y2Ba 尼克里奇gydF4y2Ba j . R。gydF4y2Ba 一个简单的微分语音编码算法基于反向适应技术gydF4y2Ba InformaticagydF4y2Ba 2018年gydF4y2Ba 29日gydF4y2Ba 3gydF4y2Ba 539年gydF4y2Ba 553年gydF4y2Ba 10.15388 / informatica.2018.180gydF4y2Ba PratheekgydF4y2Ba R。gydF4y2Ba SumagydF4y2Ba m . N。gydF4y2Ba 性能分析的DPCM和ADPCMgydF4y2Ba 学报》国际会议电子设计和信号处理gydF4y2Ba 2013年12月gydF4y2Ba 印度麦利普、印度gydF4y2Ba 19gydF4y2Ba 23gydF4y2Ba 程ydF4y2Ba j . H。gydF4y2Ba GershogydF4y2Ba 一个。gydF4y2Ba Gain-adaptive矢量量化应用语音编码gydF4y2Ba IEEE通信gydF4y2Ba 1987年gydF4y2Ba 35gydF4y2Ba 9gydF4y2Ba 918年gydF4y2Ba 930年gydF4y2Ba 10.1109 / TCOM.1987.1096884gydF4y2Ba 2 - s2.0 - 0023416522gydF4y2Ba 微积分gydF4y2Ba s . O。gydF4y2Ba 神经网络和学习机器gydF4y2Ba 2009年gydF4y2Ba 3日gydF4y2Ba 新泽西,新泽西,美国gydF4y2Ba 新世纪gydF4y2Ba DinizgydF4y2Ba p s R。gydF4y2Ba 自适应过滤:算法和实际实现gydF4y2Ba 2013年gydF4y2Ba 4日gydF4y2Ba 波士顿,美国gydF4y2Ba 施普林格gydF4y2Ba https://www.springer.com/gp/book/9781461441052gydF4y2Ba