语音技术进步基于机器学习的新范式gydF4y2Ba

文摘gydF4y2Ba

语音技术已经发展几十年来作为一个典型的信号处理领域,在过去的十年里带来了一个巨大的进步基于新的机器学习范式。不仅由于其内在的复杂性还与认知科学,语音技术跨学科知识的现在被视为一个典型的例子。这个评论文章在语音信号分析和处理,相应的机器学习算法,并应用计算智能旨在深入了解几个字段,包括言语生成和听觉感知、认知方面的言语交际和语言理解、语音识别和语音合成更多的细节,因此口语对话系统的主要发展方向。此外,本文论述了概念和最新进展在语音信号压缩、编码、传输,包括认知语音编码。最后,本文的主要目的是突出最近的成就和挑战基于机器学习的新模式,在过去的十年里,有一个语音信号处理领域的巨大影响。gydF4y2Ba

1。介绍gydF4y2Ba

根据库恩的科学革命理论(gydF4y2Ba1gydF4y2Ba),科学使进步通过流行的科学范式的革命性的改变,一个范例表示一组信仰和价值观,技术和方法程序共同科学界。范式定义框架和模型求解科学挑战。新的解决方案来与新一代已经准备好接受新的真理和跨学科的方法。新范式突然出现并提供新的灯一个科学问题,基于协同的和专业知识整合成有功能的和一致的统一。语音识别技术社区调查口语处理为一个跨学科的研究领域(图gydF4y2Ba1gydF4y2Ba),(gydF4y2Ba2gydF4y2Ba]。经过短暂的回顾主要的科学范式基于演讲的知识生产和听觉感知,本文介绍了新成果和观点基于机器学习的新范式相关神经科学和先进的信号处理。gydF4y2Ba

语音信号处理研究的根源与语音信号数字化的需要密切相关。开创性的解决方案被部署在二战期间由于需要盟友之间的安全通信。系统被评为SIGSALY,它利用脉码调制(PCM)启用的第一个传输语音使用数码设备(gydF4y2Ba3gydF4y2Ba]。在接下来的几十年里,研究的重点是在规范规定的数字电话为了提供高质量的重建语音信号在各种语音信号方差(gydF4y2Ba4gydF4y2Ba- - - - - -gydF4y2Ba7gydF4y2Ba]。压缩模式对这些系统没有明显改变了几十年。特别是略有研究的重点是朝着改善信号质量在接收端或对减少所需的比特率gydF4y2Ba8gydF4y2Ba- - - - - -gydF4y2Ba13gydF4y2Ba]。然而,计算机技术的重大发展在过去十年里使得研究先进的语音信号处理的新方法,包括自适应机器学习方法(gydF4y2Ba14gydF4y2Ba]。最近的趋势包括认知语音编码,以便有一个范式转换,即从知觉(听觉)对认知(听觉+皮质)语音信号处理(gydF4y2Ba15gydF4y2Ba]。gydF4y2Ba

现代语音识别技术系统依赖于跨学科研究领域的多通道信号处理和人工智能,和一系列的方法和算法开发,目的是解决各种各样的问题:对话系统基于语音识别和合成,包括情感上的演讲中,演讲者识别和验证,以及语音信号编码和传输,信号的去噪和检测噪声的存在,质量提高,和医疗诊断分析的基础上人类的声音。最近大多数语音识别技术的进展话题将在以下部分中讨论更多的细节。gydF4y2Ba

语言处理(SLP)是一个跨学科的研究领域,计算智能的属性。SLP位于十字路口的语言学、心理学、工程和人工智能(AI) (gydF4y2Ba2gydF4y2Ba]。先进的信号处理和机器学习方法定位采用视图中的SLP的跨学科特征,显示了不同学科的相互连接和交点和小说的角度来看(图中给出gydF4y2Ba1gydF4y2Ba)。而不是使用原来的术语“模式处理”图gydF4y2Ba1gydF4y2Ba,我们已经选择了更常见的术语“信号处理和机器学习(SP&ML)”代表之间的重叠社区工程和人工智能学科。包括语言方面,他们组成了自然语言处理(NLP)领域。人机交互(HCI)吸引了从工程和心理学领域的经验和方法,包括从语言学的知识,他们形成一个对话系统的研究和开发的基础。gydF4y2Ba

语言心理学和AI的互连是认知科学和神经语言学的基础。的神经科学神经语言学一直待在这里演讲。神经语言学提出了图gydF4y2Ba1gydF4y2Ba作为主导性语言学学科但通过计算机语言学与人工智能AI和语言学之间的十字路口上从一边也通过语言心理学与心理学,心理学和语言学之间的十字路口上的另一边。神经语言学对面从工程的观点。神经科学的演讲也可以被认为是认知科学的一个区域,与认知是两种言语知觉的固有部分(阶段的理解、口语)传达出来的信息的意义和语言生产(在创作阶段,消息旨在传达某种意义)。最后,SLP SP&ML跨学科领域的知识,结合人机交互,心理语言学,语言学和计算机,或更准确的NLP,认知科学,对话系统和信息访问。gydF4y2Ba

语音技术是基于语音信号处理,跨越广泛的主题,而重点综述文章是作者三个领域最专业知识:gydF4y2Ba(我)gydF4y2Ba基本主题(语音分析与合成、声波和语音功能,语音生产、听觉感知和认知包括语言方面)gydF4y2Ba(2)gydF4y2Ba对话系统基于语音识别和语音合成(情感语音识别和语音合成包括声音和风格转换)gydF4y2Ba(3)gydF4y2Ba语音编码、压缩和传输gydF4y2Ba

语音识别技术领域范围内呈现在图gydF4y2Ba2gydF4y2Ba作为一个统一的框架,包括覆盖的主题,展示他们的互补性,范围和边界,互联,十字路口在SLP的跨学科领域。gydF4y2Ba

一个简短的回顾和语音识别技术的一些观点字段如图gydF4y2Ba2gydF4y2Ba在以下部分中给出。基本主题图中所示gydF4y2Ba2gydF4y2Ba和介绍部分gydF4y2Ba2gydF4y2Ba言论,包括生产和感知分析,包括认知和语言的观点。更多细节相关的语音识别和语音合成的研究进展,以及他们的贡献,新一代的人机语音对话系统,介绍了部分gydF4y2Ba3gydF4y2Ba。最后,进展语音信号压缩、编码和传输提出了部分gydF4y2Ba4gydF4y2Ba,包括作者的贡献。大多数这些进步是基于新的深度学习范式,我们更好地了解神经科学和认知方面的造型语言沟通。gydF4y2Ba

2。进步在自然语言分析和口语的知识gydF4y2Ba

知识与口语的本质是必不可少的有效的编码和传输以及满意的实时人机语音交互。语音模型基于言语生成或听觉感知是最成功的算法的固有部分。最近neuro-inspired计算模型是基于知识的认知语言处理模型(gydF4y2Ba16gydF4y2Ba]。之后简要回顾声压波和语音信号的特性,语言产生和听觉感知包括认知和语言的观点将在下面更详细地阐述了部分。gydF4y2Ba

2.1。声压波和语音信号的特性gydF4y2Ba

声音传播作为一个连续的声波(声压),一旦收到,它可以记录,数字化、编码,传输,处理,和复制。语音,频率相关的识别是什么说,谁已表示,它位于大多低于4 kHz和很少高于7 - 8 kHz,也就是整个频率范围的一部分人类的听觉感(gydF4y2Ba17gydF4y2Ba]。这一事实的基础上模拟电话通信系统的设计,包括麦克风的选择使用。因此,语音信号是采样8 kHz(对于一个基本水平的质量)或16赫兹(如果需要更高层次的质量)。它也是众所周知,动态范围的平均人类语言最柔软最响亮的声音大约是40 dB。即使低语,声音包括升高,这种动态范围是很少高于50 dB (gydF4y2Ba14gydF4y2Ba]。由于这些原因,一个麦克风的要求需要严格记录声音通常小于记录,例如,音乐。量子化,众所周知,每一位导致信噪比(信噪比)6 dB,这意味着量化噪声几乎是听不清如果8位用于编码每一个声音样本(gydF4y2Ba4gydF4y2Ba]。因此,使用8 kHz的采样率的典型案例和8位/样品生产64 kbits / s的比特率。投入了很多努力来减少这种速度没有显著损失质量在接收端和部分gydF4y2Ba4gydF4y2Ba致力于这个问题。gydF4y2Ba

数字化包括量子化是所有数字语音处理技术的基础。如果目标是代表语言简洁和强劲,一样在自动语音识别或大多数类型的语音编码传输的一个基本问题是选择相关特性,使快速、准确、言论和健壮的识别(或演讲者、语言、甚至情感),和/或快速和高效的语音编码传输没有质量的重大损失。线性预测编码(LPC)造型和LPC分析语音信号的基本意义和语言特性估计(gydF4y2Ba18gydF4y2Ba]。许多语音编码方案是基于LPC分析包括低Delay-Code兴奋线性预测(LD-CELP)编码方案由G.728定义标准,共轭结构代数Code-Excited线性预测(CS-ACELP)编码方案由G.729A定义标准,代数Code-Excited线性预测编码方案由G.723.1定义标准,和自适应多速率宽带(AMR-WB)编码方案由G.722.2定义,标准用于今天移动语音通信和VoIP (gydF4y2Ba5gydF4y2Ba,gydF4y2Ba7gydF4y2Ba]。gydF4y2Ba

演讲之一生产模型也是基于LPC分析和提供语音特性集描述语音频谱,对语音识别(这是最重要的gydF4y2Ba19gydF4y2Ba]。语音信号的主要范围和实时数据处理(或有限的时间)是减少的数据量(语音特性),同时提供高质量的表示这样的信号降低,也就是说,数据源。这一目标的实现是由统计信号和数据处理方法和算法处理信号和数据简化gydF4y2Ba20.gydF4y2Ba]。最有效的方法和算法结合适应,这些主题将阐述更多细节在接下来的部分。gydF4y2Ba

2.2。言语生成和听觉感知gydF4y2Ba

图gydF4y2Ba3gydF4y2Ba显示了一个框图语言产生和感知。语音合成(TTS)和自动语音识别(ASR)所示的平行对应流程执行的机器。演讲和语言学习,而听觉是天生的。有很多人类和机器语言产生和感知差异,但增加机器学习模式来模拟人类语言能力的生产机制,以及听觉感知和认知能力,将不可避免地带来的增加的准确性ASR和TTS的自然性。gydF4y2Ba

人类开始和结束之间的言语交际信息的认知水平组成和解释。考虑演讲的速度平均每秒钟10 - 12电话和手机的数量在一个语言,通常对应于5或6位需要编码,语音消息传达文本可以被认为对应的比特率50 - 60位每秒。演讲者计划不仅要说什么,还怎么说——(s)他控制体积,演讲,和语调(韵律)——每它可以携带的语言,以及副语言的和语言以外的信息(gydF4y2Ba21gydF4y2Ba]。信息添加,比特率可以考虑增加一些数百位/秒。gydF4y2Ba

一旦说话人决定说什么和怎么说,一个适当的声波通过神经和肌肉活动产生gydF4y2Ba22gydF4y2Ba,gydF4y2Ba23gydF4y2Ba]。,手机在隔离并不明显,但相应音素的发音目标要求很少,导致协同发音的影响,加剧了ASR的任务。通常,整个演讲装置被认为是通过source-filter模型,声带的活动定义了激发和声道的其余部分充当一个过滤器和形状声谱[gydF4y2Ba19gydF4y2Ba,gydF4y2Ba21gydF4y2Ba]。除了依赖于手机,语音信号的声学特征在特定时刻也携带信息相关的演讲者,因此代表了生物统计的功能,可以揭示演讲者的身份(gydF4y2Ba24gydF4y2Ba)和可能的其他因素相关的演讲者或消息。包括议长变异性的影响,这个层次的比特率增加到每秒几千比特。这段演讲交流是学习发音和声学语音学、及其机器对应TTS,即模块负责生产的人工语音信号本身。gydF4y2Ba

语音样本振幅分布是不均匀的,这些知识用于非均匀语音信号编码定义gydF4y2BaµgydF4y2Ba法律和法gydF4y2Ba25gydF4y2Ba),而一些新的研究成果提供更好的解决方案基于自适应算法。言语生成机制制定一系列音位不均匀,根据实证统计法律由乔治•金斯利Zipf制定一个语言学家gydF4y2Ba26gydF4y2Ba),指的是最少的原则努力进化生物学领域:对话者试图理解对方使用音素和单词更容易生产和感知在一个特定的上下文。音素和单词统计的知识引入ASR算法很久以前,言论和随机模型隐马尔科夫模型(HMM) [gydF4y2Ba27gydF4y2Ba)是流行的科学范式和代表了最先进的语音识别和合成几十年来社区。gydF4y2Ba

另一方面,连续的声波到达听众的耳朵和某些频率刺激耳膜,和锤骨、砧骨,镫骨,他们刺激耳蜗,进行光谱分析,基于基膜的运动,其长度约为35毫米(gydF4y2Ba17gydF4y2Ba,gydF4y2Ba22gydF4y2Ba,gydF4y2Ba23gydF4y2Ba,gydF4y2Ba25gydF4y2Ba,gydF4y2Ba28gydF4y2Ba]。耳蜗毛细胞的根据他们的频率,以便应对不同的声音尖锐的声音刺激的下部耳蜗毛细胞,而低沉的声音刺激的上部耳蜗(gydF4y2Ba28gydF4y2Ba]。因此形成的神经冲动被发送到大脑中枢听觉系统(gydF4y2Ba22gydF4y2Ba],基于光谱差异,大脑识别相关的声学差异并试图恢复手机原始消息的字符串组成,考虑其语言模型(在形态学、语法、语义和语用学)。因此,可以认为,ASR的任务是减少的比特率,例如,64 kbits / s(数字化语音)比特率为50 - 60位/秒(纯文本),将对应的文本内容消息没有语音韵律。gydF4y2Ba

然而,言语知觉,这主要依赖于听觉,是一个非线性的过程。一样与其他人类感官(视觉,味觉,触觉,嗅觉),听觉感知的声压级(SPL)和基频(f0,音高)遵循Weber-Fechner法律[gydF4y2Ba28gydF4y2Ba从心理物理学:改变视为线性对应于一个指数变化的物理刺激。除了SPL和音高,对声音的感知影响的声能分布频率,即。,the spectrum of the sound, which usually represents a mixture of a sequence of discrete frequency components (timbre), as in the case of periodic sounds, and a continuous mix of nonharmonic or random frequency components, as in the case of various types of noise [22gydF4y2Ba,gydF4y2Ba28gydF4y2Ba]。这就是为什么公共演讲等功能cepstral系数被认为是位于新频率从赫兹到mel-scale-MFCC;他们估计cepstral分析语音帧的20 - 30 ms与第一和二阶导数计算从连续几帧gydF4y2Ba29日gydF4y2Ba]。gydF4y2Ba

听觉场景分析听觉系统分离个体声音的过程在自然界的情况下(gydF4y2Ba30.gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba]。无论收到声音人耳或麦克风,入射声压波代表一笔来自不同个体的压力波的来源,可以是人类的声音或任何其他声音的来源。这些声音通常在时域和频域重叠。然而,人类听觉系统通常能够专注于一个人一次声源(gydF4y2Ba23gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba]。虽然听和分离一个源,侦听器构造一个单独的心理描述源。虽然他/她不能积极同时听两个声音的来源,他/她可以立即切换他/她的注意力从一个到另一个(gydF4y2Ba30.gydF4y2Ba]。举个例子,如果一个学生听老师,他忽略了噪声从液晶投影仪和一个同事可能会说他;如果他的焦点切换到他的同事,他不能积极地听老师讲课了。此外,如果一个人侦听器上下文,他/她能够重建一些音素或整个的话,他/她可能因为某种原因无法听到。人类是他们成功的声音分离更有经验在实际情况下,他们总是使用启发式过程分析传入的信号。听力的最终步骤的过程,人类听觉皮层结构的认知表示接收到的声波。没有认知步骤中,声波进入耳朵不感知。启发式分析是基于(ir)规律的和潜在的声音。gydF4y2Ba

个人的声音互相区分下列至少在一个维度:时间、空间、和频谱(gydF4y2Ba28gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba]。时间和空间的感觉在人类听觉系统提出了更多的细节在gydF4y2Ba32gydF4y2Ba]。在时间维度,两个声音可以有一些发作/抵消异步。在一个特定的环境中,双耳听力使声源的定位,这是容易,但也往往更重要的是,在人耳的水平面比在垂直平面定位。频率成分的频谱可以确定感知,音色,响度,不同光谱的声音受到双耳使声源的定位(gydF4y2Ba23gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba,gydF4y2Ba32gydF4y2Ba]。音高与基频f0在音乐音调等周期性的声波在演讲或元音;他们的光谱包含f0及其谐波。颞f0结果的变异在音乐旋律在语音和语调。音色代表一个特定的强度分布f0及其谐波频谱。两个版的相同的语气从两个不同的乐器,拥有相同的f0,会有不同的音色,由于特定的谐波的相对强度的差异(包络谱),因此,他们会听起来不同gydF4y2Ba22gydF4y2Ba]。如果一个声谱不包含谐波音调(f0及其谐波),光谱不是离散;声谱丰富频率成分在部分或整个人类听觉频率范围。这样的声音,或多或少是连续的频谱,在本质上更频繁(例如,汽车的噪音或机器或任何瞬态噪声)。谱组件为响度大小;声压级定义在dB相对于听力1 kHz的阈值(20gydF4y2BaµgydF4y2BaPa)和范围0 - 120 dB疼痛的阈值(gydF4y2Ba17gydF4y2Ba,gydF4y2Ba22gydF4y2Ba]。最后,可以分开两个声音听觉场景分析中根据不同的响度,音高(f0,如果存在),和音色或光谱作为一个整体,以及在他们的时间和/或空间变化,可以创建多种声音的印象。gydF4y2Ba

声信号由一个监听器接收和语言和非语言行为转化为类别,但不知道如何。有持续的神经生理学研究言语交际使用最新的侵入性和非侵入性的进步人类记录技术,目的是发现皮质语音处理的基本特征(gydF4y2Ba16gydF4y2Ba]。问题的研究小组研究了语音特征编码和噪声机制健壮的听觉皮层的言论表示基于证据表明人类和动物可以可靠地感知行为相关的声音噪声和混响环境。gydF4y2Ba

Neuro-inspired计算模型试图提供进展人工深层神经网络(款)的性能,更好的理解的基础上由这些模型表示和转换。一个案例研究在ASR的gydF4y2Ba33gydF4y2Ba]试图确定规范化语言的自然变化的机制和比较这些机制的发现在人类听觉皮层的言论表示。目的是比较与生物同行款,确定其局限性,并减少生物系统之间的性能差距和人工计算。例如,人类能够专注于一个喇叭的声音而忽略其他声音和声音gydF4y2Ba23gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba),根据不同的空间位置,音高、音色,一致性水平的变化和/或频率、时间和特征(开始/抵消异步)(gydF4y2Ba30.gydF4y2Ba]。一个算法,旨在关注一个喇叭在一群许多发言者提出基于深度吸引子网络(gydF4y2Ba34gydF4y2Ba),基于相似的原则。它已经表明,注意力转向一个新的演讲者立刻改变声音的神经表征在大脑中。一个自适应系统应该改变感觉表示实时实现小说,该计算,促进相关的声学参数的提取。gydF4y2Ba

人类的听众有一个非凡的能力快速有效地了解他们周围的世界基于已知的声音来源的行为。此外,他们可以注意和关注演讲的演讲者的意思。注意力的焦点可以集成到人机交互对话策略gydF4y2Ba35gydF4y2Ba),而人类的认知努力有关的数据可用于后处理和改善ASR系统的性能(gydF4y2Ba36gydF4y2Ba]。不仅人类有能力单独的一位发言者或集中只有一个声源,还要组织更多的声音来源和听到,例如,整个管弦乐队作为一个音乐声音基于调和性和同步特定声音的来源。并发和顺序分组过程中描述的更多细节在gydF4y2Ba37gydF4y2Ba]。gydF4y2Ba

款的非线性分类的作用音素的非均匀和非线性声学空间扭曲研究[gydF4y2Ba38gydF4y2Ba),以及知觉不变分类的方式创建。生物神经元能够动态改变突触效能响应变量输入条件。叫做突触抑郁和当它被添加到隐藏层的训练款音素分类,ASR系统变得更加健壮的嘈杂的条件没有明确被训练。的结果(gydF4y2Ba39gydF4y2Ba]表明,更完整的神经元模型可能进一步减少之间的差距生物性能和人工计算,导致网络,更好地推广新信号的条件。gydF4y2Ba

2.3。工程与语言学的观点NLP是典型的人工智能的话题gydF4y2Ba

语言产生的机理和物理组成部分声音感知相对研究主题(gydF4y2Ba22gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba),而言语交际的认知方面仍然是一个广泛开放的研究领域。人机语音通信的各个方面相关的语言学、自然语言处理(NLP)等认知sciences-neurolinguistics和对话管理(见图gydF4y2Ba1gydF4y2Ba),代表了科学界的巨大挑战。在最近的过去,语音技术的发展,口语对话系统工程学科了大多数的势头,通过自动学习的可能性,从大量的数据,计算设施的发展,复杂的学习算法,复杂的神经模型架构解决特定认知语言学的现象和问题。同时,认知科学演讲主要仍以外的工程学科的直接利益的范围相关的语音技术的发展。然而,在这些领域的知识与机器学习的概念和范围,重叠,受神经科学的启发,带来了进步不仅在人机交互和计算语言学领域的也口语处理,在于他们的十字路口。这是显示在图gydF4y2Ba1gydF4y2Ba,这也显示了一个相对广泛的认知科学之间的差距(神经学)和心理语言学和主要工程学科。gydF4y2Ba

至于机器学习在语音识别技术的发展,它提供了一个强大的替代模型依赖于语言资源和模块执行特定的语言激发子任务。字典和语言等语言资源数据库通常是相当昂贵和耗时的收集和注释,而模块组成一个语音技术的发展系统需要深厚的领域知识和专家的努力。在过去的二十年里,一些基于规则的系统执行的任务和简单的机器学习方法,一个接一个,被神经网络取代。即在声学语音识别,神经网络已被证明比隐马尔可夫模型(摘要)声学模型(gydF4y2Ba40gydF4y2Ba),但也优于经典gydF4y2BaNgydF4y2Ba克语言模型的泛化,使用架构基于长期短期记忆(LSTM)神经元gydF4y2Ba41gydF4y2Ba递归神经网络(RNN)[]或gydF4y2Ba42gydF4y2Ba]。基于神经网络解决方案已被证明达到人类平价像平常说话的语音识别任务复杂(gydF4y2Ba43gydF4y2Ba]。结合一系列数据综合技术培训,获得大量不同的数据现在可以获得一个端到端的ASR的能力优于认识清楚对话演讲中最先进的管道以及嘈杂的一个(gydF4y2Ba44gydF4y2Ba,gydF4y2Ba45gydF4y2Ba]。他们也被用于多通道语音识别,即。,从音频和视频识别的语音gydF4y2Ba46gydF4y2Ba]。语音合成的任务更依赖语言,它是更具挑战性,因为它旨在引入的冗余丢失语音转换成文本时,用这样一种方式,在众多的韵律版的一个特定的话语,它产生一个侦听器将考虑接受在一个给定的上下文。在这里,神经网络显示超乐谱演奏古典模型在参数化的演讲如摘要(gydF4y2Ba47gydF4y2Ba,gydF4y2Ba48gydF4y2Ba在声学模型,它们也被用于韵律建模(gydF4y2Ba49gydF4y2Ba)以及声轨迹造型(gydF4y2Ba50gydF4y2Ba]。神经网络也解决的问题有点低沉的合成语音声码器的使用,通过执行原始语音波形的合成(而不是gydF4y2Ba51gydF4y2Ba]。最后,为了克服需要复杂的演讲和语言资源需要深层次的专业知识,提出了一系列的端到端体系结构,系统的终极目的应该被训练成对的文本和音频,利用神经网络的功能自动开发更高级的抽象(gydF4y2Ba52gydF4y2Ba]。这样一个强大的数据驱动方法的灵活性与古典语言串联合成器相比也带来了重大进展领域的multispeaker TTS和调适gydF4y2Ba53gydF4y2Ba- - - - - -gydF4y2Ba55gydF4y2Ba]的能力符合一个特定的演讲风格或情感gydF4y2Ba56gydF4y2Ba]。尤其相关,因为它伴随着出现应用程序,如智能环境中,虚拟助理,和智能机器人,要求高质量的语音合成不同的声音和不同的风格和表达的不同情感状态感知议长[gydF4y2Ba57gydF4y2Ba]。其他语言技术任务也已成功地通过神经网络来解决,如问答(gydF4y2Ba58gydF4y2Ba),文本分类(gydF4y2Ba59gydF4y2Ba,gydF4y2Ba60gydF4y2Ba),机器翻译(gydF4y2Ba61年gydF4y2Ba,gydF4y2Ba62年gydF4y2Ba),和情绪分析gydF4y2Ba63年gydF4y2Ba]。神经网络也被用作一个强大的语言工具,为造型的句子语法(gydF4y2Ba64年gydF4y2Ba]或探索特定的语言现象,比如建立词表示向量空间(gydF4y2Ba65年gydF4y2Ba]。然而,而不是提供一个分解的问题和一个清晰的分析洞察,神经网络提供了一种替代方法,数据驱动的观点,因此不能认为是一个古典理论语言学的工具。另一方面,他们的表现在解决这些问题的公正使得神经网络的语音识别技术的发展。gydF4y2Ba

3所示。语音识别和合成的进展,以及对话系统gydF4y2Ba

除了自动语音识别(ASR)和合成语音(TTS),一个人机语音对话系统还包括一个对话与相应的对话策略和语言技术管理模块对口语的理解(SLU)和口语代(SLG),如图gydF4y2Ba4gydF4y2Ba。gydF4y2Ba

该部分提出了一些成就领域的演讲如ASR和TTS技术。他们用努力开发组合来自不同领域的跨学科知识如语言学、音响、计算机科学和数学。信号处理工程师通常有整合的角色从一边在语言学家和数学家从另一边。gydF4y2Ba

3.1。自动语音识别系统的进步gydF4y2Ba

ASR系统的研究和开发在贝尔实验室开始于1950年代,通过简单的数字识别系统,并从那时起识别任务变得更加的孤立的数字的识别,然后单词,然后连续口语词汇在寂静的环境中,识别的自发的演讲在嘈杂的环境中。因此,算法的复杂性也急剧增加。简要回顾历史发展ASR中可以找到的gydF4y2Ba66年gydF4y2Ba]。有三个重要的时刻在ASR系统的开发:引入mel-frequency cepstral系数(gydF4y2Ba67年gydF4y2Ba),引入统计方法(隐马尔科夫模型(HMM)与高斯混合模型(GMM)) (gydF4y2Ba68年gydF4y2Ba),引入深神经网络(款)gydF4y2Ba69年gydF4y2Ba]。这种发展也支持的计算机行业的技术发展以及增加可用于培训这些系统的数据量。gydF4y2Ba

款的统治ASR开始(gydF4y2Ba40gydF4y2Ba),这表明,前馈款优于GMM估计任务的上下文相关的HMM状态发射概率。对于一个小的数据库,例如英语广播新闻(约30 h(训练数据),不同的字错误率(回答)不显著,但对交换机数据库,这是更大的(约300 h(训练数据),成为实质性的区别。进一步改善款是基于更好的优化,新激活函数,新的网络架构,新的语音预处理方法,利用多种语言和方言gydF4y2Ba70年gydF4y2Ba]。其中一个重要的发现是,逐层pretraining使用限制玻耳兹曼机遏制不是义务和反向传播算法是充分的培训,以防可用的大量的训练数据,以及大量的隐藏层单元。此外,勒存等人显示在[gydF4y2Ba71年gydF4y2Ba),对于足够宽款(大量的单位在一层),没有问题的局部最小值和局部最小值的值非常接近。接下来关键的一步是完全消除的HMM模型。坟墓和Jaitly [gydF4y2Ba72年gydF4y2Ba]报道一个语音识别系统,直接与文本转录音频数据,而不需要一个中间语音表示。的系统是基于结合双向多空词记忆递归神经网络(LSTM)体系结构和联结主义时间分类(CTC)的目标函数。音频信号的直接映射为一个字母序列允许简单的应用系统等新语言塞尔维亚(gydF4y2Ba73年gydF4y2Ba]。灵感来自CTC, Povey在人gydF4y2Ba74年gydF4y2Ba使用电话]发达lattice-free最大互信息gydF4y2BangydF4y2Ba克语言模型从随机神经网络初始化。这种方法也被成功地应用于塞尔维亚(gydF4y2Ba75年gydF4y2Ba];即。,the relative reduction of WER was about 25% with respect to the best previous system.

3.2。语音情感识别的进展gydF4y2Ba

因为人类并不总是理性和逻辑beings-emotions扮演非常重要的方面在接受新产品和新技术gydF4y2Ba76年gydF4y2Ba]。最早试图识别说话者的情绪状态声音特点的基础上,可以追溯到1980年代(gydF4y2Ba77年gydF4y2Ba]。这个研究方向的初始动机是适应ASR系统的情感强调演讲(gydF4y2Ba78年gydF4y2Ba),但另一个动机出现口语对话系统的发展,它是有用的修改基于对话策略,例如,用户烦恼(gydF4y2Ba79年gydF4y2Ba]。有很多情绪,可以很容易地表示在activation-evaluation空间(gydF4y2Ba80年gydF4y2Ba),但分类等大量的情感是很困难的。因此,分类空间减少中性和6原型情绪:愤怒,厌恶,恐惧,快乐,悲伤和惊奇,这是最明显的和独特的情感gydF4y2Ba80年gydF4y2Ba]。应该注意的是,典型的情绪并不主要情绪在所谓的“托盘理论”,每一种情绪都可以表示成一个主要的组合。gydF4y2Ba

的一个重要的步骤在语音情感识别系统的设计是有效的提取特征区分情感独立的词汇内容,演讲者,和声学环境。众所周知,韵律特征是与情感有关gydF4y2Ba80年gydF4y2Ba),这就是为什么标准特性用于情感识别系统包括音高、能源、和电话持续时间(gydF4y2Ba81年gydF4y2Ba]。这些特性也与情绪相关的语音质量(gydF4y2Ba82年gydF4y2Ba]。情绪影响语音能量分布在范围广泛的频率,因此光谱特性,比如MFCCs,线性预测cepstral系数,对数频率功率系数和共振峰进一步提出(gydF4y2Ba83年gydF4y2Ba,gydF4y2Ba84年gydF4y2Ba]。特征提取过程开始于输入信号的细分到20 - 30 ms长帧转移10毫秒,因为演讲是一个非平稳的信号。之后,选择的特征提取部分(对应于一个特定的音素、音节、单词或句子)被映射到一个单独的向量使用泛函,如意思是,二次矩,轮廓斜率和范围。以后,“浓缩”以这样一种方式表示的输入标准分类算法,如线性贝叶斯(gydF4y2Ba85年gydF4y2Ba),gydF4y2BakgydF4y2Ba最近的邻居(gydF4y2Ba85年gydF4y2Ba,gydF4y2Ba86年gydF4y2Ba),支持向量机(gydF4y2Ba87年gydF4y2Ba],GMM [gydF4y2Ba86年gydF4y2Ba)和人工神经网络gydF4y2Ba88年gydF4y2Ba]。另一方面,这样的框架特性也可以归类为一个序列使用嗯[gydF4y2Ba84年gydF4y2Ba]和RNN [gydF4y2Ba89年gydF4y2Ba]。除了底层声学特征,个别单词或单词序列获得的ASR还可以用来进行情感分类(gydF4y2Ba90年gydF4y2Ba]。经过一个巨大的成功的卷积神经网络(CNN)在图像分类、低层次的网络进行特征提取,一些研究小组试图实现CNN以同样的方式获得特性(gydF4y2Ba91年gydF4y2Ba,gydF4y2Ba92年gydF4y2Ba]。由于语音情感识别是一个稀缺的数据问题,的一个未来趋势将应用程序semisupervised学习(gydF4y2Ba93年gydF4y2Ba]。更多细节特征,分类算法和数据库可以在[gydF4y2Ba94年gydF4y2Ba- - - - - -gydF4y2Ba97年gydF4y2Ba]。gydF4y2Ba

3.3。在语音合成的发展进步gydF4y2Ba

第一个“演讲机器”是机械设备能够产生单个音素,并介绍了它们的一些组合基督教Kratzenstein和沃尔夫冈·冯·Kempelen十八世纪的末尾(gydF4y2Ba98年gydF4y2Ba]。语音合成器,1939年由荷马达德利,可以被认为是第一个合成器可以生成整个句子(gydF4y2Ba99年gydF4y2Ba]。第一个完整的TTS系统介绍了英语在1968年由Teranishi和繁华gydF4y2BaOne hundred.gydF4y2Ba]。这是一个articulatory-based系统可以执行文本分析和确定停顿在文本使用一个复杂的解析器gydF4y2Ba101年gydF4y2Ba]。gydF4y2Ba

然而,直到衔接合成器发明,TTS被广泛使用。衔接TTS的想法是将适当的部分预先录制的数据库(gydF4y2Ba102年gydF4y2Ba]。如果目标是特定于域的合成或一个非常大的演讲数据库可用,这种方法可以产生高质量的语音。然而,有声音在连接故障点如果在数据库中无法找到合适的单位。方法也是非常灵活的改变说话方式或演讲者的声音;它需要一个全新的数据库记录和注释。gydF4y2Ba

TTS的应用程序变得更受欢迎和广泛应用,算法的必要性,可能产生不同的声音和讲话风格已从较小的数据库。从2000年左右,统计参数语音合成、光谱,基本频率和持续时间的演讲被摘要multispace概率分布模型和多维高斯分布(gydF4y2Ba103年gydF4y2Ba),开始流行起来。嗯合成使转换与说话者不相关的系统向目标说话人使用少量的语音数据(gydF4y2Ba104年gydF4y2Ba),创建富有表现力的声音(gydF4y2Ba105年gydF4y2Ba),以及多语言的声音(gydF4y2Ba106年gydF4y2Ba]。然而,这个方法从未实现衔接TTS的自然性。的一个主要问题是造成的信号平滑造型类似上下文相同的高斯混合。另一个大问题介绍了参数方法是声码器的使用,系统产生语音波形预测的声学特性。语音编码器,尽管时间显著提高,介绍一些文物影响的总体质量生成的演讲。详细审查HMM-based语音合成中可以找到(gydF4y2Ba107年gydF4y2Ba]。gydF4y2Ba

第一次尝试使用神经网络在语音合成中可以找到gydF4y2Ba108年gydF4y2Ba]。然而,最近开发的硬件,尤其是图形处理单元(gpu),推广这种方法,建立了其主导地位TTS研究社会。深层神经网络(款)取代了决策树和高斯混合模型的输入语言特征映射到输出声学特性,使非线性映射(gydF4y2Ba109年gydF4y2Ba]。虽然简单的前馈神经网络,一些隐藏层和乙状结肠或切线双曲激活是充分理解和自然生产的合成语音,引入LSTM(长短期记忆)单位带来了进一步改善合成语音的质量(gydF4y2Ba110年gydF4y2Ba]。一些改进也被报道通过引入生成对抗网络(gydF4y2Ba111年gydF4y2Ba)和堆叠瓶颈特征(gydF4y2Ba112年gydF4y2Ba]。gydF4y2Ba

款不仅只是启用生成高质量的合成语音,还介绍了许多可能性为生产不同声音和讲话的讲话风格。大多数方法创建新的款声音使用有限的训练数据是基于使用multispeaker模型。在multispeaker造型,需要由多个扬声器组成的大型数据库。每个演讲者通常是用比较少的数据表示人的造型。由于各种上下文信息和更好的网络推广,语音产生的质量与multispeaker模型是相似的,甚至比演讲与单扬声器模型获得。演讲者身份multispeaker系统可以以几种不同的方式来表示。一组的方法是基于使用一个独特的向量为每个演讲者。这个向量可以表示为gydF4y2Ba我gydF4y2Ba向量(gydF4y2Ba113年gydF4y2Ba)或只是一个炎热的向量(gydF4y2Ba54gydF4y2Ba)和用于训练的扩展标准输入或其他任何的隐藏层的输入。另一组代表说话人身份的方法是基于分割网络speaker-specific和共享的部分。在[gydF4y2Ba53gydF4y2Ba),单独为每个演讲者介绍了输出层。在[gydF4y2Ba114年gydF4y2Ba),甚至语言相关的部分添加了网络,但这种方法需要的数据来自同一个扬声器用多种语言。创建一个新的声音,样品没有出现在训练阶段,在multispeaker框架是基于适应只有依赖网络的一部分gydF4y2Ba53gydF4y2Ba),估计新议长speaker-specific向量(gydF4y2Ba55gydF4y2Ba]或调整开始神经元模型的参数(gydF4y2Ba113年gydF4y2Ba]。而不是使用multispeaker模型作为初始模型适应,在gydF4y2Ba115年gydF4y2Ba),适应从一个扬声器模式研究。它已被证明,只有∼10分钟目标说话人的声音是必需的,为了在目标说话人的声音达到生产合成语音质量的传统方法建立在几个小时的语音数据库。扬声器的假说是,模型A和B更类似一个随机初始化模型和模型的发言人B,因此要求更少的数据训练模型的发言人B从演讲者的模型比从一个随机初始化模型。gydF4y2Ba

合成语音不仅要传达信息,但也副语言的情绪状态等信息。还有一个需要支持一些特定于任务的演讲风格如新闻,广告,讲故事,和警告gydF4y2Ba116年gydF4y2Ba]。它已经表明,情感,情绪,情绪影响注意力,内存,性能,判断,和人类的决策(gydF4y2Ba117年gydF4y2Ba),它支持的必要性,对许多应用程序使用不同的讲话风格在合成语音。三种不同风格的造型方法比较(gydF4y2Ba118年gydF4y2Ba]。提出的方法是基于思想引入multispeaker造型使用输入代码,网络适应性和输出层分离。它已被证明,只有∼5分钟的演讲/风格足够为了产生语音的可接受的质量在一个特定的风格。使用输入编码代表不同的风格也呈现在gydF4y2Ba119年gydF4y2Ba,gydF4y2Ba120年gydF4y2Ba]。也有尝试风格移植,即。,producing speech in the voice of speaker A in style X without having any sentence from speaker A in style X in the training data, in which case the network is forced to learn the style X from other speakers in the training database [121年gydF4y2Ba,gydF4y2Ba122年gydF4y2Ba]。gydF4y2Ba

尽管款已经证明是非常强大和灵活的,在很长一段时间里,他们的一个主要缺点在语音合成声码器的使用的依赖。第一次在2016年,原始音频样本直接预测款使用WaveNet架构(gydF4y2Ba51gydF4y2Ba]。这个模型是完全概率和自回归,每个音频样本的预测分布在所有之前的条件。当条件语言特征源自文本和议长的身份,它可以用作TTS显著优于所有其他TTS系统。这个系统的主要缺点是它需要非常大的数据库和极端的计算能力,虽然已经加速了合成方法的引入等平行WaveNet [gydF4y2Ba123年gydF4y2Ba]。2017年引进类似的模型称为DeepVoice [gydF4y2Ba124年gydF4y2Ba]。在DeepVoice,每一部分的TTS管道被相应款所取代。其主要缺点是TTS系统的所有组件独立训练,这导致一个累积误差的合成语音。gydF4y2Ba

而不是WaveNet和DeepVoice系统,使用词汇特征作为输入,有系统使用原始正字法的文本作为输入,如Tacotron [gydF4y2Ba52gydF4y2Ba],Tacotron 2 [gydF4y2Ba125年gydF4y2Ba),低沉的声音3 (gydF4y2Ba126年gydF4y2Ba]。Tacotron输出谱图转换为语音样本使用Griffin-Lim算法,生成的演讲中也介绍了文物。另一方面,Tacotron 2系统生成的声音(用于调节标准WaveNet架构,它生成语音样本。DeepVoice 3架构可以输出声音(或其他特性,可以作为一些波形合成模型的输入。适应新的扬声器也调查了端到端系统(gydF4y2Ba127年gydF4y2Ba,gydF4y2Ba128年gydF4y2Ba在不同的风格中以及合成gydF4y2Ba129年gydF4y2Ba,gydF4y2Ba130年gydF4y2Ba]。gydF4y2Ba

集成的端到端TTS系统的主要优势是,需要最少的人类努力因为不需要标签输入数据。因为在端到端系统,直接抽样值往往预测(gydF4y2Ba29日gydF4y2Ba),使用16位样品会使预测复杂,执行某种类型的量化。出于这个原因,改进的编码和压缩算法对TTS很重要。gydF4y2Ba

3.4。对话系统gydF4y2Ba

自动语音识别和语音合成技术具有悠久历史。在过去五年中,各种算法的语音技术领域内的知识。最新进展的深度学习和人工神经网络的世界里,我们能够在一定程度上模仿人类听觉系统的灵敏度,识别准确性,人类语音可懂度和自然,情感在合成语言,等结果,机器能够识别特定的扬声器,认识人类在一个嘈杂的环境或执行大词汇连续语音识别精度高。此外,少量数据从目标的说话,他们合成的语音质量高,足以成为一个威胁扬声器自动验证系统。gydF4y2Ba

自然产生的一个问题是这是否足以实现聪慧如,自然和长期人机语音交互。不幸的是,事实并非如此。gydF4y2Ba

语音识别和合成只是两个的六个模块在一个典型的语音对话系统的体系结构,在图gydF4y2Ba4gydF4y2Ba,每六个模块对应于某些认知方面潜在的人类语言处理系统。因此,对话管理成为一个复杂的结构,涉及合作的几个完全不同的功能单元。抛开对话系统的划分为任务导向和non-task-oriented,我们必须强调,科学家面临的最大的挑战在这一领域的研究是模仿人类能够理解的意义和前瞻性进行对话,信息和连贯的。关于对话活动,机器是成功的在处理对话系统计划(或单独的项目)。在这种情况下,该系统完全控制语音识别的谈话和维护过程,提取意义,答案一代,和语音生产。然而,众所周知,自然对话是不确定的,实际改善人机语音交互只能如果适应性行为的意图,当前上下文,提供互动的历史。gydF4y2Ba

作为一个传统的范式转变,最近的工作在这一领域解决一系列的数据驱动,端到端可训练的,non-goal-driven系统基于生成概率模型(gydF4y2Ba131年gydF4y2Ba]。因此,这些模型可以看作是人工认知系统,旨在组织和实施传统的对话管理任务:语言理解、推理、决策、和自然语言生成。他们是基于语料库数据驱动的对话系统,基于机器学习算法使用语料库从真正的单词创建数据。对话语料的统计观察到的主要知识的优化参数和变量。gydF4y2Ba

值得指出的是,除了领域知识的重要性,语言环境有至关重要的影响积极参与谈话。然而,这些方法的主要缺点之一是有关稀疏问题,预计会在上下文信息在统计模型的集成。工作的Sordoni et al。gydF4y2Ba132年gydF4y2Ba),用于解决这一问题的神经网络结构,允许系统考虑前面的对话话语。而造型的上下文信息,作者确定三个语言实体模型对话:上下文(gydF4y2BacgydF4y2Ba)、信息(gydF4y2Ba米gydF4y2Ba)和反应(gydF4y2BargydF4y2Ba)。在此基础上,他们提出三种基于上下文的一代模型来估计一个响应gydF4y2Ba如下:gydF4y2Ba

这项工作扩展了语言递归神经网络模型(RNNLM)作为句子的生成模型gydF4y2Ba133年gydF4y2Ba]。作为神经网络模型的基本原理,输入向量,表示当前词时即时gydF4y2BatgydF4y2Ba是连接在网络语境层神经元的输出时间gydF4y2BatgydF4y2Ba−1。为了捕捉大跨度的依赖关系与语义和语法相似之处,作者选择嵌入的连续表示单词的单词和短语。类似的方法已先进的古典造型语言,基于传统gydF4y2BangydF4y2Ba克语言模型(gydF4y2Ba134年gydF4y2Ba,gydF4y2Ba135年gydF4y2Ba]。gydF4y2Ba

符合这一点,许多研究试图利用神经网络和端到端培训相结合的可能性和大量的免费文字或音频材料从社交媒体,电影脚本等。gydF4y2Ba136年gydF4y2Ba]。Serban et al。gydF4y2Ba137年gydF4y2Ba),例如,证明引入潜在变量层次复发encoder-decoder架构。中给出的研究(gydF4y2Ba138年gydF4y2Ba]延长注意力机制的层次结构(字级别的关注和话语的关注),考虑到不同重要词汇和话语的上下文。gydF4y2Ba

虽然端到端,统计模型得到了大多数的最近的研究在对话系统中,许多问题仍未根本解决gydF4y2Ba131年gydF4y2Ba]。神经网络模型能够处理大量的数据,但仍然很难设计一个智能系统基于模仿反应(尤其是如果我们考虑到对话的数据为一个特定的领域十分有限)。因此,为了减少这些限制,Miškovićet al。gydF4y2Ba36gydF4y2Ba)提出了一个不同的,表征方法。这项工作扩展了焦点树模型,工作记忆的认知启发的计算模型,允许自适应人机交互对话管理。的研究不仅关注改进语音识别模块,但也指出可能的新系统架构方面的对话。以下的假设人类的记忆系统的层次结构和关联性质和事实的处理用户的对话在人机交互行为始终是上下文相关的,这个模型支持,在某种程度上,了解语言和真实的数据。gydF4y2Ba

4所示。进步在语音信号压缩、编码和传输gydF4y2Ba

一般来说,语音编码人员可以分为三大类根据应用编码技术:波形编码、参数编码和混合编码。波形编码器设计背后的主要思想是保持语音信号波形的形状,因此原始时域波形编码信息(gydF4y2Ba4gydF4y2Ba- - - - - -gydF4y2Ba6gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba139年gydF4y2Ba]。这样的程序员是广泛应用于嵌入式应用程序由于几个原因:低成本的制造、低计算资源的使用,和高话音质量(gydF4y2Ba4gydF4y2Ba- - - - - -gydF4y2Ba7gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba139年gydF4y2Ba]。最简单、最著名的类型的波形编码脉冲编码调制(PCM)编码器,这被认为是一个标准的数字电话。PCM编码人员的关键优势之一是瞬时的,暗示的信号延迟不超过一个样本时期(gydF4y2Ba4gydF4y2Ba]。与波形编码人员倾向于重建原始语音信号在时域的形状,参数编码重构语音信号从某些参数模型的源信号,并没有刻意保留原始波形的形状(gydF4y2Ba4gydF4y2Ba- - - - - -gydF4y2Ba7gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba139年gydF4y2Ba]。由于这个限制,参数编码者更少依赖、通用的信号。此外,与波形编码人员相比,他们提供低质量的语音信号。参数编码者,人类语言产生机制与时变滤波器模型,有系数一般由线性预测分析过程。最后,混合编码人员代表一个类的程序员,以前的结合特性描述类的程序员,即混合编码人员倾向于保护信号在时域的形状也利用感知特征,即参数方法(gydF4y2Ba4gydF4y2Ba- - - - - -gydF4y2Ba6gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba140年gydF4y2Ba]。性能比较图中展示了这三个类的程序员gydF4y2Ba5gydF4y2Ba,意思是意见分数(MOS)作为一个标准的重建语音信号质量的主观评估(gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba

从图gydF4y2Ba5gydF4y2Ba,可以得出这样的结论:重建语音信号的波形编码人员提供优良的品质,他们是最好的选择在16比特率高于kbits / s,而参数编码人员不能提供高质量的比特率。另一方面,参数编码人员提供更好的质量比波形编码人员在低比特率。最后,混合编码人员在中比特率才是最合适的。至于语音合成和自动语音识别的目的,尽可能高质量的重建信号是可取的和波形编码人员通常认为是一个适当的选择。因此,下面是专注于PCM和自适应脉码调制(ADPCM编码技术)。gydF4y2Ba

4.1。自适应PCMgydF4y2Ba

语音信号可以被认为是一个非平稳的过程,其在时域平均功率大幅波动,导致宽动态范围(gydF4y2Ba4gydF4y2Ba]。然而,语音信号几乎可以被认为是静止不动在很短的时间内(30 ms)。这意味着语音信号具有高度可预测的特征在很短的时间,适合利用自适应量化(gydF4y2Ba4gydF4y2Ba,gydF4y2Ba8gydF4y2Ba- - - - - -gydF4y2Ba10gydF4y2Ba,gydF4y2Ba141年gydF4y2Ba- - - - - -gydF4y2Ba147年gydF4y2Ba]。通常,自适应量化框架,框架由一个输入语音信号划分成的样本集。gydF4y2Ba

有两种从根本上不同的类别的自适应量化技术:向前和向后的自适应量化技术(gydF4y2Ba141年gydF4y2Ba]。提出自适应技术要求关于估计得到的附加信息的传播,用于适应。此外,提出自适应技术要求处理延迟超过自适应技术落后,样品在一个帧必须存储在一个缓冲区,以估计预测每一帧的特征。当获得估计和量化器是改编,样品可以量化,进一步传播译码器以及量化的收益。gydF4y2Ba

一般向前适应性PCM模型图gydF4y2Ba6gydF4y2Ba(gydF4y2Ba8gydF4y2Ba,gydF4y2Ba10gydF4y2Ba]。编码器形成两个部分:一个固定的(非适应)的一部分,由一个固定的量化器gydF4y2Ba问gydF4y2Ba_fgydF4y2Ba,一个自适应部分组成的缓冲区,得到估计量,一个分频器,固定增益量化器gydF4y2Ba问gydF4y2Ba_ggydF4y2Ba。如果gydF4y2Ba问gydF4y2Ba_fgydF4y2Ba是一个分段线性gydF4y2BaμgydF4y2Ba法量化器为8位/样本和设计的gydF4y2BaμgydF4y2Ba= 255,一般适应模型成为提出适应性PCM模型定义为G.711标准(gydF4y2Ba148年gydF4y2Ba]。gydF4y2Ba

(一)gydF4y2Ba

(b)gydF4y2Ba

向后向前与适应,适应不估计样本的特征在一帧编码,这意味着没有附加信息,传播(gydF4y2Ba149年gydF4y2Ba]。事实上,在接收机增益估计执行解码后,考虑到之前量化样本。最简单落后的自适应量化模型是基于统一的量化与一个码字内存利用增益估计,它通常被称为Jayant的模型(gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba

先进落后自适应模型通常包含更复杂的评估方法,或方差gydF4y2Ba的量化评估方法,目前的样品gydF4y2BaxgydF4y2Ba(gydF4y2BangydF4y2Ba),通常利用大量的先前解码样本gydF4y2Ba(gydF4y2Ba4gydF4y2Ba]:gydF4y2Ba 在哪里gydF4y2BaαgydF4y2Ba是一个加权参数,可以值0 αgydF4y2Ba< 1。参数gydF4y2BaαgydF4y2Ba定义了一个学习期,即方差估计所需时间(gydF4y2Ba4gydF4y2Ba]:gydF4y2Ba

方程(gydF4y2Ba2gydF4y2Ba)可以用递归形式如下:gydF4y2Ba 这是直接用于最简单的Jayant向后量化器的数学模型与一个码字的记忆。一个落后的自适应的实现PCM与一个码字的内存包含一种广泛使用的压缩量化模型如图gydF4y2Ba7gydF4y2Ba,在那里gydF4y2Ba代表一个步长乘法器,用于适应,gydF4y2BacgydF4y2Ba(gydF4y2BaxgydF4y2Ba),gydF4y2BacgydF4y2Ba^{−1gydF4y2Ba}(gydF4y2BaxgydF4y2Ba)是一个压缩机函数和一个扩展器函数,分别。gydF4y2Ba

(一)gydF4y2Ba

(b)gydF4y2Ba

4.2。双模量子化gydF4y2Ba

双模式和自适应双模式亦然属于一个相对较新的类亦然的设计是基于多参数适应,如方差和最大振幅(gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba11gydF4y2Ba]。根据目的和应用程序,他们可以执行量化器根据方差和帧适应最大振幅gydF4y2BaxgydF4y2Ba_{马克斯gydF4y2Ba}并根据子帧的最大振幅。利用两个亦然,构成双模系统,和通过应用交换技术,可以实现更好的量化信号的质量,或更高的压缩,而普通单模亦然。在图gydF4y2Ba8gydF4y2Ba双模量子化方案显示,编码器和译码器1有关量化器申请处理信号振幅范围限制,而2编码器和译码器2相关的量化器申请处理的信号有无限制的振幅范围(gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba11gydF4y2Ba]。切换过程框架,以便执行限制量化器的情况中使用一个框架内的所有样本属于限制量化器的支持区域,而无限制的量化器使用否则[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba11gydF4y2Ba]。这样量化模型背后的主要思想是使一个更可取的选择限制量化器,用相对较低的地区的支持,比不受限制的,因为,以这样一种方式,增加可以提供信号量化噪声比。gydF4y2Ba

(一)gydF4y2Ba

(b)gydF4y2Ba

考虑到语音信号可以被描述使用高斯概率密度函数(PDF)或拉普拉斯算子的PDF,重尾,预计只有一小部分语音帧会有一些样品的大值。然而,这也取决于帧的大小。因此,支持区域阈值对亦然应该选择这样限制量化器的使用应占主导地位,但考虑到还整个帧大小和输入信号动态以达到最低总失真的量化过程中(gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba11gydF4y2Ba]。gydF4y2Ba

4.3。差分脉冲编码调制gydF4y2Ba

差分脉码调制(DPCM)代表了一种简单而又高质量的语音信号编码方案中比特率。它最初利用统一的量化和一阶预测(gydF4y2Ba150年gydF4y2Ba,gydF4y2Ba151年gydF4y2Ba]。已经讨论过,在一帧语音信号具有高度可预测的特征,这是用来减少振幅的动态范围的量化DPCM计划(gydF4y2Ba4gydF4y2Ba,gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba152年gydF4y2Ba,gydF4y2Ba153年gydF4y2Ba]。特别是,DPCM预测下一个示例振幅值和编码的区别预测价值和当前输入信号幅度的价值。由于高度相关,这些差异较小值与输入信号的样本相比,这样的动态范围振幅量化前显著降低。因此,合适的DPCM系统的设计,一定失真可能提供较低的比特率相比PCM系统。换句话说,一个有价值的压缩与DPCM系统可以实现PCM相比。gydF4y2Ba

更复杂的解决方案可能将预测高阶或其他类型的量化模型,比如gain-adaptive量化模型(gydF4y2Ba154年gydF4y2Ba]。图gydF4y2Ba9gydF4y2Ba显示了DPCM方案包含简单的一阶预测和转发gain-adaptive量化器基于最优压缩模型(gydF4y2Ba151年gydF4y2Ba]。gydF4y2Ba

(一)gydF4y2Ba

(b)gydF4y2Ba

DPCM系统图gydF4y2Ba9gydF4y2Ba,重建语音信号gydF4y2Ba是由gydF4y2Ba 在哪里gydF4y2Ba表示自适应量化器的输出,而gydF4y2BangydF4y2Ba表示gydF4y2BangydF4y2Bath样品的信号。它可以指出,参数的值gydF4y2Ba一个gydF4y2Ba取决于输入信号的性质。如果一个输入信号是高度相关,优先使用值接近1(例如,gydF4y2Ba一个gydF4y2Ba= 0.8),而值接近于零的首选低相关信号(例如,gydF4y2Ba一个gydF4y2Ba= 0.3)。然而,参数的选择gydF4y2Ba一个gydF4y2Ba不是一项容易的任务,即使适应。线性预测系数的确定可以通过使用基于统计学习的方法如至少意味着广场(LMS)估算方法gydF4y2Ba155年gydF4y2Ba]。LMS搜索算法减少失真通过为每个输入样本,调整系数及其主要特点,吸引研究,较低的计算复杂度,证明收敛在固定环境中,无偏收敛的意思是维纳解,和稳定的行为当用有限精度算法实现(gydF4y2Ba156年gydF4y2Ba]。此外,线性预测系数以及其他重要参数的确定量化器设计可以利用人工神经网络来确定或回归方法。gydF4y2Ba

5。结论gydF4y2Ba

这种评论文章概述了语音技术的最新发展和其他科学领域相关,主要是由于新机器学习的发展模式,在这一领域产生了极大的影响。除了自然语言产生和语言感知、理解的认知方面的言语交际是非常重要的对于未来的人机交互系统包括语言理解和生成语言的技术。机器学习模式已经有了很大的影响在自动语音识别(ASR)和合成语音(TTS)作为基本的语音技术。预计ASR系统基于深度学习和自适应算法在不久的将来能够识别在复杂声学环境中自发的演讲,与人类的准确性将超过相应的能力。合成语音已经达到这样的质量是很难或不可能从人类语言来区分。改变说话的灵活性和风格,人机交互是人与人之间的互动变得愉快和自然。无监督和reinforcement-based机器学习算法也将进一步发展,这将反过来,带来进步的地区大型数据集并不可用,一样在演讲的语音识别和合成分析资源不足的语言。短的概述在自适应语音编码技术和当前进展标量量化提出了数字化和压缩语音信号的质量是重要的准确自动语音信号检测和合成。尽管这些技术可以设计成健壮的宽动态范围的语音信号变化,或frame-adaptive,可以预计,机器学习的工具日益普及会导致新的解决方案,这将提高性能适应各种系统的预测系数。最后,我们正在见证一个日益快速进展领域的语音信号处理由于机器学习范式,而且看起来很难预测接下来他们会带来什么,多久可以预期。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突有关的出版。gydF4y2Ba

确认gydF4y2Ba

本文中描述的工作由教育部支持部分,塞尔维亚共和国的科学和技术的发展,通过项目”开发的对话系统对塞尔维亚和其他南部斯拉夫语言”(TR32035)。gydF4y2Ba

引用gydF4y2Ba

t·s·库恩gydF4y2Ba科学Revolutions-50th周年纪念版的结构gydF4y2Ba3卷,芝加哥大学出版社,芝加哥,美国第四版,2012年版。gydF4y2Ba
r·k·摩尔,“认知信息:语言处理的未来?“在gydF4y2Ba第十届国际会议上演讲和计算机学报》(SPECOM)gydF4y2Ba2005年10月,佩特雷,希腊,。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
j·d·保罗,“重建sigsaly量化器:这1943模拟-数字转换器给盟军一个牢不可破的扰频器(资源),“gydF4y2BaIEEE频谱gydF4y2Ba卷,56号2、16 - 17,2019页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
n s Jayant和p·诺尔“数字编码的波形。原理及应用语音和视频。”gydF4y2Ba信号处理gydF4y2Ba,9卷,不。2、139 - 140年,1985页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
w·c·楚gydF4y2Ba语音编码算法:基金会和标准化的程序员的进化gydF4y2Ba新泽西州霍博肯市约翰·威利& Sons,美国,2003年。gydF4y2Ba
l . Hanzo f·c·a·萨默维尔高管和j.p. WoodardgydF4y2Ba声音和音频压缩为无线通信gydF4y2Ba约翰•威利& Sons有限公司奇切斯特,英国,第二版,2007年版。gydF4y2Ba
a . m . KondozgydF4y2Ba数字语音:对低比特率通信系统的编码gydF4y2Ba约翰•威利& Sons有限公司奇切斯特,英国,第二版,2004年版。gydF4y2Ba
z h·斯佩里奇和j·尼克里奇“自适应波形编码算法及其应用在语音编码中,“gydF4y2Ba数字信号处理gydF4y2Ba,22卷,不。1,第209 - 199页,2012。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
z h·j·尼克利奇斯佩里奇,a z约万诺维奇,“两个前锋自适应双模压缩标量高斯源亦然,”gydF4y2Ba信号处理gydF4y2Ba卷,120年,第140 - 129页,2016年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
j·尼克里奇和z h·斯佩里奇Lloyd-Max算法实现的语音编码算法的基础上提出自适应技术,”gydF4y2BaInformatica(立陶宛科学院)gydF4y2Ba,19卷,不。2、255 - 270年,2008页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
z斯佩里奇和j·尼克里奇”,高质量的源量子化使用拉普拉斯算子的限制和无限制的对数quantisers,”gydF4y2Ba信号处理专业gydF4y2Ba》第六卷,没有。7,633 - 640年,2012页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
o . Ordentlich和美国Erez”,性能分析和最优滤波器设计与DPCM通过对偶法调制,”gydF4y2BaIEEE信息理论gydF4y2Ba,卷65,不。2、1153 - 1164年,2019页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
r·c·法瑞斯和j . m . Brossier”估计,自适应亦然”gydF4y2Ba信号处理gydF4y2Ba,卷93,不。11日,第3087 - 3076页,2013年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
诉时,gydF4y2Ba语音和音频处理:一种基于matlab的方法gydF4y2Ba英国剑桥,剑桥大学出版社,2016年。gydF4y2Ba
m . Cernak a Asaei, a . Hyafil”认知语音编码:研究认知语言处理语音压缩的影响,“gydF4y2BaIEEE信号处理杂志gydF4y2Ba,35卷,不。3、97 - 109年,2018页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
神经生理学的言语交际,gydF4y2Bahttp://naplab.ee.columbia.edu/speech-neurophysiology.htmlgydF4y2Ba。gydF4y2Ba
f . a .珠穆朗玛峰和k . c . PohlmanngydF4y2Ba掌握手册的音响gydF4y2Ba美国麦格劳-希尔,纽约,纽约,第五版,2009年,gydF4y2Bahttp://www.roletech.net/books/HandbookAcoustics.pdfgydF4y2Ba。gydF4y2Ba
d O ' shaughnessy“线性预测编码”,gydF4y2BaIEEE势gydF4y2Ba,7卷,不。1,29-32,1988页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
l·r·拉宾和r·w·谢弗”,介绍数字语音处理”,gydF4y2Ba基金会和信号处理的趋势gydF4y2Ba,1卷,不。1 - 2、1 - 194、2007页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
黄x a . Acero h·w·宝贝和r . Reddy,gydF4y2Ba口语处理:指导理论,算法和系统开发gydF4y2Ba,普伦蒂斯霍尔PTR上台北,美国,2001年。gydF4y2Ba
s . JovičićgydF4y2Ba演讲Communication-Physiology心理声学和知觉gydF4y2Ba,Izdavačko Preduzeće Nauka,贝尔格莱德,塞尔维亚,1999年在塞尔维亚。gydF4y2Ba
t·d·采脂,gydF4y2Ba施普林格手册的音响gydF4y2Ba,施普林格自然,纽约,纽约,美国,2007年。gydF4y2Ba
j . BlauertgydF4y2Ba通信声学gydF4y2Ba施普林格,柏林,德国,2005年。gydF4y2Ba
j·h·l·汉森和t·哈桑,“说话人识别由机器和人类:教程审查,”gydF4y2BaIEEE信号处理杂志gydF4y2Ba,32卷,不。6,74 - 99年,2015页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
c . Brokish和m .刘易斯gydF4y2Ba使用TMS320C54x法和Mu-Law扩展实现。应用注释SPRA163AgydF4y2Ba、德州仪器、达拉斯、TX,美国,1997年,gydF4y2Bahttp://www.ti.com/lit/an/spra163a/spra163a.pdfgydF4y2Ba。gydF4y2Ba
d . m . w .权力,“Zipf定律,应用程序和解释”gydF4y2Ba诉讼的联合会议上新方法学习语言自然语言处理和计算,NeMLaP / CoNLLgydF4y2Ba,页151 - 160年,悉尼,澳大利亚,1998年1月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
黄x d . m .杰克,和m . ArikigydF4y2Ba隐马尔可夫模型的语音识别gydF4y2Ba哥伦比亚大学出版社,1990年纽约,纽约,美国。gydF4y2Ba
d·m·霍华德和j·a·s·安格斯,gydF4y2Ba声学、心理声学gydF4y2Ba英国牛津,爱思唯尔有限公司第四版,2009年,gydF4y2Bahttps://www.sciencedirect.com/book/9780240521756/acoustics-and-psychoacousticsgydF4y2Ba。gydF4y2Ba
s . Furui”非特定人孤立词识别语音频谱的使用动态特性,”gydF4y2BaIEEE声学,演讲,和信号处理gydF4y2Ba,34卷,不。1,52-59,1986页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
a . s .师gydF4y2Ba听觉场景分析:声音的知觉组织gydF4y2Ba美国马剑桥,麻省理工学院出版社,1994年。gydF4y2Ba
m . VorlandergydF4y2Ba化技术:声学基础、造型、虚拟现实仿真,算法和声学gydF4y2Ba施普林格,柏林,德国,2008年。gydF4y2Ba
y安藤,gydF4y2Ba听觉和视觉感受gydF4y2Ba施普林格,纽约,纽约,美国,2010年,gydF4y2Bahttps://link.springer.com/book/10.1007/b13253gydF4y2Ba。gydF4y2Ba
t . Nagamine和n . Mesgarani”理解的表示和计算多层感知器:一个案例研究在语音识别”gydF4y2Ba美国第34机器学习(ICML)国际会议上gydF4y2Ba澳大利亚悉尼,页2564 - 2573,,2017年8月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
罗y、z陈和n . Mesgarani“非特定人语音分离与深深的吸引子网络,”gydF4y2BaIEEE / ACM交易音频、语音和语言处理gydF4y2Ba,26卷,不。4、787 - 796年,2018页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
m . Gnjatović和诉DelićCognitively-inspired表征方法的意义机器对话,”gydF4y2Ba基于知识的系统gydF4y2Ba,卷71,不。1、男性,2014页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
d . Miškovićm . Gnjatovićp .Štrbac b . Trenkićn . Jakovljević诉Delić,“混合方法的上下文相关的语音识别方法,”gydF4y2Ba国际先进的机器人系统杂志》上gydF4y2Ba,14卷,不。1,2017。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
美国麦克亚当斯和c·德雷克,“听觉感知和认知,”gydF4y2Ba史蒂文斯的实验心理学手册gydF4y2Ba,h . Pashler。页397 - 452年,约翰·威利& Sons,纽约,纽约,美国,2002年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
t . Nagamine m . l .苏打水和n . Mesgarani”在深层神经网络非线性的角色转换声学模型”gydF4y2BaInterspeech学报》2016年17国际言语交际协会年会上gydF4y2Ba,页803 - 807年,旧金山,美国,2016年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
m . w . Zhang h . Li Yang, n . Mesgarani“突触抑郁症在深层神经网络语音处理,”gydF4y2Ba学报2016年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba,第5869 - 5865页,上海,中国,2016年3月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
g .辛顿·l·邓,d . et al .,“深层神经网络语音识别的声学建模:四个研究小组的共同观点,“gydF4y2BaIEEE信号处理杂志gydF4y2Ba卷,29号6,82 - 97年,2012页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
m . Sundermeyer h·奈伊,r . Schluter”从前馈复发LSTM神经网络语言建模、”gydF4y2BaIEEE / ACM交易音频、语音和语言处理gydF4y2Ba,23卷,不。3、517 - 529年,2015页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
k .老大z Tuske, t . Alkhouli r . Schluter h·奈伊,“LSTM格勒乌,高速公路和一点注意:实证概述语言建模在语音识别,”gydF4y2BaInterspeech学报》2016年,17日国际言语交际协会年会上gydF4y2Ba,页3519 - 3523年,旧金山,美国,2016年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
w . Xiong, j . Droppo x黄et al .,“实现人类平等对话语音识别,”gydF4y2Bahttps://arxiv.org/pdf/1610.05256.pdfgydF4y2Ba。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
a . Hannun c, j·卡斯珀et al .,“深演讲:扩大端到端语音识别”,gydF4y2Bahttp://arxiv.org/abs/1412.5567gydF4y2Ba。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
w·陈,n . Jaitly诉勒,o . Vinyals,“听着,参加和法术:大词汇量的语音识别的神经网络,”gydF4y2Ba学报2016年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba,第4964 - 4960页,上海,中国,2016年3月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
k .野田佳彦y山口,k . Nakadai h . g . Okuno理事长绪方和t .“视听语音识别使用深度学习,”gydF4y2Ba应用智能gydF4y2Ba,42卷,不。4、722 - 737年,2015页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
h .禅、a .高级和m .舒斯特尔”统计参数使用深层神经网络语音合成,”gydF4y2Ba学报2013年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba温哥华,页7962 - 7966年,公元前,加拿大,2013年5月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
h .禅宗和a . w .高级“深混合物密度的声学建模网络统计参数语音合成,”gydF4y2Ba学报2014年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba3848年,页3844 -佛罗伦萨,意大利,2014年5月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
f·l·谢,y, y钱和f . k .宋子文,“TTS合成与双向LSTM复发性神经网络为基础,”gydF4y2BaInterspeech学报》2014年,第15届国际言语交际协会会议gydF4y2Ba新加坡,页1964 - 1968年,2014年9月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
r·费尔南德斯a . Rendel b Ramabhadran, r . Hoory“韵律轮廓预测与短期记忆,双向深复发性神经网络,”gydF4y2BaInterspeech学报》2014年,第15届国际言语交际协会会议gydF4y2Ba新加坡,页2268 - 2272年,2014年9月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
a . van den Oord, s . Dieleman h .禅et al .,“WaveNet:原始音频的生成模型,”gydF4y2Bahttps://arxiv.org/abs/1609.03499gydF4y2Ba。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
y . Wang r . j . Skerry-Ryan d·斯坦顿et al .,“Tacotron:对端到端语音合成,”gydF4y2Ba2017年Interspeech学报,第十八届国际言语交际协会会议gydF4y2Ba,页4006 - 4010,斯德哥尔摩,瑞典,2017年8月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
y, y钱,f . k .宋子文和l .他“Multi-speaker建模和议长适应DNN-based TTS合成、”gydF4y2Ba学报2015年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba,页4475 - 4479,南布里斯班,澳大利亚,2015年4月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
n . Hojo y Ijima h .美津浓,“调查DNN-based语音合成使用扬声器代码,”gydF4y2Ba学报2016年Interspeech 17国际言语交际协会年会上gydF4y2Ba,页2278 - 2282年,旧金山,美国,2016年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
h·t·陈德良高木,g . e .捕获和j·山“适应和控制DNN-based使用输入编码,语音合成”gydF4y2Ba学报2017年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba新奥尔良,页4905 - 4909年,洛杉矶,美国,2017年3月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
y . Wang d·斯坦顿y . Zhang et al .,“风格标记:无监督风格建模、控制和传输端到端语音合成,”gydF4y2Ba美国第35届国际会议上机器学习(ICML)gydF4y2Ba5176年,页5167 - 2018年6月瑞典斯德哥尔摩。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
e·艾德A亚伦,r . Bakis w·哈姆扎,m . Picheny和j . Pitrelli“基于语料库的方法表达语音合成,”gydF4y2Ba《第五ISCA ITRW语音合成gydF4y2Ba,页79 - 84,宾夕法尼亚州匹兹堡,美国,2004年6月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
j . Andreas m . Rohrbach说道,t·达雷尔·d·克莱恩,“学习”为问答组合神经网络,gydF4y2Ba学报2016年大会北美的计算语言学协会章:人类语言技术gydF4y2Ba圣地亚哥,页1545 - 1554,美国2016年6月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
y金”,句子分类,卷积神经网络”gydF4y2Ba学报2014年会议上实证方法在自然语言处理(EMNLP)gydF4y2Ba1751年,页1746 -多哈,卡塔尔,2014年10月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
x张、赵j。j和y LeCun(“字符级卷积网络文本分类”gydF4y2Ba诉讼进展的神经信息处理系统28:年会在神经信息处理系统gydF4y2Ba加拿大蒙特利尔,页649 - 657,,2015年12月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
即Sutskever, o . Vinyals诉勒,“序列序列学习神经网络,”gydF4y2Ba诉讼进展的神经信息处理系统27:年会在神经信息处理系统gydF4y2Ba加拿大蒙特利尔,页3104 - 3112,,2014年12月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
d . Bahdanau k .赵,y Bengio”神经由共同学习对齐和翻译,机器翻译”gydF4y2Ba第三届国际会议上学习表示学报》上gydF4y2Ba美国圣地亚哥CA, 2015年5月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
c·n·d·桑托斯和m•加蒂,“深卷积神经网络短的文本的情感分析,”gydF4y2Ba学报2014年科尔,25日计算语言学国际会议:技术论文gydF4y2Ba,页69 - 78,都柏林,爱尔兰,2014年8月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
n . Kalchbrenner大肠Grefenstette, p . Blunsom“卷积神经网络建模的句子,”gydF4y2Ba美国52的计算语言学协会年度会议(卷1:长论文)gydF4y2Ba马里兰州巴尔的摩,页655 - 665,美国2014年6月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
t . Mikolov w·t。Yih, g·茨威格,“语言规律在连续空间词表示,”gydF4y2Ba学报2013年大会北美的计算语言学协会章:人类语言技术gydF4y2Ba,页746 - 751年,亚特兰大,乔治亚州,美国,2013年6月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
b .黄金、n . Morgan)和d·埃利斯gydF4y2Ba语音和音频信号处理:处理和语音和音乐的看法gydF4y2Ba新泽西州霍博肯市约翰·威利& Sons,美国,第二版,2011年版。gydF4y2Ba
“p Mermelstein距离语音识别办法,心理和工具性,”gydF4y2Ba模式识别和人工智能gydF4y2Ba艾德,c·h·陈,116卷,第388 - 374页,学术出版社,纽约,纽约,美国,1976年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
“f•耶利内克连续语音识别的统计方法,”gydF4y2BaIEEE学报》gydF4y2Ba,卷64,不。4、532 - 556年,1976页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
a·r·穆罕默德·g·达尔,g·e·辛顿“深层信念网络电话识别,”gydF4y2Ba诉讼的损害深度学习研讨会为语音识别和相关应用程序gydF4y2Ba2009年12月,惠斯勒,加拿大,。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
l·邓·g·e·辛顿和b金斯伯里,“新类型的深层神经网络学习语音识别和相关应用程序:概述,”gydF4y2Ba学报2013年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba8603年,页8599 -温哥华,加拿大,2013年5月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
y LeCun (y Bengio g·辛顿,“深度学习”,gydF4y2Ba自然gydF4y2Ba,卷521,不。7553年,第444 - 436页,2015年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
a .坟墓和n . Jaitly”端到端与复发性神经网络语音识别,”gydF4y2Ba31日学报》国际会议上机器学习gydF4y2Ba,第1772 - 1764页,北京,中国,2014年6月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
b·m·瑞尔·e·Pakoci, d .之中,“端到端大词汇量语音识别塞尔维亚语言”gydF4y2Ba19国际会议的演讲和计算机学报》(SPECOM)gydF4y2Ba哈特菲尔德,页343 - 352年,英国,2017年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
d·波维诉Peddinti d Galvez et al .,“纯粹基于lattice-free MMI对ASR sequence-trained神经网络,”gydF4y2Ba学报2016年Interspeech 17国际言语交际协会年会上gydF4y2Ba,页2751 - 2755年,旧金山,美国,2016年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
e . Pakoci b Popović,d . j .之中,“改善塞尔维亚使用sequence-trained深层神经网络语音识别,”gydF4y2BaSPIIRAS诉讼gydF4y2Ba,3卷,不。58岁的53 - 76年,2018页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
张平和n·李,“情感品质的重要性,”gydF4y2BaACM的通信gydF4y2Ba,48卷,不。9日,第108 - 105页,2005年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
r . BezooijengydF4y2Ba特点和可认可的口头表达的情感gydF4y2Ba市中心出版物荷兰多德雷赫特,荷兰,1984年。gydF4y2Ba
d·a·凯恩斯和j·h·l·汉森”非线性分析和分类的言论在压力条件下,“gydF4y2Ba美国声学学会杂志》上gydF4y2Ba,卷96,不。6,3392 - 3400年,1994页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
r . j .盎Dhillon, a . Krupski e . Shriberg和a . Stolcke”Prosody-based自动检测的烦恼和沮丧在人机对话中,”gydF4y2BaICSLP学报2002年第七届国际会议上口头语言处理gydF4y2Ba丹佛市,页2037 - 2040,美国2002年9月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
r·考伊大肠Douglas-Cowie: Tsapatsoulis et al .,“情绪识别在人机交互中,”gydF4y2BaIEEE信号处理杂志gydF4y2Ba,18卷,不。1、32 - 80年,2001页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
s . y . Wang Du,詹y“适应性和最佳语音情感识别分类gydF4y2Ba学报自然计算ICNC第四国际会议gydF4y2Ba》5卷,页407 - 411,济南,中国,2008年10月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
c . Gobl Chasaide传来,“语音质量的作用沟通情感,情绪和态度,“gydF4y2Ba言语交际gydF4y2Ba,40卷,不。1 - 2、189 - 212年,2003页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
g .周j·h·l·汉森和j·f·凯撒,“基于非线性特性分类的言论压力下,“gydF4y2BaIEEE语音和音频处理gydF4y2Ba,9卷,不。3、201 - 216年,2001页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
t . l .动态s . w . Foo, l . c . De Silva“语音情感识别使用隐马尔科夫模型”,gydF4y2Ba言语交际gydF4y2Ba第41卷。。4、603 - 623年,2003页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
诉Delic m··m·Gnjatovic m . Secujski和s . t . Jovicic“歧视能力情感语音识别的韵律和光谱特性,”gydF4y2Ba电子和电气工程gydF4y2Ba,18卷,不。9日,51-54,2012页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
r·b·Lanjewar s Mathurkar, n . Patel”的实现和比较语音情感识别系统使用高斯混合模型(GMM)和再(事例)技术,”gydF4y2BaProcedia计算机科学gydF4y2Ba卷,49 50-57,2015页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
p .沈z导致长郡,x陈,“自动语音情感识别,使用支持向量机”gydF4y2Ba《2011年国际会议上电子与机械工程和信息技术gydF4y2Ba,卷2,页621 - 625,哈尔滨,中国,2011年8月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
k·汉、d . Yu和Tashev,“语音情感识别使用深层神经网络和极端的学习机器,”gydF4y2BaInterspeech学报2014年第15届国际言语交际协会会议gydF4y2Ba新加坡,页223 - 227年,2014年9月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
j·李和Tashev,“高级功能表示使用递归神经网络进行语音情感识别,”gydF4y2BaInterspeech学报2015年第16届国际言语交际协会会议gydF4y2Ba德累斯顿,页1537 - 1540年,德国,2015年9月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
c·m·李,美国美国Narayanan, r . Pieraccini”结合情感识别的声学和语言信息,”gydF4y2Ba第七届国际会议上口头语言处理学报》(ICSLP2002)gydF4y2Ba丹佛市,页873 - 876,美国2002年9月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
h . m . Fayek m·莱赫,l . Cavedon”语音情感识别评估深度学习架构,”gydF4y2Ba神经网络gydF4y2Ba卷。92年,60 - 68、2017页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
毛j .赵x l·陈,“语音情感识别使用深1 d和2 d CNN LSTM网络”gydF4y2Ba生物医学信号处理和控制gydF4y2Ba卷,47号1,第323 - 312页,2019。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
j .邓x, z, s . Fruhholz b .舒乐问,“Semisupervised autoencoders语音情感识别,”gydF4y2BaIEEE / ACM交易音频、语音和语言处理gydF4y2Ba,26卷,不。1,31-43,2018页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
d . Ververidis和c . Kotropoulos”情感语音识别:资源、功能和方法,“gydF4y2Ba言语交际gydF4y2Ba,48卷,不。9日,第1181 - 1162页,2006年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
m . El Ayadi、m . s .卡迈勒和f . Karray”语音情感识别:调查功能,分类方案,和数据库,”gydF4y2Ba模式识别gydF4y2Ba,44卷,不。3、572 - 587年,2011页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
m·斯温a Routray, p . Kabisatpathy”数据库,功能和语音情感识别的分类器:复习一下,”gydF4y2Ba国际语音识别技术杂志》上gydF4y2Ba,21卷,不。1,第120 - 93页,2018。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
l . Chen毛x, y雪,l . l . Cheng”语音情感识别:特性和分类模型”,gydF4y2Ba数字信号处理gydF4y2Ba,22卷,不。6,1154 - 1160年,2012页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
m·r·施罗德“合成语音的简史,”gydF4y2Ba言语交际gydF4y2Ba,13卷,不。1 - 2、231 - 237年,1993页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
h·达德利,“承运人演讲的本质,”gydF4y2Ba贝尔系统技术杂志gydF4y2Ba,19卷,不。4、495 - 515年,1940页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
r . Teranishi和n .繁华”的发音字典在语音合成实验中,“gydF4y2Ba第六届国际声学国会的报告gydF4y2Ba,2卷,第158 - 155页,1968年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
d·h·Klatt“审查”的英语语音转换,gydF4y2Ba美国声学学会杂志》上gydF4y2Ba,卷82,不。3、737 - 793年,1987页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
a·j·亨特和a . w .黑色,“单元衔接语音合成系统中选择使用大型演讲数据库”gydF4y2Ba学报1996年IEEE国际会议音响、演讲,和信号处理(ICASSP)gydF4y2Ba,1卷,页373 - 376,亚特兰大,乔治亚州,美国,1996年5月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
t . Yoshimura k .德田t .益,t .小林和t . Kitamura”同时建模光谱,音高和时间在HMM-based语音合成,”gydF4y2BaEurospeech学报1999年6日欧洲会议上演讲沟通和技术gydF4y2Ba,页2347 - 2350,布达佩斯,匈牙利,1999年9月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
j .山t .小林,y Nakano理事长绪方k和j . Isogai”分析议长适应算法HMM-based语音合成和约束SMAPLR适应算法,”gydF4y2BaIEEE音频、语音和语言处理gydF4y2Ba,17卷,不。1,第83 - 66页,2009。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
大西j .山k、t .益和t .小林”建模的各种讲话风格和情感HMM-based语音合成,”gydF4y2Ba学报2003年Eurospeech 8日欧洲会议上演讲沟通和技术gydF4y2Ba瑞士日内瓦,页2461 - 2464,,2003年9月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
y钱,梁h . f . k .宋子文,”一个跨语言的国家分享和双语(有中英文语言交流)者TTS映射方法,”gydF4y2BaIEEE音频、语音和语言处理gydF4y2Ba,17卷,不。6,1231 - 1239年,2009页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
k .德田y Nankaku, t .户田拓夫h .禅,j .山和k . Oura“基于隐马尔可夫模型的语音合成,”gydF4y2BaIEEE学报》gydF4y2Ba,卷101,不。5,1234 - 1252年,2013页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
t . Weijters和j .忍耐”,与人工神经网络的语音合成,”gydF4y2Ba《IEEE国际会议上神经网络gydF4y2Ba,页1764 - 1769年,旧金山,美国,1993年4月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
z吴、o·瓦茨和美国国王,”梅林:一个开放源码的神经网络的语音合成系统,”gydF4y2Ba《9日ISCA语音合成车间gydF4y2Ba,页202 - 207,桑尼维尔,美国,2016年7月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
h .禅,y Agiomyrgiannakis, n .埃格伯特f·亨德森和p . Szczepaniak,“快速、紧凑、高质量LSTM-RNN统计参数语音合成器为移动设备为基础,”gydF4y2Ba学报2016年Interspeech 17国际言语交际协会年会上gydF4y2Ba,页2273 - 2277年,旧金山,美国,2016年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
y齐藤,s . Takamichi和h . Saruwatari”统计参数语音合成结合生成对抗的网络,”gydF4y2BaIEEE / ACM交易音频、语音和语言处理gydF4y2Ba,26卷,不。1,第96 - 84页,2018。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
z吴邦国委员长和美国王”,提高轨迹造型DNN-based语音合成通过堆叠瓶颈特性和最小生成错误训练,”gydF4y2BaIEEE / ACM交易音频、语音和语言处理gydF4y2Ba,24卷,不。7,1255 - 1265年,2016页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
z, p . Swietojanski c . Veaux s Renals和美国国王,”演讲者的研究适应DNN-based语音合成,”gydF4y2BaInterspeech学报2015年第16届国际言语交际协会会议gydF4y2Ba德累斯顿,页879 - 883年,德国,2015年9月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
y, y钱,f . k .宋子文和l .他,”演讲者和语言在DNN-based TTS合成、分解”gydF4y2Ba学报2016年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba,第5544 - 5540页,上海,中国,2016年4月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
t . Delic s Suzic m . Secujski d .之中,“新的TTS声音的神经网络快速发展适应,”gydF4y2Ba《2018年17国际研讨会Infoteh-Jahorina (Infoteh)gydF4y2Ba,页1 - 6,Istočno萨拉热窝,波斯尼亚和黑塞哥维那,2018年3月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
m·安,“讲话风格:统计分析和合成语音合成系统,”gydF4y2Ba语音合成的进展gydF4y2Ba,j·p·h·范Santen et al .,艾德,页495 - 510,施普林格,纽约,纽约,美国,1997年,gydF4y2Bahttps://link.springer.com/chapter/10.1007/978 - 1 - 4612 - 1894 - 4 - _39gydF4y2Ba。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
勇敢和n .克利福德“人机互动的情感,”gydF4y2Ba人机交互基础gydF4y2Ba、答:西尔斯和j . a . Jacko Eds。,pp. 54–66, CRC Press, Boca Raton, FL, USA, 2009.视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
s . Suzićt . Delić诉Jovanovićet al .,“比较风格DNN-based TTS方法使用小的数据集,”gydF4y2Ba13学报》国际科技会议上机电和机器人Zavalishin的读数gydF4y2Ba卷,161年,页1 - 6,圣彼得堡,俄罗斯,2018年5月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
j . Lorenzo-Trueba g .倘使抓,高木,j .山y墨里诺,和y .落,“调查不同表示形式的建模和控制多个情感DNN-based语音合成,“gydF4y2Ba言语交际gydF4y2Ba卷,99年,第143 - 135页,2018年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
美国一个,凌z和l .戴“情感统计参数使用LSTM-RNNs语音合成,”gydF4y2Ba学报2017年亚太信号和信息处理协会年度峰会和会议(APSIPA ASC)gydF4y2Ba,页1613 - 1616,吉隆坡,马来西亚,2017年12月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
s . Suzićt . Delićd之中,诉Delić和m . Sečujski”风格移植在基于神经网络的语音合成,”gydF4y2BaActa Polytechnica HungaricagydF4y2Ba,2019年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
k .井上s Hara m .安:北条,和y Ijima”调查DNN-based TTS合成移植的情感表达,”gydF4y2Ba学报2017年亚太信号和信息处理协会年度峰会和会议(APSIPA ASC)gydF4y2Ba,页1253 - 1258,吉隆坡,马来西亚,2017年12月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
李y, a van den Oord,即Babuschkin et al .,“平行WaveNet:快速高保真语音合成,”gydF4y2Ba美国第35届国际会议上机器学习(ICML)gydF4y2Ba3923年,页3915 - 2018年6月瑞典斯德哥尔摩。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
s . o . Arik m . Chrzanowski a·科茨et al .,”低沉的声音:实时神经语音”gydF4y2Ba美国第34国际会议上机器学习gydF4y2Ba澳大利亚悉尼,页195 - 204,,2017年8月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
j .沈r·庞r . j . Weiss et al .,”梅尔自然通过调节wavenet TTS合成光谱图预测,”gydF4y2Ba学报2018年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba,页4779 - 4783,卡尔加里,加拿大,2018年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
a . w . Ping, k Peng Gibiansky et al .,”低沉的声音3:扩展与卷积序列学习语音,“gydF4y2Bahttps://arxiv.org/abs/1710.07654gydF4y2Ba。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
s . O。Arik, j·陈,k .彭w . Ping和y周,“神经声音克隆一些样本,”gydF4y2Ba诉讼进展的神经信息处理系统31日:2018年年度会议在神经信息处理系统gydF4y2Ba加拿大蒙特利尔,页10040 - 10050,,2018年12月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
e . Nachmani a波里亚克、y Taigman和l .狼”拟合新使用者基于短untranscribed样本,”gydF4y2Ba美国第35届国际会议上机器学习(ICML)gydF4y2Ba3688年,页3680 - 2018年6月瑞典斯德哥尔摩。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
r . Skerry-Ryan e·巴腾堡蛋糕y肖et al .,“对端到端韵律转移与Tacotron表达语音合成,”gydF4y2Ba美国第35届国际会议上机器学习gydF4y2Ba,页4693 - 4702,斯德哥尔摩,瑞典,2018年7月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
k . Akuzawa、y Iwasawa和y松尾”表达语音合成通过建模与变分表达式autoencoder,”gydF4y2Ba学报2018年Interspeech 19国际言语交际协会的年度会议gydF4y2Ba,页3067 - 3071,海得拉巴,印度,2018年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
d·h·陈,x Liu阴,j .唐“在对话系统中,一项调查”gydF4y2BaACM SIGKDD探索通讯gydF4y2Ba,19卷,不。2、25 - 35,2017页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
A . Sordoni m .厨房m . Auli et al .,“会话的上下文敏感的神经网络方法一代反应”gydF4y2Ba学报2015年大会北美协会的计算语言学的一章:人类语言技术(NAACL停止)gydF4y2Ba丹佛市,页196 - 205,美国2015年5月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
t . Mikolov m . Karafiat l . Burget j . h .Černocky和s . Khudanpur“递归神经网络建立语言模型,”gydF4y2Ba学报2011年Interspeech 12国际言语交际协会年会上gydF4y2Ba1048年,页1045 -佛罗伦萨,意大利,2011年8月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
y Bengio, r . Ducharme, p .文森特,c . Janvin“神经语言概率模型”,gydF4y2Ba机器学习研究杂志》上gydF4y2Ba,3卷,不。6,1137 - 1155年,2003页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
他j .高,x, W.-T。Yih, l·邓“学习连续短语翻译模型表示,”gydF4y2Ba美国52的计算语言学协会年度会议(卷1:长论文)gydF4y2Ba,1卷,页699 - 709,巴尔的摩,医学博士,美国,2014年6月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
诉Serban, r·劳·亨德森l . Charlin和j . Pineau”可用全集为构建数据驱动的对话系统的调查,“gydF4y2Bahttps://arxiv.org/pdf/1512.05742.pdfgydF4y2Ba。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
诉Serban, a . Sordoni y Bengio, a·c·考维尔和j . Pineau”构建端到端的对话系统使用生成分层神经网络模型,”gydF4y2Ba《第三十AAAI会议上人工智能gydF4y2Ba凤凰城,页3776 - 3783年,基于“增大化现实”技术,美国,2016年2月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
c .兴w·吴,y, y . Wu和m .周”层次经常性关注网络响应的一代”gydF4y2Ba三十二AAAI学报》关于人工智能的会议gydF4y2Ba新奥尔良,页5610 - 5617年,洛杉矶,美国,2018年2月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
p . SinhagydF4y2Ba在嵌入式语音处理系统gydF4y2Ba施普林格,柏林,德国,2009年。gydF4y2Ba
m . Hasegawa-Johnson和a . Alwan“语音编码:基本原理和应用程序,”gydF4y2Ba威利的百科全书的电信gydF4y2Ba,j·g . Proakis Ed,约翰·威利& Sons霍博肯,新泽西,美国,2003年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
答:Gersho和r . m .灰色,gydF4y2Ba矢量量化和信号压缩gydF4y2Ba,施普林格自然,纽约,纽约,美国,1991年。gydF4y2Ba
z h . Perićj . r . Nikolića . v . Mosić和m . d . Petković”设计的固定和自适应压缩量化器为无记忆的高斯源变长码字,”gydF4y2BaInformatica(立陶宛科学院)gydF4y2Ba,24卷,不。1,第86 - 71页,2013。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
z . j .尼克利奇斯佩里奇,a·约万诺维奇,d .滑稽可笑的“设计与优化的自适应分段均匀标量量化器每段繁殖水平分布,“gydF4y2Ba电子和电气工程gydF4y2Ba,卷119,不。3、19 - 22日,2012页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
j . Nikolićz Perić,d . Antića . Jovanović和d . Denić”向前低复杂适应性在语音编码、压缩算法及其应用”gydF4y2Ba电子杂志Engineering-Elektrotechnicky CasopisgydF4y2Ba,卷62,不。1,19到24,2011页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
z Perić,a . Jocićj . Nikolićl . Velimirović和d . Denić“微分脉冲编码调制的分析提出适应性Lloyd-Max量化器的低码率语音编码、”gydF4y2BaRevue Roumaine des科学技术。爵士。Electrotechnique et EnergetiquegydF4y2Ba,卷。58岁的没有。4、424 - 434年,2013页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
z h·斯佩里奇́,j . r . Nikolić,和a . v . Mosić,”设计的自适应混合使量子化golomb-rice代码压缩高斯源,”gydF4y2Ba专业的沟通gydF4y2Ba,8卷,不。3、372 - 377年,2014页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
s Tomic z斯佩里奇、m . Tancic和j·尼克里奇“向后适应性和quasi-logarithmic量化器域低频的声音,“gydF4y2Ba信息技术和控制gydF4y2Ba卷,47号1,第139 - 131页,2018。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
之间理工学院,gydF4y2Ba推荐G.711,脉冲编码调制(PCM)的声音频率gydF4y2Ba之间理工学院,万隆,印度尼西亚,1972,gydF4y2Bahttps://www.itu.int/rec/T-REC-G.711gydF4y2Ba。gydF4y2Ba
a·奥尔特加和m . Vetterli“适应性标量量化没有边信息,”gydF4y2BaIEEE图像处理gydF4y2Ba》第六卷,没有。5,665 - 676年,1997页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
p . Cummiskey n s Jayant和j·l·弗拉纳根,“微分PCM编码自适应量化的演讲》gydF4y2Ba贝尔系统技术杂志gydF4y2Ba,52卷,不。7,1105 - 1118年,1973页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
v . m . Despotovic z h·斯佩里奇l . Velimirovic和v . d . Delic”DPCM向前gain-adaptive量化器和简单的切换预示高质量的语音信号,”gydF4y2Ba电气和计算机工程的进步gydF4y2Ba,10卷,不。4、95 - 98年,2010页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
s . s . Tomic z h·斯佩里奇和j·r·尼克里奇”一个简单的微分语音编码算法基于适应技术落后,”gydF4y2BaInformaticagydF4y2Ba卷,29号3、539 - 553年,2018页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
r . Pratheek和m . n . Suma DPCM ADPCM,性能分析”gydF4y2Ba学报》国际会议电子设计和信号处理gydF4y2Ba印度,pp, 19号,2013年12月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
j·h·陈和a . Gersho Gain-adaptive与应用语音编码、矢量量化”gydF4y2BaIEEE通信gydF4y2Ba,35卷,不。9日,第930 - 918页,1987年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
s . o .微积分gydF4y2Ba神经网络和学习机器gydF4y2Ba新世纪,新泽西,新泽西,美国,第3版,2009年版。gydF4y2Ba
p . s .想一想r .迪尼斯那样不知满足、gydF4y2Ba自适应过滤:算法和实际实现gydF4y2Ba美国,施普林格,波士顿,MA,第四版,2013年,gydF4y2Bahttps://www.springer.com/gp/book/9781461441052gydF4y2Ba。gydF4y2Ba

计算智能和神经科学gydF4y2Ba

先进的信号处理和自适应学习方法gydF4y2Ba

文摘gydF4y2Ba

1。介绍gydF4y2Ba

2。进步在自然语言分析和口语的知识gydF4y2Ba

2.1。声压波和语音信号的特性gydF4y2Ba

2.2。言语生成和听觉感知gydF4y2Ba

2.3。工程与语言学的观点NLP是典型的人工智能的话题gydF4y2Ba

3所示。语音识别和合成的进展,以及对话系统gydF4y2Ba

3.1。自动语音识别系统的进步gydF4y2Ba

3.2。语音情感识别的进展gydF4y2Ba

3.3。在语音合成的发展进步gydF4y2Ba

3.4。对话系统gydF4y2Ba

4所示。进步在语音信号压缩、编码和传输gydF4y2Ba

4.1。自适应PCMgydF4y2Ba

4.2。双模量子化gydF4y2Ba

4.3。差分脉冲编码调制gydF4y2Ba

5。结论gydF4y2Ba

的利益冲突gydF4y2Ba

确认gydF4y2Ba

引用gydF4y2Ba

版权gydF4y2Ba

更多相关文章gydF4y2Ba

相关文章gydF4y2Ba