语音技术已经发展几十年来作为一个典型的信号处理领域,在过去的十年里带来了一个巨大的进步基于新的机器学习范式。不仅由于其内在的复杂性还与认知科学,语音技术跨学科知识的现在被视为一个典型的例子。这个评论文章在语音信号分析和处理,相应的机器学习算法,并应用计算智能旨在深入了解几个字段,包括言语生成和听觉感知、认知方面的言语交际和语言理解、语音识别和语音合成更多的细节,因此口语对话系统的主要发展方向。此外,本文论述了概念和最新进展在语音信号压缩、编码、传输,包括认知语音编码。最后,本文的主要目的是突出最近的成就和挑战基于机器学习的新模式,在过去的十年里,有一个语音信号处理领域的巨大影响。gydF4y2Ba
根据库恩的科学革命理论(gydF4y2Ba
语音技术的跨学科性质,即。,语言处理(采用(gydF4y2Ba
语音信号处理研究的根源与语音信号数字化的需要密切相关。开创性的解决方案被部署在二战期间由于需要盟友之间的安全通信。系统被评为SIGSALY,它利用脉码调制(PCM)启用的第一个传输语音使用数码设备(gydF4y2Ba
现代语音识别技术系统依赖于跨学科研究领域的多通道信号处理和人工智能,和一系列的方法和算法开发,目的是解决各种各样的问题:对话系统基于语音识别和合成,包括情感上的演讲中,演讲者识别和验证,以及语音信号编码和传输,信号的去噪和检测噪声的存在,质量提高,和医疗诊断分析的基础上人类的声音。最近大多数语音识别技术的进展话题将在以下部分中讨论更多的细节。gydF4y2Ba
语言处理(SLP)是一个跨学科的研究领域,计算智能的属性。SLP位于十字路口的语言学、心理学、工程和人工智能(AI) (gydF4y2Ba
语言心理学和AI的互连是认知科学和神经语言学的基础。的神经科学神经语言学一直待在这里演讲。神经语言学提出了图gydF4y2Ba
语音技术是基于语音信号处理,跨越广泛的主题,而重点综述文章是作者三个领域最专业知识:gydF4y2Ba
基本主题(语音分析与合成、声波和语音功能,语音生产、听觉感知和认知包括语言方面)gydF4y2Ba
对话系统基于语音识别和语音合成(情感语音识别和语音合成包括声音和风格转换)gydF4y2Ba
语音编码、压缩和传输gydF4y2Ba
语音识别技术领域范围内呈现在图gydF4y2Ba
统一的框架,包括语音信号处理领域的范围。gydF4y2Ba
一个简短的回顾和语音识别技术的一些观点字段如图gydF4y2Ba
知识与口语的本质是必不可少的有效的编码和传输以及满意的实时人机语音交互。语音模型基于言语生成或听觉感知是最成功的算法的固有部分。最近neuro-inspired计算模型是基于知识的认知语言处理模型(gydF4y2Ba
声音传播作为一个连续的声波(声压),一旦收到,它可以记录,数字化、编码,传输,处理,和复制。语音,频率相关的识别是什么说,谁已表示,它位于大多低于4 kHz和很少高于7 - 8 kHz,也就是整个频率范围的一部分人类的听觉感(gydF4y2Ba
数字化包括量子化是所有数字语音处理技术的基础。如果目标是代表语言简洁和强劲,一样在自动语音识别或大多数类型的语音编码传输的一个基本问题是选择相关特性,使快速、准确、言论和健壮的识别(或演讲者、语言、甚至情感),和/或快速和高效的语音编码传输没有质量的重大损失。线性预测编码(LPC)造型和LPC分析语音信号的基本意义和语言特性估计(gydF4y2Ba
演讲之一生产模型也是基于LPC分析和提供语音特性集描述语音频谱,对语音识别(这是最重要的gydF4y2Ba
图gydF4y2Ba
语言产生和语言感知的框图和相应的过程由机器进行语音合成(TTS)和自动语音识别(ASR)。gydF4y2Ba
人类开始和结束之间的言语交际信息的认知水平组成和解释。考虑演讲的速度平均每秒钟10 - 12电话和手机的数量在一个语言,通常对应于5或6位需要编码,语音消息传达文本可以被认为对应的比特率50 - 60位每秒。演讲者计划不仅要说什么,还怎么说——(s)他控制体积,演讲,和语调(韵律)——每它可以携带的语言,以及副语言的和语言以外的信息(gydF4y2Ba
一旦说话人决定说什么和怎么说,一个适当的声波通过神经和肌肉活动产生gydF4y2Ba
语音样本振幅分布是不均匀的,这些知识用于非均匀语音信号编码定义gydF4y2Ba
另一方面,连续的声波到达听众的耳朵和某些频率刺激耳膜,和锤骨、砧骨,镫骨,他们刺激耳蜗,进行光谱分析,基于基膜的运动,其长度约为35毫米(gydF4y2Ba
然而,言语知觉,这主要依赖于听觉,是一个非线性的过程。一样与其他人类感官(视觉,味觉,触觉,嗅觉),听觉感知的声压级(SPL)和基频(f0,音高)遵循Weber-Fechner法律[gydF4y2Ba
听觉场景分析听觉系统分离个体声音的过程在自然界的情况下(gydF4y2Ba
个人的声音互相区分下列至少在一个维度:时间、空间、和频谱(gydF4y2Ba
声信号由一个监听器接收和语言和非语言行为转化为类别,但不知道如何。有持续的神经生理学研究言语交际使用最新的侵入性和非侵入性的进步人类记录技术,目的是发现皮质语音处理的基本特征(gydF4y2Ba
Neuro-inspired计算模型试图提供进展人工深层神经网络(款)的性能,更好的理解的基础上由这些模型表示和转换。一个案例研究在ASR的gydF4y2Ba
人类的听众有一个非凡的能力快速有效地了解他们周围的世界基于已知的声音来源的行为。此外,他们可以注意和关注演讲的演讲者的意思。注意力的焦点可以集成到人机交互对话策略gydF4y2Ba
款的非线性分类的作用音素的非均匀和非线性声学空间扭曲研究[gydF4y2Ba
语言产生的机理和物理组成部分声音感知相对研究主题(gydF4y2Ba
至于机器学习在语音识别技术的发展,它提供了一个强大的替代模型依赖于语言资源和模块执行特定的语言激发子任务。字典和语言等语言资源数据库通常是相当昂贵和耗时的收集和注释,而模块组成一个语音技术的发展系统需要深厚的领域知识和专家的努力。在过去的二十年里,一些基于规则的系统执行的任务和简单的机器学习方法,一个接一个,被神经网络取代。即在声学语音识别,神经网络已被证明比隐马尔可夫模型(摘要)声学模型(gydF4y2Ba
除了自动语音识别(ASR)和合成语音(TTS),一个人机语音对话系统还包括一个对话与相应的对话策略和语言技术管理模块对口语的理解(SLU)和口语代(SLG),如图gydF4y2Ba
人机语音对话系统的组件。gydF4y2Ba
该部分提出了一些成就领域的演讲如ASR和TTS技术。他们用努力开发组合来自不同领域的跨学科知识如语言学、音响、计算机科学和数学。信号处理工程师通常有整合的角色从一边在语言学家和数学家从另一边。gydF4y2Ba
ASR系统的研究和开发在贝尔实验室开始于1950年代,通过简单的数字识别系统,并从那时起识别任务变得更加的孤立的数字的识别,然后单词,然后连续口语词汇在寂静的环境中,识别的自发的演讲在嘈杂的环境中。因此,算法的复杂性也急剧增加。简要回顾历史发展ASR中可以找到的gydF4y2Ba
款的统治ASR开始(gydF4y2Ba
因为人类并不总是理性和逻辑beings-emotions扮演非常重要的方面在接受新产品和新技术gydF4y2Ba
的一个重要的步骤在语音情感识别系统的设计是有效的提取特征区分情感独立的词汇内容,演讲者,和声学环境。众所周知,韵律特征是与情感有关gydF4y2Ba
第一个“演讲机器”是机械设备能够产生单个音素,并介绍了它们的一些组合基督教Kratzenstein和沃尔夫冈·冯·Kempelen十八世纪的末尾(gydF4y2Ba
然而,直到衔接合成器发明,TTS被广泛使用。衔接TTS的想法是将适当的部分预先录制的数据库(gydF4y2Ba
TTS的应用程序变得更受欢迎和广泛应用,算法的必要性,可能产生不同的声音和讲话风格已从较小的数据库。从2000年左右,统计参数语音合成、光谱,基本频率和持续时间的演讲被摘要multispace概率分布模型和多维高斯分布(gydF4y2Ba
第一次尝试使用神经网络在语音合成中可以找到gydF4y2Ba
款不仅只是启用生成高质量的合成语音,还介绍了许多可能性为生产不同声音和讲话的讲话风格。大多数方法创建新的款声音使用有限的训练数据是基于使用multispeaker模型。在multispeaker造型,需要由多个扬声器组成的大型数据库。每个演讲者通常是用比较少的数据表示人的造型。由于各种上下文信息和更好的网络推广,语音产生的质量与multispeaker模型是相似的,甚至比演讲与单扬声器模型获得。演讲者身份multispeaker系统可以以几种不同的方式来表示。一组的方法是基于使用一个独特的向量为每个演讲者。这个向量可以表示为gydF4y2Ba
合成语音不仅要传达信息,但也副语言的情绪状态等信息。还有一个需要支持一些特定于任务的演讲风格如新闻,广告,讲故事,和警告gydF4y2Ba
尽管款已经证明是非常强大和灵活的,在很长一段时间里,他们的一个主要缺点在语音合成声码器的使用的依赖。第一次在2016年,原始音频样本直接预测款使用WaveNet架构(gydF4y2Ba
而不是WaveNet和DeepVoice系统,使用词汇特征作为输入,有系统使用原始正字法的文本作为输入,如Tacotron [gydF4y2Ba
集成的端到端TTS系统的主要优势是,需要最少的人类努力因为不需要标签输入数据。因为在端到端系统,直接抽样值往往预测(gydF4y2Ba
自动语音识别和语音合成技术具有悠久历史。在过去五年中,各种算法的语音技术领域内的知识。最新进展的深度学习和人工神经网络的世界里,我们能够在一定程度上模仿人类听觉系统的灵敏度,识别准确性,人类语音可懂度和自然,情感在合成语言,等结果,机器能够识别特定的扬声器,认识人类在一个嘈杂的环境或执行大词汇连续语音识别精度高。此外,少量数据从目标的说话,他们合成的语音质量高,足以成为一个威胁扬声器自动验证系统。gydF4y2Ba
自然产生的一个问题是这是否足以实现聪慧如,自然和长期人机语音交互。不幸的是,事实并非如此。gydF4y2Ba
语音识别和合成只是两个的六个模块在一个典型的语音对话系统的体系结构,在图gydF4y2Ba
作为一个传统的范式转变,最近的工作在这一领域解决一系列的数据驱动,端到端可训练的,non-goal-driven系统基于生成概率模型(gydF4y2Ba
值得指出的是,除了领域知识的重要性,语言环境有至关重要的影响积极参与谈话。然而,这些方法的主要缺点之一是有关稀疏问题,预计会在上下文信息在统计模型的集成。工作的Sordoni et al。gydF4y2Ba
这项工作扩展了语言递归神经网络模型(RNNLM)作为句子的生成模型gydF4y2Ba
符合这一点,许多研究试图利用神经网络和端到端培训相结合的可能性和大量的免费文字或音频材料从社交媒体,电影脚本等。gydF4y2Ba
虽然端到端,统计模型得到了大多数的最近的研究在对话系统中,许多问题仍未根本解决gydF4y2Ba
一般来说,语音编码人员可以分为三大类根据应用编码技术:波形编码、参数编码和混合编码。波形编码器设计背后的主要思想是保持语音信号波形的形状,因此原始时域波形编码信息(gydF4y2Ba
从图gydF4y2Ba
语音信号质量根据金属氧化物半导体和各种语音信号的比特率编码技术。gydF4y2Ba
语音信号可以被认为是一个非平稳的过程,其在时域平均功率大幅波动,导致宽动态范围(gydF4y2Ba
有两种从根本上不同的类别的自适应量化技术:向前和向后的自适应量化技术(gydF4y2Ba
一般向前适应性PCM模型图gydF4y2Ba
提出自适应PCM: (a)编码器;(b)译码器。gydF4y2Ba
向后向前与适应,适应不估计样本的特征在一帧编码,这意味着没有附加信息,传播(gydF4y2Ba
先进落后自适应模型通常包含更复杂的评估方法,或方差gydF4y2Ba
方程(gydF4y2Ba
一个落后的自适应的实现PCM与一个码字的记忆:(一)编码器;(b)译码器。gydF4y2Ba
双模式和自适应双模式亦然属于一个相对较新的类亦然的设计是基于多参数适应,如方差和最大振幅(gydF4y2Ba
双模量子化方案:(一)编码器;(b)译码器。gydF4y2Ba
考虑到语音信号可以被描述使用高斯概率密度函数(PDF)或拉普拉斯算子的PDF,重尾,预计只有一小部分语音帧会有一些样品的大值。然而,这也取决于帧的大小。因此,支持区域阈值对亦然应该选择这样限制量化器的使用应占主导地位,但考虑到还整个帧大小和输入信号动态以达到最低总失真的量化过程中(gydF4y2Ba
差分脉码调制(DPCM)代表了一种简单而又高质量的语音信号编码方案中比特率。它最初利用统一的量化和一阶预测(gydF4y2Ba
更复杂的解决方案可能将预测高阶或其他类型的量化模型,比如gain-adaptive量化模型(gydF4y2Ba
DPCM: (a)编码器;(b)译码器。gydF4y2Ba
DPCM系统图gydF4y2Ba
这种评论文章概述了语音技术的最新发展和其他科学领域相关,主要是由于新机器学习的发展模式,在这一领域产生了极大的影响。除了自然语言产生和语言感知、理解的认知方面的言语交际是非常重要的对于未来的人机交互系统包括语言理解和生成语言的技术。机器学习模式已经有了很大的影响在自动语音识别(ASR)和合成语音(TTS)作为基本的语音技术。预计ASR系统基于深度学习和自适应算法在不久的将来能够识别在复杂声学环境中自发的演讲,与人类的准确性将超过相应的能力。合成语音已经达到这样的质量是很难或不可能从人类语言来区分。改变说话的灵活性和风格,人机交互是人与人之间的互动变得愉快和自然。无监督和reinforcement-based机器学习算法也将进一步发展,这将反过来,带来进步的地区大型数据集并不可用,一样在演讲的语音识别和合成分析资源不足的语言。短的概述在自适应语音编码技术和当前进展标量量化提出了数字化和压缩语音信号的质量是重要的准确自动语音信号检测和合成。尽管这些技术可以设计成健壮的宽动态范围的语音信号变化,或frame-adaptive,可以预计,机器学习的工具日益普及会导致新的解决方案,这将提高性能适应各种系统的预测系数。最后,我们正在见证一个日益快速进展领域的语音信号处理由于机器学习范式,而且看起来很难预测接下来他们会带来什么,多久可以预期。gydF4y2Ba
作者宣称没有利益冲突有关的出版。gydF4y2Ba
本文中描述的工作由教育部支持部分,塞尔维亚共和国的科学和技术的发展,通过项目”开发的对话系统对塞尔维亚和其他南部斯拉夫语言”(TR32035)。gydF4y2Ba