文摘

为了研究多通道NLP指令的应用结合语音识别基于混合深度学习在英语口语,首先,介绍了语音识别技术的基本原理。隐马尔可夫模型的概念和三个关键算法是解释说,及其在语音识别仿真和实现应用程序的实现。介绍了系统的体系结构和关键技术。然后,介绍了具体的深度学习在NLP中的应用。最后,中国教师与英语口语教学经验参与录音。每个人的有效阅读时间是65分钟,3100年,阅读句子是句子。的总人数是80(40男性和40岁女性)。覆盖1595个英语口语单词的句子。进行英语口语培训。实验结果表明,识别精度下降约2%,但识别速度增加了十倍。 In addition, the scoring accuracy is equivalent to that of the platform system. The accuracy of this method in instruction classification is increased, which verifies the feasibility and effectiveness of this method. In the future, attention mechanism will be used to expand this method.

1。介绍

国际贸易一体化的快速发展和中国的贸易开放,中国有越来越多的世界上与其他国家的交流。学习和掌握外语,特别是英语,已经成为人类生活和工作的一个重要工具。对英语学习的需求的快速增长,越来越多的语言学校,教学用具和教材已经推出了一个接一个。然而,口语教学一直是中国人学习英语的难题。主要原因有以下两个方面:(1)之间有巨大差异汉语发音和英语发音的特点,使中国人民的深刻影响下学习一门外语的母语使许多发音错误检测困难的或不可能的。(2)缺乏外语教师在中国。甚至在大中城市中小学没有自己的标准化语言和英语教师可以教英语。一般信息只是个别教授,而不是对学生的基础上。教师和学生都可以做口语教学,所以它不能起到非常有效的作用1]。

有一个极端缺乏合格的外语教师口语在中国。甚至在大中城市中小学英语教师缺乏有自己的发音标准,可以准确地指导英语口语学习。一般媒体教学只能单方面教,而不是根据学生的具体情况。教师和学生可以进行口语教学交互,所以它不能起到非常有效的作用2]。

目前,计算机辅助语言学习系统主要集中在词汇和语法的学习。只有一些口语学习软件单一功能,这只会给学习者一个总分的发音。然而,由于自身水平的限制,很难self-scholars自己发现错误和纠正错误的发音(3]。使用语音识别技术(图1)装备软件纠正语言错误的能力,它可以帮助学生纠正错误,避免重复的错误中吸取教训。极大地提高学习者的口语学习的效率将获得巨大的社会效益和市场价值。目前,一些产品开发的语音识别技术已经逐渐开始进入当前的市场,比如语音车辆导航系统、智能机器人,声音控制交互式产品呼应,智能手机语音助理,和语音输入法。这些应用程序改善人民生活水平具有深远的意义。简而言之,作为人工智能的一个重要研究方向,语音识别技术是当前社会的一个研究热点。

NLP是神经语言学编程的缩写。N代表神经,L语言,P程序。NLP研究语言影响思维的过程和身体。在1970年代,其创始人Richard Bandler和约翰磨床一起工作在一个主题:人如何影响他人,有效的共同特点是什么人,如何复制他们的行为(瑞和诺曼·1999)。

他们的主要研究对象是三个领域的造诣高的心理治疗大师:家庭治疗大师弗吉尼亚萨特和完形创始人帕尔弗里茨和催眠大师米尔顿埃里克森。理查德Bandler和约翰磨床心理学致力于研究这些优秀的人,学习他们的语言和思维方式,发现他们的共同点,并减少它的一组程序可以被复制和模仿,需要学习和模仿的人。不仅可以使用心理疗法还自我完善。NLP的核心是“模仿。“有四个主要原则NLP(奥康纳和麦克德莫特,1996):第一,目标设定(澄清自己和他人的需要);第二,一致的亲和力(与自己和他人建立关系);第三,感官敏锐(调动多种感官作用);第四,行为的灵活性(灵活的使用方法)4]。NLP的应用在英语教学中不仅有助于提高学生的学习效率和学习兴趣,还可以帮助学生克服英语口语表达的心理障碍。

2。文献综述

舒乐问发现,目前大学英语教学普遍关注“阅读和写作能力,忽略了“听、说”能力的培养。语言学习不仅需要编写和翻译的能力,还经常说话的能力。有很多学生有良好的写作技巧,但不能打开嘴或说英语。它导致很多大学生“哑巴”英语(5]。据罗德曼等,是一个极端缺乏优秀的外语口语老师在中国。在中国,即使在大中城市,一些学校专门雇佣外籍教师或英语教师口语发音标准,有一个严重短缺在农村地区。一般媒体教学,只能教单方面,不能针对学生的具体情况,不能发挥有效的作用,因为它不能进行口语教学的教师和学生之间的互动,不能提供准确的指导(6]。歌的研究表明,有一个缺乏良好的氛围对课后练习英语口语。国内学校基本上不设立“英语角”这样的地方让学生练习英语口语。没有学习氛围对学生积极练习口语。此外,国内英语教学更关注英语阅读和单词学习,和口语学习并不重视。口试基本上是没有设置在主,中间,和高中7]。托莱多等人的研究表明,NLP认为行为可以改变想法。如果你想要自信,你首先必须自信。自信的学生大声说话,显然,流利。这些优势可以被视为共同特征的口语成绩优异的学生,和其他学生可以学习和模仿这些特征(8]。Calandruccio等人的研究指出,只有清楚地知道你想要什么,你才能更好的工作和动机。NLP的独特之处在于,它不仅提倡知道你想实现,但也知道别人想要什么。两者的结合可以达到好的结果。因此,根据这一概念的指导指导,教师教学英语口语不仅要考虑“教学目标我想实现什么,”但也考虑“什么学习目标的学生想要达到的目的。”教学效果通过这种思维方式完全不同于简单地考虑“问题学生”(9]。多元对话的语境意识到选择方法填充在人机对话中提出的Nordstrom和Laukka采用贝叶斯模型样本充填时间和收集在对话上下文信息(10]。Yazdani提出加强TED-LIM语料库通过面部信息,上下文文本和对象识别,为机器人多通道的自然语言理解方法奠定了基础。然而,大部分的口语理解(SLU)方法用于动态安全域仍然基于规则(11]。

3所示。方法

3.1。语音识别在英语口语中的应用

现在,我们知道语音对比的原则。根据这一原则,工作表现的模型应与演讲技巧的设计,和最佳匹配设计应采用根据结果。一般的识别过程分为报警通信、特征值提取、训练建模,匹配建模(识别),因此决心和认可。

人类语言的过程是由收缩引起的肺部,压缩空气,振荡引起的声音通过声门的支气管和航空公司。人类语言中有三种不同的刺激,所以它可以产生三种不同类型的声音,即表达了无声的,断续的。尽管人类可以使许多没完没了的声音,文字少用数字来表达意义。一般来说,语言只有十几个音素。一个音素相当于一组编码字符在通信系统中,由有限数量的字符。根据不同状态的言论和行动,我们可以把音素分为开启和关闭。封闭的音素在英语发音,辅音和开放元音音素。一些元音,语气虽然简单,有一个窄节距,产生轻微的摩擦音的声音称为半元音[12]。

扬声器的信号是模拟信号的幅度会随着时间而改变。数字化后,它可以被计算机识别和处理。语音信号的数字化是数字处理的基础。数字化语音信号的过程,包括测试和量化。通过这两个过程,数字信号的振幅。

因为信号不稳定,语音信号的过程密切相关的运动身体的声音。身体比声音振动缓慢移动。因此,语音信号通常可以被认为是时间很短;即。,the spectral properties can remain roughly constant over periods of 10 to 20 milliseconds. The basic means of time-dependent processing is generally to intercept a speech signal with a limited length window sequence 进行分析(13),让窗口东附近的信号分析。一般公式如下: 在哪里 代表一个特定的操作和 是输入信号序列。方程(1)是卷积形式 可以被理解为离散信号的输出 通过一个FIR低通滤波器单元的刺激 ,如图2。自窗口函数通常是作为一个光滑函数与大中小型的结束 ,相对应的滤波器这种脉冲响应低通特性。它的带宽和频率响应取决于创建函数的选择。的三个最常用的窗函数是矩形窗、汉明窗,汉宁窗,被定义为

矩形窗口

汉明窗

汉宁窗 在哪里 窗口长度,这些窗口函数低通特性。高的比较分析表明,矩形窗边叶会造成大漏水,所以很少使用矩形窗,而较低的汉明窗边步骤可以克服水泄漏和较低的特点,所以他们都是最常用的。此外,窗口的时间越长,平均干扰信号越强,越高分辨率的信号14),但降低分辨率。因此,为了拦截在不同的速度,不同的文件窗口的长度应该更短(见图3)。

语音端点检测检测的开始和结束演讲。通常有两种方法:前端multithreshold前端端点检测方法和双门限端点检测方法。为了方便实时去除,通常使用最初的发现算法和最终发现算法,因为即使在前端使用多个初始零发现价值。该算法可以减少错误,它有一个长时间的推迟。这不是必要的时间管理。然而,使用无语domain-short时间没有 (短时间内强度) (短时过零值)的演讲,最后搜索词可以克服许多的缺点开始仪(15]。

短期内:视觉语音信号变化的力量。一般来说,无声的言语的能量比那个少得多的言论,因此有助于利用无声的之间的差异和人类的声音,音调,无声的部分。对信号 ,短时能量被定义如下:

因为能量的短时间的平方函数信号,高、低信号之间存在差异,这是不适合在一些应用程序的集成。一个简单的解决这个问题的方法是使用一个短期平均振幅能量表达的变化,如以下公式所示:

短期是指零交叉:顾名思义,短期意味着零交叉信号穿过的次数是零在每个职位。区别,短期意味着零交叉值是一样重要的信号变化的信号采样点的数量。它有两个重要的应用:首先,它是用来大致描述信号的频谱特征。第二个是判断演讲的开始和结束点的位置结合短期能量,也就是说,端点检测,这被定义为信号的过零率 这是定义为 在哪里 是象征性的函数:

是窗口序列,将

这里的窗口振幅 ,这意味着平均零交叉数据在窗口范围内,因为窗户有样本,每个样本都使用2。当然,您还可以使用其他形式的windows,而不是直角。在实际应用中,为了避免过多的过零率引起的随机噪声在静音部分,一组阈值通常是第一个。当当前的符号,后来两个样品是不同的,不同的是大于阈值,零交叉率的值是增加了116]。

梅尔频率cepstral系数(MFCC)是一个短期的声学特征参数广泛应用于说话人识别系统。从理论上讲,倒频谱参数有明显的鲁棒性。此外,倒频谱参数有两个明显的优势。一是可以处理的光谱滤波和加权倒谱域。第二个优势是,梅尔倒频谱理论可以很容易地应用。不同于普通的倒频谱分析,梅尔频率倒谱参数分析侧重于人耳的听觉机制和分析的光谱语音听觉实验的结果显示,获得较高的识别率和良好的噪声鲁棒性(17]。

的原因之一人耳可以听到语音信号从嘈杂的背景噪音,人类内耳基底膜可以调节外部信号。不同频率的信号在相应的临界带宽会导致振动在基底膜上的不同位置。因此,带通滤波器银行可以用来模拟人耳听觉,减少噪声对语音的影响。首先,让我们解释临界频带的概念。发现当声压是常数,当噪声在一定带宽有限,由人耳主观响度感觉是恒定的,一旦突破噪声带宽,主观响度的变化可以看出。同样,当声压是常数,一个信号的响度与复杂的信封在这个带宽等于纯质的音调的响度的中心频率带宽,这是独立于信号本身的频率分布。然而,当信号的带宽突破临界带宽(18),其响度不再是等价的。茨威格的作品,临界带宽的变化与频率的变化,这是符合感知频率的增加。它大概是线性分布低于1000赫兹,带宽增加对数高于1000赫兹。频率描述人耳感知频率之间的非线性关系,及其与频率的关系可以近似表示由以下公式:

从图可以看出4模板匹配方法经常使用类似的计算模式在不同的系统的知识。在培训过程中,特征提取和特征维数压缩后,集群或其他方法用于生成一个或多个模板为每个模型类。验收标准,特征向量的相似性模型应该认识到,每个模型计算,然后确定它属于哪个阶级。语音识别也可以使用比较模型来衡量相似,但有一个装配时间的问题在一个特定的维度,这有点不寻常,可用于标准保证比较。在本节中,我们将关注一个严格的随机信号模型称为隐马尔可夫模型(HMM)。我们将首先介绍马尔可夫链理论,然后使用几个简单的例子,扩大对隐马尔可夫模型的理解。然后,我们将专注于隐马尔可夫模型设计的三个基本问题(19]。

语音信号是一个quasistationary信号。嗯是一种统计模型,该模型不仅可以描述语音信号的动态变化特性,还好描述语音的统计分布特性。这是一个很好的工具,准静态时变语音信号分析和说话人识别。这是一个例子,从没有出现描述随机过程的特点。它从一个链。在语音知识,随机的语音知识和语音知识是有限的。它可以是一个一维的观测序列编码字符或一个多维向量序列。例如,一个语言片段如一个字、音素,或短语的向量可以表示为一个字符串,它是一个诊断向量。如果一个字符串是一个量化向量的向量,然后每个向量由编码表示符号(20.),是符号的序列分析。无论是观测向量序列或一个观察符号序列,它是集体称为观测序列,记录

从表可以看出12在上面的参数, 确定不同的结构隐藏的马尔可夫链在嗯。左到右模型与交叉,过渡态只能从左向右跳,不是亦然,如图5(一个)。这个模型有少量的计算和非常适合语音信号建模,因为语音信号随时间变化的性质。图5 (b)是一个更普遍和更简单的马尔可夫链。它没有状态,所以它变成了一个从左到右模型没有交叉。

3.2。声音得分和纠错

英语口语学习系统的研究内容基于语音识别是非常广泛的。一些专注于初学者的常见的发音错误,如各种类似鼻元音和声音。一些专注于独特的发音技能和英语发音的困难,如语调、连续阅读,和压力。另一种关注整个英语口语的学习系统,格拉瓦和优化系统的性能根据语音教学方法和计算机。语音识别是学习发音的关键,但它可以直接提高英语发音。在此基础上,许多新的研究需要完成:(1)寻找方法来评估发音。它不仅适用于音位单位还定量测定标准发音hyperphoneme向量的性能指标,如节奏。这个问题的困难在于如何计算,压力,速度,节奏,以及相应的直言不讳的声学结构特点之间的关系。发音的单词,短语或句子(21](2)如何检测并纠正发音音素水平错误一个给定的声音,给学习者以友好的方式修正反馈吗

水平的学习者的发音是一个重要的信息反馈给学习者的计算机辅助发音学习系统。因此,英语发音自动评分是这种学习的核心和基本功能系统。必须有一个参考或标准测量。两种常用的方法是基于HMM训练语料库言论通过引用和参考。

口才评价不仅包括电话、描述的环境,和其他学科,但也有情感,身体,和文化的影响。这是一个非常困难的问题。根据得分的关键,良好的语音测试分为成绩和目标分数。现在,有很多方法可以得分。主要测试点包括中间测试分数、测试组合决定,中间测试分数失真,和测试满意的决定。演讲的主要得分不仅是时间和精力,还各种因素的准确性。考生的测试条件和内容会影响测试结果的可靠性为特定的条件。因此,一般来说,使用的工具来测量话音质量不仅影响环境和人类环境也改变应用程序的许多方面。时差,时差也很容易的结果比较直接。现在,有很多方法来衡量好的演讲。 Common ones are scores based on dynamic time warpage (DTW), scores based on HMM log purchases, scores based on HMM log subsequent results, scores based on segmented distribution, scores based on long term, scores based on performance, score probabilities based on reliability time, and so on. The above measures use the speech model as a model for various similar calculations [22]。

从图可以看出6,采用优化算法对齐模板功能的特性不均匀变形和弯曲的时间轴语音信号识别和连续计算匹配路径最小的两个向量之间的距离,得到正则化函数与最小累积距离当两个向量匹配,这是最早的和最常用的方法,成功解决问题的演讲模式匹配(23]。

嗯演讲的评分模型是另一个演讲评分法,主要从两个方面开始的声音和语气,希望找出测试语音和声学模型的区别和基调演讲模型和分数的区别。

评分系统的流图所示7。以pretrained声学模型和声调模型为标准答案,使用语音识别技术,找出测试演讲和模型之间的区别,并给出评分的得分机制。特征参数的提取,它主要涉及两个特性参数:基频轨迹和梅尔倒谱参数,可用于声调识别和声音识别的特征参数,分别。在实际的操作中,维特比解码是用来把语音信号成单音节的段,然后,声音模型和声调模型为每个音节比较,和识别结果,加上我们的预先设计评分机制将分数,也就是说,比较测试的分数演讲。这个评分系统包括语音识别的常用技术,如隐马尔科夫模型(HMM),树净,维特比算法。语气而言,它包括正交等方面扩张,切比雪夫逼近, - - - - - -意味着聚类方法,分类器的设计。

3.3。特定的深度学习在NLP中的应用

NLP的核心是模仿(瑞和诺曼·1999)。模仿是成功的捷径。如何从其他人那里得到有用的资源依赖于模仿。孩子们的唠叨是模仿。他们通过模仿学会说。提高英语学习者的口语表达能力也取决于模仿。就像每个成功的人都有一些相似的特征,可以模仿大众,优秀的学生英语口语也有其他学生模仿的方方面面。模仿发音和语调的目标语言和目标语言的思维和行为模式。它是必要的和有效的模仿发音和语调。首先,由于英语和汉语属于不同的语系,他们的发音也有不同的特征。 Some syllables in English and Chinese look the same, and the actual pronunciation methods and parts are slightly different, such as consonants /f/ and /l/. In the Chinese pronunciation system, /f/ is a clear fricative sound of lips and teeth, with the lower lip close to the upper incisors to form a gap. The soft palate rises, and the nasal passage is closed. Make the air flow rub through the gap formed by the tooth lip to make a sound. In the English pronunciation system, /f/ is the friction consonant between the lips and teeth. When pronouncing, the lower lip gently touches the upper teeth, and the air flow passes between the lips and teeth to form a friction sound. There are also some sounds in the English pronunciation system that are not found in the Chinese phonology system, such as stops /θ/。当这些音标学习,我们应该多注意练习英语口语。实践这种发音方法不同于中国人,这样学生的发音器官的肌肉可以适应英语发音系统。

3.3.1。应用过程描述

在自然语言处理的应用深度学习需要的科学应用梯度下降的方法。实际应用过程如下:(1)建立相应的模型框架。结合应该处理的相关内容,确保选择的神经网络结构的合理性,建立相应的深度学习的目的,实现模型框架。(2)仔细检查模型。合理使用梯度下降方法来检查模型的完成任务,检查和分析现有的漏洞,并确保他们是否符合有关规定。(3)实现模型的初始化的效果。经过仔细检查,科学优化相关模型以弥补漏洞和缺陷,并科学地提高模型的参数相关。(4)持续改进相关模型。合理使用正则化方法和模型参数不符合有关规定及时改进,以满足合适的有关规定。

3.3.2。分析应用程序的措施

(1)做好标记词语切分和词性

分词,根据有关规定,它可以实现重组的影响继续词序合并成一个新单词序列在同一时间。当标记词性,保证词性标注的准确性。例如,这个词是形容词,动词,等等。通过加强深度学习的应用方法,我们可以进行词性标注,语义角色标注,命名实体识别,等等。(2)科学解析语法

即合理地分析句子的语法和语法之间的关系不同。深度学习的科学应用方法可以实现自动识别句子语法单位的目的形式,找出不同语法单位之间的连接,输入给定的句子科学,合理的使用语法的特点,建立短语结构树的完成任务,采取有效措施加以应对。(3)仔细研究单词的意义

使用深度学习的过程中,我们需要注意词义的学习和扮演一个好的角色相关的无监督学习系统。建立深层神经网络模型的过程中,我们应该使用该模型科学、分析科学参照上下文的文本,以获得最好的表达形式的词义,掌握词汇的词义,实现准确的目的分析具有相同名称的模棱两可的词。如果有多个一词多义词向量,模型优化的方法可以采用丰富的语义词向量并确保表达的准确性。(4)加强情感的科学分析

过程中合理使用深度学习方法分析情感,有必要建立相应的情感分析模型,借助深层神经网络训练的一部分,有效地完成任务标签相关的情感标注句子和参考相应的法律和上下文特征,达到的效果预测的情感特征的句子。然后,进一步分析文档级别的感情色彩和句子层面。显然,这种方法可以发挥良好的作用,先进的情感分析,提高总体效率有效地使用自然语言处理的深度学习的方法。

4所示。实验分析

从培训的角度模板,语料库是基本的语音知识来源要求语音识别引擎。从绩效评估的角度,语料库的质量将直接影响到评价结果的科学性和有效性。标准化和全面的语料库应该做以下(23,24]:(1)普遍性:内容广泛,包括各种语音现象尽可能多(2)代表性:演讲者广泛代表性的性别、年龄、地区、说话速度,等等。(3)在细节和一致性:语料库是明显与发音内容一致

因为系统研究中国英语发音,人员参与语料库系统的记录是中国教师与专业英语口语教学经验。每个人的有效阅读时间是65分钟,3100年,阅读句子是句子。的总人数是80(40男性和40岁女性)。覆盖1595个英语口语单词的句子。特别指定人马克在词级每个句子的时间。请参阅下表具体的录音设备和数据信息。

接下来,介绍了不同的学习策略的特征(见表3详情)。(1)自由选择上课时间:在这一战略下,学习内容将完全显示在用户面前无论学时(2)30天计划:在这一战略下,学习内容将分为30学时,每一个课时30句子,有助于用户学习阶段(3)密集的点评:在这一战略下,一些句子的填空选择题的学习内容会出现,这样用户可以通过语音识别的答案(4)情报增强:在这一战略下,软件将进行强化训练之前容易出错的问题。

嗯是系统的核心。它测试的识别率和识别时间性能连续嗯嗯并比较性能用于PC平台系统,该系统采用半连续嗯。实验结果如表所示4- - - - - -7

这个测试测试英语语言设计的功能模型,并成功地完成了每个模块的操作。通过分析系统的术语和比较和评估性能实时显示系统的性能是有效的,能够满足客户的需求。结果使用数据显示,语音识别已经测试和评估,和测试结果是令人满意的。

5。结论

NLP在大学英语口语教学的应用丰富了现有的英语口语教学方法和扩大的空间供教师选择教学方法在课堂设计。NLP的四个主要原则有利于更有效地帮助教师设置教学目标,构建一个亲和力课堂气氛,有意识的调动学生的感觉器官,进行灵活的和有趣的教学活动;NLP的相关概念是有利于提高学生的自信在学习英语口语,唤醒学生的自我意识,帮助学生明确学习目标,提高学生参与课堂的积极性和主动性。在NLP可以提高学生的口语能力,进一步丰富和发展的概念也有助于消除“哑巴英语”的现象,帮助英语口语教学走出当前的困境。英语口语学习是一个Android应用程序开发的母语来满足用户的需要正确地学习和练习英语任何时候,任何地方。所开发的系统是通过选择一些必要的任务需要完成终端,为用户提供一个简单的结构对英语学习与实践,包括熟练的演讲,演讲中测量,无线电广播,口头交流。

在使用英语口语,语音识别是很大程度上受到环境的影响,以及环境噪声的影响,减少了识别系统的程度。尽管本文使用最后的识别过程,消除高斯白噪声的一部分,它仍然没有消除噪音和影响演讲技巧。他还需要学习和使用良好的演讲技巧。近年来,基于语音知识的产品在许多领域已经实现。越来越多的科学家正在投资的科学语言治疗。展望未来,演讲能力将大大提高,使人们的生活更方便和促进知识的进步。

数据可用性

标签数据集用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的哲学和社会科学项目在天津“人工智能研究美国女性主义科幻文学”(没有。tjww21 - 006)。