文摘
随着神经网络技术的快速发展,我们在各个领域的广泛使用这一技术。领域的语言翻译,自动检测技术研究英语动词语法错误是在一个炎热的阶段。传统的人工检测不能适用于当前环境。因此,本文提出了一种自动检测技术的英语动词语法错误基于递归神经网络(RNN)算法来解决这个问题。首先,传统的人工检测的准确性和反馈速度和RNN递归神经网络算法进行了比较。其次,根据语法检测模型,该模型可以计算顺序设计结合上下文。最后,当动词的输出结果是不一致的与原文本,它可以自动标记错误检测的效果。实验结果表明,该算法模型研究可以有效地提高检测精度和适用和有效的反馈效率和比传统的人工检测方法。
1。介绍
国际化,国际化的快速发展和全球化,英语作为全球语言,在国际贸易中起着重要的作用,商务合作、旅游等行业(1]。越来越多的人注重全面发展的英语听力,口语,阅读,和写作。近年来,随着信息技术的发展,自动化系统的功能评价和反馈是广受欢迎的第二语言学习者,英语学习者,可以快速,有效,准确地发现错误在英语学习和学习英语更有效地和有效地2,3]。
计算机辅助语言学习(调用)系统是一个自动化系统最有效的语言学习方法。在写作领域,深度学习方法和机器学习算法的重要发展,英语语法纠错(GEC)系统是大步来识别和纠正语法错误都齐全4,5),例如,文章中,介词,名词,动词,和其他语法错误(6),如著名的英语助理系统设计和开发的微软。从理论研究的角度来看,一般来说,通用电气自动检测中使用的研究方法包括n蟋蟀语法、自动分类、和机器翻译模型根据语法规则模型。研究人员使用这三个不同的模型为26个类型的语法错误在电气系统评估。例如,语法规则n蟋蟀语法是用来识别动词时态和形式错误,机器翻译和语法规则,用于识别动词失踪的错误。结果表明,通用电气系统使用不同的模型来自动检测26种语法错误,但最终语法错误的准确率和召回率很低;例如,动词时态的召回率,动词形式和动词失踪是19.61%,18.99%,和15.19%,分别7]。在此基础上,有必要设计一个更优化的自动检测方法提高精度为不同类型的语法错误。英语句子的核心,动词也最复杂的语音在英语学习的一部分。因此,本研究的重点是自动检测技术在英语学习动词的语法错误。
此外,目前,在口语方面,这些系统可以提供具体的谈话和演讲的情况下,进一步发展支持言论自由的情况下8,9]。从理论上讲,在言论自由的情况下,英语语法错误检测(GED)系统主要使用自动语音识别(ASR)技术完成任务由于事先未知的话语10,11]。其中,研究人员建立了一个语法错误识别系统基于交互式调用系统语言模型优化(12]。电话系统提出了基于ASR的语法口语(13]。
在技术层面,原通用电气和GED方法主要依赖和使用手册笔迹语法规则和语法错误写(14]。之后,随着计算机科学的发展和深度学习的广泛使用,他们专注于基于功能的工程,如词汇语法特征(15),并使用机器学习建模促进英语语法错误的自动检测。同时,研究特定的语法错误更广泛。例如,现代研究提出了GED系统的动词形式16]。在使用机器学习的研究实现期间,为了提高可靠性和精度,不同的神经网络和深度学习算法逐渐提出(17,18]。一些研究人员首先提出了一种基于双向神经GED方法长期和短期记忆神经网络(BI LSTM) [19]然后扩展和改进它20.]。根据ASR技术用于实现期间,发现结果主要受两个方面:一个是声学模型(AM),另一种是语言模型(LM) [21]。在前者的基础上,研究深层神经网络提高了语音识别率(20.]。与此同时,研究基于后者关注深层神经网络已逐渐出现语法错误的提高识别率。神经机器翻译语言的方法被用来获取训练数据建模和识别语法错误,这是使用方法的机制来生成句子语法错误与正确的句子(22]。一些人意识到一次性的帮助神经机器翻译和应用统计机器翻译方法和神经模型(23]。在此基础上,为了提出一个更加可靠和准确的方法,本研究探索了一种自动语法错误检测方法基于递归神经网络(RNN),和研究对象是英语动词。
2。自动检测基于RNN的英语动词的语法错误
2.1。自动检测基于RNN的英语动词的语法错误
不同于一般的神经网络模型,RNN完全连接从输入层到隐层到输出层(24]。特定的拓扑结构如图1。
从图可以看出1循环允许RNN的神经网络存储信息。即RNN内存上下文信息,可以有效地推断出信息,促进最终结果更准确、可靠。因此,本文应用的自动检测语法错误的英语动词,哪个更有利于实现准确的识别。
从神经元的角度,特别是网络包括一个输入层x,一个隐藏层h和一个输出层o。相应地,输入单位的集合{x(0)x(1)、…x(t)}。{隐含单元集h(0)h(1)、…h(t)}。输出单元集{o(0)o(1)、…o(t)}。在时间t,输入向量x(T)对应于隐藏的向量和输出向量组成的神经网络,它们h(t),o(t),分别。
理论上,英语动词的语法错误自动检测模型可以被视为一种英语LM模型。
具体来说,RNN的训练计算过程如下:英语培训模型,输入向量x(t)是由连接向量代表当前单词的时间t和隐层的输出时间t−1。具体表达式如下公式所示: 在隐藏的向量x(t)是RNN的记忆和可以获得的序列信息,即特殊RNN的区别和其他一般的神经网络算法。它是由输入的输出向量x(t),t−1隐藏层,所以它的计算是周期性的。具体计算如下公式所示:
同样值得注意的是,什么时候h(−1)用于计算,它被当作一个0,这是由缺乏引起的h(−1)。此外,f在公式(2)是一个激活函数,它通常是一个非线性函数。指数运行的激活函数乙状结肠深度学习用于计算。其特点是,它可以真正的价值转化为从0到1的输出。这个例子和图像拟合如图2下列公式所示:
输出向量o(T)是由隐藏的向量的时间t,也就是记忆。具体计算如下公式所示: 在哪里V是网络参数和总时间的总概率输出也将softmax激活函数,用于使数据符合概率分布的总概率达到1。它的计算是在以下公式表示为:
此外,在英语培训模型,包括动词语法错误自动检测模型,RNN-based实验装置是非常重要的。RNN,初始化并不是最关键的时候是用来处理数据的数量级。因此,隐式向量年代(0)被设置为一个向量组成的较小值类似于0.1。输入向量,如公式(1),是由1 -N代码和前面的隐藏层,所以向量的大小取决于词汇量的大小+隐层的大小。隐层的规模通常是30 - 500隐藏的单位。具体来说,参考实验训练数据的规模决定;也就是说,训练数据规模越大,隐藏层的规模更大。
2.2。自动检测的设计基于RNN的英语动词的语法错误
一般来说,英语语法基于神经网络的自动检测算法是综合的,意在涵盖所有类型的语法错误。然而,实验研究表明,其信度和效度很低,这大大阻碍了发展相关的项目和应用程序。动词是英语句子的核心。是非常重要的第二语言学习者全面、有效地找到英语动词的语法错误。在这项研究中,通过研究学习者的口头和书面材料,发现动词语法错误往往体现在动词时态动词,和动词形式。因此,自动语法错误检测的设计重点是这三种类型。
这三种语法错误,模型基于RNN需要machine-learn动词的嵌入功能的背景下,准确地预测动词形式根据上下文,并形成目标词。如果预测单词不同于原来的形式,原句中的动词是标记为错误。同时,基于RNN的模型可以实现培训形式从一开始目标动词,结束词到目标动词,甚至从上下文到目标词在固定规模。
图3作为一个例子。首先,人物3涉及两个RNN模型:在英语句子“戏剧”是目标词。“他”一个RNN模型火车最初的词从左到右,和其他RNN模型火车结束词“星期三”从右到左。
此外,基于RNN的训练模型数学表达的语言如以下公式所示:
公式(6)代表目标动词的定义形式对于一个英语句子 。 代表RNN模型从左向右阅读在一个给定的英文句子。同样的,代表了RNN模型从右向左读。l或者r分别代表了两种不同的嵌入方法。
当RNN-based输入层、隐层和输出层处理,最终结果的输出仍然需要进入的最后一层神经网络设计,完整的连接层。在这篇文章中,多层感知器(MLP),包括输入层、隐层和输出层。也就是说,所有的神经元在前一层一层连接与后者。
延时,其正向传播需要激活函数,以防止多层网络升级为单层网络。与此同时,它也需要激活函数减少网络的隐层退化,以便神经网络方法的非线性函数。因此,当两个RNNs结束,MLP用于预测目标动词或动词形式的目标,如现在分词或过去分词。我们需要使用以下公式:
softmax激活函数公式的形式(7在公式()是一致的,5)。Relu是修订的激活函数线性单元(Relu)。它的功能和拟合如图4。函数是在以下公式表示为:
在公式(7),原计算隐层采用全连接线性操作的形式,在下列公式表示为:
根据上述的处理RNN-based输入层、隐藏层和输出层和延时全连接神经网络,结合公式(6)和(7),计算隐层可分为两部分。最终结果的输出层的递归神经网络表示为下面的公式:
在公式(10),y是目标动词或目标动词的形式预测的递归神经网络的每个输出层。因此,每一次,误差向量可以根据交叉熵原理,计算和输出层重量可以更新根据标准BP神经网络算法,在下列公式表示为:
在公式(11),Z表示目标动词或目标应该预测英语句子的动词形式,和Y在公式(所代表的意义10)。基于RNN算法和MLP神经网络隐层的多层次内存处理,当神经网络输出的预测目标动词或动词形式的目标不完全一致,这种不一致将标记为语法错误,从而实现自动检测算法基于RNN的英语动词语法错误。尤其是,三种不同的动词时态语法错误,动词,动词形式,被标记为ˆ分类标签y。培训的目标方程表示为下面的公式: 在哪里n是训练样本的数量。另外,具体的定义Y在公式(10)是不同的,这是全面列在表中1。
根据表1,在基于RNN的动词形式语法错误检测模型算法,的价值Y代表不同的动词形式;例如,0代表基本形式,1代表过去分词,2表示分词。把英文句子“他在家里读书”为例,基于RNN的英语动词形式语法错误模型算法用于自动检测。输入和输出结果如图5。
当输出图5与动词形式不一致的“阅读”由原来的英文句子,模型会自动判断原始动词形式的语法错误根据设计“读”。
3所示。自动检测的实验评估基于RNN的英语动词的语法错误
3.1。实验设计的自动检测基于RNN的英语动词的语法错误
在英语语言模型中,学习者语料库与手动标记语法错误通常是用作标准比较语法错误的自动检测机器学习和人工标注语法错误评估的有效性的设计或技术自动检测机器学习的语法错误。在整个生产过程的比较,有必要分析的准确性两个动词语法错误检测的过程中。准确计算下列公式所示:
后获得两种检测方法的准确性,还需要比较反馈的自动检测系统。计算公式如下:
在(13)和(14),是机器学习的设置自动检测语法错误和输出是一组手动标记语法错误。与此同时,集的交集和在公式定义为下面的公式:
此外,英语句子“他每个周末打篮球,游”作为一个例子,语法错误的自动检测的准确性是100%,召回率是50%的假设下,动词语法错误设置={⟶戏剧,玩游⟶游}是手动标记和最后的动词语法错误设置e={戏剧⟶}是检测到机器学习。从理论上讲,这两个指标的价值越高,效率越高的自动检测机器学习的动词语法错误。然而,根据公式(13)和(14),有一个准确性和回忆之间的矛盾。当召回率更高,更多的动词的语法错误和不完整的错误检测和自动标记,准确性会减少。
因此,在本文中,为了解决这个问题,强调这一事实更有偏见的准确识别错误比试图掩盖错误在实际应用程序中,F0.5用作索引分配重量的准确率更高,这主要指数作为衡量模型的训练。的计算F0.5在下列公式表示为:
作为训练数据集的实验中,本文使用了经典conll - 2014数据集。英语语法错误覆盖在这训练数据集包括文章中,限定词,介词、名词形式,动词形式,主题谓词一致性,代词,句子结构、标点、大小写、和其他类型。应该指出,基于RNN英语语法错误的自动检测算法设计了三种类型的动词在英语句子的语法错误。因此,在经典的conll - 2014数据集,本文选择英语句子语法错误的动词形式作为标准数据集进行训练和测试,训练集和测试集的比例随机选择根据8:2。同时,应该强调,在评价实验中,为了进一步提高的性能结果,动词词的出现概率小于设定阈值的数据集是集成到一个特殊罕见的标记集 。具体地说,发生概率计算如以下公式:
在公式(17)的价值是单词的出现次数低于设定阈值,通过公式(17),概率是均匀分布在所有罕见的动词词汇。此外,在实验中,最初的文字输入是由词集嵌入式培训过程中嵌入并保持更新。同时,规则大小设置为300,而隐层大小需要设置通过使用训练数据集实验选择一个更合适的值。同时,斯坦福corenlp用于定位目标词和动词在英语句子。当预测结果不同于原来的英文句子,或概率大于目前的开发价值,将动词语法错误。除了上面的实验设计和原则,本文强调了实验侧重于语法错误的动词形式。根据清单和设置在表1动词形式定位为基本形式,过去分词和现在分词。根据英语语法知识,语法错误定位的形式动词通常需要英文句子上下文的帮助相对远离目标动词;例如,在“阻止其他事故快乐…”,“防止”通常表现为一个固定的短语,并定位目标动词“防止”需要“从”的帮助下面的上下文。因此,为了更准确地识别语法错误的英语动词形式,整个句子的上下文。
3.2。自动检测的实验评价和分析基于RNN的英语动词的语法错误
自动检测语法错误的英语动词,动词形式表所示的语法错误2和图62号示例应该认可,基本动词形式的语法错误,过去分词和现在分词可以分别确定。
此外,在前一章的设计,它是提到RNN的隐藏层起着重要的作用在整个神经网络,和隐藏的神经元的数量与记忆效应也会影响评价结果的实验。因此,为了进一步探索最合适的隐层神经单位在这个实验中,我们使用的结果K从培养目标方程的指数运算获得的评价指标建立一个比较实验,计算如公式(18),最终结果图中的示例所示7。
从理论上讲,越小K值,训练效果越好英语语言模型的自动识别,反之亦然。它可以看到从图的观察7当隐层神经元的数目在RNN增加从30到110年,的价值K显示一个下降的趋势,评价效果越来越好,这反映了英语的性能模型基于RNN算法自动检测语法错误的英语动词形式正在逐渐改善。当数量增加从110年到190年,的价值K增加,评估效果变得更糟。在此基础上,我们认为当隐层神经元的数目是110,实验效果是最好的,所以以下实验进行神经元的数量为110,和结果解释。总的来说,基于算法模型和实验设计,结果评估语法错误的英语动词形式 , ,和表中列出3。如图3索引的性能8。
根据评价指标的绝对值在桌子上3,设计自动检测语法错误的英语动词基于RNN算法设计在这项研究中有一个有限的理解语法错误的评价性能在动词形式经典conll - 2014数据集。因此,conll - 2014动词形式的评估结果使用CUUI作为最佳分类器方法相比,本文的评价结果。如图所示的细节9。
从全面的视图的图9绝对值水平指数上升了2.38点,准确率指数上升了7.50,召回率指数略有下降,和相对价值水平指数和准确率提高了5.77%和13.99%,分别。此外,它可以发现,当准确率提高,通常伴随着召回率的下降。进一步的实验表明,当探索英语语法的语言模型识别基于神经网络算法,我们需要全面考虑之间的矛盾的准确率和召回率和评价实验结果。同时,也进一步解释了研究的意义综合评价指标和评价指标。
当检测语法错误的英语动词,以完成语法错误为例,可以实现自动检测和纠错,如图10。因此,自动动词语法错误检测技术基于RNN算法提出了大大提高了准确性和适用性与传统的神经网络算法和手动标记检测。最后,它显示了结果的趋势与训练集相似。根据实验训练的评价结果,本文设计的算法模型的自动识别是有效的英语句子和动词的语法错误,可以进一步应用于实践。
4所示。结论
近年来,随着神经网络研究的兴起和优秀的信息技术的发展,英语语法错误自动识别系统与功能的评估和反馈是广泛欢迎英语第二语言学习者。其中,高效、准确的自动检测技术是关键和难点。此外,动词是英语句子的灵魂,所以它是非常重要的准确识别英语动词语法错误,因此,本文研究和设计了自动检测技术基于RNN的英语动词语法错误的算法。这种语言模型包含两个sub-RNN算法语言模型,包括输入层、隐藏层和输出层,从一开始的英语句子到目标动词和动词从最终目标。处理结果RNN最终将进入最后一层NLP的神经网络和输出最终的预测动词或动词形式。结合英语句子的上下文,正确的动词或动词形式是预测并与原句来实现自动错误检测结果。根据设计,这语言模型可以确定三种类型的动词语法错误:动词时态动词失踪,动词形式。实验结果使用经典conll - 2014数据集作为训练集和测试集显示精度,召回率,和评价指标的设计基于RNN算法是61.10%,20.32,和43.60,分别。与CUUI方法的评价结果相比,准确性和分别提高了13.99%和5.77%。证明本文设计的算法模型的自动识别是有效的语法错误的英语句子和动词和可以进一步在实践中应用。后续研究将注意力机制引入到语言模型来提高模型的表达能力。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的研究项目在江西省高校教学改革(英语专业课程体系建设通过逆向设计,没有。JXJG-17-20-9)。