文摘

英语写作是英语学习者认为英语学习最大的应用程序的一部分,最彻底的理解,最具挑战性的指令。它会自动检测和纠正(DAC)语法错误在英语写作中,这是英语学习和教学过程的关键。本研究的目的是探讨序列注释模型和Seq2Seq基于循环神经网络,神经网络模型,利用这两个模型来检测语法错误在英语(大学)。本文提供了一个针对DAC方法基于序列注释借助序列注释模型。同时,这项工作提出了一种针对DAC方法基于Seq2Seq序列注释集成模型。模型不再是训练在单一形式的语法错误,而是在所有类型的错误结合,允许它应对任何大学。这项工作考虑语法错误与固定的DAC混淆集,如介词和冠词。这个模型的F文章1值误差修正为38.05%,高于33.40%F1值伊利诺斯文章纠错。的F介词纠错1值为28.89%,高于7.22%F伊利诺斯大学香槟分校1值介词错误修正。

1。介绍

人工智能教育是一项新的研究主题,结合了教育和人工智能。它关注教学和教育管理人工智能。自然语言技术快速发展与大数据时代的持续增长。因为自然语言技术被频繁应用于对话系统,公众舆论分析,和文本分类,将人工智能技术整合到一个自动的好处英语写作测试暴发期间变得更加明显。

模式识别(1),自然语言处理,机器学习(2),和其他领域都是自主英语写作测试技术的一部分。深度学习有广泛的应用,不仅在机器视觉,因为其优越的学习和表现能力。在自然语言处理领域,它还经常利用。文本相似度的研究是目前的主要问题电脑对英语写作评分算法。在文档分类,利用智能问答系统,和相关文章推荐系统等应用。它使用深层神经网络(NN)技术来提高作文自动评分系统的准确性。改善系统的交互性,本研究综合写作反馈理论与数据可视化指导方针,开发一个新的反馈报告。人工智能技术将改变英语写作反馈系统,实现了真正意义上的个性化教学的英语写作。

本文的创新如下:(1)提出了一种神经网络模型能够有效地解决序列标签。不同于之前的注释模型,这个模型集字符、字和序列信息,介绍了粗粒度的学习,将注释过程划分为两个阶段,以使注释过程更加健壮。(2)提出了一种针对基于序列注释DAC模型的方法。这种方法使用序列注释标签模型提出了语法错误,以避免手动提取大量特性的问题,在传统的方法。(3)英语语法错误检测和校正的方法使用seq2seq提出了神经网络模型。这种方法直接将原始序列映射到目标序列没有区分错误类型。

英语写作训练系统将极大地促进传统教学结构的改革和创新。刘克提出了一种改进的粒子群行走路径优化算法来解决传统模式的缺点和智能英语写作的特点。实验研究表明,所构造的模型有点聪明。李H旨在调查韩国大学英语写作课程的影响关注自我和同行评议学习者自主性为了找到方法来提高英语写作课程的质量。阿利耶夫Ismayilova旨在找出将电影纳入online-supported英语写作教学的有效性。研究起到了至关重要的作用在所有学生的生活3]。科学写作是很困难的,Makarenkov等人提出了一个新的基于机器学习应用程序选择正确的单词任务,而先进的语法纠错使用error-specific分类器和机器翻译方法(4]。Aljunaeidia等人旨在实现一系列的预处理功能的手写阿拉伯语字符轮廓分析和轮廓向量输入到神经网络识别,算法结构的识别率是97%5]。文章旨在探讨使用智能板的影响提高英语写作技能的9年级女学生在南Al-Mazar教育委员会在2017 - 2018年。他设计了一个学习工具(预先测试)来测试学生的写作技巧的有效性和可靠性6]。由于语音情感识别(SER)有其挑战自然和发展前景,谷纳温等人旨在承认人类语言的情感选择使用深层神经网络(款)提取语音特征梅尔频率倒谱系数(MFCC)从原始音频数据7]。尽管他的研究做出了巨大的贡献人类语言的情感分析,其应用范围仍然非常有限。

3所示。英语写作基于神经网络的智能测试方法

3.1。传统的英语写作测试方法

将人工智能技术的好处(8,9到教学在流行期间尤为明显。老师能教和年级的作业在世界任何地方。学生上传作业照片。教师用照片来纠正学生的作业。尽管这种工作方法结合现代技术,工作负载仍很高。同时,评估是一个策略来评估学生的学习效果。教师的工作量要做的标记是巨大的。客观和书面问题是最常见的形式的英语考试的问题。

目前,标记技术的客观问题,计算机可以通过匹配判断成绩学生的答案与标准答案,以及英语写作的判断基本上是基于手动纠正试卷的方法。整个过程可能是重复的,耗时的,不一定可靠10]。许多外部因素会影响人工评分结果的主观问题。评级机构将使不同的主观意识得分结果不同,使得分结果不公平和准确。因此,它具有十分重要的价值和意义研究英语写作的自动评分技术(11]。目前,英语写作的自动评分技术不是很成熟,但在自然语言处理的发展,将深度学习集成到自动评分系统将提高自动得分技术的准确性。当深学习算法(12)应用于领域的自动评分,计算机可以自动评分的英语写作大量的试卷更快和更公平。这大大减少了评级机构的工作量,使英语写作的评分结果更加公平和客观的。

3.2。神经网络基础

神经网络是一个计算模型受生物学。生物神经网络,不同的神经元相互连接,其行动范围如图1

从图可以看出1多层神经网络的反向传播算法,即BP神经网络模型,得到了改进13]。反向传播算法可以提高效率等参数调整神经元重量和具有较强的学习能力。这也是一个比较流行的神经网络算法。其模型如图2

如图2卷积神经网络训练主要包括两个阶段:正向和反向传播(14]。第一阶段是数据从输入层,通过每个后续层,最后到达输出层,向前传播阶段。一般水平的信息,可以获得节点的输出值与前一个节点的输出加权求和。在这个阶段,卷积前要初始化内核模型训练(15]。另一种是传播的过程之间的区别当前传播结果和目标价值从输出层。反向传播阶段是计算值之间的误差结果的阶段和目标价值,并调整权重矩阵通过最小化误差(16]。

平均平方损失函数通常用于最小二乘法。平均平方损失函数公式所示:

其中,y是真正的价值和 预测的价值。当使用平均平方损失函数,因为它的偏导数值非常小,当输出概率值接近于0和1,它使得偏导数值几乎消失当模型开始训练。最初的训练速度非常缓慢。横条线损失函数的公式可以表示为: 一个表示积极的概率预测,N代表总样品数(17]。添加一个额外的功能后,损失函数叫做正规化。主要限制模型中的参数来减少过度拟合的可能性,从而降低模型的复杂度,提高模型的泛化能力。数学表达式公式所示:

其中,xy训练集样本和对应的标签, 是权重系数向量; 是目标函数, 是惩罚项。常见的处罚条款包括l1正则化和l2正规化[18]。

3.3。神经网络词向量表示

cbow的特点(连续词袋模型)模型的输入向量之前和之后的一个中心词,这个词、输出的概率预测。它工作在一个小型语料库。CBOW模型需要计算的概率从上下文生成核心词词(19]。考虑到 上下文背景的词 = , 。。这个词的向量中心词 ,和背景词向量 ,计算 的条件概率 :

其中, 表示上下文信息。

假设年代单词在文本中被训练,年代单词是 ,和窗口大小。然后,可能cbow表示为的函数 ,代表的概率生成任何中央词(20.]。

所示的损失函数使用公式

计算任何背景词的梯度向量 ,(= 1、2、3…2通过分化,见公式:

假设这个词向量和为中心词 为背景词,概率 生成背景的词 根据中心词

我们的目标是最大化似然函数。在培训过程中,使用的损失函数如公式所示;

梯度下降法主要用于参数更新。任何中央词的梯度计算公式:

3.4。RNN训练过程

RNN培训分为两个过程:正向传播和反向传播,迭代以时间为核心的。培训过程如下:

3.4.1。向前传播

假设的输入向量隐藏层r,输入层和隐层之间的重量 ,输入向量x,隐藏层的输出向量在前面的时间,隐藏层的输入向量t是公式。

隐层节点的输出向量公式(11)时间t

代表输出向量 代表了隐层的激活函数。

3.4.2。反向传播

BPTT(反向传播通过时间)是一种常用的算法训练RNN。在本质上,它是开发基于BP算法(21,22]。培训过程如下:

假设误差函数E,错误e的节点j是通过链推导,隐藏层的误差在时间吗t是公式。

然后,重量。在这里, 采用梯度下降法。推导公式如公式所示

然后,根据学习速率,计算重量的调整公式如下方程

RNN BP神经网络解决问题不记得时间序列,但是网络也有问题,如记忆退化,梯度爆炸或消失,从而影响预测精度(23]。

3.5。LSTM模型结构

LSTM也被称为短期和长期记忆网络。它属于像RNN链结构。LSTM可以捕获长途词信息,而RNN难以长途信息集成到当前信息(24]。因此,当处理长序列信息,使用的效果比RNN LSTM要好得多。LSTM的单元结构模型如图3

如图3,每个LSTM层包含三个部分:忘记门,输入通道和输出通道。LSTM的目标是控制信息的传输通过这三个控制盖茨,以解决可能的梯度神经网络消失现象。使用这些控制机制,LSTM也可以用来构建编码器和解码器。它在机器翻译领域取得了良好的结果。LSTM选择性丢弃每个单元的信息通过三个大门。的工作状态有三门如下:

第一步是使用忘记门控制多少来自上层的信息可以传播到下一个步骤,并有选择地将来自上层的信息发送到下一层。它是由乙状层实现。忘记门值 公式所示:

第二步是由两个神经网络层实现的。它包括乙状结肠层和褐色h层。这是第一,以确定哪些信息是更新,和所示的计算公式(16)。第二个是用于创建一个新的候选人数据。它结合了这两个值更新。

最终的输出门决定了输出值。这个过程需要处理废弃的信息并确定通过乙状结肠层输出信息。它将更新的信息转换为价值通过谭−1和1之间h,计算阈值的输出 和输出值

4所示。在英语写作中语法错误和校正实验

本工作设计一个针对DAC实验的基础上,针对基于序列的DAC方法注释。本文利用开放数据源。实验完成了使用数据划分方法在先前的研究。新闻语料库《华尔街日报》和中国学生英语作文语料库由用于标记词性。有45个不同的词性标记标签在《华尔街日报》文集,25部分。实验采用相同的划分方法是早期的研究。训练集0-18组成部分,验证集是由19 - 21的零件,和部分的测试集是由22 - 24。上面的语料库的具体数据分布如表所示1

如图1,中国学生所写的英语作文语料库从中国学生所写的英语作文中选择收集的校正网络,包括44个不同词性标记标签(包含在45标签的《华尔街日报》语料库)。语料库包括13762个英语句子,其中10000作为训练集,选择2416年作为验证集,和1346年作为测试集。命名实体识别使用共享任务命名实体识别conll2003语料库。采用以前的工作一样的设置,第一个14987句作为训练集,3466年作为验证集,和3684年作为测试集。

4.1。针对序列标签在DAC

序列注释模型基于DAC针对复发性神经网络设计。因为英语的语法错误,它们中的大多数都是使用词性,时态或冠词和介词在英语句子,本文评价数据的统计conll针对DAC,和统计比例如图4

如图4,有很多错误类型标记的数据,但评价的任务主要是针对五种错误类型:文章错误,介词错误,名词错误,主谓一致性,和动词形式错误,从统计结果,从针对五种常见类型的分布,冠词和介词的使用错误占很大比例。此外,混乱的介词和文章错误是相对固定的。

4.2。英语肯定错误Seq2Seq DAC

本文使用基于循环序列注释模型神经网络加以定位,完成对DAC的无法解决的问题的缺失等等。另一方面,当解决大学与混乱不确定集的类型,这取决于全集等单词形式变化。因此,序列标签模型应用于Seq2Se模型,并针对解决的DAC将原始序列映射到目标序列。

4.2.1。准备系统架构

本文设计并实现了针对DAC分成三个模块,包括文本预处理模块,英语语法错误DAC模块基于序列标签,并针对基于Seq2Seq DAC模块。架构图如图5

如图5针对DAC模块基于序列注释包括介词错误DAC模块和文章错误DAC模块。Seq2Seq-based针对DAC模块包括编码模块和解码模块。

4.2.2。编码层

Seq2Seq模型需要的编码部分编码序列中的信息文本。在随后的解码,它可以引用更多的语义信息。根据设计的序列标注模型,编码的部分是设计为一个网络结构,如图6

如图6输入序列文本,文本中的每个位置由一个向量通过编码层。在这个向量表示,这个词的上下文信息集成。在特定的编码层,crnn结构设计序列注释,每个单词的人物等级向量中提取。本文获得的人物等级向量信息输入blstm,语义向量信息,最后是通过合成上下文信息。

4.2.3。解码层

Seq2Seq解码部分,编码解码数据从原始序列得到最终映射到目标序列。注意解码的结构图如图7

如图7语义信息后,得到的编码部分解码。解码时,介绍了注意力机制构建解码层。解码时时间t解码信息t在时间取决于解码信息T1,以及语义信息进行编码。然而,这部分语义信息分配的重量输入文本中的每个语义向量序列通过引入注意力机制。解码时,有一定的偏见在使用所有输入文本的语义向量序列在时间t

4.3。英语语法错误DAC

例如,编码和解码层设计。当编码,编码层的网络结构类似于序列注释描述网络。在解码的过程中,注重机制引入平衡语义信息和当前输入的重量在应用整个语义信息。Seq2Seq结构图如图8

如图8本文模型的输入数据集一样的句子语法错误和输出句子没有语法错误。这时,之间不存在一一对应的两个句子的长度对。此外,当解决大学的DAC,我们再也不能区分类型的错误。无论词被滥用或失踪,他们可以直接解决。

4.4。参数设置

在神经网络的训练之前,超参数的神经网络初始化。初始化向量选择GloVe6向量这个词表的哪个更好的词相似度评价和尼珥任务。矢量表包含60亿单词的训练文本等网站维基百科。超级参数设置如表所示2

如表所示2,当神经网络训练,辍学层添加到输入和输出层循环神经网络控制网络的训练,防止过度拟合的发生。比较实验中也对是否使用辍学。

4.5。评价指标

本文不同全集用于验证模型的效果在序列注释任务基于循环神经网络,和F1是用作评价指标在命名实体识别。

PR分别代表精度和召回。在针对DAC基于序列标签,因为它涉及到特定的介词和冠词的DAC,评价指标的2013 conll针对DAC任务用于实验的比较。

5。两个实验设计

5.1。实验结果的序列标签基于循环神经网络

本研究进行对比测试的POS和尼珥任务使用提供的基于循环序列注释模型神经网络。的监督粗注释层(BLSTM +剩余成本+ 2)基线网络(BLSTM +残余)需要两个参数更新在一个单一的训练,而粗注释介绍网络监督加强注释准确性。不同的网络结构的准确性对词汇注释的《华尔街日报》语料库表所示3

如表所示3,输入的第二层BLSTM在上面的网络由两部分组成,其数据不是均匀分布的。网络结构(BLSTM +剩余成本+ 2 + BN)可以改善注释的准确性因为批处理集群标准化的介绍这两个输入组件。在训练期间,未注册的词向量总是未经训练的,这个词段的注释结果往往更随机的和独立的网络结构。不同的网络结构中用于识别命名实体CoNLL2003文本语料库。结果显示在图9

如图9实验中,介绍了CRNN解决00 v问题的引导词词组成等人物等级和学习的关系。BLSTM + CRNN +剩余成本+ 2 + BN网络97.60%的单词注释实验。赋值的精度是实现,91.38%指定同源表达式识别实验。

5.2。实验结果针对DAC基于序列的注释

实验结果的基础上,针对基于序列的DAC方法注释(LSTM GEC) conll针对DAC的评估数据,本文比较了基于语料库方法针对DAC(语料库GEC)(31) 2013年伊利诺斯最好的评价。冠词和介词的纠错结果如图所示10

F1的文章纠错的方法是5%大于伊利诺斯法和5%高于语料库GEC方法,如图10。这种方法的F1值是21%高于伊利诺斯法和13%高于语料库GEC法修复时介词错误。它表明,针对DAC方法基于序列注释描述本文是有效地解决文章和介词的语法问题。这是由于这样的事实:这个词向量携带大量的背景信息。我们可以更好的学习依赖信息,确定文章或介词使用序列注释的使用本文中描述的模型。

6。结论

英语写作有很多语法问题,比如拼写错误,用词,紧张的问题。结果,自动检测和校正语法错误在英语写作是非常重要的英语老师和学生的英语学习和教学。基于规则和统计数据的方法在这一节中使用的方法:基于规则的技术依赖于手工提取大量的整流规则,费时,可能导致两个规则之间的不一致。统计方法依赖于大规模语料库的支持,和纠正效果是无效的。我们观察序列标签基于复发性神经网络模型和Seq2Seq NN模型在本研究中,我们利用这两个模型DAC大学。一种针对DAC的方法提出了基于序列注释使用序列注释模型。过校正问题,比如同义词替换,将出现。这也是一个挑战标准化序列序列映射和解码处理这种类型的噪音问题。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者没有任何可能的利益冲突。