文摘

词性标注的英语作文英语作文是自动校正的基础。词性标注系统的性能直接影响性能的标志和校正的分析系统。因此,本文提出了一个英语作文自动评分模型基于文章词性标注。首先,利用卷积神经网络提取文字信息从人物等级和使用此信息在粗粒度的学习层的一部分。其次,介绍了句向量,残余网络是用于建立一个信息路径粗粒度的注释和词向量信息集成。然后,递归神经网络模型依赖于提取的总体信息序列数据来获得准确的注释结果。然后,文本内容的特征提取,英语作文自动评分模型由模型融合的手段。最后,本文使用英语作文得分竞争在国际数据挖掘的数据集竞争平台Kaggle来验证模型的影响。

1。介绍

评分在整个教学过程中扮演最重要的角色,直接反映着当前的教学对象的学习情况,间接反映了教学对象的学习能力,并在一定程度上反映了教学质量(1,2]。在传统的应试教育中,分级中起着举足轻重的作用,直接涉及人才的选择。它更难以客观评分的过程中组成。作文是一种叙述方法,之后通过文字表达一个主题的意义考虑人们的思维和语言的组织。构成了一个人的语言、逻辑、和其他能力,这是作者的主观和集中表达的整体思维能力(3,4]。不难发现,评分标准和细则是描述性的,除了严格的字数和明确的标准和风格。因此,评价过程也包括得分手的主观认知和理解的评分标准,甚至作者的思考和识别自己的思想和语言。得分手的主观因素和描述性的评分标准进行评分过程相对模糊。因此,很难通过手动评分相对客观成分得分(5,6]。

针对传统的英语写作教学中存在的各种问题,英语自动评分系统形成(7,8]。特别是近年来,NLP技术的不断深入研究,ML,红外技术,等等,一些国内外专家、学者也应用这些技术来自动作文评分系统,进行自动评分系统逐渐强大的信用评分。和有效性程度已经大大提高。最具代表性的国外自动评分系统包括项目论文成绩(挂钩)9),聪明的论文评估员(IEA) (10],E-rater评分系统(11]。优秀的自动评分系统结合文本纠错的功能(12,13)可以减少人工工作量,大大节省人力和物力资源。英语作文自动评分方法的研究一直是一个挑战,不断改善的任务。

词性标注系统的性能直接影响到得分和校正系统的性能分析。同时,词性标注也会影响系统的语法分析,拼写错误检测,文字流畅,文章评分模块。因此,本文提出了一个英语作文自动评分模型基于文章词性标注。首先,利用卷积神经网络提取文字信息从人物等级和使用此信息在粗粒度的学习层的一部分。其次,介绍词层向量,剩余网络是用于建立路径的信息,和粗粒度标签信息结合词向量信息。第三,模型依赖于复发性神经网络提取的总体信息序列数据来获得准确的注释结果。最后,文本内容的特征提取。考虑的及时性反馈结果和预测的准确性,本文选择使用一个简单而有效的包装方法整合这三个模型(随机森林,GBDT, XGBoost)自动分英语作文,和每个模型乘以一定的重量。然后加起来得到最终的输出实现建筑的英语作文自动评分模型。

自然语言处理(NLP)是计算机科学和人工智能的一个重要方向。它研究的各种理论和方法,可以实现有效的人类和计算机之间的通信通过自然语言。自然语言处理主要用于机器翻译,公众舆论监控、自动汇总,舆论提取、文本分类、问答、文本语义比较,语音识别,中国OCR,和其他方面。机器学习是一个多学科交叉学科主要包括概率论、统计、近似理论,复杂的算法。它使用计算机作为一种工具,致力于实时模拟人类学习,将现有内容划分为知识结构能够有效地提高学习效率。自动英语作文评分使用自然语言处理技术允许计算机系统给予适当的分数为目标的文章。因此,本文采用自然语言处理技术和机器学习技术学习英语写作。

自动作文评分是一个自动评分的组合使用信息技术。有两个典型的应用场景一般作文自动评分技术:(1)进行自动分级工作标准化等级考试作为一个辅助工具,手动分级和分级的建议(2)它作为一个教学工具在语言教学的过程中,为学生提供有意义的评价和评论作品

其目的是为了解决上面提到的各种缺点的手动评分。主要国内外作文自动评分系统或技术如下:

2.1。项目论文年级(挂钩)

挂钩(14,15]提取文章的一些简单和易于开采的特点本文量化,使用特性,比如文章长度、字长和标点符号。

钉住汇率制使用机器学习的方法来完成得分的过程,包括两个阶段的培训和得分。模型的训练和应用。钉住汇率制的训练样本由100年到400年由专家论文得分。特征提取是进行这些文章获得每个特性建立模型的重量。在应用阶段,挂钩上执行特征提取的文章被评估并将他们带入训练回归模型来获得最终的得分。钉住汇率制能最终实现R价值0.87的不一致性,这可以说是一个很好的模拟和接近真正的得分结果。

然而,由于使用大量简单的间接挂钩特性来描述这篇文章,它不能文摘本文从文章的更深入的语义特征,钉住汇率制是容易欺骗,只要简单地满足简单的间接提取的钉住汇率制。功能可以得到一个好的分数挂钩制度。

2.2。聪明的论文评估员(IEA)

国际能源署系统[16,17)可以分析具体的文本中的单词和词组的意思。此外,开发人员认为,一篇文章的意义在很大程度上取决于所使用的词。也就是说,本文本文通过词本身的意义变化。LSA相信这两个现象通常是著名的文章。一个是同义现象描述的相同含义是不同的单词,另一个是同一个词的歧义现象描述不同的含义。因此,LSA认为,一个单词有多个候选语义空间,和这个词的真正含义是很难确定的。

表示的文章,这篇文章可以有效地分类。如果一篇文章需要得分,那么国际能源机构在同一类别需要足够的文章,有一个分数,最后得分是基于相关性文章得分和文章,得分。在某些领域,国际能源署的准确性分数可以达到0.85以上。

IEA系统分析本文从语义的角度,但表达文章的最后方法作为本文的无序组合单词,忽略了文本结构特点的文章,单词和句子之间的联系,句子和句子。声明显然是片面的。

2.3。E-Rater系统

E-rater [18,19)是第一个系统适用于广泛的标准化考试成绩。E-rater的核心技术包括两个方向:人工智能和自然语言处理。人工智能意味着系统使用一个优秀的机器学习模型来模拟人工评分,而自然语言处理技术提供支持,特征的提取和分析变量在模型中。

E-rater包含三个核心模块、语法和话语分析模块。句法分析可以提取句子的结构特点和分析文章中的语法现象,如条款的分析。话语分析是把文章通过明显相关的单词和文章的语篇结构。专题分析是本文描述的词汇。所有这三种类型的特性方言作为一个特性变量的一篇文章,然后训练回归模型评分模型。E-rater的准确性可以达到惊人的0.97。

2.4。Intellimetric自动评分系统

Intellimetric [20.,21结合了人工智能的优势,自然语言处理,和统计技术和是一个学习机器,可以内化评级机构专家的集体智慧。

整个系统的开发是一个人工评分的过程模拟。Intellimetric试图恢复手工评分方法的各个步骤的最终分数分数。整个系统构造一个feature-screening模块,它试图候选特征在训练过程中,最终决定了有效的特性,使得现有功能更有效和准确。

候选特征集包含300多个相关文章功能,和筛选模块执行功能筛选这些候选人之一。最后得分模型可以达到超过0.97的准确率。

2.5。贝叶斯论文测试评分系统(BESTY)

BESTY [22,23)使用贝叶斯分类模型作为基本的机器学习模型,通过分类成绩组成。BESTY声称使用现有成熟的最核心功能的自动评分系统的特性变量以抽象的文章和最终实现文章得分,在相应的级别分类的任务。

2.6。国内研究组成的自动评分

布里奇曼和Ramineni24)使用交叉验证方法来分析共320篇文章,借鉴挂钩和其他系统的特点,并包含大量的浅的文章语言特性,构造了一个英语作文自动评分模型,最后实现了准确率超过0.84。罗斯科等。25)使用线性回归构建作文评分系统在中国是第二外语基于超过1000样品和得分相关性为0.6。李等人。26)进行了相关研究与语义分析为核心的自动作文评分。进球后的语义的文章,发现语义评分的相关性为0.5最终人工评分的成分。

3所示。英语作文自动评分模型基于词性标注

3.1。词性标注

在自然语言处理领域,词性标记技术是一个非常重要的部分,它可以帮助我们获得句子中的每个单词的词性,这样我们就可以计数的词性特征的文本。句法分析使我们能够获得一个句子的语法结构和分析的数量条款,动名词短语,句子等。停止词过滤技术可以帮助我们删除停止词并不有助于内容的语义信息,减少干扰的文本内容与实际语义信息。

词类标记是一个过程,确定每个单词的语法范畴在给定的句子,判断其词性,并添加一个标签(27]。词性标注是一个非常简单的工作。它可以描述词的上下文的作用。这是语法分析和语义分析的基础。因此,词性标注也是一个非常重要的任务。标记结果的质量将直接影响整个系统的性能。我们所说的工具用来完成词性标注词性的薄铁片,和一组标记用于特定任务称为标记集。

英语作文的词性标注是自动校正的基础。词性标注系统的性能直接影响性能的标志和校正的分析系统。对于语法错误检测尤为重要。因为语法错误检测的语法规则主要由词性和词本身,同时,词性标注也会影响系统的语法分析,拼写错误检测,文字流畅,文章评分模块。

如图1,该模型首先使用一个卷积神经网络提取文字信息从人物等级和使用这个信息在粗粒度的学习层的一部分。介绍了句向量,剩余网络是用于建立一个信息路径粗粒度的注释和词向量信息集成。最后,模型依赖于循环神经网络提取的总体信息序列数据来获得准确的注释结果。

3.1.1。词特征提取

当使用神经网络来处理文本数据,您首先需要数字化或vectorize的话。许多网络结构词汇映射到数据向量。其中,skip-gram的网络结构和连续bag-of-words是简单而高效。

本文设计一种CRNN文字从人物等级进行向量化。因为一个角色是最小的单位,组成一个字,和总数量的字符是一个有限集,这个词代表人物等级可以从根本上解决这一问题的未注册的单词。如图2,输入“这”为例,首先,这个词是根据字符分解,每个字符映射到一个向量。然后结合每个字符的向量矩阵这个词。最后,通过卷积的过程、池、复发性神经网络特征提取,最后CRNN词向量。

3.1.2。粗糙的学习

从深度学习的角度来看,底层的先验知识的因素可以解释数据变化往往是跨两个或多个共享任务;同时,由于参数的共享,可以大大提高参数的统计力量,和泛化可以改善。

标签模型本文将标签过程划分为浅和深多任务学习的过程。首先,大致标签数据。然后进一步将同一类别的标签。这种划分方法可以有效地英语作文的词性信息和其他全集。本文中的模型分类注释标签以粗粒度的方式。

3.1.3。建立信息通道

本文中的模型将标签划分为两个部分。首先,执行的标签,然后使用大约为细粒度标签标记信息。细粒度的注释,原始输入信息提取和过滤,和一些功能不习惯在最后的细粒度的注释。此外,随着网络的深度增加,训练网络的难度增加。

剩余网络建立一个信息路径通过设置一个阈值函数,可以通过网络传播信息层。因此,本文结合了残余网络划分网络水平,建立路径在不同网络层的信息。与两层的直接积累相比,建立路径的传播中起着重要作用的梯度,从而减少训练模型的复杂性。

3.1.4。批正常化

培训的深度网络,网络的每一层的输入会改变数据分布的改变网络参数的上一层。这种模型要求必须使用一个小网络培训、学习速率和参数需要初始化。然而,这样做会使训练过程缓慢而复杂。本文模型中,批处理标准化介绍批规范化数据。

sequence-labeling模型在本文中,第二层的输入BLSTM由三部分组成:(1)第一层BLSTM的输出(2)向量在单词层面的原始数据的信息(3)字符级矢量CRNN提取的信息

结合这三个部分的时候,你需要分别执行批处理规范化操作标准化的数据分布。如图3,网络模型使用CRNN提取字符级矢量信息从输入句子然后获得粗略的标签信息的标签。原词向量和CRNN形式输入的字符提取BLSTM的第二层。与直接拼接作为输入相比,本文中的模型执行批处理规范化操作这三个部分,分别。

3.2。英语作文自动评分模型

英语作文评分的总体设计模型如图4。它主要由四个部分,即字幕度特性生成模块,内容文本特性生成模块,非文本特性生成模块和机器学习模型预测模块。

3.2.1之上。扣除度特性生成模块

th功能项fi的文本一个,如果fi出现在文本一个,它的房颤值如下:

考虑到文章的长度的差异,为了方便比较的文章,通常需要规范词频率:

房颤_F价值是商品的频率特性fi出现在全球文本GA,即

功能项fi,相应的特征项权重如下:

TF-IDF重量综合考虑项目的区分能力和频率特性。

3.2.2。内容的文本特性生成模块

生成内容的文本特征,本文首先使用维基百科word2vec英语语料库训练模型。然后输入构成文本获得相应的词向量组组成的文本。然后随机选择集群中心。此外,迭代计算每个单词所属类别和调整集群中心,直到收敛。这些词向量聚类后,在这个词的字数类别词向量聚类后,词汇量的大小和计算词的分布特性。

模型训练word2veC使用维基百科的英语语料库和集群的数量设置为k。算法流程如下:(1)使用该模型来生成文本的词向量,并设置文本的词向量组 ,在哪里t这个词是文本的向量。(2)随机选择c聚类中心 (3)为每一个 ,计算的范畴t属于: (4)为每一个 ,调整集群中心J: (5)判断集群中心不会改变了,和输出 ,否则返回到步骤2)。

3.2.3。非文本特征生成模块

非文本的生成功能,单词的文本属性可以通过语法分析,和作文的字数文本,文本单词后移除重复单词的数量,平均长度和方差的话说,名词,动词的数量,和形容词可以计算。非文本特性分为两个级别的单词和句子,主要包括词汇特征和句法特征。

3.2.4。机器学习模型预测模块

整体学习模型融合的表现,这是一个很常见的数据挖掘技术来提高性能在各种比赛。通常,结果可以提高在各种机器学习任务。

考虑的及时性反馈结果和预测的准确性,本文选择使用一个简单的和高效的自动装填方法集成的三个模型分数英语作文。每个模型乘以一定的重量。然后积累得到最终的输出。这个重量是选择最优参数,调试后相应的重量通过离线测试集。假设随机森林预测价值,GBDT模型预测值b,XGBoost模型预测值c,最终模型的预报值如下:

权重 , , 通过离线测试集训练,它们的和是1。

4所示。结果与讨论

4.1。数据集

本研究的数据集是Kaggle公开,这是一个公共平台,机器学习竞赛。我们可以注册一个免费帐户下载比赛举行的训练数据。该数据集是第一语言学习者的英语作文成绩7 - 10,包含8个子集。每个子集都有独立的数据,独立的主题,不同的文章平均长度。

如表所示1,文章类型主要是讨论、叙述、解释和回答问题。论文、叙述或说明的文章需要作者的文章来描述一个故事或新闻。而回答问题需要作者先读一段材料,然后写一篇文章最后根据给出的问题和需求的阅读材料。八个数据子集的主题是不同的。其中,子集1要求谈论电脑对生活的影响。子集2是关于图书馆是否需要审查的内容的书。3 - 6子集是阅读材料,然后根据提示写这篇文章。子集7需要写一个关于耐心的故事。子集8显示了笑是人际关系的一个重要元素,和一篇关于笑声是必需的。

4.2。参数设置

在神经网络训练之前,hyperparameters神经网络的初始化。首先,这两个特征向量和向量需要初始化这个词。此外,为了防止过度拟合,还需要设置辍学和控制学习速率。对于这个词的初始化向量,我们选择使用手套向量与更好的性能表,包含60亿个单词从文本获得培训等网站维基百科。字符级矢量表示为随机初始化使用平均分布。即,每个维度的每个字符向量是0和1之间的值。

训练神经网络时,添加一个辍学层递归神经网络的输入和输出层控制网络培训,防止过度拟合。辍学的比例设置为0.5。在实验中,这同样适用于是否使用辍学。在模型中,一些hyperparameters设置如表所示2。其中,隐层的尺寸设置为200。使用亚当优化算法,模型训练和每一批被设置为10。初始化学习速率为0.01。本文使用贝叶斯优化算法来优化超参数。首先,假设一个搜索功能基于先验分布。然后,结果每次采样点是用来测试目标函数,使用这些信息来更新目标函数的先验分布。最后,该算法测试的全球最大价值的石油可能出现后验分布。在这种情况下,参数,满足条件的最优参数。

4.3。结果分析词性标注

在本文中,我们基于标签进行比较实验的复发性神经网络模型。如数据所示56、分析和讨论网络结构中的每个结构的有效性,并分析在不同的标签任务网络的有效性。同时,根据词性标注不同的语料的比较,分析模型的通用性在处理不同的语料如图7。本文的结果与文献[28),最大熵模型的词性标注算法(29日),隐马模型的词性标注算法(30.),基于支持向量机和词性标注算法(31日]。

如数据所示56,基本的网络被设计成使用句连接两层BLSTM向量信息,引入残余BLSTM的两层之间的网络结构。基于基本的网络,引入coarse-labeled监管层后,在一个单一的培训,将包括两个参数更新过程,介绍了粗粒度的标签将监督网络,提高标签的准确性。然而,在上面的网络中,输入的第二层BLSTM由两部分组成,两部分的数据分布并不是均匀的。引进一批标准化后,输入的两个部分的标准化是实现。这个时候,网络结构(BRCBN)改善了标签的准确性。前三个网络模型都有未登记的单词的问题。在培训期间,未注册的单词的词向量在未经训练的状态。这些词的标记结果无关的网络结构和往往是随机的。引入CRNN后立即在这项实验中,这句话从字符定向水平,这些问题就都解决了学习单词的组成的关系。这个网络的准确性(BCRCBN)词性标注实验达到了0.976,和F在命名实体识别实验1值达到0.913。

在传统的网络模型是带注释的一个特殊的语料库,注释的准确性往往是由于语料库不足。例如,使用塞纳模型[32),第一次使用卷积神经网络字符信息提取,然后使用标签的前馈神经网络。当作文语料库词性标注,标注精度是0.953。(Akhil et al。27)用多层神经网络将标签过程分为两个步骤。此外,在最后一层,CRF用于标签。当写英语作文语料库词性标注,标注精度达到0.956。与之前的研究相比,本文模型的精度达到0.976,如图7。因此,即使包含英语语法错误标签的语料库,本文中的模型仍然可以维持一个贴标精度高。

随着模型的复杂性增加,模型介绍了辍学解决过度拟合问题,如图8(一个)。结果在实验中,而没有辍学,辍学可以显著缓解过度拟合问题。这是因为辍学随机使一些网络隐层节点的权重不工作和限制重量达到正常效果。

词向量的选择,本文中的模型使用手套的50维,100维,和300 -维词向量进行比较试验,并与随机初始化方法相比,如图8 (b)下面的节目,最后选择使用100 -维向量来初始化这个词向量模型中。

4.4。自动评分模型的分析结果

使用非文本特性,本文分别火车模型8组成的子集和预测测试组分数和计算相应的twice-weighted Kappa值。实验结果如图所示9

从图可以看出9在所有数据集组成,随机森林second-weighted Kappa值最大,其次是XGBoost,梯度增加树最低的结果。这是因为每个组成部分只有1000多论文,和所有作文加起来超过10000个样本子集,并参与培训的数据模型仍然是不够的。两个模型,如梯度提高树和XGBoost,实现基于提升方法,所以当的数据量小,模型容易过度拟合数据。即模型相对复杂,太多考虑样品的个性将涵盖样本的共性,导致可怜的预测效果。随机森林是基于装袋方法,它使用多个决策树生成的结果生成预测结果的形式投票或平均。通过这种方式,即使的训练样本数据量很小,它仍然可以有效地避免过度拟合和降低方差。因此,随机森林可以显示更好的预测效果的数据量很小。我们相信XGBoost模型增加了成本函数的正则化项来控制模型的复杂性和限制树的叶节点的数量,可有效防止过度拟合。此外,XGBoost模型还利用随机森林列抽样法,也可有效防止过度拟合。因此,尽管它基于提升理念,也是一个模型的影响XGBoost模型比梯度增加树模型。 It can be seen that in combinatorial subsets 4 and 8, the quadratic weighted Kappa value of the XGBoost model is slightly higher than that of random forest. In combination 8, the quadratic weighted Kappa values of the three models are relatively low. The author analyses that this is related to the larger scoring range of the composition set 8. When the scoring range is larger, the corresponding error will be magnified.

5。结论

本文提出了一种为英语作文自动评分模型。该方法使用一个卷积神经网络提取文字信息从人物等级和使用粗粒度的学习功能层。然后,句介绍了向量与词向量信息集成粗粒度的注释。然后,RNN用于提取序列数据的整体信息。考虑反馈的及时性结果和预测的准确性,本文选择的一种简单而有效的装袋方法随机森林的线性融合,GBDT, XGBoost。每个模型乘以一定重量然后加起来得到最终的输出,实现建设英语作文自动评分模型。实验结果表明,本文提出的自动评分模型取得了一个好的POS标签,精度达到0.976。

本文虽然取得了更好的实验结果,但仍然使用公开数据集。但公众数据集包含的数据量有限。我们的下一个研究计划是建立我们自己的数据库和训练算法在多个数据库,以提高算法的鲁棒性。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。