文摘
自动级组成,自动作文评分主要采用统计,数学分析,机器学习,自然语言处理,和其他技术。摘要提出了一种基于机器学习为英语作文智能评价模型。因此,本文提出了一个词向量grouping-based文本内容表示方法和向量空间模型表示文本内容的方法。Word2Vec模型是第一个训练的话,那么用于生成测试向量模型的词,统计信息的相应单词在每个类别作为内容的文本功能。结果表明,当基于词特征向量聚类被添加到文本内容,每个模型的效果显著提高,尤其是最大熵模型,提高了0.048。XGBoost模型也出现了显著的改善,从0.771到0.803。测试语料库由100篇文章随机从语料库和测试集是检查错误。的速度精度为68%。结论表明本文提出的模型可以帮助促进英语教学改革和高等教育素质,同时也缓解了教师和学生的负担。
1。介绍
英语作文可以反映学生的写作、思考和分析的能力,它是必要的和重要的考试内容为标准考试培训和各种英语考试。传统的纸质考试不能跟上当今考试的要求。这种传统考试不仅需要很长时间,但它也浪费大量的纸张和花费很多钱。人工智能技术正在对教育产生重大影响的概念,教学模式和考核方法领域的教育。智能校正兼容多种组合场景,包括在线提交,扫描和识别手写答案表,以及测试、作业和其他模式。智能修正将学生的作品转换成电子格式。基于知识库的专家系统可以让电脑做许多事情,聪明的老师,和他们能做他们的速度增加了无数次,无数次的范围扩大了1]。
一线教师经常纠正英语作文的问题困扰,因为他们是过度劳累和缺乏时间和精力去这么做。根据元,我们必须首先解决作文评价和修正的问题才能解决英语写作教学的问题(2]。刘和李的量化语言特征提取成分作为指标成分质量(3]。然而,由于该系统只有一个评价角度,完全依赖专家提供的评分指标的统计结果,不直接评估组成的内部质量,导致倾斜的得分结果。Smali等人使用文本prerank文章质量排名前使用分类器级他们(4]。这种方法可以成功地识别候选人的使用高质量的短语,但不能提取深度语义特征。为文本聚类特征中提取文本,禁令和宁使用Word2Vec词向量和卷积神经网络(5]。刘等人提出了一个计算方法之间的相关性分数组成被测试和主题基于丰富的特性。因为这种方法需要培训不同的作文主题为了获得不同的特性,它有一些实际的限制(6]。随机反应和Gurcik提出的索引技术。通过逐步积累文本向量在最后的聚会,随机获得语料库索引的同现矩阵,需要很少的时间结构。与此同时,采用增量法,可以获得准确的词向量只使用少量的文本信息(7]。
自动计算机分级可以快速获得评分结果和相关反馈,让学生获得及时的反馈和节省宝贵的时间。因为不同的学生需要不同的学习指导和学习目标使用软件时,有必要学习软件为了使个性化诊断学生的反应和为不同的学生提供有针对性的学习指导。因为目前的自动评分方法有缺陷,我们使用机器学习来评估质量的成分利用文章的语义信息和机器学习8,9]。现有的作文评分系统相比,它相当于得分组成的主要思想和中心思想表达的成分,这是接近真实的评级机构所使用的评分法。
本文的研究贡献如下:(1)本文基于ML算法和介词检查模块设计,和语法检查问题等价于分类问题。在比较几种常见分类器,它是确定最大熵模型用于建立预测模型并提供纠错和判断的功能。(2)英语作文自动评分系统。和选择不同的ML模型来确定类型的作文主题内容分析,以及设计和提取大量的非文本特性,可以从侧面反映出学生作文的质量。英语作文表示方法的基础上,算法检测不同类型的无目的性成分分析八卦成分开发的程度。
2。相关工作
2.1。英语作文的探讨智能评估
在一次英语考试,作文的分数消耗最多的能源。在评价的过程中,我们应该注意单词的正确性,语法结构和上下文的成分。评分老师,不但要分级是合理的,但它也很耗费时间。一些学者指出,自动评分系统使用近似变量和内在变量得到分数。阿特金森等人提出一个LSTM(长短期记忆)年级英语作文(10]。它的一个显著优势是,整个过程不需要开发人员手动提取特征,而且没有功能工程在整个生产过程中。结果表明,取得了良好的效果。Bandhakavi等人开发了一个自动作文评分系统基于潜在语义分析(11]。Bozanis Houstis使用大量的主题模型生成的训练noncomposition全集预测作文的主题分布进行测试,提取相应的单词从主题分布作为主题句成分进行测试,并在此基础上,进行主题分析通过之间的匹配程度的主题词汇成分进行测试和模型的文章(12]。
最重要的一个问题英语作文的校正是语法成分的问题。英语语法是灵活的,难于掌握,大学英语水平参差不齐,和作文的质量参差不齐,给检测带来困难的英语语法。Lo和Lo开发第一个作文评分系统,提取文本的表面特征,如单词长度和代词数,并用多元线性回归预测作文分数(13]。Narudin等人根据其语义信息评价作文的分数。为每个论文评分,这篇文章的隐含的语义特征是通过隐式语义分析,并计算预测的作文分数是相似的语义特征向量已经分级论文(14]。陈和他提出了一个基于n元语言模型的层次聚类方法(15]。这种方法意味着我们可以选择多个类别的类别层次结构来表示词分类,可以平衡情况,某些类别的表现力不足由于小数量的单词。
2.2。毫升技术研究
ML算法在学术界和业界中具有较大的实用价值。由于大数据的数量和复杂性,许多传统ML算法对于小数据不再适合大数据的应用。因此,大数据环境中ML算法的研究已经成为学术界和产业界共同关心的话题。
Brockherde等人提出了一些关于大数据的统计推理方法(16]。当分治算法用于处理统计推理问题,有必要从巨大的数据集获得置信区间。周等人解决如何准确预测在线特征选择通过使用一个小而固定数量的积极特性通过研究稀疏正则化和截断技术(17]。丰塔纳等人相比,一些现有的特征选择方法,提出了一种分布式特征标签模型。在这个模型中,可用特性的数量是一样的,在真实数据。他们的测试结果在一些高维数据表明,不同的特征选择算法有不同的性能在不同的模型条件下,样本的数量相关,全球和异构的标签(18]。
莫尔等人提出了一种特征选择算法分类(19]。算法使用本地学习理论将复杂的非线性问题转换为一组线性问题,然后学习框架的功能相关性最大的区间。草根阶层等人使用英语网页标记信息来解决跨语言分类的问题,并提出了基于信息瓶颈的方法(20.]。该方法首先翻译中文成英文,然后编码所有网页信息瓶颈,只允许通过有限的信息。这种方法可以使跨语言分类更准确和显著改善一些现有的监督和semisupervised分类的准确性。
3所示。方法
3.1。英语作文的整体设计智能评价模型
在传统的彩票问题,每个学生都是随机选择的每个问题问题库。问题类型困难必须有一个值。对于学生,可以问的问题很简单。另一方面,这可能是一个困难的问题,因此,尽管这种主题选择的方法极大地避免作弊,还影响了考试的公平性。英语作文的智能评价模型可以实时生成个性化的个体和类分级报告和显示他们在老师的窗口。智能评分是用来考试作文评价和数据分析,减轻教师的工作量,不仅减少的负担纠正老师的成分,但也允许老师给学生提供更多的个性化指导。最后的作文分数,每个维度都有线性相关,单调性,独立、包容,和平衡。的作文打分然后会根据每个维度,产生多个分级结果。句子段落的语料库包含一个数据库和语言点的文章,可以实时更新。最终成绩结果宣布时,相关的反馈(包括句子、段落和一般的反馈)是实时更新的,和学习者可以使用此反馈来提高他们的语言技能。
在自然语言,单词是最基本的单元,完成语言意义和可以独立使用。因此,文字处理是自然语言处理的基本的和重要的。自然语言中的所有文字进行分类根据其特定的意义和语法功能,结果被称为词类,如名词、动词、副词、形容词和介词。英语分词比中国人简单得多,因为英语单词经常用空格分开。使用这些单词的集合作为句子的基础研究。因此,作为自然语言研究的主要链接,一个句子是否可以合理、正确地分解成的话会影响系统的整体效果。
大学英语作文,在测试方面,关注学生全面运用英语知识的能力,比如拼写,单词位置,语法、词语选择、句子结构,以及对本质的理解,设计规划,和修辞风格。因为用户的不同的思维习惯和语言的模糊性和灵活性,电脑必须理解自然语言,它需要使用自然语言处理技术的复杂规则,动态编程算法,等等。作者试图结合这两种方法,以提供有效的作文评价结果基于大学英语作文写作的特点。英语作文的基本流程图智能评价模型如图1。
基本的诊断步骤可以定义如下:(1)建立一个语料库。作者将构建一个语法和词汇语料库为大学课程,和规则库的结构组成的关键句和关键词。(2)统一所有的每个关键句子的规则和它的每一个成分类似的句子。(3)过滤文本相似性存在巨大差异的句子。(4)定期过滤匹配句子对应的规则库,找到最小编辑距离,判断错误的字是可变形的,等等,并获得最高的规则集总得分。(5)记录点对应的知识规则得分最高的,重复下一个句子的处理,直到所有的规则都精疲力竭。
3.2。英语作文自动评分
进展在词性标注、解析和词表示由于持续的自然语言处理技术的发展。有提出自动作文评分方法基于统计和自然语言处理。自动作文评分,与人工评分,并不真正理解成分,而是评估它间接地通过构造特性反映的质量的话,句子,和主题。为了实现这一目标,第一步是确定哪些元素反映了学生的写作水平,如常见的拼写错误,条款熟练,和写作相关的话题。第二,一旦写作评分标准被建立,如何准确、自动提取相关信息从学生作文由计算机英语不仅依赖相关本体的研究,而且在自然语言处理技术的发展水平。一个困难的传统语言模型,相比其他学习问题,维数灾难,变得更加明显,当多个独立变量的联合概率建模。词向量训练Word2Vec不仅可以表达语法和语义信息的话说,揭示语言规则和模型训练时间大大减少。
Word2Vec有两种培训模式:CBOW(继续Bag-of-Words)模型和Skip-Gram模型。在这个模型中,每个单词对应一个独特的词向量。鉴于这个词序列 ,模型的目标是最大化平均水平概率: 在哪里滑动窗口大小。
Word2Vec和手套词汇都有重叠和不重叠的部分。我们合并的第一步是统一的词汇,即解决不重叠的部分。我们这个词汇的词向量表示为在手套语义空间和定义向量的计算公式如下: 在哪里 是这个词向量之间的余弦相似性呢和这个词向量 。通过上面的公式,我们可以得到这个词向量表示的单词只存在于Word2Vec在手套的语义空间,反之亦然。
在英语写作测试中,更容易获得高分通过使用关键词的同义词来表达主题以不同的方式,而不是使用相同的关键字来表达主题在整个文本。因此,当构建混合语义空间模型表达的组合,本文使用同义词典来提高分布式语义空间。改进过程的示意图如图2。
改进过程可以描述如下:(1)如果两个词属于一对同义词 在常见的同义词集组成,相应的向量之间的欧几里得距离分布这两个词的语义空间将会缩短。(2)如果两个词属于一对同义词 在WordNet同义词集,这两个词的对应的向量之间的距离在分布式语义空间将会缩小。(3)保持to-be-speculated向量这个词的和它的初始矢量在分布式的语义空间。
目标可以通过最小化目标函数在以下公式: 我们之间的距离向量定义为欧几里得距离,然后呢 hyperparameter。
最大熵模型是统计学习模型来自于最大熵原理。最大熵原理的学习则是学习概率模型。当我们把它应用到分类问题,我们得到了最大熵模型。假设的集合满足所有约束条件概率模型
然后,条件概率分布的条件熵可以表示由以下公式:
在所有模型集 ,条件概率模型与最大的条件熵称为最大熵模型,和对数在上面的公式是指自然对数。
最大熵模型的优点是,当训练数据建模时,我们只需要注意的选择功能,与其花费大量精力在如何充分利用这些特性。
3.3。语法检查基于ML算法
作为一般规则,语法检查技术使用基本的自然语言处理技术,如分词、词性标注和语料库。标记单词在句子根据语法和上下文与词性标注。词性标记技术已广泛应用于自然语言处理的各个方面,因为它一直以来都被视为一个重要的基础研究在自然语言处理领域。今天的词性标注系统的多数都是基于统计或常规模型。相应马克每个单词的词性作为演讲的一部分,如动词、名词、形容词、副词、或其他词性,之前检查句子的语法。马克的话说,各种语料使用各种标记集的约定。基于规则的模块和统计数据模块的两个部分是语法检查模块。检查输入句子的语法,本文采用两者相结合的方法。这个模块的架构图如图3。
决策树与传统GBDT相比基于(梯度)方法,XGBoost(极端的梯度提升)是更好的近似误差和数值优化。XGBoost近年来已成为最受欢迎的方法在各种ML-based应用程序和比赛。XGBoost模型不仅预测比GBDT模型,而且火车的速度比GBDT模型,这就是为什么XGBoost模型被广泛应用在各种数据挖掘竞争对手比赛。
假设有一个模型组成的树:
解决树中的每个参数的目标函数:
其中,包括两个部分:参数反映了叶节点的数量的影响上的错误;参数反映了叶子节点重量的影响在错误。
射频(随机森林)是一个扩展的变体装袋。通过自助重采样技术,从训练集样本是随机选择的组建一个新的训练集训练决策树,然后决策树生成形成射频。其实质是决策树的改进算法。每棵树是建立独立选择的样品,和这些树合并在一起。
平均的训练决策树结果,
它是抽象的,如果一个查询包含关键字 ,这个词的频率在一个特定的文本 。查询的相关句子文本 。
假设一个关键字已经出现在句子,更大的是,小的重量是,反之亦然。让是句子的总数。目前,最常用的体重是“反文本频率索引”,及其公式
这个重量的设置必须满足以下两个条件:一个词表达的能力越强其主要观点,重量越大,反之,越小的重量。删除文字的重量应该是零。
当评估单词之间的相似性,我们使用斯皮尔曼相关系数作为评价指标,这是一种非参数指数来衡量两个变量的依赖。对样本集数, ,分别代表两个变量值的样本 ,和 以增加或减少顺序排序的同时; ,分别代表的秩 排序后,斯皮尔曼相关系数的正式定义是 在哪里是变量的不同水平,排名 。
4所示。实验和结果
本文选择国际发布的数据集的数据挖掘平台组合得分比赛。组成数据集包括八个数据子集,每个都有一个相应的作文主题。根据描述的要求学生写作文的主题。每个训练数据子集包含超过1000学生学成分和相应的手动评分分数,和单词的数量在每个成分主要是150年到600年之间。本文选择英文维基百科语料库训练语料库和使用Word2Vec训练语言模型。窗口大小设置为6,向量维度被设置为500,这个词和截短词频率设置为6。向量集群的集群中心的数量设置为25。基于非文本功能和推理功能,内容文本特征提取的基于词向量聚类被添加到模型中,并培训结果如表所示1。
从表可以看出1添加内容的文本特性后,基于词向量聚类,每个模型的效果大大提高,特别是最大熵模型,提高了0.048。XGBoost模型也已大大提高,从0.771到0.803,其预测效果超过了射频,三种模式中是最好的。此外,一般来说,CBOW适用于小型训练语料库,而Skip-Gram更适合大型语料库。维基百科英语语料库应用于本文超过17 g,所以它仍然是一个相对较大的训练语料库,所以Skip-Gram的性能也更好。几个单词训练后嵌入到词向量,我们组单词通过聚类,然后根据他们的语义信息提取特征的物品在每个语义类别模型的训练。在前面的实验中,集群中心的集群的数量设置为30,和聚类中心的影响实验结果如图4。
从图可以看出4与聚类中心的数量的增加,各种词向量方法的实验结果首次略有增加,然后逐渐下降。当集群中心是15至25日得分的效果是最好的,因为当初始聚类中心的数量很小,基于语义信息的分组限制较弱,和每个类别的语义信息是混乱的。随着集群的数量增加,成为聚类约束强,词语的语义信息是一致的。当消息嵌入用于表示一个词向量的维度,每个维度的向量代表一词的隐含语义特征。图5比较词向量的不同维度的影响实验结果。
可以看出,随着词向量维数的增加,Skip-Gram效应和非文本功能先增加然后减少,但变化范围很小。然而,CBOW、非文本功能和扣除特征与词向量维数的增加,增加和得分效果显示不规则的变化,但变化范围基本上是小的。可以看出,当嵌入方法用于获得这个词词向量,词向量的维度对词语的语义信息几乎没有影响。100年英语作文是随机选择的测试语料作为测试集,其中包含1228个句子,其中标记错误的总数是1063。在这个测试集,本文的语法检查模块和结果如表所示2。
类似地,100篇文章被随机选择从语料库作为测试语料,测试集是检查错误,准确率为68%。相反,这个模型的准确性在一定程度上已得到改进。恶意成分检测算法的评价指标和成分检测算法与主题无关的测试,我们使用玻璃钢(假阳性),FNR(假阴性率),并纠正率常用的国外。因为检测算法设计这项工作无关的对象进行测试,需要分类之间的相似性组成测试对象本身,和之间的相似成分测试和被测试的对象。此外,我们分析被测试的组件之间的相似性和主题的主题数据库。主题分类确定构图,所以分类阈值必须由实验决定。一些实验结果如图6。
可以看出,当分类阈值增加,玻璃钢的价值将减少,FNR将增加相应的价值。当八卦阈值设置为13,topic-independent成分的正确算法检测率已经达到了90.12%的最大价值。在这个时候,被八卦的概率是1.03%,八卦的概率是12.36%。分类阈值在实际应用时,可适当增加,以进一步降低的概率题外话误判是题外话组成。虽然完全跑题的文章将被判断为主题内容,这种类型的作文不会得到更高的分数在提取无目的性的句子评分算法。为了验证成分检测算法的有效性与主题无关的测试,本文将比较它与现有的无监督之外的话题检测算法。三种算法的实验结果如图所示7。
从实验中可以看出,本文提出的算法是低于其他两种算法在玻璃钢和FNR和取得了好的结果17]。只有当这篇文章提出了通过TF-IDF作为一个向量,构成和主题之间的关系不能从语义层面上进行分析。先前的实验证明,将常识ConceptNet等语义知识集成到语义表示模型可以有效改善八卦检测的准确性。八卦的句子提取和评分算法在这个模型用于分数700篇文章的相关性。最后,算法的分数相比两个研究小组的英语教师。相应的结果如图8。
这个模型不仅可以检测整个八卦成分高的准确性,但它也可以得分成分的相关性,结果非常类似于老师的分数。因为大学生英语写作的要求通常是120 - 150个单词,这个单词数反映了组成的长度。这个函数可以确定成分是空的,如果太长或太短。作者的命令使用的动词体现在动词的数量。这个功能已经被相关学者研究处于初级阶段,和结果表明,它具有高预测能力的大学英语写作的作文分数。新模型是由添加统计信息,单词分组,单词发音,和其他特性的基本特性集,和新模型是监督和训练通过手动标记数据,显著改善新模型的准确性。
5。结论
英语作文的智能评价模型有以下好处:高适应性、高评价,快速反馈,和低教育成本。它应该被广泛使用,因为它扮演着一个重要的角色在语言技能的发展和语言能力的增强母语和第二语言的学习。从词中提取词的多样性特征向量的方法聚类使用机器学习研究。实验结果表明,通过结合主题信息,这个词向量法可以代表词汇向量在不同主题,不同的更准确地表示文本中的词语的语义信息,并达到最好的效果在几个文本功能。每个模型的效果显著改善后添加的内容文本函数基于词向量聚类,特别是最大熵模型,它提高了0.048。XGBoost模型也已显著提高,以0.803的得分比0.771之前。测试语料库由100篇文章随机从语料库和检查错误。它拥有68%的准确率。这个模型的准确性变得好一点。它说明了本文中使用的方法是精确的和有用的[21]。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者没有任何可能的利益冲突。