文摘

C语言对英语学习信息化的需求大大增加,和加强信息化教学的应用已经成为当前的趋势,虽然深学习算法已经应用于各种任务由于其明显的优势。在这篇文章中,一个英语分数预测方法基于XGBoost算法。为了验证模型的有效性的英语分数预测,XGBoost算法的原则是首先分析为基础。一所大学的英语考试分数2019 - 2021年被用作基本数据源,并使用该模型的输出概率比较在不同条件下的结果。实验结果表明,该预测分数基本上是符合实际的分数。从科学的角度来看,预测未知数据的能力较低的错误表明,它使学生和教师来识别潜在因素,让学生回答问题。理解这些原因是有用的设计高质量的课程和课程计划。

1。介绍

的发展当前的信息化教学的应用,它已成为当前趋势加强信息化教学的应用(1]。例如,王et al。2)应用数据挖掘算法的评价英语教师的能力,以获得必要的能力在英语教师教学,其他数据挖掘算法应用于成人英语考试并获得一些规则通过了成人英语考试。数据挖掘的应用,它的缺点也开始暴露出来,如开采是小的数据量和挖掘精度不高3]。在这方面,人们开始尝试XGBoost算法应用于英语学科领域。例如,大规模的真实场景数据统一的英语口语测试为基础,用XGBoost算法模型来识别语音,然后进行评估。结果表明,该方法在处理噪声有很强的鲁棒性;王等人。4XGBoost算法应用于英语写作,处理文本的自然语言处理,并用XGBoost算法,从而提高英语写作能力。它可以看到从上面的研究,深入学习算法广泛应用于英语研究[5]。

XGBoost是极端的梯度增加的缩写(6]。大规模并行的基础上提高了树,XGBoost发挥了重要作用的扩展工具,已成为当前最好的速度开源工具包提高了树。最快的算法,这是常见的工具包(超过10倍7),在众包平台Kaggle广泛应用,大量的参赛者在各种各样的数据挖掘比赛中使用它。XGBoost算法用于赢得几个Kaggle比赛的计划。在实际业务的实际应用,XGBoost的可移植性是广泛使用,仍然保留当地。此外,还有其他的效率改进方法,以便达到良好的结果在大规模的工业8]。XGBoost实现了一般树算法增加工程、梯度提高决策树(GBDT)是代表树的增强算法,它也被称为集市(多元添加剂回归树)(9]。

在获得高质量的数据,分析了原始的属性数据,结合相关知识在专业领域设计并生成高质量的特性,这将直接影响模型的预测效果(10]。因此,数据预处理的工作和功能建设系统的占用90%的时间。接下来,使用XGBoost算法模型数据,调整其参数,然后融合上述三个模型来生成一个高精度的预测模型。的可行性预测学生的回答结果通过使用历史数据是可能的,和预测精度非常高11]。从科学的角度来看,预测未知数据的能力较低的错误表明,它使学生和教师发现学生回答问题困难的潜在因素。理解这样的理由可以大大有利于设计高质量的课程和课程计划(12]。

教育数据挖掘技术已经开始疲软;经过多年的研究和创新研究,这项技术已经取得了很大的进步和推广领域的外国教育13]。由学者在2007年发表的一篇文章描述了广阔的应用空间领域的机器学习方法的教育,和这篇文章被广泛认可的学术团体(14]。李等人。15),为了找到提高学生的法律的性能,利用粗糙集理论在教育领域的结合问题,发现一个方法,可以控制学生的动机。李等人。16]分析日志记录系统的教育平台,生成一个模型可以预测学生的表现在学生的行为和记录其他学者为了推断新入学的研究生。候选人的未来学业成绩进行了分析和建模的本科成绩,和他们GGPA1成功预测。从上面的内容,可以看出,国外有一个深刻的背景的性能预测系统,发展速度非常快。外国学者们有效地结合数据挖掘技术与教育领域和许多优秀的技术和项目开发。

在我的国家,数据挖掘领域进入教育领域相对较晚,与国外相比还不够发展。然而,我的国家正在迎头赶上在这个阶段,还有许多优秀的科研和工程人员在这一领域取得了成就。贾et al。17)进行数据建模的训练这个专业的学生,最后使用C4.5算法成功地找到学生的法律行为背后隐藏的数据。商等。18]K-mean算法用于分析学生的考试成绩,并将结果应用到计算机分级模块,所以教育者可以获得掌握学生的分数和减少工作的难度。为了找到影响因素学生的英语考试,学者使用决策树算法分析测试数据,发现数据挖掘的规则集,提供方法指导教学效果的改善(19]。仍有许多尚未解决的问题等这些优秀的人才在我国研究和解决。

3所示。改进算法模型

XGBoost可以有效地构造增广树和并行运行。有两种增强树木XGBoost,回归树和分类树(20.]。优化目标函数的值是XGBoost的核心。在这里,目标函数是作为一个例子来介绍理论。目标函数如下所示方程(21]: 在哪里 表示从以前的保留模型的预测t−1轮,见下列方程(22]: 它可以改变以下方程的形式(23]:

模型训练时,目标函数可以表达的23]

定义方程

把(5)(4),我们得到以下方程:

参数的最佳组合最终替换到XGBoost算法来提高预测的性能(24]。构建GS-XGBoost模型后,进行多步预测,应用模型然后预测结果与原始XGBoost模型相比,GBDT模型和支持向量机模型,最后根据评价指标对模型进行了验证。具体的实验流程图如图1

预测模型的预测性能评价指标与实验结果相比,使用三个评价指标:均方误差(MSE),均方根误差(RMSE)和平均绝对误差(MAE)。(1)均方误差最小化的平均平方误差的总和(SSE) (26)成本函数拟合的线性回归模型的过程。更好的预测效果,值越接近于0,反之亦然,越远的值是0。其计算公式如下所示方程(27]: 在这里,y是真正的价值和 预测的价值。

(2)计算均方根误差的公式所示下列方程(28]:

(3)平均绝对误差的计算公式如下所示方程(29日]:

改进PrefixSpan算法的主要步骤(称为Im_PrefixSpan算法本文)如下:步骤1:扫描序列数据库一次,找到所有一阶序列和计数。如果序列的支持订单1小于广义价值,序列分为两个,和其左、右子序列回序列数据库,和原始序列从序列数据库中删除。对于每一个L (l> 1)前缀,后缀只有序列的第一项数据库扫描计数。如果支持计数低于队列值序列对应于第一项从后缀删除数据库和第一项停止的扩张。步骤2:把第一项满足支持数和当前前缀来获取一些新的前缀。第三步:使l=l+ 1,扫描当前后缀数据库,构建相应的后缀数据库新的前缀。返回到步骤3,直到后缀数据库是空的。

在这种遗传算法,遗传算子使用恒定的交叉概率和变异概率。这是简单的更有效的优化问题,但对复杂问题的缺点。缺点是,它可能导致早期“过早”和缓慢的收敛,最后结果很容易陷入局部最优。交叉概率和变异概率可以被改变随着时间的推移,和线性函数用于自适应变化调整,可有效解决问题的过早成熟。Srinvas的改进算法,交叉率和变异率的方程(30.] 在这里, 的最大适应度个体的人口和所有个人的平均健身,分别和f是健身的人群中个体的变异。(直觉的10)和(11),交叉调整率的变异率和线性处理,不再是固定的。的健康个体的适应度函数计算低于平均健身,这意味着解决方案所代表的个人不太有效,然后执行一个更大的进化根据遗传算法的思想,即。,使用一个较大的交叉率和变异率。如果个人的健身人群中较高,然后线性调整执行根据方程(11)和(12)。

上述改进方差和交叉率可以显著提高模型的能力找到最好的解决方案。然而,当有一个问题f等于 ,此时,根据(1)和(2),这两个 是0,导致遗传算法。

早期阶段的计算,高的个人健身人群中只能发生较小的变化,很容易陷入局部最优。因此,为了解决这个问题,本文建立了一种改进的线性自适应遗传算法(ILAGA),进一步优化的交叉率和变异率的遗传算子。

以下优化执行 ,交叉率和变异率的计算是根据(12)和(13)。

改进的线性自适应遗传算法的流程图如图2。改进的线性自适应遗传算法的详细步骤基于交叉率和变异率如下:步骤1:编码:确定后设置的参数的实际问题,执行某种形式的编码的变量需要解决,和编码应该反映问题的解空间。步骤2:初始种群生成:遗传算法开始的选择与这些N代串结构数据作为初始点。步骤3:根据实际问题的优化目标,确定目标函数和适应度函数的问题,比如在回归,你可以使用均方根误差作为目标函数,RMSE的逆函数计算健身。第四步:适应计算:人口的个人代入目标函数和适应度函数的优化问题,计算每个个体的适应度值。如果问题的优化指标满足或达到最大数量的选代,问题的解决方案是输出,否则,染色体的遗传操作(步骤5步6)继续和人口升级31日- - - - - -35]。第五步:交叉操作:更好的个人在第五步中选择了在一个特定的方式来产生新的个体,使人口更加多样化。第六步:突变操作:突变进行一些染色体交叉操作后,即,some gene values of individual strings in the population are changed to further expand the diversity of the population.

4所示。实现英语测试成绩的预测

XGBoost算法用于预测中学生的成绩在大学英语技能培训系统,如图3

4.1。数据提取和预处理

该研究主要提取学生从大学英语技能培训系统信息并选择第一和二年级的学生的数据从2019年到2021年四年学术在春天和秋天,分别。CSV格式的最终类型选为在纯文本文件来存储表格数据(23,24]。

4.2。特征选择

通过功能处理,这个实验确定18重要特征挖掘学生成绩预测,如学号、姓名、性别、回答时间,问题类型,和其他18维度。表1下面列出的一些特点和数据。

4.3。预测结果和分析

在这项研究中,数据挖掘使用回归方法XGBoost算法模型,和学生英语考试的相关数据在两年学术英语技能培训系统作为训练数据。的预测模型简化后,学生的成绩在大学英语考试终于建造,和预测学生的成绩是意识到,这样的分数接近学生的真实成绩。模型使用18个特征作为最终形成因素XGBoost和6课,构造决策树的最小样本叶子节点是6,最大深度是5。表2显示数据的实际和预测分数,满分50分。

实验结果被美评估。值越小,就越好。最后,所有的数据集的美是0.7,79.86%的数据错误是0。也就是说,预测精度为79.86%。比较实际的分数和分数曲线,预测结果表明,两条曲线非常相似,表明预测分数非常接近真正的得分。

根据120年的英语考试成绩样本所建立的预测模型预测方程,预测分数的120名学生英语考试相比,他们的实际分数。的预测成绩几乎是一模一样的样品实际分数,这进一步表明,预测分数基本上是合理的和可靠的,也显示了预测模型的准确性。当然,可能会有个别学生的预测偏差,而且可能有许多原因,但基本上都是由于客观原因或非常特殊的主观原因,如图4

5表明学生的平均总英语分数在2019 - 2021年在366.43和434.74之间。除了2019名学生,学生的总分在其他成绩较低,表明学生的整体英语水平不高。考虑到学生的分数低于220不参与统计,所有学生的实际平均等级较低。然而,在过去的两年里,总分显示快速上升趋势。在三年内,总分提高了18%。平均年增幅为4.4%。这有很多原因。除了质量持续改进的文化近年来学校的学生,学生更加注重英语学习,逐步适应新的话题,和条件明显改善学校欢迎后评估和促进建设。与此同时,它也表明,大学英语教学的水平继续提高在过去的两年里。

听力和写作的分数每年都稳步提升,和2021名学生的听力是高出40%的2019名学生。近年来,这可能与发音明显改善学校设施和建立各种专业的双语课程在一些课程。写作的结果可能是由于异常的变化评估目标和其他原因。

近年来学生的阅读成绩有所提高,特别是2021年类的,但不是现在。这是高比例的有关英语阅读和学生附加到它的重要性,这是更容易与学生阅读能力的提高,由于双语课程由学校在过去的两年里。综合测试的结果显示缓慢的上升趋势。这个问题类型包括翻译问题,完形的,语法和词汇。由于各种问题类型和比例低,教师和学生忽视了问题的类型。

从结果的预测结果,在未来两到三年内考试模式的条件下,教学形式、学生的质量保持不变,和候选人的总分有显著的改善。单独的测试的性能也会提高,但仍存在一些不稳定因素,应该吸引老师的注意和加强对学生有针对性的培训。

100年之后获得的预测精度的迭代图所示6。可以看出,每个学期波动的预测准确率从70%降至100%。其中,由于小数量的样品在第八学期10迭代后的预测准确率达到100%。第六学期,准确率最低,也达到了70%。

在这个实验中,320个随机记录随机生成作为训练集,剩下的80条记录作为验证集。XGBoost算法采用动态学习速率,得到的预测值是逆规范化。图7显示了实际成绩和预测值之间的比较。红点代表学生的实际成绩和预测值。1(黑点)代表了预测成绩只使用学生的成绩作为因变量。预测的值是2,表示为学生成绩的预测价值和行为作为因变量。从图可以看出,学生的预测价值的成绩和行为信息作为因变量更接近真正的成绩,表明学生的性能行为信息是合理的考虑的因素影响学生的表现和符合先前的预期。

相对误差的比较实验如图8。红线(错误1)代表了相对误差,只考虑学生的成绩,和黑线(误差2)代表了相对误差的预测学生的成绩和行为信息。从这些图中,我们可以看到大多数的黑色线条低于红线,只有少量高于红线,这表明预测的相对误差低于只考虑到学生成绩的相对误差。实验结果表明,学生的行为对成绩有一定的影响。学校不仅应该注意学生的先前的成绩也关注学生的日常行为。意义是培养良好的学习和生活习惯。

9显示了确定系数,只考虑学生的成绩。黑线和红线代表实际值和预测值,分别。从图10可以看出,确定系数约为0.79424;图10显示学生的成绩和所有行为的决定系数被认为是信息。蓝线和红线图一样9,决定系数约为0.99843。可以看出,添加学生的行为信息影响因素,学生的性能大大提高了确定系数。学生的行为信息对学生的最终成绩有显著的影响。

上述结果表明,XGBoost算法模型可以预测大学英语考试成绩。通过数据挖掘技术,分析和评估学生的考试分数和提取程度的学生掌握英语知识的教学过程和有针对性的教学。

5。结论

在本文中,我们使用成绩英语技能训练系统中的数据和使用XGBoost模型来预测学生的成绩。实验结果证明,数据挖掘技术已经在英语成绩预测的准确性和可行性。提高教育的效率是很有用的领域利用这样的技术。此外,使用数据挖掘技术肯定会以某种方式改变传统教育。大学英语成绩预测有利于英语学习的学生,而且还可以帮助教师更好的分析测试结果。(25]。

的利益冲突

作者宣称没有利益冲突有关的出版这篇文章。

确认

支持的工作是2021年教育教学改革项目湛江科技大学“分层面向应用的学院大学英语教学模式研究”项目数量:JG202155。