文摘

学生成绩大专院校的成功是至关重要的。尤其是学术成就的一个指标用于评价高质量的大学。尽管大量的教育数据,准确预测学生成绩变得更具挑战性。主要原因是有限的研究在各种机器学习(ML)的方法。因此,教育者需要探索有效的建模工具和评估学生成绩而识别的弱点来提高教育成果。现有毫升方法和关键特性预测学生成绩进行了这项工作。相关研究发表在2015年和2021年之间被确定通过一个系统的各种在线数据库的搜索。39研究选择和评估。结果表明,6毫升模型主要用于:决策树(DT),人工神经网络(ann),支持向量机(SVM),再(资讯),线性回归(LinR)和朴素贝叶斯(NB)。我们的研究结果也表明,ANN优于其他模型和更高的准确性。 Furthermore, academic, demographic, internal assessment, and family/personal attributes were the most predominant input variables (e.g., predictive features) used for predicting student performance. Our analysis revealed an increasing number of research in this domain and a broad range of ML algorithms applied. At the same time, the extant body of evidence suggested that ML can be beneficial in identifying and improving various academic performance areas.

1。介绍

学生学业成绩是最重要的在任何国家教育进步的迹象。从本质上讲,学生的学术成就受到性别、年龄、教学人员和学生的学习。预测学生学业成就了大量的兴趣教育。换句话说,学生成绩是指学生在多大程度上实现直接和长期的学习目标(1]。优秀的学术记录是一个重要的因素,一个高质量的大学根据其排名。结果,它的排名提高当一个机构拥有强大的跟踪记录和学术成就。从学生的角度看,保持优秀的学习成绩获得就业的可能性增加,作为优秀的学术成就是主要的一个方面评估由雇主(2]。

教育信息技术(IT)的使用可以支持机构实现一种改进的教育结果。例如,在学习,人工智能(AI)有广泛的应用。基于ai技术教育已经流行最能吸引注意力的同时提高质量和提高传统教学方法。例如,它便于收集大量的学生来自多个数据源的数据,如网络教育系统(WBS)和智能辅导系统(它)。除此之外,这些技术系统可以提供数据对于学生的成绩,学术进步、在线活动和上课。尽管如此,它仍然是具有挑战性的为教师有效地应用这些技术由于其特定的学术问题大量数据和不断增长的复杂性。因此,很难准确地评估学生的表现(3]。因此,应该适当地检查获得的数据来确定预测学生未来成功的因素。

预测和分析学生成绩是至关重要的帮助教师认识到学生的弱点,帮助他们提高成绩。同样的,学生可以提高他们的学习活动,和管理员可以提高他们的操作(3,4]。学生成绩的及时预测允许教育者确定绩效较差的个人和在学习过程的早期干预应用必要的干预措施。毫升与许多应用程序是一种新颖的方法,可以使预测数据(5]。毫升技术教育数据挖掘的目标模型和检测意义从教育背景(隐藏的模式和可用的信息6]。此外,在学术领域,毫升的方法应用于大型数据集来表示大范围的学生特征数据点。这些策略可以通过实现各种目标效益各领域,包括提取模式,预测行为,或识别趋势7),使教育者提供最有效的方法来学习和跟踪和监控学生的学习进展。

我们的研究动机主要是由于缺乏系统和全面调查评估使用不同的ML学生学业成绩的预测模型。因此,这项工作的主要目的是调查和总结预测的关键特性和ML算法用于预测学生的学习成绩。这项研究的发现支持映射和评估现有的知识,研究缺口,未来进一步的研究建议在这种情况下进行的。

在下一节中着重于系统调查中使用的方法。部分2提供了一个详细的总结结果,而部分4讨论了它们。最后,结论和未来工作中概述部分5

2。方法和材料

这项工作进行评估学生成绩的主要ML算法和关键属性的预测。几种方法(8- - - - - -13]随访,以及各种策略和步骤提出的引用(10,11在执行这项调查工作。这些包括(a)配方的研究问题,(b)合格标准,(c)信息源/搜索策略,最后选择(d)研究。

2.1。研究问题

形成正确的研究问题是重要的确定关键研究相关的学生成绩的预测。步骤提出了文献[13]随访,以制定正确的研究问题(例如,PICO框架),代表人口的干预,上下文和结果。表1总结了研究问题的标准。

因此,这一工作是进行回答以下研究问题:(我)Q1:什么是关键的预测功能用于评估学生成绩?(2)Q2:关键的ML算法用于学生成绩的预测吗?(3)Q3:结果和精度的ML算法?

2.2。合格标准

我们包括研究(a)用英语写的,(b)发表在2015年至2021年之间,(c)会议论文集和学术期刊,(d)直接关系到学生成绩预测关注ML,和在任何教育水平(表(e)1)。此外,我们排除了研究(一)不是用英语写的,(b)在传统的一种形式,概念,系统评价,(c)等人工智能(AI)方法深度学习(DL),最后(d)没有经验或实验数据。

2.3。信息来源和搜索策略

进行系统和全面的搜索解决研究问题制定。这个目标,六个在线数据库是在2021年8月,搜索包括IEEE Xplore, ACM数字图书馆ScienceDirect,斯高帕斯、网络科学,和谷歌学者。后续的搜索是在2021年10月进行识别任何最近出版的作品。

我们使用不同的关键字,由Kitchenham et al。14),并适当地组合如下:“预测”或“预测”或“评估”和“学生成绩”或“学生学业成绩”或“学术成就”或“学术成果”和“机器学习”或“毫升”或“数据挖掘”或“教育数据挖掘。”

2.4。研究选择

两个阶段进行筛选和选择的研究。首先,选择的研究是基于标题和抽象的筛查,对于合格标准。其次,研究基于全文的选择评估(见图1)。

我们认为研究全文评价只要有任何怀疑。合作者之间的分歧达成了共识。此外,尾注X20的软件是用来消除重复的数据并管理所有引用。

我们的搜索产生了1128篇论文。消除重复后,767篇论文仍然存在。其中六百基于标题和摘要筛选被排除在外。剩下的102篇文章的全文被认为是和评估。其中,58未能符合纳入和排除标准。其余39相关研究进行评估审查。图1说明了筛选和选择程序。

3所示。结果

3.1。包括研究的特点

总共26(66.7%)发表在学术期刊上的文章,和十三文章发表在会议论文集(33.3%)。

文章的数量近年来大幅增加;这表明通过ML方法预测学生的表现吸引了不同学者的注意。如图2,包括大部分的文章发表在2018年(n= 9,23%)和2019年(n= 14人,35%)。

根据作者的从属关系的国家,大多数从印度发表的研究(n33.3%)、沙特阿拉伯(= 13日n= 5,12.8%)、巴基斯坦(n= 4 10.6%),其他国家(见图1和2之间的文章3)。值得注意的是,超过半数的研究(n= 36 58%)在高等教育学术成就分析数据从一个人的大学。

百分之三十一(n= 14)毫升的方法用于预测学生成绩是人工神经网络和支持向量机(n= 7,15%)。剩下的文章使用决策树、朴素贝叶斯和再n= 6,13%)。图4代表了ML的分布方法用于预测。关于使用的分类器,大多数选择研究应用只有一个分类器,不与他人比较的方法。此外,六项研究测试了四个,三个,两个分类器。研究中使用的最多的分类器wasten (n= 3)。大多数研究涉及安主要用于一个分类器。

此外,数据集应用于研究范围从22 ([15)到20000 ([16])。特别是,五个研究(17- - - - - -21)没有报告的数量数据集用于他们的实验。在大多数研究(n= 34),数据集划分和应用培训和测试阶段。然而,五个研究没有报告阶段采用的实验。

3.2。关键属性用于预测学生的表现

我们分组属性分为七类:人口、学术、内部评估、沟通、行为、心理、家庭/个人属性(见表2)。最常用的属性是出勤和CGPA,这属于学术团体。二十,三十文章利用学术组预测学生的表现。这是因为CGPA具有显著的学术潜力。

第二个最常用属性是性别、年龄、国籍,属于人口群体。十八39的文章使用人口属性,如性别。这是背后的基本原理,因为男性和女性学生有不同的学习风格53]。不同的研究发现,女学生拥有更为乐观的学习风格,积极的态度,更多的纪律,是自我激励54,55]。因此,值得注意的是,性别对学业成绩有更重要的影响的预测。

父母的身份,调查满意度、教育和收入恰恰相反,是第三个最频繁的属性用于预测。这些属性都属于家庭/个人集团被用于十一的文章。表2按类别显示其余属性、名称和频率。

3.3。毫升模型用于预测学生成绩

准确预测模型可以通过一些技术,如回归、分类和聚类。然而,我们观察到分类是最流行的一种技术用于预测学业成绩。几种方法在分类器已被用作表中列出3。其中有人工神经网络(ANN),决策树(DT)、支持向量机(SVM),再(资讯),朴素贝叶斯(NB)和线性回归(LinR)。突出显示的算法部分。

3.3.1。决策树(DT)

DT是经常使用由于其简单明了的发现和预测数据。许多研究者指出,决策树很容易理解,因为他们是基于if - then规则(16,61年]。DT 6个研究使用。最高的准确度为98.2% ((41]),而最低精度为66% ((31日])。DT模型的精度结果列在表中4

3.3.2。线性回归(LinR)

线性回归定义两个变量之间的关系通过数据回归直线的适应。列在表5,所有七个文章平均预测的精度水平学生的表现。最高精度水平为76.2% (51),最低是50%48在使用LinR模型。

3.3.3。人工神经网络(ann)

非线性和复杂的不同的输入和输出变量之间的相互作用可以通过使用ann解决(62年]。搜索了十四文章使用ANN预测学业成绩的方法,如表所示6。所有的ANN模型在这个工作给好的结果,最大精度为98.3% (18)和最低的64.4%的准确性。

3.3.4。朴素贝叶斯(NB)

朴素贝叶斯是高度可伸缩的,需要几个线性属性学习某些问题。我们发现6个文章应用NB的方法在预测学业成绩。最高的精度是96.9% (49)和最低是65.1% (42])。表7显示了NB的结果准确性的方法。

3.3.5。再(资讯)

然而,商店和分类类基于某种程度的相似性,如距离函数。列在表8,所有六个文章产生高水平的准确性预测学生的表现。值得注意的是,最高的精度是95.8% (50),最低是69%42]。

3.3.6。支持向量机(SVM)

支持向量机适用于处理小数据集,与其他方法相比具有更强的泛化能力。搜索了七个文章,使用支持向量机方法。这七项研究的最大精度为91.3% (40,精度为66%(最低20.]。此外,提出了支持向量机在表的准确性9

5说明了每种方法的精度水平通过学生成绩预测从2015年到2021年。最大程度的精度是通过使用ANN模型(98.3%)。

DTon相反,产生第二高的准确性(98.2%),其次是NB(97%)和资讯(95.8%)。此外,支持向量机,生产91.3%的准确性。同时,LinR最低预测精度与其他方法相比(76%)。

4所示。讨论

这个系统的调查集中在使用现有的ML技术和关键变量在预测学生的学习成绩,以及最准确的预测算法。表3显示了使用分类方法分组算法预测精度对所有选定的研究从2015年到2021年。基于收集的数据在这工作,监督学习是最广泛使用的技术来预测学生的表现,因为它产生的准确和一致的结果。ANN模型,例如,被各种应用最广泛的学者在14个研究并发表最可靠的预测。此外,支持向量机,DT, LR, NB,射频是研究基于算法的方法,产生了很好的效果。与文献[64年),无监督学习仍然是一个没有吸引力的方法对于研究人员,考虑到他们的低精度预测学生在当前文学的表现。

安了一个了不起的准确性(98.3%)在预测学生成绩加上CGPA等关键变量时,性别,年龄,父母地位,父母收入,家庭规模。因此,家庭地位,父母的收入,家庭规模可以显著影响学生的成绩。DT是额定二次平均性能精度为98.2%。GPA、成绩和人口分布的因素导致预测精度最高的学生在使用的大多数研究DT的成功。它可以得出结论,DT可以处理两种形式的数据并执行在大规模数据集,和变量之间的关系是简单的理解65年,66年]。

NB的性能精度约为97%。根据这些发现,人口和学术特点是最好的预测学生的学术成就,利用这种方法。结果,在使用NB预测学生的学术成就,标准如性别、成绩,结果,出勤率应该解决。相关的变量包括分配课程/科目和成绩,而资讯平均精度为95%。年级变量出现在安和DT。当应用朴素贝叶斯预测方法,是重要的属性。此外,SVM的性能精度约为91%。从我们的分析中,最合适的属性预测学生学业成绩使用SVM动机、个性、学习策略,和结果。这些标准被认为是重要的在确定学生的学术成就。

最后,最低的方法预测精度,平均为76%,线性回归。即使在一些研究多个因素,没有明显的variableswere确认。性别、年龄、和最终成绩用于LinRstudies也从事资讯,DT,安和NB。我们认为年龄和最后成绩是学生成绩的重要预测因子。

总结,预测精度是由使用的特征或特性在整个预测过程(2]。因此,我们假设安和DT方法提供了最好的预测精度由于主要品质的影响。根据早些时候的研究(2],CGPA因素增加的准确性预测学生的性能使用DT的方法。虽然工作的15]表明,额外的因素可以影响一个学生的CGPA,还需要更多的研究来确定的因素大大影响CGPA。学术的特征是最常用的变量,获得分数的81%的准确率。它表明,总结性CGPA等性能标准,最终成绩,计划,出勤率,主题在预测学生成绩至关重要。这从最近的评论64年),显示GPA成绩或范围被较少研究预测学生的表现,尽管它的重要性。

5。结论

学生成绩预测可以帮助教育者在识别学生的缺陷对提高他们的成绩,提高学习。本研究旨在观察最新的ML算法和变量用来预测学生学业成绩。在我们的分析中,我们发现39研究从2015年到2021年。因此,研究结果显示相当大的最近研究在此背景下崛起。此外,学者变量(例如,CGPA和出勤),内部评估(例如,测验和作业),人口统计数据(例如,性别),和家庭/个人特征显著影响学生的预测性能。

性能指标的基础上,我们得出结论,然而,分类器是一个杰出的学生成绩预测,其次是DT技术。预测学生学业成绩高的准确性,另一方面,要求彻底的掌握等方面影响学生的成就和特点。考虑到这一点,这是证明有许多潜在改进的领域中使用的测量仪器的设计教师绩效评估。总的来说,这仍然是一个发展中问题,未来的研究将包括更多的算法更准确。

我们的分析表明,首先,一套新的输入和一个更加健壮的和广泛的数据集是必要的更大的准确性。第二,建议收集的数据来自多个机构结合依赖环境素质现存文献中并没有涉及。第三,对于更有效的分类技术,提高品质的理想的选择根据他们的连接是必要的。最后,为了彻底评估模型的性能,精度和召回需要度量。

数据可用性

之前报道的数据支持本文研究和数据集,已被引用。处理过的数据可从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

作者扩展他们的升值Deputyship的研究与创新,在沙特阿拉伯教育部资助这个研究工作通过项目“如果- 2020 - 102”。