文摘
教育数据挖掘已经成为一个越来越受欢迎的研究领域近年来,主要是借助各种学科的交叉研究,以解决各种困难的问题在教学和教育的过程。在本文中,我们提出了一个混合方法对学生成绩的预测。我们收集的数据集,包括15种特质的学生从三个类别(个人基本信息、个人教育信息和个人行为信息)。基于随机森林(RF)和模拟退火(SA)算法,我们二进制编码的相关参数(数量的特性,树的大小,和树决策权重)作为目标变量算法优化,使用out-of-bag误差作为优化目标函数,然后提出IRFC(改进的随机森林分类器)算法。与其他主流改进的随机森林算法相比,本文的研究结果表明,该算法具有较高的泛化能力和较小的OOB错误。这项研究提供了方法论的参考学生成绩的预测,也使边际贡献的学生管理工作。
1。介绍
目前,大学积累了大量的教育的学生明显的数据,如学生的基本信息、家庭情况,和他们的成绩和分数在不同的主题,以及学生演讲的具体信息速率和纠正率在课堂上回答问题和他们的出勤率在教室里。显然,这些数据在教育领域的不断变化也呈爆炸性增长随着教育信息化的发展,因此,如何从这些复杂和繁琐的数据中提取有用的信息数据分析将有很好的研究价值。
这不是一项容易的任务,利用现代技术来处理数据资源和巨大的数据大小教育准确数据和发现隐藏的知识。近年来,数据挖掘技术的出现为解决这些挑战提供了强大的技术支持。利用数据挖掘技术来发现有价值的数据或相关法律知识的信息从大量的数据分析和挖掘结果应用到教学管理将产生深远意义提高学校教学质量和教育管理水平。
数据并行处理已成为当今时代的重要问题之一。如何结合数据挖掘处理数据并行处理机制来处理也为数据挖掘工作的一个主要挑战。数据挖掘算法和数据并行性的结合机制可以充分利用并行机制,加快数据的快速处理和挖掘出大量数据背后隐藏的规则或原则根据更深层次,以事物的本质有更深入的了解。
教育数据挖掘已经成为一个越来越受欢迎的研究领域近年来,主要是借助各种学科的交叉研究(如计算机科学、教育和统计数据),以解决各种困难的问题在教学和教育过程1- - - - - -3]。在大数据时代的背景下,教育数据挖掘研究将一个新的转折点。教育数据挖掘涉及更多的工作水平,包括学生成绩预测,教学缺乏分析,学生自适应学习能力分析,自动歧视学生的表现,和其他子域(4- - - - - -7的范围,本文将有限的学生成绩的预测。
教育数据挖掘的具体方向学生成绩预测包括两个阶段。第一期是上个世纪,当研究人员使用的数据挖掘技术为教育只有在一个简单的方法,以及适用范围狭窄是由于当时技术水平的限制。第二个时期是过去二十年的迅速发展,使用网络技术引发的教育技术的变化,使用各种数据挖掘技术来促进教育信息化的发展8]。EDUCAUSE,美国高等教育信息技术协会提出了一个新时代的教育数据挖掘的定义教育挑战的能力使用基于数据的方法来预测学生的学习进展和成果,并采取行动。
近年来,国内外许多研究者利用数据挖掘技术来研究和分析课程得分数据。Ei-Halees用数据挖掘的方法来研究学生的学习习惯,提出具体建议为提高学生的表现。阿伊莎使用k - means聚类方法来预测学生的课程理解水平的基础上学生的测试成绩,从而提供一个数据基础建设期末考试的问题。总的来说,数据挖掘课程研究吸引了大量学者的探讨(9,10]。
在本研究中,基于决策树算法的随机森林算法主要使用。决策树是一种非常有效的监督学习算法容易解释特色。决策树构造的关键是选择属性作为分类的基础,和ID3算法的典型建筑11],C4.5 [12),和车13),分别。
随机森林算法使用引导轮培训和构造M取样方法的决策树分类器(决策树、支持向量机、逻辑回归,等等)来构建一个随机森林,并确定最终的归因分类数据的投票结果(14]。随机森林对数据集和执行好不容易陷入过度拟合比神经网络(15),同时具有良好的抗噪声。随机森林可以处理非常高维(大特征尺寸)数据,不需要使特征选择;他们可以处理离散和连续数据。随机森林也高度适应数据集;输入数据集不需要规范化。许多研究表明,组合分类器在分类,使随机森林回归和分类算法非常重要。2014 E Cernadas相比不同分类器在不同的数据集的实际结果表明,随机森林算法平均最强的,首先在数据集的9.9%。Fernandez-Delgdo米等人相比,各种179 - 121年类分类算法在UCI数据集,包括优秀的分类算法如随机森林算法、决策树算法和支持向量机算法,实验结果证实,随机森林算法最优在所有的算法(16]。
尽管数据并行处理平台的迅速崛起使得机器学习算法被广泛使用,许多机器学习算法是黑箱模型不能适应某些特殊预测研究领域。作为一种重要的挖掘算法方面的ML, RF算法可以检测数据交互和非线性等特点之间的关系数据没有任何偏见,同时在许多实际应用场景低泛化误差和问题解决方案。更重要的是,随机森林算法是可翻译的,可以解释为某些重要措施的影响,二进制措施或多元的依赖性,以及其他相关因素。
本文主要关注学生成绩预测的实际问题和学业成绩预测,并试图找出对学生成绩的影响因素和预测模型通过教育大数据的分析。
在本文中,我们提出了一个混合方法对学生成绩的预测。我们收集的数据集,包括学生的特点从三个类别。基于随机森林(RF)和模拟退火(SA)算法,我们二进制编码的相关参数(数量的特性,树的大小,和树决策权重)作为目标变量算法优化,使用out-of-bag误差作为优化目标函数,然后提出IRFC(改进的随机森林分类器)算法。这项研究的结果将用于教育管理、教学参与者,个别学生和改善学生成绩将提供方法论的支持。此外,我们的研究结果可以进一步扩展,例如,建立一个早期预警识别系统和早期预防和控制系统基于我们的研究结果或个性化课程的学生成绩预测和干预在教学过程中为了获得一个全面的提高学生成绩。
2。方法
2.1。随机森林
而安,回归树,随机森林算法和支持向量机,已经被证明是更加稳定和健壮的同时保持一个高水平的分类对于缺失数据情况(17]。
2.2。标准随机森林
标准的RF算法是算法如装袋和购物车的合奏,主要执行多样化组合使用决策树作为基本单位;最后通过投票来决定最单分类器分类结果是输出。
总而言之,有两个部分的射频分类;一个是输入数据的随机产生每个分类器通过使用装填方法;第二个是随机选择的特征子集获得最佳分类特征信息增益。
在下面,装袋法和射频的车模型详细解释,其次是整个工作流程的详细描述的随机森林算法。随后,本文在上述基础上提高了分类结果。
2.3。包装方法
包装方法的关键是计算任何分类的过程不依赖于任何以前的分类计算过程。在每个等级的计算过程中,数据应独立操作的一部分基于原始数据集,每个分类的结果,应当有效地聚合来提高算法的分类精度和避免聚合不稳定的学习算法(18,19]。
2.4。CART算法
在这项研究中,我们首先详细解释车模型。CART算法Breiman和弗里德曼提出的决策树算法。车通常通过基尼系数生成二叉决策树;它使用一个二进制二叉树递归模型建设;每个部门将整个数据集划分为两组,导致两个分支子树。基尼指数主要是用来显示数据集的杂质。样本集D的基尼指数被定义为 在哪里p我表示数据的概率D属于类别Cj。如果D基于属性的二元分裂将会分为两个子集,D1和D2,基于这个部门可以计算的基尼系数的加权和杂质的每个分区:
通过上述计算,众所周知,减少杂质由于二进制部门基于属性一个是
在CART算法的执行过程中,属性最大化减少杂质。
Out-of-bag (OOB)误差的计算通常是作为一种常见的算法评价指标分类随机森林算法的性能评估,因为它是一个无偏估计,另一个数据集交叉验证方法和实践经验代表,其测量值通常是非常细微的。
较小的OOB错误的价值,更好的分类结果射频,通常表示为
2.5。随机森林算法流
结合上面的包装方法和CART算法,我们将详细解释射频的工作流。RF的具体执行过程图所示1,显示了射频的具体执行过程如下:符号描述:最初的训练数据集由D表示,这是由M的基础属性和分类结果属性Y。输入:原始训练集D和决策树规模K。输出:分类器模型和分类结果。过程:第一步:生成训练子集。使用原始训练集装袋算法D,N次重复执行随机抽样获得训练子集的大小N(可能会有重复的数据)。重复上述过程K(如10、15、20)次获得训练子集{D1、D2、D3…, Dx}。特征选择也进行属性和O (0≤M基地米,如1、2、3、…,米)属性进行分析。第2步:为每一个训练子集Di (1 <我<K),购物车是用来产生unpruned二分决策树递归。在决策树的每个中间节点,它需要遵循以下规则:而不是从所有的特性,选择最优分割功能特性的一个子集是由一个随机的选择米特性(米≤米),然后对应的特性的最佳分割形式(最大的基尼系数衡量)从特征子集的选择。购物车树节点分裂需要继续上述过程。相应的决策树嗨(Di)为每个迪终于产生了。第三步:最后一步中生成的决策树结合,形成一个射频{h1 (D1), h2 (D2)…,嗨(Di)}和基于测量的样品集对其进行测试X获得相应的结果。第四步:测试数据的最终结果X确定采用多数表决法和加权投票方法K-tree分类结果,和分类错误OOB错误需要计算。加权投票方法主要为每个决策树的结果加权统计,年代c代表的选票总数,可以计算的 在哪里Tc,x(X)1或0的值。如果样品X结果在课堂上c在决策树分类后,需要的价值1;否则,值0。加权投票计数的方法后,类得票最多的是选为最终的输出样本的分类结果X。
算法结束。
值得说明的是,,整个算法的操作,各个变量,如重采样的数量N决策树的大小K特征选择的价值O,决定体重Wt,保持相互独立的,没有任何依赖。
2.6。模拟退火算法
大都市首次提出模拟退火(SA)算法,然后SA被柯克帕特里克应用于组合优化算法,解决问题的主要目的是克服依赖初始值(20.,21]。模拟退火的计算步骤如下:第一阶段:生成一个随机的初始解x0这样 ,计算目标函数值E (x0),并设置 和初始温度 。阶段2:如果温度达到停止条件然后跳到第三阶段,否则选择x最好的从社区Nv随机(x最好的当前的最优解x新和相关计算目标函数值E (x新),相关的增量价值 是派生的。更新x最好的由以下方程: 阶段3:设置 ; 。如果最终输出值满足停止条件,计算终止,否则回到第二阶段继续执行。最后,最优的解决方案x最好的是输出。
一般优化算法,模拟退火算法已被广泛用于许多领域优化问题,如在工业车间布局优化问题,运输网络优化、供应链优化问题、大气辐射方程解决问题,贷款问题的优化解决方案,和其他应用水平,具有良好的应用效果,在许多情况下可以找到全局最优。
2.7。改进算法
2.7.1。改进的想法
虽然最初的随机森林算法能够获得更好的操作结果与其它分类算法相比,仍有几个问题。首先,默认参数不是最优的选择,特别是重量加权参数,而传统的网格搜索方法为最优参数决定太耗时了,实际应用。其次,算法OOB错误将进一步减少和用作算法目标函数定义;算法对特征选择的数量通常是预先确定的,这可能是精确值。世界宗教自由在我们的章提出上述问题主要是正确的。
近年来,许多学者也结合智能算法在随机森林算法来实现良好的研究成果;例如,一些研究人员结合遗传算法和随机森林算法的故障检测,以减少OOB外袋误差(22];粒子的组合算法和随机森林算法特征选择研究和具有良好的实验结果23];研究人员把AFSA到随机森林算法特征选择以及参数优化(24],仿真实验结果证明该算法OOB误差一般很小,泛化能力较强,它提供了一个有效的指导方法,随机森林算法特征选择和参数估计。
在我们的研究中,提出了IRFC参数优化,体重校正和特征选择,最终实现两个或多个分类分类。O值,常用的价值,包括 , ,和 ,和实验数据,当发现的价值米相对较小,算法分类效果hyperparameter O选择时是最好的 ,但不能随时获得最优效果。许多研究已经开始使用资讯的方法,最小化的OOB错误,输入变量的随机组合,和其他方法进行hyperparameter的最优值的解决方案X,分类结果相对较好和较短的计算时间和存储空间与传统方法相比。
为输出样本的分类结果,随机森林算法将大多数决策树的输出结果为基础。在我们的研究中,我们将给予不同的权重决策树进一步提高了传统算法的缺点,提高分类精度。
2.8。改进算法流
上述参数优化,我们的研究提出了一种新方法集成优化基于前面的研究,主要是通过将SA纳入RF执行过程,参数组合和优化。在我们的方法中,目标函数介绍:
优化变量如下:K,啊, , ,在哪里K,О是实数,K需要值的范围(0,500年),和j是一个整数范围值在[0,15]。属性是一个01变量。图2介绍了优化变量,用二进制代码表示,由四个部分组成。
根据上面的二进制编码的变量,我们计划改进随机森林算法的流IRFC图所示3及其相应的流程如下所示:阶段1:设置初始化温度 ,k= 1,生成一个随机的初始解X,让 。阶段2:计算 与RF算法。阶段3:(1)如果温度达到了内循环停止条件,然后跳过(2),或者选择x新随机从附近的N (x最好的当前的最优解x最好的并计算相关的目标函数值f(x新),相关的增量价值 是派生的。更新X最好由以下方程: (2)集 ; ;如果最终满足停止条件,计算和终止x最好的输出,否则返回(1)。阶段4:如果 ,输出的最佳 。否则,回到第二阶段。
3所示。实验设计
3.1。数据的介绍
学生课程性能取决于许多因素,包括他们自己的学习特点、自己的职业取向,研究程度的课程,课后复习,老师的课,和其他因素。本课程将把改进的随机森林算法融入到学生课程通过IRFC预测数据来提高学生们的预测结果在每门课程成绩;在此基础上,管理者可以注意影响学生成绩的因素和课程教学过程中注意这些因素(25,26]。通过不断循环这种predict-practice-improve的方法,我们可以加强教学改革努力使其更科学、高效,同时让学生表现更好,增强自己的竞争力,毕业后的就业机会。
本节中的数据集进行实验是学生成绩的数据集,这是学生特点来自我们学校的高等数学课程。数据集包括15种特质的学生,它由三部分组成:个人基本信息、个人教育信息和个人行为的信息。学生的分类统计功能包括功能如出生地,性别(男性或女性),入学考试,和直接接触的地方(父亲或母亲)27- - - - - -30.]。个别教育的分类信息包括特征如学生年级水平,教学学期,教学课堂,学生专业,教师和学生的课程分测验成绩(课堂考试成绩、期中考试成绩和实际成绩)。
数据集是通过作者从自己的课堂教学,涉及许多方面的原始数据。所涉及的工作很长一段时间内,一个相对大量的工作。随后,对原始数据进行数据预处理,包括数据清理、数据离散化工作和数据过滤。由于收集到的数据表达的差异性和多样性,需要数据预处理:等数据与特征“学生活动水平,“数据是离散和规范化,我们也清理的一些异常数据。
表1介绍了学生成绩的功能信息,英文名字,中国的意义,详细介绍每个特性的结果。基于历史记录和学生行为主体,我们选择第一个两年训练集和训练改进的随机森林算法的预测模型,然后,我们使用了最后一年的数据作为测试集的性能预测,与实际性能比较分析。学生成绩数据集的大小(三年)是2002。
3.2。功能正常化
首先,我们归一化数据功能。特征归一化法旨在减少数值差异值的范围采取不同的特性,减少单位的培训模式的影响。功能正常化大多采用线性变换,对数变换,或棕褐色变换规范化初始数据,从而将其转换为一个较小的公共空间。
关于学生成绩的数据集,需要功能编程的特征变量包括学生活动在课堂上,学生缺勤率,和学生课程满意度特性,而其他特征变量计算使用原始值,如出生地使用编码值和性别使用布尔值编码为0或1。为学生旷工计算功能,该功能的编程方法主要是一个助记符使用最大最小归一化法线性变换。在下面,我们选择最具代表性的例子,学生课堂活动规范化说明一个复杂的功能。
特点的学生课堂活动的次数用户举手回答问题,他们在课堂上交流的次数,和个人在课堂上集中收集的程度进行综合评价。在实现的过程中,离散数据第一次规范化[0,1]基于对数函数归一化法,和每个因素是分配相应的权重系数获得学生课堂活动数据。学生课堂活动水平的表达
Wjs,W莱托,Wzz表示三个因素的权重因素,默认设置为0.4,0.3,和0.3;ZZFactor表示老师的主观评价得分学生的浓度;它的范围是0 - 1。
3.3。分类算法的评价指标
提出一种改进的随机森林模型后,整体性能的一个综合评价模型是必要的。更常见的绩效评估指标包括准确度、精度,还记得,f值,ROC曲线,AUC值。
首先,我们做一些假设评估标准:TP(真阳性)代表积极正确地分类类,FP(假阳性)表示分类错误负类,FN(假阴性)表示错误分类积极类,和TN(真阴性)是代表正确分类负类。 表示样本数据的总量。
准确性,代表总体分类精度在总样本数据,计算如下:
准确性是最重要的基本指标在所有评价指标中,直接评估模型的效率。值越高,分类效果越好。
召回主要的分类精度为正类样本数据,这意味着积极正确分类样本的比例占据所有正确分类样本,和相应的计算公式如下:
精度主要表明积极正确分类样本的比例对所有积极的预测样本,计算如下:
f值是一种综合性能指标用来评估数据集的不平衡,主要基于精度和召回的结合,β用于指示精确率和召回率的重要性。只有当精度和召回都高,f值更高,也表明更好的分类结果。
中华民国(接受者操作特征)是一个重要的标准判断分类模型的性能,适合评估失衡。民国时接近左上角,它表明更好的分类结果。中华民国叫做AUC下的面积(面积曲线);AUC也可以用来指示的标准分类器的优越性;AUC越高,更好的分类结果。
4所示。实验评价
4.1。传统算法的比较结果
表2和图4展示我们的比较分类使用各种基本的数据挖掘算法,试图分析各种数据挖掘方法之间的差异。我们的比较结果表明,射频略有优势其他数据算法的学生特征数据集而不是总体上明显不同。
4.2。算法的基本评价
我们可以发现,在每一个指数水平,改进的随机森林算法取得了几乎最低OOB错误,显示该算法具有较强的泛化能力和更高的分类精度。表3和图5。
5。结论
在这项研究中,基于随机森林,一个新的方法,IRFC,提出,证明具有较高的分类精度为了预测学生在大学课程的表现。提高执行效率的方法,改进的随机森林算法的并行化是随后进行大数据平台,缩短算法的执行时间。本文的主要工作如下所示:IRFC混合算法,结合射频的模拟退火算法,提出了优化射频综合的性能。分析了随机森林算法的研究现状,二进制编码的相关参数(数量的特性,树的大小,树决策权重)作为目标变量算法优化,使用out-of-bag误差作为优化目标函数,然后提出本文IRFC算法。与其他主流相比,改进的随机森林算法相比较而言,我们的研究结果表明,IRFC算法具有较高的泛化能力与规模较小的OOB错误。
本文还重点改进的RF算法的参数影响分析学生成绩的数据集,并验证结果确认SA的应用提供了有效的辅助效果的表现我们的模型,这将有助于开展教学课程改革。在这篇文章中,我们已经完成了改进的随机森林算法的设计和实验,充分验证了改进算法的有效性和可靠性。然而,也有一些缺点在我们工作;例如,并行化策略不是最细粒度并行工作模型。我们将在以后的工作中改进。
数据可用性
使用的实验数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者声明,关于这项工作他们没有利益冲突。