文摘

大数据的应用、人工智能等相关技术领域的教育,使用机器学习课程学习进行早期预警已成为提高教学质量的一种有效手段。然而,在预警、现场样品都明显低于普通的样品,和一般的聚类或分类方法难以达到良好的结果。因此,本文提出了一个预警基于击杀和OCSVM课程学习方法。首先,收集和预处理学生高考信息和在线课程学习信息数据。第二,使用杀算法扩大样本。然后,OCSVM模型设计,使用高斯核函数和拉格朗日乘子是用于解决优化问题的优化目标。合格的学生对学习样本选择,和分类器训练,对学生进行分类数据,实现课程学习的早期预警。选择回忆和F1_Score评价模型,进行比较实验。从实验中,很明显,在大多数情况下,本文提出的方法优于原样品和传统方法在召回率和F1_Score。

1。介绍

如今,大数据和人工智能已经广泛应用于教育领域。与此同时,这些技术的推广领域的教育、教学监督和教学评价已经成为新的热点。今年4月,教育部和其他五个部门发布关于加强教学管理若干意见》网上开放课程的学院和大学,指出我们应该充分利用大数据等新一代信息技术和人工智能,加强学习过程的监控(1]。在他的演讲中,在特殊教育的高质量发展研讨会在新时期共同举行由教育部和其他三个部门2022年7月,淮河金鹏部长提到我们应该密切关注教育评价改革,深化综合改革领域的教育,并彻底实施全国教育数字化战略行动2,3]。

预警分析学生的学习是指学习背景、学习行为,考试分数,按照一定的标准,和其他有关资料发出提示信号,教师和学生根据分析结果,并提供有针对性的干预学生问题的意见(4]。预警课程学习的有效手段监督教学过程,最终提高教学质量。早期预警的课程可以帮助教师有效的教学反馈,帮助教师提醒和干预课程学习困难的学生尽快和教学管理和决策提供依据。另一方面,它还可以帮助学生尽快找到潜在的学习问题,提醒他们改进他们的学习方法和习惯,并希望成功完成课程。

提出了预警的方法基于击打和OCSVM课程学习,可以利用学生的个人信息和在线学习数据来预测学生的课程学习。通过对比实验验证了该方法的有效性,与传统的方法。

以“网络科学核心”为搜索源和“早期预警研究早期预警教育”为主题的词,查询文件从2005年到2022年,共有403条记录,6068年的引文,6584引用,和每条16.34引用,如图1。让“早期预警研究“CNKI数据库中的关键字,我们发现,大约有318相关文件从2005年到2022年。文档的数量每年发布图所示2。总的来说,无论是国内还是国外,学习的早期预警研究是在上升。

国内外文献梳理和分析后,我们发现大部分的文学从教育领域,以学习者为中心,发现的问题在学习过程中通过学习过程数据(5- - - - - -8]。数据挖掘、机器学习和深度学习技术是最广泛使用的方法在学习的早期预警9- - - - - -11]。然而,现有的研究大多是精心使用机器学习或深学习设计学习预警模型从宏观的角度来看。很少有研究如何应用该模型学习预警情况(12]。在所有的文章中,很少有提到具体的机器学习或深度学习算法。一些学者研究了支持向量机算法的应用程序模型在学习预警(13),和一些使用变分auto_encoder学习预警系统(14]。对于特定的课程学习的早期预警,大多数现有的研究作品的设计和研究在理论层面上,而很少有人关心的实际设计、工艺实现。

此外,还有一些问题在早期预警对于课程的学习场景,如少量的原始样品和样本的不平衡。一般来说,学生需要预警的比例在所有课程并不大,所以普通聚类或分类技术的效果不是很理想。针对小样本容量的课程学习问题的早期预警,一般随机扩张方法可能会失去一小部分样本的特征和影响检测效果,而击杀的扩张方法可以有效地维持少量样本的比例。我们可以理解课程学习的早期预警问题两类:需要早期预警和不需要预警。确定任何一个类别后,其余的是另一个范畴。因此,它可以被概括为一种学习问题。所以,我们提出一个方法的预警课程学习基于击杀和OCSVM相结合,优化这两个算法和它们适用于早期预警。

3所示。方法的原理

3.1。击杀算法

击杀(合成少数超过抽样技术)提出的算法是一个过采样方法拉et al。15]。它是基于随机采样过密算法的一种改进方案16]。该算法生成新的样品通过样本之间的关系;,少数由随机插值得到的样本之间的少数样本及其附近样本,以便扩大样本(17]。击杀抽样可以有效地减轻反复添加相同的样本的缺点在随机采样过密法,改善不平衡的原始样本,减少模型的过拟合,避免损失的功能(18]。

再打算法的仿真过程样本(资讯)分类算法。首先,在少数样本,每个样本的距离,少数样本中的所有样本计算和再邻居。第二,比n是由样本之间的比例。然后,在k最近的邻居,n每个少数民族的样本是随机选择的样本。最后,在这些执行随机线性插值n样本构造一个新的样本集,如图3

在机器学习模型中,足够的数据可以提交预测的准确性。然而,在课程学习的早期预警,一般来说,学生需要预警的数量相对较小,所以有一个样本不平衡的风险。如果使用不平衡的小样本训练模型,它将严重影响模型的准确性,导致过拟合或下拟合和其他问题(19]。因此,在课程学习的早期预警的方法,本文将算法扩展训练集。

具体的算法如下:

让少数类样本的数量在训练集,然后,击杀算法合成 总这少数类样本的新样品。在哪里 是一个正整数。为了防止输入错误,当 < 1时,算法的力量 = 1。考虑为数不多的样本的特征向量x,我∈{1,…,总}:(1)首先,找到k最近的邻居的样本x(例如,欧几里得距离)从所有的总样本少数样本,并记录他们x我(附近)附近∈{1,…,k}(2)其次,样本x我(附近)是随机选择的k最近的邻居和再生成一个随机数r在0和1之间,合成一个新样本xi1: (3)重复步骤2 倍,所以n新样本可以合成:xinew、新∈1…

通过执行以上操作总少数样本,可以合成为少数样本 新样品。

3.2。OCSVM算法

SVM(支持向量机)是一种广义线性分类器根据监督学习分类数据。广泛应用于模式识别、文本分类等画像识别,和其他问题(20.]。然而,如果训练集的样本数量是不均匀的,支持向量机方法的分类界面会倾斜,最终分类性能将下降(21]。然而,在实际应用场景中,样本不平衡的问题普遍存在。为了解决这些问题,研究人员建议OCSVM。

OCSVM(看到下面成了一个支持向量机)是一种机器学习方法提出Scholkopf等。它是一个扩展的支持向量机(SVM) [22]。与支持向量机关注两个分类,OCSVM只关注一个分类,所以它特别适合解决异常检测等问题。其基本思想是将目标样本点映射到对应的特征空间根据相应的内核函数,然后建立一个超平面之间的数据和原点,最大化目标样本点之间的距离和原点,最后回到决策函数来判断样本的类别23,24)如图4

OCSVM模型是描述如下。集样本集年代= {x,∈1… },通过核函数映射到高维特征空间 ,和构造特征空间最大化的最优超平面之间的距离目标样本点和坐标原点。坐标原点被认为是唯一的异常样本,和最优超平面的直线图所示,允许少量的样本之间的坐标原点和界面。重量的支持向量(超平面的斜率)ω和阈值(超平面的截距)ρ。它转换成以下二次规划问题: 在哪里 训练集的大小, 是放松的样本变量, 正则化参数,通常 ,用于控制的比例支持向量的样本集,引入高斯核函数:

使用拉格朗日乘子方法将上面的二次规划问题:

所以重量ω= 无论是 ,阈值ρ= 它可以得出相应的样品 相关的样品来确定超平面,即支持向量。因此,得到决策函数:

4所示。早期预警方法基于击打和OCSVM课程学习

本文提出一种基于击杀的组合和OCSVM方法。首先,样本是扩大了使用攻击方法,然后,OCSVM模型旨在学习样本数据。使用扩展训练集,训练分类器,以实现课程学习的预警机制。

4.1。数据集和数据预处理

实验数据集有398块数据相关的移动应用程序开发课程6类,包括高考成绩、志愿和学习通识课程平台的学生。根据研究数据,据悉,有特性,并不有利于模型,删除这些冗余特性,最后,七选为数值特性训练功能。数据标签中设置数据集根据最终的得分。最后的分数≥60被标记为1,最后得分< 60被标记为0,标记为失败的学生的学生需要早期预警。

在开始实验之前,做一些对数据预处理。(1)消除干扰的数据集和填写缺失的值。在这个实验中,缺失值的“视频观看率”,“学习速率章,““平均作业得分,”和“登录”设置为0,和其他缺失值替换为相应特征的平均值。(2)规范数据集。为了统一数据维度,防止梯度爆炸或梯度扩散,消除奇异点,加快收敛,消除噪声数据训练模型的负面影响,和防止过拟合、数据标准化通常是之前的数据进行训练。数据标准化包括最大标准化、均值-方差标准化,标准化和四分位数。此外,有一些标准化处理。本文抽样均值方差标准化方法新特性为零均值和单位方差标准化数据: σ方差,μ是平均值。上述处理后,这些特性为零均值和方差单位。

4.2。扩大样本的攻击算法

预处理后上面的398块的数据,发现标签标注0占32.10%。从一个类的角度,0标记的比例最低为11.50%,最高为41.10%。有一个样品不平衡的风险。击杀算法用于样本扩张。根据上述攻击算法,生成的数量设置:gen_ num = 1000,最近的邻居k= 5。数据集分为训练集和测试集的比例7:3。在构造训练集,最终成绩的失败类型占所有训练样本的33.15%。

4.3。由OCSVM模型训练算法

上面打,所产生的新的训练样本数据集符合样品的不平衡特征。因为只有两类数据:0和1,我们使用的数据特征类别标签1到火车和超平面。符合这些特征的数据判断是合格的,和不符合这些特征的数据判断为不合格。

在培训中,我们设置内核=“rbf”;采用高斯分布,和伽马相关系数设置为0.1。训练误差得分ν设置为0.1和0.05,分别测试完成。的效果,ν= 0.05更好。

5。实验结果分析

摘要实验设备是一个个人的笔记本电脑。基本配置如下:英特尔(R)(TM)核心i7 - 6700总部CPU @ 2.6 GHz 2.59 GHz, 8 GB的内存,64位Windows10操作系统。Tensorflow用于编程。

为了验证实验的效果,本文比较朴素贝叶斯,OCSVM和方法。OCSVM采用ν= 0.05。

有异常样本太少课程学习的早期预警,这将导致的问题精度高但低召回率的测试。早期预警学习问题需要确定正常价值和异常值样本,样本可以被视为一个二元分类问题本质。F1_Score,作为一个指标来衡量的准确性二进制分类模型,考虑了模型的精度和召回,并被广泛用于评估机器学习模型的影响(25]。

使用混淆矩阵表达的分类结果,如表所示1:

因此,精确率(PR),准确率(AR)、召回率(RR)和F1_Score (FS)被定义为26]:

几种方法的比较实验,表现在训练集和测试集如表所示2和表3分别为:

从表中给出的实验结果23,可以看出,本文提出的方法优于其他两个模型,直接使用传统算法精确率、准确率、召回率F1_Score,验证了该方法的有效性。

6。结论

作为学习支持的重要手段之一,早期预警课程学习已经越来越关注教育社区,尤其是在网上开放课程的建设和教育信息化的推广,各种平台积累了大量的学习资料,学习分析提供数据准备。课程学习预警方法本文收集学习资料的学习,结合学生个人高考信息,采用打和OCSVM算法的结合,采用高斯核函数,并使用拉格朗日乘子来解决优化目标的优化问题,解决样本不平衡的问题,提高了分类器的分类效果。通过比较实验,在大多数情况下,本文提出的方法优于原样品和传统方法在召回率和F1_Score。

目前的数量特征的方法提出了很小。它只关注高考信息和学生的在线学习数据。在未来,我们可以收集学生信息的离线类、出勤率等回答问题的频率,甚至捕捉学生的面部表情,动作和其他数据,设计更多的维特性来提高预警的效果。与物联网和信息技术的进步,我们相信学习预警技术将会更加准确和广泛使用。

数据可用性

本文中使用的数据集可以从相应的作者。

的利益冲突

作者宣称没有利益冲突的有关这项工作。

确认

这项工作是支持的部分第二批工业大学的合作教育项目合作在批准号202102281036,科学项目下的CAFUC格兰特JG2022-06和j2022 - 042号,四川教育改革项目批准号。jg2021 - 521,中央大学教育改革项目批准号E2022078和四川科技项目批准号。2022年yfg0190和2022 jdr0116。