文摘

评分是口译的过程中学习能力告知学习者和教师当前的学习能力水平和必要的改进。norm-referenced评分,教师使用传统统计方法,z得分。这种方法很难实现可辩解的等级歧视学习者和教师之间来解决争端。为了解决这些困难,本文提出了一种简单而有效的算法可辩解的norm-referenced分级。此外,当今人工智能的兴起使得机器学习技术吸引norm-referenced评分。本文还探讨了两个流行的聚类方法,k - means medoids周围和分区。实验依靠各种分数分布的数据集和一个度量,即Davies-Bouldin指数。比较评价表明,我们的算法总体上优于其他三种方法和适合所有类型的数据集在几乎所有的情况下。然而我们的发现导致实际有用的指导方针的选择包括聚类方法和合适的分级方法z得分。

1。介绍

在正式和非正式的教育、分级是口译的过程中学习能力告知学习者和教师当前的学习能力水平和必要的改进。基本上有两种类型的非分级系统(1]:标准参照评分和norm-referenced评分。前者通常计算学习分数的百分比,它映射到特定的预定义的百分比范围等级。这个评分系统适用于考试覆盖所有内容主题的学习,因此需要长期exam-taking answer-checking倍。相比之下,大类和/或大课程广泛使用norm-referenced评分系统来满足exam-taking时间约束和拯救exam-answer-checking资源。这样一个系统将每个人的分数相对标准定义基于所有个人的成绩来决定一个合适的等级。传统统计方法设定的标准是没有或有条件(例如,一个类的平均成绩(GPA)必须保持低于3.25)。

本文关注的是无条件norm-referenced评分。问题的类型,本文目标数据聚类,其困难在于集群边界必须背后的原因可以解释为第一要务。一个具体问题是norm-referenced评分而其困难在于如何让学习者的成绩排名连续接受他们的不同等级(即。,他们的分数在不同的集群边界),毫无疑问。我们的经验,这个经典问题长期以来年级认真不愿与学习者解决争端。让我们考虑下面的例子理解这样一个情境:给出一个简化的一系列排名分数…,84,80,78,…,执行norm-referenced分级等一系列分数通过使用传统方法可能导致成绩…,a, B, B,分别…。学习者成绩80可以使一个反对为什么他或她接收的B而不是a年级不仅是难以解释的整个步骤传统方法(复杂的)学习者也难以理解。我们的算法提供了一个简单、明确的理由基于最宽的分数差距:“因为80接近78比84 80应该被分配相同的性能水平为78年而不是84年。”

现在人工智能的兴起使机器学习技术吸引norm-referenced分级。因此,我们调查的机会只采用四种方法从统计和机器学习的领域:我们的新算法,传统的统计方法,和两个非监督机器学习技术,即k - means和分区medoids (PAM)(又名K-medoids)。我们选择norm-referenced以来的无监督学习技术评分不能拥有一个训练数据集。特别是,我们选择k - means和PAM是唯一著名的聚类算法,允许我们指定数量的输出集群代表所需的成绩(如采用分级政策规定)。因此,k - means和PAM都自然适用于norm-referenced分级。每种方法的评分结果将基于实际测量和比较各种分布特征的数据集。

本文的主要贡献是一种简单、高效的分级算法和一种新的见解的性能统计方法、机器学习方法,我们的算法在无条件norm-referenced评分。我们所知,我们还首次展示的适用性k - means norm-referenced分级和PAM集群技术。本文的优点可以帮助全世界的年级与正确的分级方法的选择以满足他们的目标。

本文的其余部分组织如下。部分2探讨了现有研究之前。部分3解释了z得分分级方法。部分4检查机器学习技术,包括k - means和PAM,适用于norm-referenced分级。部分5解释了我们的提议评分算法。部分6证明一个分级性能度量的聚类质量。部分7实验我们的算法,z分数,k - means和PAM方法基于正态和非对称分布的数据集。部分8讨论了主要的发现。部分9结论。

至于机器学习聚类技术应用于学习者的成就,Arora和Badal2利用k - means]分析了学生的能力。能力是由于10-subject标志。每个集群的重心是映射到一个等级符号A到g .由此产生的每个集群的年级是学生属于这种集群的竞争力指标。学术规划者可以使用这样一个指标,采取适当行动,以弥补学生。同样,Borgavakar和Shrivastava [3)集群的平均成绩和内部类评估(例如,类测试标志,实验室性能、作业,测验,和出勤)分别使用k - means。因此,每个学生的能力与几个集群,这是用来创建一组规则分类的学生。任何弱的学生在期末考试之前确定减少失败学生的比率。Parveen等的研究。4)采用k - means创建9组的平均分:特殊,优秀,优越,很好,高于平均水平,好,高通,通过和失败。学生的平均成绩属于特殊和失败组,被称为天才和傻瓜,分别。的天才学生增强他们的知识,而笨学生通过差异化教学补救。Shankar等的研究。5)集群来自不同国家的学生根据他们的属性:平均成绩,参与事件的数量,数量的活跃天数,参加了章。一个最优kk - means决心通过轮廓的价值指数导致k= 3。在三个集群,集群(即最紧凑。,a cluster with the least value of within-cluster sum of square) was further analyzed for correlation between the average grade and the other attributes. Xi [6]利用k - means聚类学生的测试成绩为4类,优秀,良好,中等,后进生,采取适当的自我发展和教学策略进行治疗。伊克巴尔的研究等。7]探索一些机器学习技术早期等级预测允许教师提高学生的能力在早期阶段。在这样的工作,限制了玻耳兹曼机被发现为学生的年级最精确的预测。k - means也用于集群学生基于技术和非技术课程性能。

关于自动评分和评分方法,拉面,约阿希姆(8)提出了一个对等分级方法,使学生评价量表通过学生相互评价。因为学生没有在分级培训,招募了概率模型和序数同伴反馈的方法解决一个等级聚合的问题。白和陈9)提出了一个方法来自动构造等级隶属度函数,lenient-type成绩,严格型分数,和正常型的成绩,进行模糊推理来推断学生的分数。

摘要大大扩展了我们的不成熟的工作(10)与一个成熟的算法,一个新实际数据集,一个新试验的机器学习方法,一组新的发现,一种新颖的方法选择的指导原则。

3所示。传统统计评分

依靠传统统计评分方法z分数和t分数(1]。z分数是衡量有多少个标准差远低于或高于原始分数是总体均值。z评分(z)在技术上是定义在(1)签署了分数的标准差(σ)的观测值或数据点x高于平均值(μ)被观察或测量。

观测值高于有积极的意义z分数,否则,负面的z分数。

t分数将个人分数转换成标准形式和很像z当样本容量超过30。在心理测验学,t评分(t)是一个z分数转移和扩展的意思是50和10的标准偏差(2)。

统计评分方法首先将原始分数转换为z分数。的z分数是进一步转化为t因为分数来简化解释t分数通常范围从0到100,不像z分数可以是负的实数。的t分数排序,最大和最小之间的范围t分数除以所需数量的成绩获得一个完全相同的分数区间。定义使用的间隔t分数范围的所有成绩。通过这种方式,可以映射到原始分数z分数,z分数t分数,t分数t分数间隔,t分别得分区间产生的成绩。

4所示。基于机器学习的评分

本节解释如何应用k - means和PAM norm-referenced分级聚类算法,这是自然的无监督学习而不是监督。k - means和PAM被选自都事先允许指定集群的数量相匹配的数量合格分数已知的先验。

4.1。k - means

k - means (11)是一种无监督的机器学习技术分区n对象进k集群。k - means首先随机化k重心,一个用于每个集群。将每个对象分配给集群的重心是最近的对象。重新计算的方法在每个集群作为所有分配的对象k新的重心即重心的集群。遍历对象分配给集群和集群之间的重心重新计算,直到没有更多的物体。换句话说,k - means算法旨在最小化目标函数 ,在哪里nj集群对象的数量j,x= <x1,x2、…x即时通讯>是一个对象在集群j是谁的重心cj,x1x即时通讯的特征是x、|xcj|是欧几里得距离。同时,请注意,初始质心随机化可以导致不同的最终集群。

高等教育分级应用k - means算法时,k将合格的成绩。年级学生必须决定提前一次。

4.2。分区在Medoids

与k - means代表每个集群与集群内对象的平均值,PAM (12)代表每个集群的集群对象最接近的一个中心。PAM工作分为两个阶段。在第一阶段,构建、选择k对象的所有其他未经选择的对象的中心。这样的k对象被称为medoids选择。在第二个阶段,交换,所有未经选择的对象分配给他们最近的medoids获得k初始集群。对于每个集群,计算平均不同(即。,average distance) between a medoid and the other objects. Then, for such a cluster, search whether any object if it became a new medoid minimizes the average dissimilarity. If it does, select such an object as a new medoid. Once all clusters have been searched and if at least one medoid has changed, repeat the second phase; otherwise, PAM ends.

类似于应用k - means, PAM要求k被设置为合格等级符号之前的数量。

5。提出了分级算法

本节提出了一种统计算法norm-referenced无条件的评分。算法和算法中定义一步一步工作1

输入
S:向量的学习者的成绩
g:组排名资格等级符号
输出
旅客:向量的学习者的成绩
局部变量
问:数量的合格成绩
SG:向量的分数差距
接待员:向量的分数范围
开始
(1) 年代←(S);
(2) 问←countEligibleGrades (GS);
(3) SG←calculateAllScoreGaps(年代);
(4) SG←descendingSort (SG);
(5) SG←selectWidestGaps (SG cnt - 1);
(6) R←defineScoreRangesFromGaps (SG);
(7) G←成绩(S, R);
结束

该算法解释如下。在第1行,(S)最初排名的学习者在一组从最好到最坏的打算。在第2行,countEligibleGrades (GS)计数的数量合格的成绩。在第3行,calculateAllScoreGaps顺序(S)通过分数排名直接决定一个每两个连续的分数(即之间的差距。分数的差异)。4号线差距在降序排列。cnt-1在第5行,selectWidestGaps (SG)选择一组最大间隙相等数量的合格成绩- 1。例如,四个合格成绩需要四个分数范围;因此,selectWidestGaps (SG cnt-1)函数返回前三个最大的差距。有些差距是相同的,分数的差距是最接近中间的分数排名将返回的函数。在第6行,defineScoreRangesFromGaps (SG)创建一系列的分数范围,每一个都与每个合格的成绩。 For instance, the score range of grade B is 76 to 82 points. Finally, grades(S, R) in line 7 completely assigns proper grades to all scores based on the defined score ranges. In this way, our algorithm is simple while its performance will be proved in Section7

该算法的成本效益,我们分析其计算复杂度如下。让n是分数的数量(即评分。、| |)。在最坏的情况下,在1号线完成(S)n ncountEligibleGrades (GS) | GS |, calculateAllScoreGaps (S)n做减法每连续分数之间,descendingSort (SG) ,selectWidestGaps (SG cnt-1) | GS | 1, defineScoreRangesFromGaps (SG) | | g,和成绩(S, R)n。因此,该算法需要最多n n+ | GS | +n+ + (| GS | 1) + | GS | +n。假设n远远大于| GS |,因此我们的算法=O(n n),这是比较容易处理的。

的话,我们的算法只能得到两个输入参数,学习者的成绩和合格的成绩虽然算法的局部变量用于临时赋值而不是作为控制参数。此外,所有被调用的函数的算法执行简单的任务就暗示了他们的名字没有任何调优参数。因此,我们的算法可以防止用户参数调优的负担。

6。分级性能测量

在本文中,每个评分方法的性能与聚类代表质量。聚类结果的质量可以通过使用一个著名的指标来衡量即Davies-Bouldin指数(DBI)。我们使用DBI代替另一个相关的度量,轮廓,因为DBI计算更复杂得多;因此,它是高度可读的,实用的年级。让我们表示的δj平均的星团内的距离nj点(每个表示为x)属于集群Cj他们的重心cj:δj= 让我们也表示重心之间的距离cjcj的集群CjCj由Δjj= |cj′cj|。DBI是发现通过使用(3)[13]。DBI越低,更高质量的聚类结果(即。,low DBI clusters have low intracluster distances and high intercluster distances).

使用DBI的底层原因norm-referenced分级分级性能指标是直观的,如下所示。学习者与类似的成就应该得到同样的年级(即。,equivalent to low intracluster distances), and different grades must be able to discriminate achievements between the groups of learners as much clearly as possible (i.e., equivalent to high intercluster distances). DBI value will be low (i.e., better grading performance result) if clusters are compact and far away from one another.

7所示。评价

我们评估算法,z评分法、k - means, PAM norm-referenced无条件的评分。实验最初描述的配置和数据集的特征。然后,评分结果与性能指标。

7.1。实验配置

评分政策评估的分数为5合格成绩,A, B, C, D, F,没有任何类GPA约束是订婚。分级政策实施的四种方法通过使用我们的算法,z分数,k - means, PAM的方法。集群的数量是预定义的5(即。5合格成绩),k - means和PAM。每个方法都有其性能以DBI度量好像成绩代表不同的集群。

累计学期分数的六个数据集被用来确保公平的比较中分级方法。我们通过数据分布特征的数据集,以验证他们的报道(即所有可能的分布模式。不同的代表性案例研究)。特别是,使用的数据分布模式包括正态分布(ND数据集表1(SD)和积极的和消极的倾斜分布+和SD−在表的数据集23)。算法的有效性也是双重检查通过使用两个额外的数据集,轻微的积极的和消极的倾斜分布(RD +和RD−在表的数据集45)。最后但并非最不重要,其他罕见的数据集和一个专门宽分数差距(WD数据集表6)也被利用。的成绩依靠规模0.0到100.0点。一维向量被用来表示每个数据集如表所示1- - - - - -6以便读者能深入阅读的分数来判断每个应用方法的有效性。每个数据集也描述统计的术语及其分布格局。

第一个数据集,即ND,正态分布。表1显示了ND的原始分数。均值和中位数是63卡路里。模式不可用1的每一个分数都有相同的频率。σ是13.9。

理解ND的特点,人物1项目的正态分布。水平轴代表z得分。曲线计算了(4),x代表了一个分数。曲线下的面积代表分配值(1]。

第二和第三个数据集有积极的和消极的倾斜分布即SD +和SD−,分别。正偏态分布是不对称的钟形向左倾斜可能造成试题从学习者的角度过于困难。表2显示了SD +的原始分数设置。模式,中位数,和σ现年53岁的52岁的60.9和14.236分别。图2描述了SD +集的正态分布。偏态是沉重和= 1.006。

负偏态分布是不对称的钟形向右倾斜可能由于考试太容易从学习者的角度的问题。表3表明SD−的原始分数。模式,中位数,和σ等于87、82、73.5和16.929,分别。图3描述了SD−的正态分布。偏态是−1.078一样严重。

这三个数据集包含相同数量的原始分数和实际合成澄清了极端行为的四种研究方法。

第四个数据集RD−收集从61年一群真正的匿名学习者采取相同的2019年学年本科生课程。与SD +和SD−严重倾斜,RD−(和RD +)代表(即不完全正常分布。,稍微倾斜)。RD−在表4有轻微负面倾斜−0.138如图4。模式,中位数,和σ= 66.7,56.6,57.9和12.136。

第五个数据集,RD +,是真正的学期分数的另一组100年匿名学习者从另一个匿名的大学。与RD−RD + 0.155的稍微积极倾斜。RD +的特点如表所示5和图5。模式,中位数,和σ= 82.5,66.4,65.7和9.662,分别。

最后一个数据集,WD,包括广泛的分数相对差距。这样的得分模式存在于学习者的学习能力划分的组。因此,一些封闭的年级应该跳过。WD的特点如表所示5。显著成绩之间的差距在于79和30如图6。模式,中位数,和σ等于87、82、62.3和31.975,分别。WD−0.450的中度负偏态分布。

7.2。评分结果

我们评分和数据集通过使用该算法,z分数,k - means, PAM方法和报告他们的研究结果,分别在尖括号:<我们的算法,z分年级,k - means年级,PAM年级>

表所示7导致一个Nx4矩阵N行相等的分数。我们的算法与k - means交付完全相同的结果。这两种方法的DBIs等于0.330。z得分方法取得了相当于DBI的0.443。从学生角度可能是可疑的年级使用的原因z分数给学习者得分78年和79年同样的成绩,84和47马克持有人相同的F级,42分。这些只是因为78年和79年在相同的z分数间隔一段47在f·帕姆的z分数间隔也取得了0.330的DBI尽管太多的成绩。

我们也分级SD算法+数据集,z分数,k - means和PAM方法如表所示8。我们提供相同的结果作为k - means算法和PAM。他们的DBIs 0.222。z得分方法给DBI相当于0.575。有许多等级F在使用z得分方法。

接下来,我们分级SD−数据集表9。我们的算法DBI相当于0.299交付。的DBIsz分数,k - means, PAM方法同样0.233。

在实践中,没有完美的正态分布对学习者的成就。现在基于数据集的实验结果有轻微的倾斜分布。我们用算法,分级RD数据集z分数,k - means和PAM方法如表所示10。的差距列显示每两个连续得分之间的差异(即。,calculateAllScoreGaps的结果()函数算法(1)被我们的算法,利用4宽的缺口(粗体数字)被用作评分步骤。

所有四个方法产生不同的分级结果。特别是,我们的算法和k - means为同一组的学习者而分配一个z分数和k - means方法给同一组学习者F。我们的算法的DBI 0.375 k - means, PAM,z得分方法给DBIs相当于0.469,0.474,和0.492,分别。因此,我们的算法RD−——最好的分级结果。算法实现最低的DBI部分是因为D级只有一个成员的分数,与最小的集群,DBI好处。

我们分级RD +数据集如表所示11。有了这个大数据集,评分结果的方法是完全不同的。我们的算法,z评分法、k - means和PAM的方法产生了DBIs 0.345, 0.529, 0.486,和0.487,分别,这意味着我们的算法打败了其他人。

WD数据集是分级如表所示12。我们的算法,z评分法、k - means和PAM DBIs 0.403, 0.452, 0.449,和0.449,分别。虽然我们的算法优于其他人的DBI,回想一下,WD数据集重大差距的特殊模式,分配5年级完全可能并不合理。如表所示12,只有z得分方法能够自动跳过成绩C和D。

8。结果分析、查找和讨论

7比较项目所有提到的DBIs每个评分方法和数据集。它们可以分析如下。我们的算法DBIs”μ= 0.329,σ= 0.058。z分数DBIs”μ= 0.454,σ= 0.109。k - means“DBIsμ= 0.365,σ= 0.109。PAM′DBIs有μ= 0.366,σ= 0.110。每个方法的总体性能是显示在图8。DBI更好的聚类质量低,栈的高度最好表明,我们的算法执行由于最低DBI而k - means和PAM产生下面的整体性能结果10.90%和11.21% DBIs比我们高,分别。z得分方法执行最糟糕的情况下,比我们的更大的DBI 38.03%。这些相对性能差异表明我们的算法的实际意义。

我们也进行了配对(学生的)t以及评估是否意味着我们的算法的DBI在统计上显著不同于其他方法。特别是,配对t以及采用比较与DBI意味着由我们的算法z分数,k - means, PAM 6数据集的方法。我们使用标准的显著性水平为0.05,0(即假设均值差异。零假设值表示没有DBI区别方法) 值为单侧t以及。一个更小的 值意味着有有力的证据支持一个备择假设(即。DBI的区别方法)。首先,我们的算法和DBI区别z分数有 值为0.040,小于0.050。因此,我们的算法的表现z分数与统计学意义。其次,我们的算法和k - means DBI区别 值为0.144。最后,我们的算法和PAM的DBI区别 值为0.141。因此,我们的算法优于k - means和PAM没有统计学意义。注意,与现实意义不同,性能差异存在统计学意义只提供证据,因为它是一个数学定义,不知道任何关于我们的主题领域。

我们的算法和k - means导致相当类似的评分结果基于正常和heavily-positively倾斜分布。此外,通过检查表7- - - - - -12,PAM产生最平均的和最少的F。

我们可以讨论算法的行为方面的定义(3)如下。有效执行的算法聚类数据集(即在几乎所有的情况下。,SD + ND RD−RD +和WD),因为算法1总是选择最大的分数差距画集群边界,即最大Δjj。尽管该算法不处理的最小化δj,它通常不如Δ对DBI的影响jjδj参加求和(因此需要另一项的最小化 ),而Δjj是唯一的分频器(3)。然而,在异常情况下,仅仅Δ最大化jj是不够的,证实我们的算法时,表现最差的集群SD−数据集。

主要结论提供基于结果分析如下。一般来说,图7揭示了绝对程度而不是积极的还是消极的偏度极有更多的影响方法的分级性能:绝对偏斜度越大,等级越低的性能。这是因为绝对偏斜度越大意味着更多的分散或不同的分数。

考虑每个方法的性质与上述评分结果导致准则表13选择适当的方法。

当我们没有尝试从其他应用程序域算法对数据集,我们没有要求的其他应用程序算法除了norm-referenced分级。然而,我们算法的潜在应用可能包括资源消费国聚类问题在现实生活中,他们的实际需求cluster-boundary explainability第一要务:为什么连续两个排名数据点(即。消费者资料)属于不同的集群(即。,different resource allocation levels) needs to be straightforwardly acceptable by data point owners. Some concrete applications can include the nation-wide selection of government loan applicants. Otherwise, serious arguments or even protests might occur between not only data-clustering processor and data owners but also discriminated data owners themselves. The main characteristic of our algorithm meets such requirements by providing a simple and clear-cut answer based on the widest gap between cluster boundaries; the other algorithms require that data owners completely understand the complicated algorithms to get answers.

最后但并非最不重要,有一个公正的观点,我们指出该算法的局限性如下。虽然我们的算法可以证明年级变化评估分数通过明显的分数不同,分数范围的成绩可能是相对不同的不同z得分。例如,我们的算法可以产生只有少数学习者接受乙级和接收等级c .这可以消极的翻译是不公平的机会获得成绩。此外,不像z分数,我们的算法不能跳过任何合格的成绩如果没有人值得这样一个年级(即。基于标准)。位于表的例子12。然而,这个缺点是只有在某种意义上介绍了标准参照评分,而不是纯norm-referenced分级。

9。结论

本文提供了四种无条件norm-referenced分级方法的理解:我们的新算法,z分数,k - means, PAM。我们进行了实验与多个数据集各种基于DBI性能指标的分布特征。总的来说,我们的算法优于其他方法。k - means算法排名第二PAM紧随其后。z分数是最糟糕但适合一些案例。事实上,我们的算法非常简单,它是可实现通过使用电子表格工具。我们计划进行更多的实验与约束和算法应用到其他领域。

数据可用性

使用的数据来支持这个研究的发现包括在本文中。

信息披露

初步版本的论文发表在标题“Norm-Referenced成就评分:方法和比较”在《国际会议于2020年先进智能系统和信息。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是财务部门支持的计算机科学、理学院、Kasetsart大学,泰国。