炼油多项选择题的新指标

文摘

多项选择题(mcq)是最受欢迎的工具来评估学习和知识在高等教育。现在,有几个指标测量信度和效度的问题,例如,检查一个特定的困难问题(项目)或歧视的能力从少到更多的知识。在这工作两个新指数构造:(i)没有答案指数措施的错误数量之间的关系,没有答案的数量;(2)均匀性指数措施的同质性错误的反应(干扰)。指数是基于lack-of-fit统计量的分布是由卡方分布近似为大量错误。一个算法结合一些传统的和新的指数不断发展完善mcq数据库。这项工作的最终目标是mcq从大型数据库的分类的物品为了产生automated-supervised系统生成测试与特定的特性,如或多或少的困难或歧视的主题知识的能力。

1。介绍

基于多项选择题测试(mcq)被广泛用于评估。这些测试是用来评估学习和知识。然而,测试可能会建立仔细评估临床推理的其他能力。有一些建议考虑这一切(1- - - - - -3]。人们普遍认为构建良好mcq是耗时和困难的4,5),这证明仔细审查每一个物品。这种方法的主要优势是提供反馈的学生和教授。

mcq与一个项目阀杆(从项目的一部分,例如,一个问题或一个语句完成)和一组可能的反应,一般3到5不等。通常被称为唯一正确响应关键和不正确的反应干扰物。学生选择一个响应或没有。马克是1如果答案是正确的,如果没有反应已经选好,有一个点球对于每一个失败。因此,在这项工作我们正在考虑一个校正猜测。这个点球是一个无偏估计的一个学生可以在回答随机如果没有惩罚。一个负数的期末成绩在理论上是可能的,但这种情况很少出现在练习足够数量的项目,这对这类型的测试是至关重要的。

这项工作我们将焦点集中在这种类型的mcq由于现实原因。在西班牙,在获得B.M.程度(六年),所有毕业生必须通过国家竞争考试基于mcq访问医学专业。通过考试后,所有毕业生排名,他们可以选择从不同的提供专业花3 - 5年的培训期间的医疗中心。国家竞争考试获得专业医学包括225多项选择题有5个选项中只有一个是正确的,10个问题储备以防配方问题或错误检测到(235)。马克是1如果答案是正确的,如果没有反应已被选定,为每个失败有一个点球的1/4。事实上,这种测试是用于几乎所有的医学能力在西班牙的学生适应它。此外,这是一种mcq通常用于高等教育在西班牙。

这些项目的主要特点之一是指数来分析其信度和效度的存在,例如,困难或歧视指数。这些指标允许这些物品的分类的基础上得到答案。这些指数的另一个实用程序是检测错误的项目提供一个工具来改善项目,以供将来使用。他们也可以用来调查为什么比平常更多的失败中观察到一个特定的项目。特定项目的困难的原因可能是由于内在物品(例如,一个复杂的概念)或因为键或干扰导致的失败的学生。大多数穷人的设计项目的特点是以下几点:(i)项目不成功评估的主要目标,(2)存在正确答案的线索,和(3)的文本或模棱两可的回答。干扰的目的是合理的解决的问题看起来这些学生不实现的客观评估项目。同时干扰物有不合理的学生达到客观评价的项目。对于这些学生只是正确的答案必须是合理的。

有一些指标来识别弱和强组或测量的困难和歧视能力项目和测试。据作者所知关于这个主题的文献不考虑任何测量的同质性反应和速度的“不回答”(6]。存在一组技术基于模糊方法,基于更复杂的排序结果使学生明确地描述他/她的置信度在每一个可能的答案7]。

本文的目的是提供两个新的指标来衡量的错误数量之间的关系和没有答案的数量以及同质性的一个项目的反应。事实上,上述处罚的理由是基于同质性的强烈干扰,任何违反这一假设使惩罚的使用不足。这里提供的指标将有助于检查这本质上为了得到一个合适的测试。

最后,本文联合分析不同指标的开发为了获得mcq分类的过程检测项目,应修订。在这个意义上的算法是一个安全系统。

2。材料和方法

2.1。困难和歧视指数

困难和歧视中经典指数分析mcq和他们在文献中被广泛接受8,9]。

的难度指数 被定义为正确答案的比例在学生做测试: 在哪里是学生的数量进行测试是回答正确的学生人数。因此,在区间内。

这个指数可以用来比较的困难一个特定的项目与全球测试的困难。因此,这个指标可以用来检查测试的同质性的困难。

的歧视指数 措施项目的能力区分不同层次的知识的学生。为了计算这个指数测试学生必须从低到高排序分数。然后一群最低的分数(低组),另一组得分最高的(上组)。这些团体的大小根据文献不同,但它通常是学生总数的30%左右。在文献中最常见的大小是27%,例如,(10]。其它尺寸可能会发现,例如,在Tristran [11]。指数的定义在哪里是学生的比例上组回答正确项目和谁学生的比例在降低组谁回答正确项。指数的值在时间间隔1,意味着最大的歧视和0意味着最低的歧视。负的索引意味着上层集团与这个项目失败的学生比低的学生群体,这是矛盾的期望是什么。

尽管预计困难项目将歧视比简单的物品,这并非总是如此,这两个指标的结合提供了一个有趣的工具来检查可能的不连贯。指数都只是基于正确的答案,但是其余的反应起着重要的作用。均匀性指数给出认为所有的反应。

2.2。均匀性指数的干扰

一个新的索引定义来衡量MCQ干扰物的均匀性。因此,这个指数措施的数量错误的答案是否均匀分布在所有的反应,证明使用传统的惩罚。如果有一些非常低的频率响应,这意味着为学生太明显,这种反应是错误的和学生选择这个错误选择惩罚在同一个数量相比,那些选择了一个更可行的错误选择。相反,如果有一些错误选择的频率非常高,这意味着这种反应可能模棱两可的,导致学生错误的解释。

这个指数的重要性来自于惩罚学生接收从一个错误的答案。这个点球是基于假设所有的反应都同样的困难,因此同样的机会是随机选取的。然后一个人随机选择一个答案可能比一个人有更多的成功的概率研究的主题和困惑是一个清楚的解释的一个反应。更高的频率可能被认为是公平的学生比更低的。

这里给出的指数是基于lack-of-fit测试。让再和学生的数量反应对每项产品的数量。让,在那里是标记的人数没有反应,是成功的数量,和是失败的数量(错误)。此外,在那里,,是学生选择的每个的数量干扰选项。

后面的数字遵循多项分布的大小: 在哪里主题选择响应的比例吗和。

应用传统的点球,最佳的情况是所有的反应会有相同级别的困难,因此频率应该是相似的。下面是一个典型的lack-of-fit假设测试:

显式公式指数检验统计量:

这个统计量的概率分布是由卡方分布近似的自由度。该分布的值可以在任何教科书的基本统计信息或在任何统计软件,包括Excel (= CHIIN(概率;自由度))。这个近似是足够好,如果大部分的期望频率大于或等于5,没有一个小于1.5 [12]。指数在两种截然不同的情况下可能会消失。一方面,如果有完美的同质性对于每一个。另一方面,如果没有错误。在后一种情况下指数不应该被应用在第一种情况下意味着没有任何明确的异议的同质性。表1给关键值,2.5%的显著性水平,低数量的错误计算以200000为每一个模拟。例如,如果和,临界值9.348显著性水平为2.5%。请注意,如果错误的数量太小,指数仍是一致的。例如,如果和,然后观察指数3和关键的数字是3,因此没有证据的不均匀性。如果,他们可能会分布在两个干扰选项()或集中在相同的错误选择,这是临界值,因此没有证据断言缺乏同质性。稍后,我们将解释为什么我们在这里使用2.5%的显著性水平,而不是传统的5%。


\	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19

5	3	6	9	6	8.6	7.33	8.43	9	9.22	8.4	9	8.67	9.46	8.29	8.73	9	9.11	9.11	9
4	2	4	6	8	5.2	7	5.43	7	6	6.2	7.82	6.5	7.54	7
3	1	2	3	4	5	6	3.58	4.5	5.44	3所示。6

的价值仅仅依靠观察到的错误数量之间的差异在每个反应和错误的总数除以干扰物的数量。的价值增加时,选择一个错误的答案远的期望值。

2.3。没有答案指数

然而,没有一个指标被认为是到目前为止考虑“没有答案。“我们认为这是评估一个项目的适用性至关重要,因为一个项目是一个重要的区别,有大量的“不回答”,一个项目有大量的错误。第一个可能意味着干的问题是模棱两可的,学生不理解项目。大量的错误可能是由于一个错误选择正确答案非常相似。再次使用lack-of-fit测试比例, 在哪里是错误的比例在“noncorrect”答案是一个参考比例。这一比例可能会选择成套的物品。这一比例的引用顺序安装一次新的验证项进入数据库。的概率分布的统计(7)是由标准正态近似

这是一个双边的测试和零假设被拒绝为大值的绝对值的统计。例如,2.5%的显著水平的临界值是2.24;因此,如果比例很好。近似是好的和;否则,表的关键值2应该使用。拒绝的意思取决于数据的符号。因此,如果大于临界值和,然后有太多的错误;否则()有太多没有答案。


+	0.1	0.2	0.3	0.4	0.5	+	0.1

1	3.00	2.00	1.53	1.22	1.00	26	2.22
2	1.89	2.83	2.16	1.73	1.41	27	2.76
3	3.27	2.02	2.65	2.12	1.73	28	2.65
4	2.67	2.75	1.96	2.45	2.00	29日	2.54
5	2.24	2.24	2.44	1.83	2.24	30.	2.43
6	3.27	2.86	1.96	2.17	2.45	31日	2.33
7	2.90	2.46	2.39	2.47	1.89	32	2.24
8	2.59	2.12	2.01	2.02	2.12	33	2.73
9	2.33	2.67	2.40	2.31	2.33	34	2.63
10	3.16	2.37	2.07	1.94	1.90	35	2.54
11	2.91	2.11	2.43	2.22		36	2.44
12	2.69	2.59	2.14	2.47		37	2.36
13	2.50	2.36	2.48	2.15		38	2.27
14	2.32	2.14	2.22			39	2.72
15	3.01	2.58	2.54			40	2.64
16	2.83	2.38	2.29			41	2.55
17	2.67	2.18	2.59			42	2.47
18	2.51	2.59				43	2.39
19	2.37	2.41				44	2.31
20.	2.24	2.24				45	2.24
21	2.84	2.62				46	2.65
22	2.70	2.45				47	2.57
23	2.57	2.29				48	2.50
24	2.45	2.65				49	2.43
25	2.33	2.50				50	2.36

2.4。算法分析mcq

本文考虑的四个指标,没有答案同质性的干扰困难的一个项目,强势和弱势群体之间的歧视相结合,以提供一个过程对每一项进行分类:(我)步骤1:使用索引分类困难的项目;(2)步骤2:歧视一个项目使用索引的能力:如果指数范围内,那么项目之间的歧视低,上部组;(3)步骤3:如果索引值的索引显示了一个适当的比例“不回答”的相应的显著水平,进入步骤4;否则去第七步;(iv)步骤4:使用系数同质性的错误答案:系数给出了特定显著性水平程度的同质性;如果一个项目已经不足错误不应使用卡方近似和确切的多元分布相反(表1)。如果项目是均匀的,则跳转到步骤5;否则搬到步骤6;(v)第五步:项目根据指标进行分类;(vi)第六步:检查干扰导致不均匀性;(七)第七步:分析:如果的价值小于0,项目应该非常仔细地审查;否则到步骤8;(八)第八步:同质性的分析:如果错误答案是均匀的,阀杆应该修订;如果他们不是,必须检查相应的错误选择导致不均匀性。图1显示了算法的方案。的算法,目前正在评估一个项目如果至少一个指数或很大。因此,每个指数的显著水平,应调整生产全球显著水平为0.05,这是互补的“失败的概率拒绝零假设至少在其中一个测试的时候是正确的。“这意味着然后。Bonferroni的方法给出了这个数字。这是使用的原因2.5%显著水平的指数。

这个算法是一个安全系统,警报的声音应该修正为特定项目为了检测反应不足或问题。例如,缺乏均匀性检测到一个项目可能意味着设计不良,否则它只是一场虚惊,因为异质性的干扰受到教授的意图。

3所示。结果

该算法应用于第一年医学院的考试。学生执行5进展测试每个10课程的第一年。平均每篇论文有10 mcq 5为每一个可能的反应。因此,该算法应用于共500项回答的平均略低于50名学生。

表3显示的范围和指标用于决定一个项目是否满足标准的困难和歧视。对指数参考价值()被认为是0.44;这个值是基于整个项目研究。因此,对于每一项,错误的预期数量略低于没有答案的数量。


指数	分类	较低的	上

难度指数 ()	容易	0.75	1
	温和的	0.25	0.75
	困难	0	0.25

歧视指数 ()	高	0.3	1
	温和的	0.2	0.3
	低	−1	0.2

表4显示与相应指标的一些例子。一些评论的例子遵循之前为了显示指标的效用和解释在本文开发的。(我)项P4非齐次以来绝大多数的学生选择了错误选择和错误的数量很高。此外,这个项目没有很好的区分。(2)项P27是一个很好的例子,一个困难的问题;均匀和歧视很好和指数的价值很好。(3)物品和P46下岗通知两个问题以同样的困难和均匀性指数和不同容量的歧视。(iv)物品P83, P123歧视不同指数项P123和P389有类似的歧视与完全不同的同质性的水平,可能造成的困难的项目。此外,项目的数量错误P389太高就没有答案的数量。(v)物品P257 P259截然不同的均匀性指数不能被视为在同一类别。(vi)最后项P404分类是困难的,但它是好的同质性的观点和歧视。这个问题的关键是大量nonrespondents,也许出于困难和干扰物的均匀性之间的交互。


项	正确的反应	分布的答案						正确的答案	错误	正确的答案女朋友	正确的答案 GD
项	正确的反应	一个	B	C	D	E	NA	正确的答案	错误	正确的答案女朋友	正确的答案 GD

P4	B	2	13	15	1	2	8	13	20.	3	4	0.32	26.8	−0.09	2.91
P27	D	1	5	5	7	9	16	7	20.	5	0	0.16	6.4	0.45	1.38
下岗通知	D	0	0	1	32	7	3	32	8	11	4	0.74	17	0.64	1.91
P46	一个	32	0	1	7	0	3	32	8	11	8	0.74	17	0.27	1.91
P83	D	0	1	3	23	5	14	23	9	11	1	0.5	6.56	0.83	−0.48
P123	E	0	3	3	1	25	18	25	7	8	6	0.5	3.86	0.15	−1.62
P257	B	5	28	2	0	4	11	28	11	11	2	0.56	5.36	0.69	0.56
P259	B	2	30.	2	7	0	9	30.	11	12	1	0.6	9.73	0.85	0.98
P389	C	33	0	5	0	0	12	5	33	2	0	0.1	99年	0.15	3.95
P404	一个	9	5	2	5	0	29日	9	12	5	1	0.18	6	0.31	−1.91

这一切都显示出有用的组合使用四个指标,以提高评估过程。

表5总结了指标分类类别中指定的表中3。大部分的问题有一个温和的困难。只有7%的问题是非常困难的。为卡方分布的均匀性指数近似是好当错误的数量大于,20(见表1对于小的值错误)的数量。几乎一半的项目研究有非常小的错误,非常简单相关物品。因此,对50名学生,一个项目是分为容易如果有38以上正确答案。这意味着最多12个学生分布在错误和没有答案。不管怎样,非常简单的项目不需要进一步分析修改这个功能如果没有兴趣。项目的质量是令人满意;例如,超过75%的项目表现出高度的歧视。该算法提供了一个面向分类检测项目加以修订。一般196件500(39.2%)应该修订,304年可能传递到数据库后使用。


指数	分类	条目的数量	% 500 MCQ

困难 (P)	容易	202年	40.4%
	温和的	262年	52.4%
	困难	36	7.22%

同质性 (H)	均匀	355年	71%
同质性 (H)	非齐次	145年	29%

歧视 (D)	高	388年	77.6%
	温和的	51	10.2%
	低	61年	12.2%

没有答案 (G)	没有E和NA	6	1%
	错误	44	8.8%
	好	406年	81.2%
	NA	45	9%

中等难度高程度的歧视是最常见的情况在我们的数据库中。

最后,这项工作中所开发的算法已经在web应用程序中实现的,它可以测试在web地址http://www.med-cr.uclm.es/APEM/index.html。

4所示。结论

mcq是很常见的评价体系。在西班牙,这是用来给医学生选择专业。本文想要提供一个实用的工具来实现高质量的这种类型的测试中使用的大部分西班牙学校医学和高等教育。因此,重要的是要有合适的工具来提高测试的项目和订单有一个精致的数据库分类项目基于干扰物的质量。

这项工作的结果显示新指数的效用以及开发的算法来检测项目和反应加以修订。这一切提供了一个实用工具来创建新的好的物品所通缉教授。这使得开发一个自动生成系统的测试与特定程度的困难和歧视从一个足够大的数据库。当然这个过程作为参考,总是由教授指导。的主要优点是避免风险的建筑太难或太简单的测试以及测试与太低歧视权力。这个过程可以帮助消除主观性,但它可能不是100%。

困难和歧视的水平作为参考系数来自文学作品以及学生样本的性能。其他情况下这些水平必须恰当地调整。

总结结果我们可以说,新指数结合的困难指数提供了一个工具来检测不当干扰,有时不恰当的物品。判别指数提供了一个工具来丢弃或修改低识别项。这个过滤过程后,一个项目进入通用数据库相应的值的指数。当一个新的考试必须运行,一个automated-supervised过程生成合适的测试场合。

有一个古老的争论中使用某种惩罚猜测基于mcq测试。通常的修正是基于假设所有错误的答案是猜错了,正确的答案是通过获得知识或猜测。钻石和埃文斯13]提供了一个彻底的主题,强调优点和缺点。最早的研究在这一领域是由鲁赫和斯托达德14]和鲁赫Degraff [15从不同的角度)。最近埃斯皮诺萨和Gardeazabal [16)导致了这个讨论的形式分析惩罚的影响。如果考虑部分知识,一个点球基于通用测试的结果可能会更加公平。一个例子将展示这个提议,需要进一步考虑,这不是本文的目的。假设所有的学生都必须回答所有的问题。因此他们将随机选择一个替代的选择集出现,可能是真实的。假设在一个特定问题的答案的分布如表所示6。最优选择的常数需要仔细研究。一是想选择它以这样一种方式的意思是四个点球是1/4,传统的修正。例如,和实际修正出现在桌子上6括号之间。在这种情况下,许多考生选择错误选择2。其原因可能是它作为一个良好的错误选择或它是一个模棱两可的替代或学生不教在这方面。在这些情况下,惩罚应该最小化。相反的错误选择4。这种方法的优点是在考虑学习的整个过程和评估考生的实际工作和知识。的缺点可能是实现组织战略的可能性,这样选择的最后一个问题总是怀疑,但它不太可能发生。这只是一个建议给我们清楚的局限性和优势校正的猜测,事实上我们正在做它。正如前面提到的,本文的过程是一个安全系统的报警声音有一些错误的概率在特定MCQ的配方。假警报的数量不是问题,假警报可以最小化调整方便这个概率的极限。


	真正的选择	错误选择1	错误选择2	错误选择3	错误选择4	总和

组的答案	25	3	12	8	2	50
成比例的处罚	0
成比例的处罚	0	(8/25)	(2/25)	(3/25)	(12/25)	(1)

利益冲突

作者宣称没有利益冲突有关的出版。

引用

j . Cangelosi设计测试来评估学生的成绩艾迪生韦尔斯利,纽约,纽约,美国,1990年。
s m, d . b . Swanson构建笔试为基础和临床科学问题、国家医学考试委员会的费城,宾夕法尼亚州,美国第3版,2001年版。
j . Pales-Argullos”科莫elaborar correctamente preguntas由于多重?”Educacion》,13卷,不。3、149 - 155年,2010页。视图:谷歌学术搜索
j·k·法利,“多项选择题测试:写作的问题,“护士教育工作者,14卷,不。6、10 - 12,1989页。视图:谷歌学术搜索
j .凯赫,“编写多项选择测试项目,”实际的评估,研究和评估,4卷,不。9日,1995年。视图:谷歌学术搜索
m . Tarrant j .器皿和a . m .穆罕默德,“评估功能,无功能的干扰在多项选择题:一个描述性的分析,“BMC医学教育,9卷,不。1,第四十条,2009。视图:出版商的网站|谷歌学术搜索
Shahbazova和o . Kosheleva”,“模糊”多项选择题测验以及如何年级他们,”《不确定系统,8卷,不。3、216 - 221年,2014页。视图:谷歌学术搜索
a . Oosterhof“相似性指标,各种物品的歧视”《教育测量,13卷,不。2、145 - 150年,1976页。视图:谷歌学术搜索
S.-M。Sim和r . i Rasiah”项困难和歧视之间的关系指数在正确/错误形式的多项选择题para-clinical多学科论文”医学科学院新加坡上,35卷,不。2、67 - 71年,2006页。视图:谷歌学术搜索
t·l·凯利”的选择上下组验证的测试项目,“教育心理学杂志,30卷,不。1,17-24,1939页。视图:出版商的网站|谷歌学术搜索
洛杉矶Tristran”模型计算机辅助项目分析,”外出Nacional de Evaluacion EducativaCENEVAL, 45 - 68页,1995年。视图:谷歌学术搜索
m·h·DeGroot概率和统计美国,addison - wesley,阅读,质量,1986年。视图:MathSciNet
j .钻石和w·埃文斯,猜测,校正”教育研究的回顾,43卷,第191 - 181页,1973年。视图:谷歌学术搜索
通用汽车鲁赫g·d·斯托达德,“比较可靠性五种客观考试。”教育心理学杂志,16卷,不。2、89 - 103年,1925页。视图:出版商的网站|谷歌学术搜索
通用汽车鲁赫和m . h . Degraff”修正的机会,“想”和“不猜”指令在多个响应的测试中,“教育心理学杂志,17卷,不。6,368 - 375年,1926页。视图:出版商的网站|谷歌学术搜索
m·p·埃斯皮诺萨和j . Gardeazabal“最佳猜测在多项选择题的测试中,校正”数学心理学杂志,54卷,不。5,415 - 425年,2010页。视图:出版商的网站|谷歌学术搜索|MathSciNet

概率论与数理统计》杂志上

文摘