评定量表在多项选择题的措施:飞行员在药理学研究

文摘

多项选择题的问题广泛应用于临床教育。通常,学生必须马克唯一正确答案从一组5个备选方案。在自愿的考试,最后一个义务药理学考试,我们测试了一个格式,多一种选择可能是正确的(三年的学生组)。此外,学生被要求每一项。学生们不知道有多少正确的答案中包含的问题。最后,必须填写一个问卷调查关于新测试的难度比5的一个测试。在期末考试,所有组同样执行。从结果,我们得出结论,新等级量表是一个更好的挑战和可能适应评估学生知识和信心比先前的选择题更深入。

1。介绍

笔试采用多项选择题(MCQ)现在在医学教育在世界各地广泛使用。这些测试是在心理学的研究目的e . l .桑代克约1900 (1]。可能,弗雷德里克·j·凯利是首先使用这些物品作为大规模评估的一部分,教育的目的(1]。可能,第一个大规模使用MCQ发生在美国军队在第一次世界大战期间2]。MCQ提供作战的可能性评估新兵使用有限的参与人力资源。后来在1950年代(3),国家考试团在美国,根据军事经验,这些测试用于评估医学生和外国医生。

MCQ-based考试的优点是快速、廉价、客观,使测试抽样广泛的课程。他们可以在一个非常标准化的形式,可以有很高的统计有效性。理想情况下,测试也应该是敏感的和具体的。MCQ-based考试现在经常电子标记,结果在数学上可以处理给主考官和学生定量反馈质量,可靠性和有效性的测试。关注在这个测试格式总是它真的是多么有效。换句话说,它测试所使用的技能和知识在临床实践中?是敏感到足以区分哪些是适合临床实践和学生应该保持练习?因此,国家医学考试委员会的美国和其他测试机构以及医疗能力也不断改变,适应,试图改善他们的多项选择题形式。

争议是否MCQ只有评估低水平的知识像召回孤立的事实,鼓励知识的轻视,或者借给死记硬背4]。一个主要问题,当使用这些MCQ-based考试,是否真的是知识是评估或其他模式,如人格结构的经验测试格式(“测试复杂性”(5]),或者决定一个受过教育的猜测。其他人支持MCQ也许认为,更好的构建MCQ可以测量和提高解决问题的能力在考生6,7]。此外,它已经(在美国科学导论)声称,有性别偏见在回答MCQ [8]。可能的话,女性比男性更不可能猜(9“测试聪明”[]或更少10]。NBME(国家医学考试委员会的)第一部分(基本医疗科学)在美国,男性(考生数量:7234)成绩要明显高于女性(考生数量:4090)。相对差异分数是5.9%。感兴趣的,男性的平均评分药理学是496(标准偏差:113)和女性,那是469年(标准偏差:107);因此,他们明显不同。这些差异较小,如果结果科学地区的入学考试(称MCAT)考虑在内11]。然而,女性的得分比男性更好的在第二部分中(临床科学)。

a类型的问题是第一个,“一个正确的项目五项”格式。虽然这种简单的形式通常被称为一个多项选择题的问题(12),我们将考虑这是单一的选择(SC)或单一反应(SR),由于只有一个单一的选择需要被正确的标记。需要注意的是,考生深知所有替代,但是一个是错误的和可能利用这些信息。

第一我们的研究的目的是研究一种新型的有用性问题有以下属性:(1)超过一个(k;0≤k≤5)的选择是正确的,要求考生能给多个响应(先生)和(2)的数量正确的选择对于一个给定的问题是不知道考生。我们使用多个正确的选择/因为SC格式所使用的主要问题类型在医学教育和考试涉及一些方法论的问题。最严重的是,如果考生选择正确的选择,它是被推断出来的,他们也会知道,其他四个都是不正确的;结论,不能持有批判性思考。

第二我们的研究的目的是测试的不同实现回答这个格式先生(图的关键1),即已知密钥,真选择检查和假替代留空(只可能需要不止一个复选框;MC)多个对错题(MTF)格式,在考生表示为每个替代是正确的还是错误的,和两个不同的评级键,每一个选择是被考生规模有信心评级与四(R4)或五(R5)类别从“绝对错误的”“绝对真实的。“我们的研究的进展报告已经发表在一个抽象的形式(13]。这项研究的总体目标是测试新的测试工具,促进反馈审查员的更深层次的知识和概念在学生药理学形成。

2。材料和方法

2.1。一般

我们进行了三项研究连续三年(2012 - 14)总体设计,表1。在每年,这项研究的一般概念都遵循同样的模式如下:在药理学课程,包括讲座和研讨会,我们进行期中考试和期末考试。期末考试是在课程的最后一周。这个期末考试之后,学生们被给予额外的问题在一个格式,先生,我们改变了。然后我们计算常规考试的学生成绩之间的相关性和其他问题不同的评分方法。


一年	一般的问题	R5	MC	MTF	R4	奖金

2012年	60		−	−	−	−
2013年	60	−				−
2014年	60	−	−	−		+

:今年考试了;奖金:+,-表示加分是否有增加学生参与/动机;n:表明有多少问卷终于可以在每个测试仪器进行分析;测试仪器:一般问题都必须在每年为所有学生;30个问题给出了在中期考试期末考试和30个问题;格式是单一的选择(一个正确答案得分5个可能的答案);R5:选择题五个可能的答案;主持人:最好回答多项选择题测试;或真或假的MTF:测试;R4:信心是四个答案之一。

学生总是单独坐着,教育者在讲堂的测试了。定期的考试,准备在四组相同的版本(不同的随机序列的问题)。随机测试版本有班上,整个考试,考生收到的只有一个版本。在期中考试只包含30个问题项从研讨会和讲座到应该知道时间。期末考试包含30个问题属于整个课程。在期中和期末考试中问题设计后常见的指南[a类型问题3),90秒的时间来回答每个问题。

仅供评分,结果被认为是在常规期中和期末考试。因为每个考试由30同样加权问题,我们计算简单的分数总和(max。30分)。学生通过这门课的时候达到至少60%的这两个考试的综合得分。这意味着36从30个问题给出正确答案的期中考试和期末考试中给出的30个问题。因此,通过课程需要参加考试。

额外的问题都给出了随机一起定期检查表开始前考试。这些问题已经在之前用于其a类型格式军团,被选为显示困难从0.34到0.96和测试歧视(从0.21到0.58),遵循经典测试理论(例如,Kubinger和沙尔14])。先生的格式,问题是尽可能略有调整,允许多个正确的选择。回答这些问题一直都是自愿的。

2.1.1。道德声明

本研究可以被理解为一种自愿的调查。没有相关的数据收集。因此,伦理语句没有必要这种自愿的调查。然而,研究符合任何适用的个人数据保护法规。学生们了解这个项目的考试前几周。参与者把他们的同意,填写考试。这些额外的自愿考试后直接写的考试但是不属于常规课程的过程中,和参与对通过的考试没有影响。

2.1.2。统计方法

意义的相关性进行了测试使用费舍尔的之间的区别r- - - - - - - - -z转换(科恩和科恩(15),54页)。

2.2。2012年

2.2.1。目的

作为第一步,我们希望评估的格式与广告评级关键先生(R5)执行与传统SC格式。因为所有的问题都来自相同的池用于定期考试,我们预期这两种格式的性能时应该差不多每一个选择是在先生的格式。然而,我们预期大幅降低分数在R5格式问题作为一个整体得分,因为只有一个不正确的回答选择将使整个问题错误和其他成本这个问题的正确答案。

2.2.2。测试仪器

为了测试我们新的R5格式的有效性,我们让两组学生马克十个问题在传统SC在R5格式或马克十修改同行评级格式后,常规的期末考试。一个典型的例子如图额外的问题2。如上所述,我们使用以前使用a类型的问题(单选择)稍微调整问题是其他问题。此外,一个问题是否定的,这四个选择是正确的。所有其他九个问题有一个正确和四个错误的选择。

(一)

(b)

图2

SC和R5的问题类型的例子。样题与他们在2012年五个备选方案和相应的关键。左面板(a):问题是以前的考试SC格式要求检查唯一真正的替代和离开错误的选择空白。(b)右面板:同样的问题稍微修改杆允许多个真实的选择。学生被要求在5范围内每个替代率(R5)。

2.2.3。测试管理

一半的学生获得了额外的项目原来的SC格式和一半的学生在新调整评级格式先生5点量表(R5)。等级量表是一个古典乐器(“李克特量表”)教育研究[16]。学生没有收到额外的信贷在回答其他问题。学生事先不知道什么类型的额外他们期望的问题。然而,两组被告知所需的方式给出正确答案在一个封闭的文本。一些(少于5%)学生呆在考场到规定时间结束。

2.2.4。样本

考生, ,一年级临床医学的学生参加了药理学的期中和期末考试。这个数字的学生中,只有数据的分析如下。其余的学生被排除在分析之外,因为他们没有回复表(1)有额外的问题,他们不为自己的学生身份号码表提供额外的问题,因此无法匹配与性能(14)或定期考试,在R5集团,他们留空超过五替代品(42)。这些57个学生辍学集团进一步概括为(做)。这导致不平等的群体大小的129 SC组和R5 59组虽然随机分布的两种格式的相同数量的试卷。

2.2.5。统计数据

额外的问题,不同的计分方法被应用于两组。SC组类似的得分总和计算额外的十个问题的定期考试。的正确选择的五个答案收到一个点(max。10分),达到至少60%的分数被认为是假想的传递这些问题。

R5组,每个50替代品的得分分别如下:选择得分为正确的,收到了一个点,如果(a)一个正确选择所得到的回答是:“绝对正确”或“也许正确”和(b)另一个不正确的回答了“完全错误”或“很可能错误的。“在所有其他情况下,选择得分是不正确的。和分数然后计算所有备选方案(max。50分)或所有问题(问题点都规定只有在选择这些问题回答正确;max。10分SC组)。

由于猜的概率增加当得分个人选择,不同的百分比是申请确定考生是否有假设通过这些额外的问题。当得分选择,至少70%的分数要求,评分问题作为一个整体时,16.8%的分数是需要假设通过这些额外的问题。

十个额外的物品没有分级,仅用于研究目的。学生们没有收到良好的性能在这个测试的加分。

2.3。2013年

2.3.1。目的

第二步,我们要评估的三种不同的键(图先生格式1)执行与对方。我们预计,每个键收益率相同的性能,但不同的钥匙被认为在困难和接受考生。

2.3.2。测试仪器

其他问题,我们不同的关键同样的问题在三组:多项选择(MC),多个是非题(MTF)和评级格式(R4)。一个典型的例子如图额外的问题3。如上所述,我们使用以前使用a类型的问题。同时改变他们的格式,先生的问题是尽可能略有调整,以允许多个正确的选择。进一步,一些替代方案被修改为每一个问题,这两个问题总是拥有一个,两个,三个,四个或五个正确的选择。此外,只有积极正确的选择给出了在测试仪器。

2.3.3。测试管理

三分之一的学生获得了额外的物品在MC实现中,三分之一在MTF的实现,最后第三R4的实现。标志着其他问题是自愿的,学生没有收到额外的信贷在回答其他问题。学生事先不知道什么类型的额外问题他们期望。然而,所有组了解所需的正确答案在一个封闭的文本。

一起考试的问题,我们分发问卷调查经验的学生在回答其他问题。学生被要求回答这些问题在完成额外的问题。一些(少于5%)学生呆在考场到规定时间结束。

2.3.4。评估工具

学生的经验和意见收集新问题后立即使用问卷测试。问卷包含十个问题容易回答其他问题如何,是否适合考试或网上准备测试,如果学生希望更频繁地使用它们,如果另一个不self-experienced键可能会更好。

2.3.5。样本

考生是一年级临床医学的学生参加了义务和期中考试在药理学参加期末考试。学生没有参加考试(没有中期:剩余的十;没有最后的:两个)被排除在外,导致考生考试的数据。

这个数字的学生中,只有数据的分析如下。其余的学生被排除在分析之外,因为他们没有回复表(5)有额外的问题,他们不提供或提供不正确的学生身份证号码床单有额外的问题,因此不能与他们定期考试性能(2)或留空MC组的多个问题(5)或者留空超过五替代MTF组(14)或R4组(21)。这些47名学生辍学集团进一步概括为(做)。这导致了或多或少等于组大小的58 MC组,56 MTF集团和48个R4组。

2.3.6。统计数据

2013年,50个替代品的十个额外的物品单独再次得分。MC组,选择得分是正确的,收到一个点(a)一个正确的选择是否检查和(b)一个不正确的选择是留空。MTF组,选择得分是正确的,收到一个点(a)一个正确的选择是否回答“true”和(b)一个不正确的选择所得到的回答是:“假的。“R4组,选择得分是正确的,收到一个点(a)一个正确的选择是否回答“绝对真实”或“可能真的”和(b)一个不正确的选择所得到的回答是:“绝对假”或“可能错误的。“在所有其他情况下,选择得分是不正确的。和分数然后计算备选方案(max。50分)。由于想当得分选择概率增加 ,至少75%的分数要求假设通过额外的问题。

十个额外的物品没有分级,仅用于研究目的。学生们没有收到良好的性能在这个测试的加分。

2.4。2014年

2.4.1。目的

作为最后一步,我们希望评估如果动机是更好的性能的关键因素在其他问题MC格式。为了实现这一点,考生收到额外的奖金,今年信贷MC回答问题的格式。我们预计这一措施能够减少辍学和/或引起更好的性能。

2.4.2。测试仪器

今年,只有R4主要被用于其他问题于2013年被完全一样,但学生了解考试前三个半月哪些类型的问题他们期望,运用评分法和良好的性能,他们可以获得加分。这些信息是通过一个单独的指示表包含在宣布考试。

2.4.3。测试管理

所有学生获得了额外项目的格式与R4关键先生。标志着其他问题是自愿的;然而,第一次,今年,学生提前熟悉什么类型的额外问题他们期望和接收两个加分的常规考试表现良好时额外的问题。

我们告诉学生,为了计算加分,以下评分法将应用:如果(a)一个正确选择所得到的回答是:“绝对没错,”三个点被授予,所得到的回答是:“可能真的,”两个点被授予,并回答了“可能错误的,”被授予,和(b)另一个不正确的回答了“绝对假的,”三个点被授予,所得到的回答是:“可能错误的,”两个点被授予,并回答了“可能真的,”一个点被授予(表2)。在所有其他情况下,另一种是不正确的和没有收到分。和分数计算备选方案(max。150分)。一个点被授予奖金达到至少60%的点,和两个加分奖达到至少80%的分数。这些信息已经被考试的公告和重复在一个封闭的文本。一些(少于5%)学生呆在考场到规定时间结束。


另一个选择,你收到点所示,如果…
	另一种选择是正确的,…	另一种是不正确的…

你马克绝对正确的:	3点	0点
你马克可能真的:	2点	1点
你马克可能是假的:	1点	2点
你马克肯定假的:	0点	3点

2.4.4。样本

考生是一年级临床医学的学生参加了义务和期中考试在药理学参加期末考试。这两个学生没有参加考试都排除在外,导致考生考试的数据。

这个数字的学生中,只有数据的分析如下。其余的学生被排除在分析之外,因为他们留空超过五替代品。这七个学生辍学集团进一步概括为(做)。

2.4.5。统计数据

在2014年,只有R4格式是用于所有考生又全部50个替代品之前得分分别为(max。50分)。进一步,我们为每个替代计算得分从0到3分奖励加分如上所述。然后我们也计算分数在所有备选方案(max。150分)。这种评分方法可能被视为一个新的密钥,我们将报告的完整性和术语BP“加分得分”从这里。再一次,至少75%的分数要求假设通过额外的问题。

3所示。结果

3.1。2012年

三组没有差异(SC、R5和做)关于年龄,F(2.241)= 0.311, ;性别分布χ²= 1.82, ;或者在考试总分,F(2.242)= 0.213, 。

而95.9%的学生通过了两个普通考试相结合,SC组中78.3%通过了额外的问题和R5组中只有50.8%的人通过了其他问题时得分替代品或74.6%通过得分作为一个整体(表的问题3进一步统计性能)。我们计算评分之间的相关性在合并后的常规考试和其他问题的不同的生长残痕。R5组得分替代品产生最高的相关性r= 0.365, ,紧随其后的是SC组r= 0.359, 。然而,没有明显差异的相关性, ,使用费舍尔的r- - - - - - - - -z变换(17使用公式2.8.5从[]和比较它们15]。在R5组评分的相关性问题是预期的最低r= 0.253,但仍然重要, 。散点图和安装回归线的性能结合常规考试和额外的性能问题在图所示4。


		N	最小值	马克斯	的意思是	SD	通过率	r与考试相结合	r在期末考试

期中考试		245年	50.0	93.3	78.9	8.5	97.6	0.774	0.402
期末考试		245年	16.7	96.7	70.5	11.9	86.9	0.891	1
综合考试		245年	35.0	91.7	74.7	8.6	95.9	1	0.891
额外的问题	SC组	129年	0	One hundred.	68.3	21.2	78.3	0.359	0.308
	R5集团(选择)	59	0	98.0	64.0	23.0	50.8	0.365	0.417
	R5集团(问题)	59	0	90.0	34.1	23.5	74.6	0.253	0.335

意义与和各自的N在每一行;意义与和各自的N在每一行。

(一)

(b)

(c)

3.2。2013年

四组之间没有差异(MC、MTF R4,)关于年龄,F(3.205)= 0.155, ;性别分布χ²= 1.54, ;或者在考试总分,F(3.205)= 1.61, 。

所有进一步的计算,重要的是要注意,总体综合考试的通过率只有69.4%,远远低于在2012年联合考试,通过率是95.9%。在期中考试的通过率已经低于前2012年(78.0%比93.3%),期末考试的通过率,回答更多的问题后,把更多的2012年(48.8%比86.9%)。这可能有偏见的所有进一步的结果。同时仍然有69.4%的学生通过了两个结合定期考试,其他问题的通过率很低在所有组:MC组5.2%,10.7% MTF组,10.4%在R4组(表会通过额外的问题4进一步统计性能)。我们计算评分之间的相关性在合并后的常规考试和其他问题的不同的分数。MC集团取得了最高的,只有显著相关r= 0.343, 。其他组的相关性都是零,不重要。散点图和安装回归线的性能结合常规考试和额外的性能问题在图所示5。此外,我们要求考生对自己的经历有额外的问题。有两个问题直接相关的问题就回答:考生能否处理好格式,关键他们经历过的,他们是否可以很容易地回答这个问题。对于这两个问题,MC集团同意大多数紧随其后MTF组和R4组(图6(一))。影响都是重要的,F(2.158)= 9.11,和F(2.156)= 5.56, ,分别。在另一个我们问两个问题,考生认为格式是否和关键他们经历过有用的教学或考试。MC集团再次同意最多,其次是MTF和再次R4集团在这个顺序(图6 (b))。再次影响都是显著的,F(2.157)= 6.09,和F(2.156)= 9.81, ,分别。令人吃惊的是,当被问及认为他们没有经历的两个键,他们认为这些是多么容易回答,MC和MTF组选择了R4关键超过另一种可能性而R4集团选择了MC关键在MTF(图的关键7)。在MC和R4团体,这影响是显著的,t(108)= 3.33,和t(88)= 2.11, ,分别,但不是在MTF组,t(104)= 1.96, 。


		N	最小值	马克斯	的意思是	SD	通过率	r与考试相结合	r在期末考试

期中考试		209年	33.3	96.7	68.6	12.6	78.0	0.837	0.404
期末考试		209年	16.7	83.3	57.2	12.6	48.8	0.839	1
综合考试		209年	28.3	83.3	62.9	10.6	69.4	1	0.839
额外的问题	MC集团	58	44.0	78.0	58.5	8.1	5.2	0.343	0.316
	MTF集团	56	38.0	88.0	61.6	10.1	10.7	−0.061	−0.054
	R4集团	48	46.0	80.0	63.7	8.0	10.4	−0.028	0.138

意义与和各自的N在每一行;意义与和各自的N在每一行。

(一)

(b)

(c)

(一)

(b)

3.3。2014年

R4和组之间没有差异,关于年龄,t(198)= 1.203, ,性别分布χ²= 1.02, ,或者在考试总分,t(199)= 0.663, 。

进一步计算,重要的是要注意,虽然整体通过率结合考试再次增加相比,2013年(今年的84.6%和2012年78.0%,2013年为93.3%),期末考试的通过率只有44.8%,比2013年更低(48.8%),比2012年要低得多(86.9%)。这是可能会进一步影响了所有的结果,作为额外的期末考试(表后问题都回答了5所有演出的摘要)。仍然有44.8%的学生通过了两个普通考试相结合,而其他问题的通过率很低,只有24.2%在正常R4得分。然而,这仍然是一个与前一年相比,增加了14%,学生不知道提前对问题的类型和应用的评分方法。我们再次计算评分之间的相关性结合定期考试和分数的额外的问题,但再一次,这些是在零附近,而不是意义重大。散点图和安装回归线的性能结合常规考试和额外的性能问题在图所示8。


		N	最小值	马克斯	的意思是	SD	通过率	r与考试相结合	r在期末考试

期中考试		201年	40.0	96.7	84.2	13.6	93.0	0.848	0.301
期末考试		201年	23.3	90.0	56.1	11.1	44.8	0.761	1
综合考试		201年	36.7	91.7	70.2	10.0	84.6	1	0.761
额外的问题	R4得分	194年	44.0	88.0	68.4	8.9	24.2	0.031	0.087
额外的问题	英国石油(BP)得分	194年	47.3	84.0	66.6	7.8	16.5	0.023	0.053

意义与和各自的N在每一行。

(一)

(b)

4所示。讨论

在文献中有争论哪种书面问题类型对医学教育是最好的。历史上,第一次写项目被分成两个的问题,即“真/假。“这被批评,因为语言问题的项目可能会模糊(不清楚,解释,或缺乏细节如病人的年龄)或者年级之间可能存在异议是否完全错误的或完全错误的答案3]。因此,问题需要一个最好的答案可能是上级(3]。这种格式提供了理论上的可能性之间的连续得分的答案最正确的、最正确的。因此,他们被认为反映了临床现实更密切。一些还建议不要使用- a类型(即。五,(3问题尤其是类型”以下是正确的除了“)因为无法rank-ordered选项在一个连续体,和考生不能确定“至少”或“最佳正确答案”(3]。他们建议选择“N”格式,而是要求考生的选择“N”反应(3]。此外,它被认为选择n格式问题可能比a型血人因为在临床实践中经常超过给定问题的一种可接受的解决方案(18,19]。我们做,故意,不让考生意识到他们应该选择多少反应,为了让猜不那么有用的策略。别人研究过不同的评分尺度或评分算法Pick-N-type MCQ [18]。首先,两个进球:如果所有真实和没有选择错误的答案。其次,部分信用得分:100%真实的答案,5点50%或更多真正的答案,没有点扣除错误的答案,零分不到50%真实的答案。第三,一小部分(1 / m)的一个点是为每一个正确的答案。他们得出的结论是,第二个和第三个选项统计可靠性较高,因此建议授予部分知识在这些类型(选n)的考试(医学生在慕尼黑,内科医学测试,德国(18])。其他人获得了类似的结论,表明第三计分法也获得更高的有效性,但第一种方法表现出更高的可靠性(医学生在美国19])。这可能是同样重要的,与别人相比,我们没有发现性别差异在我们测试的难度,这可能认为适当的建设我们的测试。其他人指出八个不同的评分算法相比在中学学生:他们惩罚算法报道,减去的部分明显干扰是最敏感的学生之间的性能差异20.]。在进行测试医学生在荷兰,作者数评分系统(即相比。,incorrect answers in MCQ were not penalized by subtraction from the total score) versus formula scoring (penalizing wrong answers and forcing students to guess the answer). They concluded that number-right scoring exhibited better psychometric properties than formula scoring [21]。在其他的研究中(在放射学进展测试居民),数字分数显示可靠性低于得分公式(22]。

另一项研究比较不同的项目格式和计算可靠性系数研究项目在每个格式。他们发现425 a类型的问题都需要获得一个约0.90但是只有275选n的可靠性问题部分信用得分相同的可靠性(19]。因此,需要更少的问题获得可靠性,从而为教师节省时间。这些Pick-N-type问题,然而,也不同于我们的格式,有超过五的答案(3,18]。选项的数量选择Pick-N-type明确表示,否则得分可能发生的问题。此外,有时与这些问题比熟练的临床医生更惨的医学生“test-wise”。然而,在现实世界中,[指定的选项选择的数量很少19]。因此,它是值得的,我们决定不显示多少选项选择。

一项有趣的研究用一种不同的方法来研究对医学生的信心。作者在药理学课程给a类型MCQ初级(第三年)和高级学生(第五年)和信心提出了四点量表(从我非常确定我猜)。他们注意到更高级别的医学生缺乏自信回答但表现出更高的正确性。他们得出的结论是,向毕业,医学专业的学生获得更多的知识和更怀疑这可能是一个有效的目标在医学教育23]。

尽管所有三个实现我们的新类型的问题需要相同的知识集,一组不同的“测试聪明”似乎需要成功地回答这些问题。而组没有在他们的分数差异分级考试,只有MC实现了与这些成绩显著相关。此外,学生回答R4实现得分最高的,尽管评级这个实现是最苛刻的。

尽管在许多机构和国家,中央授权测试给医学生依赖于明确的MC单一选择格式,和能力往往是自由选择自己喜欢的格式在他们的课程考试。我们建议MC问题正确答案的随机数增加MC的力量来评估学生的知识,也可能提供的机会提高他们解决问题的能力,换句话说可以达到更高的水平在布鲁姆的分类,实际上至少在美国生物学教学本科生更高的知识水平是衡量MCQ开花[24]。其他人抱怨说,至少在测试给医学生第一、二学年,只使用低能力水平,并呼吁改善MCQ通过提供教师节目MCQ写作技巧(25,26]。

我们指出,性能问题相关的考试是更好的比我们更多的自愿测试给出研究目的是没有后果最终评分。可能,这是由于学生动机期望更好的评分增加动力,因此性能测试。

当提供分级响应类别从“千真万确”到“当然假”最好是提供一个偶数的选项。一个中立的类别(“我不知道”)可能不是语义定义良好的,因此可能腐败的答案选择学生。

不同的问题格式由不同的猜测概率抱愧蒙羞。使结果可比对之间的整体性能测试,需要应用适当的修正公式。这只适用如果猜测概率的假设是正确的。在研究1中,我们看到了两种情况下:猜测校正工作在猜测得分情况但没有单一的得分情况。

研究2和3显示的重要性,熟悉格式的问题。显然,我们多响应格式,特别是信心尺度最初陌生的,这一事实给学生带来困难。因此似乎明智的引入任何新问题格式给新的考试前风格(换句话说:在类)的开始。因此,学生可以了解到新的格式,可以设计出最佳的回答策略,可能熟悉新的评分系统给他们背后的逻辑。

总之,真正的多响应比单一选择问题更难以回答的问题。多响应问题考官提供更大的灵活性来测试学生的知识,而且在某些话题,这种格式更容易构建问题与临床的相关性。等级量表(我相信和我不自信)提供的可能性考官问题的课程,发现错误的概念,和检测的主题没有覆盖在工作。因此,评定量表的问题可能是一个有用的工具提高教学课程形成性测试。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢医学院的网络学习发展集团”HaMeeL-Hallesches Medizinisches网络学习”和multimedia-enhanced教学中心(@LLZ)的马丁·路德大学Halle-Wittenberg。作者也承认金融支持开放获取出版基金的马丁·路德大学Halle-Wittenberg。

引用

j·马修斯,所有这些测试是谁出的主意?美国《华盛顿邮报》,华盛顿特区,2006年,http://www.washingtonpost.com/wp-dyn/content/article/2006/11/13/AR2006111301007.html。
c .约克姆县发生和r·耶基斯军队心理测试h·霍尔特和公司,纽约,纽约,美国,1920年。
s m, d . b . Swanson构建笔试为基础和临床科学问题全国委员会临床审查员,费城,宾夕法尼亚州,美国,第三版,2002年,http://www.nbme.org/publications/item-writing-manual.html。
d .新手,“多项选择和自由响应测试的比较临床能力考试”医学教育13卷,第268 - 263页,1979年。视图:出版商的网站|谷歌学术搜索
g·l·罗利”,考生最青睐的使用多项选择测试,”《教育测量,11卷,不。1、15 - 23,1974页。视图:出版商的网站|谷歌学术搜索
s m, d . b . Swanson”Extended-matching项目:一个实际的选择自由反应问题,“在医学教学和学习,5卷,不。2、107 - 115年,1993页。视图:出版商的网站|谷歌学术搜索
s . p . Coderre p . Harasym h . Mandin g·菲克,”两个选择题格式的影响新手和专家所使用的解决问题的策略,”BMC医学教育,4卷,不。1,p。23日,2004。视图:出版商的网站|谷歌学术搜索
k . f . Stanger-Hall“多项选择题:介绍科学课程的高级思维的障碍,”CBE生命科学教育,11卷,不。3、294 - 306年,2012页。视图:出版商的网站|谷歌学术搜索
g . Ben-Shakar和y西奈半岛”,性别差异在多项选择题测试:微分猜测倾向的角色,”《教育测量,28卷,不。1,23-35,1991页。视图:出版商的网站|谷歌学术搜索
d . w·齐默尔曼,r·h·威廉。”一个新的看猜的影响和多项选择的可靠性测试,”运用心理测量,27卷,不。5,357 - 371年,2003页。视图:出版商的网站|谷歌学术搜索
s m, d·f·贝克尔,d . b . Swanson”表演的男性和女性在NBME第一部分和第二部分:江山易改,本性难移”学习医学,卷68,不。2,S25-S27, 1993页。视图:出版商的网站|谷歌学术搜索
l·j·克伦巴赫”,注意在多个是非题测试练习,“教育心理学杂志,30卷,不。8,628 - 681年,1939页。视图:出版商的网站|谷歌学术搜索
a .丢掉了美国Gergs、j·诺伊曼和j·卢卡斯,“在选择题考试评定量表的方法:一个试点研究药理,”Naunyn-Schmiedeberg药理学的档案,卷386,不。1,p。S53, 2013。视图:谷歌学术搜索
k·d·Kubinger和c·h·沙尔”项困难的多项选择测试依赖于不同的项目反应格式:一个实验在心理评估的基础研究,“心理科学卷,49号4、361 - 374年,2007页。视图:谷歌学术搜索
j·科恩和p•科恩应用行为科学的多元回归和相关分析Erlbaum山谷,新泽西,美国,1983年。
g·诺曼,“李克特量表,测量水平和“法律”的统计,健康科学的进步教育,15卷,不。5,625 - 632年,2010页。视图:出版商的网站|谷歌学术搜索
r·a·费舍尔“频率分布的相关系数的值在无限期的样本人口众多,“生物统计学,10卷,不。4、507 - 521年,1915页。视图:出版商的网站|谷歌学术搜索
d·鲍尔·m·霍尔泽诉科普,m·r·费舍尔”选择n多个choice-exams:得分的比较算法,”健康科学的进步教育,16卷,不。2、211 - 221年,2011页。视图:出版商的网站|谷歌学术搜索
d . r . Ripkey, s m, d . b . Swanson,”一个“新”项格式的临床能力评估方面,“学习医学,卷71,不。10日,S34-S36, 1996页。视图:出版商的网站|谷歌学术搜索
a . Domnich d . Panatto l . Arata et al .,“影响不同的评分算法应用于multiple-mark调查项目的结果评估:一个攷虑学习有关健康的知识,”预防医学和卫生杂志》上卷,56 E162-E171, 2015页。视图:谷歌学术搜索
d . Ceclio-Fernandes h . Medema c .费尔南多领l . Schuwirth j . Cohen-Schotanus和r . a . Tio”比较公式和数字得分在本科医学培训:拉希模型分析,“BMC医学教育,17卷,不。1,p。192年,2017。视图:出版商的网站|谷歌学术搜索
c . j . Ravesloot m . f . Van der Schaaf a Muijtjens et al .,“不知道选项进行测试”,健康科学的进步教育,20卷,不。5,1325 - 1338年,2015页。视图:出版商的网站|谷歌学术搜索
d . Kampmeyer j . matthe说道,美国赫齐格,“侥幸的猜测或知识:横断面研究使用平淡和奥特曼药理知识的分析比较自信的基础测试在第三和第五年医科学生,“健康科学的进步教育,20卷,不。2、431 - 440年,2015页。视图:出版商的网站|谷歌学术搜索
a·克劳,c .短剑,m . p . Wenderoth“生物学盛开:实现布鲁姆的分类来提高学生学习生物学,”CBE生命科学教育,7卷,不。4、368 - 381年,2008页。视图:出版商的网站|谷歌学术搜索
h . Abdulghani m . Irshad Haque, t·艾哈迈德·k·Sattar)和m . s .哈利勒,“纵向教师发展项目的有效性mcq项写作技巧:跟进的一项研究中,“《公共科学图书馆•综合》,12卷,不。10篇文章ID e0185895 2017。视图:出版商的网站|谷歌学术搜索
a·a·范德比尔特·m·费尔德曼,i . k .木头,“在本科医学检查评估:评估课程考试,”医学教育在线,18卷,不。1,p。20438年,2013。视图:出版商的网站|谷歌学术搜索