文摘

本文意在分析模型的内容效度为10年级数学考试。模型试验的研究来评估如果他们指示性的课程内容,强调教学大纲的学习成果。调查设计与六年的考试,数学模型教学大纲和教科书作为关键数据来源被认为是在这项研究中。肯德尔和谐系数和卡方检验的统计处理被用来分析获得的定量数据。此外,使用叙事和描述定性数据进行评估。研究的统计结果显示,没有测试项目和学习成果之间的关系在认知域类别或主要课本内容。因此,考试项目不符合教学大纲的目标和内容。此外,定性数据显示测试项目不清楚,不好,和多维,以及拥有较低的内容效度。

1。介绍

测试或检查是一个教育评估来评估学生的学习。考试并不是为了欺骗学生或混淆。考试应该是相关重要的学习成果,目标,目标,和/或能力。学者在测量领域的评估考虑考试有三个原因(1]。首先,考试有助于评估学生和确定它们是否学习老师期待什么。第二,学生的学术努力精心设计的测试激励和结构。学生根据他们希望如何进行测试研究。很容易记住事实,但是很难理解和应用信息。第三,测试可以评估教师的表达能力。除了加强学习,测试可以帮助学生找到薄弱环节和重点研究工作(2]。

根据狭谷,Folse Hubley [5),考试是系统程序管理学生信息的表现。考试的结果不仅反映学生的水平的成功,但他们也给利益相关者信息对教学过程的其他组件。提供的信息可以用来决定在各种教育情况(4]。布朗(3)表示,一个设计良好的检查或测试是一个工具,它提供了一个精确的衡量考生的能力在一个特定的领域。因此,测试帮助利益相关者作出相关的决定,他们必须具备两个重要特征,即有效性和可靠性。教师应注意和检查测量工具是否函数的目的是为了服务。这意味着当测试没有达到真实的质量,教师是不建议使用决策的工具。因此,在准备考试,教师需要考虑和采取实际措施来提高他们的课堂的有效性和可靠性测试(6]。

数学测试应该是有效的和可靠的措施的能力。教师在多大程度上能够构建和应用有效的评估工具是由他们的理解有效性的保证课堂质量评估。作为一个例子,专家判断决定是否测试所需的代表被测量的知识和技能。这需要一定程度的一致性在课程内容,测试目的和测试内容。内容效度是由测试的覆盖率基本目标和内容,以及足够的抽样的基本课程内容(7]。更多的研究人员像Regasa8],Tamrat [9],Mulugeta [10测试的有效性进行了研究。他们得出的结论是,人们普遍成就测试的不当使用,威胁着教育评估的有效性。为了更好地支持质量和相关性,评价者必须投入更多关注他们所使用的结果测量的有效性。

根据上述各种研究回顾,检查应包括至少两个基本特征。首先,考试应该展示强大的内容之间的联系或与物品包括学习经历或考虑。第二,物品包括在考试中应该精心挑选和代表学习的结果。检查这些属性的存在,研究考虑连续六年考试管理的有效性。这些模型检查基于9和10年级数学教学大纲。这项研究强调了时间分配、学习成果和因素可能影响考试的内容效度。因此,本研究的两个目标被认为是评价内容效度10年级的数学模型由Oromia地区教育局考试。这些都是如下:(我)评价的内容之间的关联强度课本和考试项目的模型(2)确定样本模型的每一项考试大纲的匹配预期的学习成果

2。回顾文献

2.1。数学教学和测试

测试可能是一个机制来识别我们的教学是在多大程度上适合的水平,了解学生的弱点和优点在教学过程和显示程序的大致方向。支持这一观点,数学评估是敏感的变化随着时间的推移,学生成绩(11),同时研究信息收集的措施是否可以用来支持教师教学决策,从而提高学习陷入困境的学生12]。

根据谢和Adhami [13),检查和测试是优秀的工具来评估特定科目的学生所学到的东西。检查发现部分班级每个学生似乎记得,最感兴趣的。考试也是非常好的方法为教师更多地了解学生,因为每个学生都是独一无二的。测试环境增加了压力,让教师了解学生争论,认为个人通过他们的工作,这是一个有用的技巧记住未来的课堂活动。与此同时,测试有不同的目的。他们可能主要构造为一个工具加强学习和激励学生或主要的评估学生的数学成绩。中产阶级的学生数学教育正在经历重要的十字路口。他们“对他们的数学能力形成的结论,兴趣,动机,影响他们如何数学方法在接下来的几年里”(14]。

的测试应该非常合适和建设性;否则,教师、学生和其他行政人员可能是误导。无效的测试可能直接学生错误的学习习惯。项目分析服务改善项目使用后在其他的测试中,消除模棱两可或误导性的物品在一个单一的测试管理,提高教师的技能测试施工,确定特定领域的课程内容需要更加强调或清晰15]。测试措施只有事实和简单的思维水平往往只对学生学习习惯的事实。这意味着测试不是一个精确测量的预期目标和内容的教学大纲,使决策者把错误判断学生的评估。

总之,更好的测试或考试意味着更好的教学;更好的教育意味着更好的学习。一个精心设计的测试系统可以带头教育改进,而设计不良系统可以破坏最专门的努力提高教学质量。

2.2。保持数学考试效度

教师、家长和学生通过考试获得强有力的信息和国家/地区考试什么是重要的学习和如何教。教师必须精通准备考试和测试以保证其准确性和合理性。专家判断需要决定考试是否代表的信息和能力来衡量。这需要一定程度的一致性在课程内容,考试目标和内容(16]。

很明显,一个人不能验证测试,但有可能验证结论来自学生的考试成绩(17]。老师经常忽略这个事实,因为他们更关心他们的问题而不是结论的合法性。而不是开发可靠的考试,教师应重点发展评估提供证据的学生学习可以得到准确的结论。基伦作为参与所指出的那样,这是一个重要的问题教师为了避免俯瞰评估的最重要的一个方面,即有效利用测试结果在教学决策18]。

鉴于课堂测试有效性的重要性,教师必须熟悉有效性的概念和如何获得validity-related证据测试和其他形式的评估,以便得出正确的结论,根据学生的测试结果做出适当的判断。不幸的是,测试能力建设中缺乏教师[16,19日20]Onyekuba Anyichie, 2013。认证后,大多数教师得到很少或根本没有受过培训或援助。虽然老师不是将专家在教育测量和评价,以构建有效的和可靠的测试,他们需要一个基本的了解如何开发和验证课堂测试为了使用他们的评估结果对学生做出明智的决定。情况可能更糟在大学层面,大多数教授,除了那些在教育学院,教育评估缺乏正式的培训。大多数工作的重点通常是评价教师开发测试的能力在小学和中学的水平。为了提供基线数据测试开发能力建设的质量保证和验证学习成果的评估,有必要找出教师了解课堂的有效性检查。

2.3。了解和测量测试的内容效度

许多测量专家教育指的有效性作为一个逻辑过程教育者遵循在测试中,我们定义我们测量,构造措施,并寻求和分析数据相关解释测验分数的有效性及其未来的应用程序。这逻辑流程适用于测试以及测试项目的测试。在这方面,Haladyna [21]声称项发展是一个主要来源的证据支持一个测验分数的解释或使用。一个有效的评估,根据Mc高山(22),是一个衡量它声称的措施。

所有测量应该有特定的功能,不管使用什么类型的设备或将如何使用数据。米勒所阐释的有效性等。4)是一个光谱,不是一个非此即彼的命题。因此,我们应该避免称评价结果为有效或无效。考虑有效性的最好方法是在度,效度高,模式有效性,和较低的有效性。有效性总是绑定到一个特定的应用程序或解释。没有所谓的测试可用于一切。这是由于这样的事实,评价结果的有效性有所不同,这取决于解释(23]。

在成就测试中,更多的重点是内容效度要比其他类型的有效性等预测效度,结构效度,脸效度和同时效度。最后,据说一个测试内容效度,如果它是一个具有代表性的教学大纲的内容和目标。换句话说,一个测试被认为有内容效度只有如果它包含一个适当的样品的相关测试项目;一个项目的质量决定的质量测试,这意味着在测试改善项目的修订和完善的质量测试(24]。测试项目通常由一组评估主题专家(sme)来确定内容效度。这些中小企业提供了一个列表的内容区域中指定测试蓝图,以及测试项目将基于每个内容区。中小企业是然后问他们认为每个项目是充分匹配指定的主题区域。任何元素被不适当地的中小企业作为匹配测试,蓝图,或者有缺陷的修改或删除从测试(25]。

抽样的充分性域的内容决定了内容效度的一种乐器。内容效度,据布什(引用(26),是指程度仪器覆盖它目的是测量的内容。它也指的是精密的测量内容是采样。因此,内容效度评估量表的内容的全面性和代表性。每一项的可测量的范围定义特征和项的集合代表所有功能所需的特征都是内容效度。内容可以证明的有效性在两个阶段:开发和判断。

根据发展阶段,内容效度应何时开始测试开发。初期发展中一个测试是确定“域的构造”应该被测量。没有全面的客观的方法来确定一个测试的内容效度27]。创建一个测试过程中,测试制造商首先决定了主体的广泛承认的目标的指令,然后创建一个测试计划。测试内容来源于课程内容和加权根据课程目标和内容的重要性。在这种情况下,评估测试的内容效度需要全面和广泛的评估实际的测试任务。同样,必须考虑内容效度。测试的内容和项目是基于国家标准、课程标准、数学课本,和最佳实践在数学教育研究28]。

在审判阶段,内容效度是基于量化的证据。专业的主观判断有必要建立规模的程度是衡量一个感兴趣的特征在检查内容效度判断阶段。相关构造的程度评估工具是由专家主观判断的内容效度。然而,至少五个专家主题,或五到十专家,应该包括在内。与此同时,等级量表可用于判断的内容区域。相关性、清晰、简单性和模糊性都是标准确定内容效度(29日]。

一般来说,内容效度是指测试的物质,因为它涉及到在课堂上教或覆盖。一个测试的内容效度必须适当,具有代表性的内容覆盖面积。因此,测试内容效度是一个开发一个测试的过程通过使用一组适当的测试规范和项目写作标准。因此,内容效度评估内容区域的全面性和代表性。

3所示。方法

3.1。了解和测量测试的内容效度

在这项研究中,设计定量和定性调查方法实现的。使用定量和定性研究方法的目的是建立强有力的关系定量和定性数据收集和完全理解这个问题在调查中。在数据源方面,初级和二级数据源。数学教师作为数据的主要来源。数据获得了连续六年的10年级考试,数学模型教学大纲,和数学教科书的成绩9和10担任辅助数据源。

根据研究人员设定的标准,3数学教师有目的的选择准备内容效度形式(编码表)的研究人员。教师资格和经验被用于选择教师的标准。因此,在数学和至少学士学位至少十年的教学经验9和10级数学作为标准。此外,8数学教师有目的的选择接受采访,作为法官填写准备内容效度的形式。标准选择法官他们至少拥有学士学位,数学和至少七年的教学经验9和10年级数学。

为了获得相关数据在这项研究中,两个数据收集工具,即编码表(内容效度形式)和面试,。内容效度的形式被研究人员起草,并编码由三个选定的数学教师根据教学大纲的目标和内容。老师测试项目编码到不同的教学大纲的内容区域。的采访中,使用了非结构化面试。面试集中在减少内容效度的因素,如测试项目和运动之间的关系的主要主题文本书籍,多重空间的测试项目,模棱两可,测试项目的布局和安排。检查仪器的表面有效性,数学系的两位专家和大学教育的一部分。

3.2。数据分析的方法

通过内容效度的数据表单使用描述性统计的方法,定量地分析。项目内容效度的形式总结了表和处理通过频率和百分比。分析与研究目标。协议或法官之间的分歧在教学目标的分类进行了分析肯德尔和谐系数。同时,教科书的内容之间的联系的强度和数量的物品使用卡方检验的模型进行了分析。卡方(独立假设或假说的测试)和表值计算皮尔逊卡方的比较在指定的自由度有0.05%的意义作出决定。获得的数据通过定性访谈分析了数学教师使用的叙述和解释方法。

4所示。结果与讨论

在教育系统的主要功能测试涂层在Osuji Nwana声明(30.)是“激励学生学习,确定学生已经学会了多少,特别困难,特殊能力,教学方法的优势和劣势,充足的教学资源和实现目标的程度。“所有这些功能,应该关注的质量测试。有不同的方法测量的质量测试。其中之一是内容效度测量的质量测试关联课程的学习成果和内容(31日]。

成绩9和10教学大纲包含30和26个单位的指令,167年和162年期间,分别分配。

教学大纲还包含20个主要主题准备在不同认知域类。教学大纲的总目标是培养扎实的数学知识,技能和态度。因此,预计该地区数学模型以这种方式考试做好准备。在这项研究中,连续6年的数学模型考试(2012 - 2017),准备从相同的课程,进行了分析。

4.1。教学目标的分类数据的分类教育领域

数学成绩9和10的分类目标建立了采用Osuji和Okonkow30.]。标记的分类,在裁判的帮助下,提出如下:

1显示了相对比例的教学大纲。情感领域和精神运动,包括感情,情感,价值观,和心理能力,分别被忽略而认知领域。与其他领域相比,大的重点是减少认知域和学者注意到精神运动领域。数据表明,没有大纲目标与情感领域。然而,马沙诺和肯德尔(32)声称,教育目标应该旨在解决所有领域的认知、精神运动,以平衡的方式和情感领域。与这些调查结果,Osuji Okonkow [30.)披露的事实教学目标通常表示在认知领域的评估行为。在测试开发和规划、测试专家们更关心如何公平认知领域的分类提出了在测试项目。为了实现这一点,给出了分类过程如下:

4.2。值的一致性系数(W)法官在所有分类

为了最小化的影响法官对数据质量的因素,调查法官想知道是否所有应用数据收集方法以一致的方式。评分者间信度量化分数的亲密的池的同样的研究参与者。分数越高,越高的可靠性数据收集方法是(33]。Kothari [34)定义了条件措施的协议在一个特定的分类类别,提出了一个概括的肯德尔和谐系数(W)的情况下多个法官。这被认为是一个适当的措施研究协会在三个或更多套的程度排名。它有助于想象给定的数据看起来如果有完美的几套之间的协议和评分者间信协议提供了一个有益的讨论在多个法官。

第1行表2表明判断的意义肯德尔和谐系数(W),的关键值年代在5%水平K= 8,N= 3的计算值是48.1年代是128年。这是大于的临界值年代。这个值显示w = 1(这意味着具有重要意义K= 8套排名依赖),排名很近,有更高的可靠性。从第二行,教学大纲的分类认知领域使用的临界值进行了测试年代在5%的水平K= 8,N= 6,以及的观测值年代的重要性,来判断肯德尔和谐系数(W)。的关键值年代的观测值年代在0.05级是299和1076.50,分别。的观测值年代大于临界值的年代,结果W= 0.9881验证统计上显著的协议中法官。这表明高评分者间信法官之间的协议。第三行显示的计算值年代的临界值年代在全年测试项目的分类类别的认知域,分别是989.50和299年。这个结果显示有统计学意义共识法官在0.05水平的意义。这意味着排名接近,所以法官之间有一致性。行4显示了计算肯德尔和谐系数的测试项目的分类教学大纲内容的法官。作为N大于7,卡方值x2151.06自由度(N−1)= (20−1)= 19。这个自由度的临界值是30.144在0.05水平。结果验证统计上显著的法官之间的协议,表明高评分者间信协议。这种同质性评级确保评级机构之间有一致的知识和技能。这意味着评委们专家和小心的评级。一般来说,有统计上显著的法官之间的协议。研究人员也使用这些数据来计算理论方差(期望值)和比较它与实际方差(观测值)。

4.3。比例的教科书的主要主题和练习

确定之间的关联强度的主要主题和练习课本,重要的是确定预期的测试项的数量,可以分类的每个主要话题的练习下课本,按比例计算,基于模型的总项数考试和练习的数量在每一个主要话题。成功表显示了每个主要话题的练习数量在9和10年级的教科书。

从表3,我们可以观察到更多的练习有以下主要话题实数系统(13%),其次是方程和不等式(11.38%)、测量(9.27%)和多项式函数(9.11%)。几个例子主要话题下的练习有三角函数的倒数(0.98%)、简单的三角恒等式和现实应用程序问题(1.13%)、指数和对数方程和应用程序(1.79%),和距离和部分公式(1.95%)。然而在实践中,练习应是相当分布式依照教材和教学大纲的内容。分配不均的内容和相应的练习不会导致一个完整的教育目标的成就或课程结束35]。

4.4。卡方值的练习教材和测试项目

确定是否观察到测试内容符合教学大纲的练习内容,采用卡方统计数据。这些观察和期望值。期望值理论价值,被称为由总额计算的观察行乘以观察专栏的总额除以整个总和(34]。表4表示运动的观察值的每个主要的主题与其期望值,观察到的条目的数量平均在法官的期望值和卡方值两类。

因此,x2= 117.19。

如表所示4计算卡方值为117.19和列联表的自由度(20−1)(2−1)= 19。19个自由度的临界值5%显著性水平为30.144。当计算和表值进行比较,计算值大于表的值。因此,结果的含义是没有强大的关联模式考试和教材上的练习。在现实中,应该有一个强大的数学教材的练习包括之间的关系和模型检查36]。不幸的是,这样做没有按比例在当前设置。

4.5。主要的话题,时间分配,测试的项目

决定主题的比例与考试时间分配给一个类,它是必要的,以确定预期的测试项的数量,可以分类的主要话题下的教科书。按比例计算,基于模型的总项数考试和时期的数量分配给每个教科书的主要话题。因此,卡方统计数据来检查是否观察到测试的内容符合数量的时间规定教学大纲的主要内容。

4.5.1。主要的主题和时间分配

5显示的时间分配给方程和不等式(12.77%),其次是实数系统(10.03%)、(9.42%)、测量和统计和概率(8.27)。一些数量的时间分配给距离和部分公式(1.22%)和指数和对数(1.82%)。大量时间的分配方程和不平等,实数系统,测量和统计和概率的重视是指扎实的数学知识,技能和态度的学生。课程设计者声称内容或学习机会的数量和大小应与研究的时间或持续时间可能需要(37]。

4.5.2。分类的测试项目教学大纲内容的法官

在表6,每个主题都近似两位小数的小数和主题的百分比之和为100.02%,大于100%。这显示,0.02%是一个近似误差。在测试中,观察到表6内容区域,体重的方程和不等式(16.07%)、指数和对数方程的应用(8.97%)、关系和函数(8.29%),和实数系统(7.54%)。这表明减少订单时间的百分比分配给教材的主要内容不匹配与测试项目类别。

4.5.3。卡方值的大纲内容和测试项目

下面的表显示了时间的观察值分配给每个主要与其期望值的话题。观察到的条目的数量平均在法官的期望值和卡方值两个类别也在桌子上。

因此,x2= 53.32。

7显示计算卡方值为53.32和列联表的自由度(r−1)(c−1)= 19。30.144,在0.05水平的意义,是关键的价值。计算值超过表值。这个结果显示之间存在显著差异的观察和预期内容分类测试项目。结论是所需的力量之间的内容Oromia地区考试数学模型和教学大纲的内容并不密切相关。领域的学者教育测量和评价建议内容或学习机会应该匹配的数量和类型测试项目从他们(38]。

4.5.4。分类教学大纲学习成果和测试项目认知域子范畴

是否每一项样本模型的教学大纲的考试匹配预期的学习成果,这是一个核心指向找到观察和预期的测试项目的数量可能是分类根据教学大纲的学习成果。成功表(表8)展示了清晰的观察到和期望值之间的区别,这是最终决定通过卡方检验和测试。

4.5.5。卡方值学习的教学大纲和测试的结果

8显示观察和期望值之间的真正差别和测试通过卡方值决定。下表显示计算条目的数量分类下的六个类别的平均在法官的认知领域。桌子上还显示了相应的预期值和计算卡方值决定。

因此,x2= 83.10。

从表8计算卡方值为83.10,和列联表的自由度(r−1)(c−1)= 5。得出一个结论关于匹配项的模型检查和教学大纲的学习成果,必须有一个比较计算和关键卡方值在某种程度上获得的自由度的意义。观察到,卡方检验的关键和计算值在0.05显著性水平是11.07和83.10,分别。因此,结果表明,有一个显著的差异观察和测试项目的预期学习成果。从这个分析,我们可以得出这样的结论:模型中的项目考试大纲的学习成果不一致。总体而言,可以说,测试的主要重点领域和课本内容之间存在着显著的差异,和他们不一样的。因此,没有强大的测试项目的内容之间的联系和教科书的内容。

4.6。通过采访中提取结果

面试的目的是检查教师的看法的有效性模型考试关于测试项目之间的关系和练习覆盖教科书的主要主题,测试项目的多重空间,模棱两可,和测试项目的布局和安排。5选择合格的和有经验的数学教师面试。

受访者强调,在每年的一些测试项目不符合教学大纲的主要话题。他们说,该模型考试没有注意所需的技能教学大纲的学习成果;也就是说,测试项目的重点是认知领域的技能水平较低,而不是高技能。几乎所有的受访者同意与特定主题相关的条目的数量没有句点的数量比例分配给覆盖类的话题。他们已经证实没有关联测试和练习。

其他面试的结果是,不像课本上的练习,考试没有多维模型上的物品。这表明限制考试涵盖的内容表示的教学大纲。数学测试,根据谢和Adhami [13),应该是多维为了评估所需的技能和在考虑这个主题。在这方面,模型试验未能评估必要的技能和知识。

采访老师确认的一些测试项目是模糊的或令人困惑。当学生有困难解释由于歧义的问题,它会导致评估学生的能力来解码问题或猜答案,而不是评估他们的知识和技能。

关于布局和安排,老师们已经观察到项目考试没有组织成主题和他们不是基于主题的顺序安排在课堂上提出的。他们不是根据困难的顺序安排。研究者Ijeom和Idongesit [39)研究了数学测验项目安排对性能的影响在初级中学学生。这项发现表明,测验项目基于升序排列的困难对性能有重大的积极影响。总的来说,关于考试内容效度的模型,几乎所有的受访者同意模型考试没有标准化考试,相对较少的内容效度。这支持统计结果。

5。结论和启示

研究结果揭示了现实的示例模型考试项目和练习教材的主要内容并不密切相关。样例模型考试没有时间的比例分配给教学大纲的主要内容。关于重视认知域的类别,有样本模型之间的不匹配的考试和教学大纲的学习成果。这可能发生,因为老师,课程设计者、教育部门和专家没有必要关注制定必要的内容、目标、和练习从教材和教学大纲的内容。因此,应采取进一步措施证券化问题并找到一个适当的补救措施。

同时,结果显然表明,10年级考试数学模型在内容效度不足,这意味着考试没有测量所需的学习结果和没有教科书集中反映了主题。这意味着忽视了内容效度的测试大纲的主要学生错误的方向目标,导致较低的分数在他们的考试成绩和发展坚实的数学知识,技能和态度。

这项研究的结果表明,模型检查的项目没有相关活动,小组活动,和练习在教科书的主要话题。这会影响学生的动机来练习练习了教科书。此外,研究结果表明,考试是模棱两可的,有很多错误,在布局很穷,没有多维。,可以说,有一个贫穷的地区国家考试发展趋势。言下之意是,没有采取适当措施由教师和有关机构发展良好和有效的测试来衡量学生的数学成绩。

最后但同样重要的是,这项研究的结果暗示,正如许多学者所指出的,测试质量差在该地区有一个负面影响学生的成绩和在该地区的教育质量。在开发测试项目,应注意有效性,可靠性和实用性。开发数学模型检查,达到内容效度,首先,有关办公室负责应该准备一个良好的测试计划,表示适当的教学大纲的内容和学习成果。当考试准备在区域和国家层面,应咨询这方面的专家,应该检查项目的上下文和清晰。言下之意是,专业人士参与教学大纲设计、教材准备,和考试的准备应该是合格的。更重要的是,教师和专家负责准备考试应该基本方向通过持续的培训为了准备高质量的测试和检查。

数据可用性

所有的数据和表中包括用于分析补充文件(表)。

的利益冲突

作者宣称他们没有利益冲突有关的出版。

确认

作者要感谢先生马约Negash, Haramaya大学,为自己的有价值的意见和建议在本文的准备。