文摘
科恩kappa是一种广泛使用的关联系数总结评分者间信协议定类尺度。Kappa减少两个观察员的评级一个数字。用三个或三个以上类别更有益的总结的评级类别系数分别为每个类别描述信息。类别系数的敏感性和特异性的例子一个类别或Bloch-Kraemer加权k。然而,在许多研究往往只感兴趣一个总数,大致总结了协议。结果表明,整体观察协议和各种类别的科恩kappa的加权平均系数,从而可以用来总结这些类别系数。
1。介绍
各领域的科学是经常要求观察者将一组对象分为三个或更多名义预先定义的类别。观察者可能是临床医生把孩子疾病的严重性,病理学家利率从扫描病变的严重程度,或编码转录采访。如果观察者不完全了解他或她被要求解释,或者类别的定义不明确,评价系统的可靠性岌岌可危。评估系统的可靠性研究人员通常会问两个或两个以上的独立观察员率相同的主题。观察者之间的协议的分析可以作为类别的质量指标的定义和评级机构的应用能力。高评级之间的协议将显示共识诊断和互换性的评级。
有几个关联系数可用于总结协议两个观察者之间(1- - - - - -3]。在生物医学和行为科学研究最广泛使用的系数总结协议规模与两个或两个以上的名义类别是科恩kappa [4- - - - - -8]。系数被应用于数千研究,也经常用于总结如果我们有协议观察人士的一种搭配第二类型的观察家,和每一个观察人士分配一个主题之一类别。相关系数是斯科特的π(9]。后者系数是常用的领域的内容分析(2,10]。这两个系数也有类似的公式和不同协议的机会(是如何定义的3,11]。
科恩kappa降低评级的两个观察员一个实数。提供一个适当的系数的解释必须先理解它的意思。有两个kappa在文献的描述。观察到的或原始协议主题的比例是相同的名义分类由观察员。一些作者认为,整体观察协议是虚高,协议应当予以纠正,因为机会(4,6,12]。Kappa可以被描述为一个chance-corrected版本的协议。第二个解释kappa涉及表相结合所获得的所有其他协议的分类表比活期利息到一个类别之一。如果我们有类别,有相关的表,一个用于每个类别。为每一个表我们可以计算kappa值。类别kappa的价值是衡量特定类别的观察者之间的协议(13,14]。总体kappa的加权平均类别kappas [15- - - - - -17]。
整体的解释kappa作为类别的平均kappas有两个后果。一方面,如果类别kappas有很大的不同,例如,高协议在一个类别但低协议另一个类别,整个kappa不能完全反映观察者之间的协议的复杂性(18]。如果一个研究者理解表达同意和不同意的模式感兴趣,这将是良好的实践报告(各种)类别系数对个人类别,因为这提供了更多的信息比报告只有一个号码。或者,你可以用对数线性或潜在的类模型建模协议(19]。另一方面,由于整体kappa是加权平均,其价值是介于kappas最小和最大的类别。整个kappa因此在某种意义上总结了协议类别。如果一个感兴趣的一个数字,大致总结了观察者之间的协议,这似乎是科恩kappa在许多应用程序中,那么可以使用k。
在本文中,我们目前的一些新的解释整体观察协议,科恩kappa,斯科特的π。这里给出的结果可以被看作是支持使用这些系数总结系数的信息类别。本文组织如下。节2我们现在定义各种类别系数和三个总体系数。新解释是基于机会校正函数和加权平均类别系数的函数。这些函数的域和域系数空间。这些空间也部分中定义2。节3我们定义机会修正函数,研究它的一些特性,并提出一个应用程序。节4我们定义了加权平均函数并研究它的一些属性。这个函数的应用结果表明,科恩kappa平均Bloch-Kraemer加权kappas。一个数值例子的结果提出了部分6。最后,在节5修正的构成函数和平均函数研究的机会。结果表明,组成下的函数通勤。然后再是科恩kappa和斯科特的π都是chance-corrected类别的平均系数,以及chance-corrected版本类别系数的加权平均。类别系数包括敏感性、特异性、正面和负面预测值的类别。部分7包含一个结论。
2。关联系数
2.1。系数空间
对于一个人口主题,让表示比例分为一类通过第一个观察者和类别第二个观察者,在那里,。的类别是名义上的。定义 的数量和表的边际总数吗。他们满足 对于一个固定数量的类别、关联系数是在这里定义为函数的集合表与比例的实数。域的函数被定义为 一个关联系数然后一个函数分配一个实数列联表。对于许多关联系数域是闭区间或间隔。对符号方便我们将本文假设所有关联系数最大值统一()。
所有关联系数是由。对于大多数理论研究这组太大了。事实证明,用于数据分析应用程序的关联系数在现实生活中属于特定的子集。例如,一些关联系数仅描述为一个特定类别的信息。的类别总结了元素的所有信息和总数和。对角线元素表示对象的比例分为一类由评级机构。这通常表明评级机构同意的类别。边际总数和显示类别多久被评级机构。让和函数的边际总数和。的类别我们定义了一组 给定固定的边际总数和,系数空间由线性变换的。上下文中的效度研究中,系数的例子的敏感性阳性预测值和特异性的负面预测价值范畴。额外的元素的例子在下一小节中介绍。
2.2。类别系数的例子
因为我们的数量只是感兴趣和和相关的类别,我们可以崩溃列联表成一个除了类别表通过结合所有类别。表1介绍了崩溃表类别。一个表可以的结果可靠性研究涉及两个观察员还有效性研究。在后一种情况下一个新的测试通常被比作一个“或多或少的黄金标准。”例如,在一个医疗测试评价有一个黄金标准评价存在/缺失或类型的一种疾病,可以评估一个新的测试。摘要应急表的行与黄金相关的标准,而列相关的新的测试。
有一个巨大的文学关联系数表(21- - - - - -24]。许多这些系数的元素。我们考虑三个参数的家庭。
例1。让是一个体重和考虑的函数 系数类别的敏感性,而阳性预测值。的系数是系数提出了骰子(25),一种广泛使用的系数在生态生物学。
引理2显示所有这个函数属于,与类别相关的系数空间。
引理2。一个人对所有。
证明。我们第一次显示对所有。我们有,因为的价值不能超过边际总数和。此外,请注意,对于固定的和一组是凸的。它包括所有值之间和。自和是负的,凸集合中的所有元素大于或等于。因此,对所有这是对所有。
接下来,我们可以写作为,在那里
因此,对所有。
例3。让是重量和考虑函数 这个两个参数家庭在大杂院首次研究[24]。请注意,;也就是说,如果我们得到的函数的例子1。自对所有(引理2),我们也有对所有。此外,我们还可以写作为,在那里 因此,对所有。几个额外的系数从文学的特殊情况。系数是观察到的倒塌的协议吗表相关的类别,而系数和分别是类别的特异性和消极的预测价值吗。
例4。测量的有效性研究中,布洛赫和Kraemer [26提出了加权kappa系数。系数是基于一个承认的临床后果假阴性可能非常不同于假阳性的临床后果。假阴性可能延误治疗的一个病人,而假阳性结果可能会导致不必要的治疗。Bloch-Kraemer加权kappa的独特之处在于,它要求一个实数必须指定一个先天的指示的相对重要性的假阳性假阴性。的类别加权卡帕被定义为(26,273页):
对所有,系数可以使用实用程序的上下文中协会(26]。系数(10)是一种不对称的特殊情况提出的加权kappa在科恩(27]。后者加权kappa广泛应用与协议具有三个或更多的表顺序类别(28- - - - - -30.]。
系数普通科恩kappa的吗表相关的类别。它是一个标准的工具可靠性研究。它有时被称为分类的可靠性(13,14]。系数的系数条件协议提出了科尔曼(31日](见[32,367页),33,397页)。这个系数可以使用如果有兴趣观察人士对这些学科之间的协议第一个观察者分配范畴。
自
我们可以写(10),
我们可以写(12),,在那里
因此,对所有。
例5。为表相关的类别,同类kappa [26,276页)可以被定义为 这封信最初使用的斯科特(9]。布洛赫和Kraemer26)表明,这个系数可以在协议中使用。组内kappa满足可靠性的经典定义15,18]。我们可以写(14),,在那里 因此,。
2.3。总体系数的例子
系数的设置为一次只描述一个类别的信息。其他关联系数总结所有类别的信息。让 是边际总数和定义的函数集 给定固定的边际总数系数空间包括所有线性变换整体观察的协议。很明显,是一种元素的。其他的例子是科恩kappa和斯科特的π。人口的科恩kappa值定义为(34] 卡帕的分子之间的区别是协议和协议的概率的实际概率的统计独立的评级。卡帕的分母分子的最大可能值。Kappa值1时完美的观察者之间的协议,等于0时,协议,预期的偶然,和负面价值当协议小于预期的机会。我们可以把kappa写成,在那里 斯科特的π的人口值被定义为(2,9,11] 协议的定义机会的差异讨论了例子9和10在下一节中。我们总是有不平等(3]。
3所示。改正的机会
在本节中,我们定义了修正功能的机会。期望的系数有条件地在固定的边际总数。用的机会校正函数。为它被定义为 的关联系数机会校正函数被定义为 简短的公式是在这两种情况下由(3,22,35] 我们假设在(23),避免不确定性。引理6提出了一种替代的表达式如果。
引理6。让与。一个人
证明。让与。自是一个线性算子呢 使用和在(25)(23),所有的结果乘以,我们获得的表达式(24)。
引理7提出了一种替代的表达式如果。引理的证明7类似于引理的证明吗6。
引理7。让与。一个人
这个函数是一个地图来如果关闭下。引理8显示是这种情况。
引理8。的空间和关闭下。
证明。我们提出的证据只有。的证明遵循使用类似的争论。
让与。的公式提出了(24)。自是一个函数的边际总数吗和我们可以写作为,在那里
因此,,结果如下所示。
公式(24)显示的元素一致后修正的机会,如果他们有相同的作用,不管的选择。这表明以下定义。两个系数据说相当于对(24),用,如果他们有相同的作用。它可以显示是一个等价关系。的等价关系分裂的元素等价类,一个类的每个值的差异。
不同的定义提供不同版本的修正公式的机会。我们认为的两个例子。附加的例子可以发现在2,3,11,22]。
示例9。的期望值下是由统计独立 在这种情况下我们假设数据是机会的产品涉及两个不同的频率分布。
示例10。或者,我们可以假定机会有关的数据是一个产品一个频率分布(9,11]。常见的参数估计通常是通过算术平均的人总数和。因此,在这种情况下
引理11提供了一个机会校正函数的应用。在引理11函数是结合的例子9。结果显示函数的例子1和3相关函数在示例4。
引理11。假设(28)持有。然后对所有和。
证明。使用和在(8)和(9)我们有 使用(28)和(30.)(24我们获得在(12)。
4所示。平均在类别
在本节中,我们定义一个函数,连接系数的关联系数空间系数的空间。为让与。对于这些系数我们定义的函数 或 因此,加权平均使用分母的作为权重。这种加权平均类似于类别系数的算术平均值。算术平均计算的每个类别系数同样有助于最终的平均水平。计算的比其他的一些类别系数作出更大贡献。我们检查是否函数(32)是定义良好的。
引理12。函数(32)是定义良好的。
证明。它必须显示 是一种元素的。自和每个函数的边际总数和,金额和也是函数边际的总数。因此,我们可以写作为,在那里 结果如下所示。
在本节的其余部分,我们考虑一些结果与加权平均相关函数(32)。如果我们解决,然后(5)提供关联系数来描述观察者之间的协议,一个为每个类别。引理13表明,这些系数的加权平均相当于整个协议,不管的价值。
引理13。让是固定的。一个人
证明。的公式提出了(32)。使用和在(6)和(6 b)我们有 ,使用身份(2),
如果我们解决,然后(12)为我们提供了Bloch-Kraemer加权kappas描述观察者之间的协议,一个为每个类别。引理14表明,这些系数的加权平均相当于科恩kappa的(18),不管我们的选择。
引理14。让是固定的。一个人
证明。的公式提出了(32)。使用和在(13)和(13 b)我们有 的分子,使用身份(2), 的分母是哪一个。
引理15表明,如果我们申请对同类kappas在示例5然后我们获得斯科特的π。
引理15。一个人
证明。的公式提出了(32)。使用和在(15一个)和(15 b)我们有 的分子,使用身份(2), 的分母是哪一个。
5。组成的函数
在部分3和4我们研究了修正机会单独函数和加权平均函数。在本节中,我们研究两个函数的构成。引理16显示了两个函数。因此,改变功能的顺序不会改变结果。
引理16。为让与。一个人
证明。我们将展示这两个成分是等价的
的公式提出了(24)。添加的是分子(24我们获得的分子(45)和增加分母(24我们获得的分母(45)。因此,相当于(45)。
的公式提出了(32)。的系数可以写成,在那里和介绍了(34一个)和(34 b)。使用这个和在(26)我们也获得(45)。
引理16表明我们可以把chance-corrected版本的系数的平均值或者采取加权平均系数,然后正确的整体协议由于系数的机会。结果将是相同的。系数(45必须指定)包含两个量,即期望和差异之和。使用固定,和在(6)和(6 b),(8)和(9),(13)和(13 b),或(15一个)和(15 b我们获得 身份(46)表明,所有系数部分中讨论2属于一个特定的线性变换的家庭。系数的一个例子,不属于这个家庭是φ系数(50)。其他的例子,请参阅[22]。
使用身份(46)(45)我们获得总体系数 如果我们使用在(28)(47)我们获得科恩kappa,然而如果我们使用在(29日)(47我们获得斯科特的π。φ的整体kappa不是一个加权平均系数。
6。一个数值例子
在本节中,我们提出一个引理的数值例子14,这表明,固定科恩kappa是加权平均Bloch-Kraemer加权kappas与每个类别相关联。让表示对象的观察值,分为一类通过第一个观察者和类别通过第二个观察者。假设multinominal抽样模型与对象的总数固定的,细胞的最大似然估计概率是由。我们获得了最大似然估计和细胞代替概率由在Bloch-Kraemer加权kappas (12)和科恩kappa在(18)[33,396页)。让 近似大样本的方差(33,34,36)是由 积差相关系数或φ系数表相关的类别是由 渐近方差(26,279页)是由 在哪里
为了说明引理14我们认为表中的数据2取自Fennig et al。20.]。这些作者调查精神病患者的临床诊断的准确性。作为黄金标准他们使用两个项目的评级精神病学家,被称为研究诊断。表2介绍了交叉分类的研究和临床诊断。估计总体kappa的这些数据95%置信区间(0.341 - -0.522),这表明一个温和的整体水平的协议。表3介绍了估计Bloch-Kraemer加权kappas四类,标签的年代,B, D,和O,五个不同的值。桌子上也提出了相关的95%置信区间之间的括号。
精神分裂症在表的统计范畴3所有的值是相等的因为。我们有95%置信区间(0.330 - -0.585),表明适度协议精神分裂症。协议在其他类别的水平取决于的价值。协议类别双相情感障碍和抑郁症是高于精神分裂症的所有值协议,而其他类别的所有值最低。最后,回想一下,固定,整个kappa Bloch-Kraemer加权kappas的加权平均。例如,对于我们有 和我们有
表中的数据2和3表明,如果我们使用相同的类别系数为所有类别,那么系数一般产生不同的值。这个观察数据适用于几乎所有的现实生活。表4提出了一种假设的数据集和三个名义类别。表5提出了相应的估计Bloch-Kraemer加权kappas三类,标记为A, B和C,五个不同的值和相关的95%置信区间。B类的统计数据表5所有的值是相等的因为。估计总体kappa的这些数据95%置信区间(0.229 - -0.482)。此外,所有的估计kappas类别拥有相同的值0.356。因此,在这个假设的情况下的整体kappa系数是一个完美的总结kappas三个类别。由于引理14,我们知道整个kappa也大致总结了其他Bloch-Kraemer加权kappas。然而,这些加权kappas有截然不同的值。这些数据说明,虽然整体kappa系数总是总结所有类型的kappas Bloch-Kraemer类别,它可以是一个完美的总结为特定类型的加权kappas系数。相反,虽然整体kappa系数完全可以总结一种类别,它仍然可以是一个可怜的其他类型的分类总结系数系数。
7所示。结论
科恩kappa是一种常用的协会措施总结协议对定类尺度两个观察员。系数减少两个观察员的评级一个实数。在一般情况下,这将导致大量信息丢失。interobserver协议的一个更完整的画卷是通过评估各个类别(协议的程度18]。有各种各样的关联系数,可用于描述分别为每个类别的信息。例子是一个类别的敏感性和特异性,阳性预测值,阴性预测值,Bloch-Kraemer加权k。一旦我们选择了一个类别系数有多个系数描述观察者之间的协议,一个为每个类别。如果一个人感兴趣的是一个数字,大致总结了观察者之间的协议,总体系数应该使用什么?本文推导结果表明,整体观察协议,科恩kappa,斯科特的π的总体系数。每个系数是某些类别的加权平均系数,因此它的价值所在类别系数的最小值和最大值之间。我们列举一些被发现的新解释。(1)假设每个类别系数是相同的函数在(特殊情况5)。的例子是灵敏度、阳性预测值和骰子系数。观察到的协议是一个加权平均分类系数(引理13)。(2)假设每个类别系数是相同的Bloch-Kraemer加权kappa在(12)。然后科恩kappa的加权平均加权kappas(引理14)。(3)假设每个类别的同类kappa系数(14)。斯科特的π是一个加权平均同类kappas(引理15)。(4)假设的价值系数下的机会是在统计独立的值。此外,假设每个类别系数是相同的通用功能的特殊情况(7)。的例子是敏感性,特异性,阳性预测值,阴性预测值,观察到的协议,骰子系数。然后科恩kappa既是chance-corrected类别系数加权平均和加权平均的chance-corrected版本类别系数(引理16)。引理的插图14提出了节6。词摘要显示,有丰富的类别系数的观测协议和科恩kappa系数总结。使用这些结果提供一个依据总体系数如果一个人只对一个数字感兴趣,大致总结了观察者之间的协议。另一方面,如果一个是理解表达同意和不同意的模式感兴趣,可以报告各种类别系数对个人类别或考虑对数线性或潜在的类模型,可用于模型的协议(19]。
利益冲突
作者宣称没有利益冲突有关的出版。
承认
这项研究的一部分,像项目451-11-026由荷兰科学研究组织。