研究文章|开放获取
毕扬努里·纳杰夫Zare, Seyyed穆罕默德Taghi Ayatollahi, ”验证研究方法估算比值比表当暴露分类错误”,计算和数学方法在医学, 卷。2013年, 文章的ID170120年, 8 页面, 2013年。 https://doi.org/10.1155/2013/170120
验证研究方法估算比值比表当暴露分类错误
文摘
背景。误分类变量在流行病学研究的暴露可能导致偏见的估计参数统计推断和损失的权力。摘要逆矩阵法,作为一种有效的校正方法的误分类的优势比二进制曝光,是广义nondifferential误分类表。方法。简单的估计预测值nondifferential误分类时。使用它们,我们估计修正对数比值比及其方差表,使用逆矩阵的方法。一个两步加权似然法也发达。此外,我们比较矩阵和逆矩阵方法最大似然(标定)方法使用模拟研究。结果。在所有情况下,逆矩阵的方法被证明是更有效的比矩阵的方法。矩阵和逆矩阵的方法nondifferential情况比差动误分类更有效。结论。虽然企业是所有方法中最优,计算很困难,需要编程。另一方面,逆矩阵的方法用一个简单的封闭了可接受的效率。
1。介绍
在流行病学研究,评估风险和结果变量之间的关系是主要目标,错误分类的暴露变量导致偏差估计的优势比。与越来越多的多中心临床试验中心,暴露的错误分类变量的可能性和偏见引起的它就会出现。方法正确可能更进一步的接触,接触和结果变量之间的关联强度可以精确评估统计和流行病学研究的焦点已经超过30年了。从经典的论文开始,误分类的问题表格数据长期以来被公认和调整被认为是(1- - - - - -5]。1977年,提出了矩阵法通过巴伦为了正确nondifferential误分类表(6]。格陵兰岛和Kleinbaum广义微分误分类和匹配成对数据(7]。此外,格陵兰岛提出了方差估计矩阵法的假设下,微分和nondifferential误分类(8]。Selen,在模拟研究中,表明矩阵和极大似然方法进行同样(9]。1990年,马歇尔提出了一个更直接的逆矩阵的方法校正微分误分类(10]。莫和Spiegelman比较矩阵和逆矩阵方法使用一个网格搜索最大似然估计量表(11]。他发现,在差动误分类的假设下,逆矩阵方法总是比矩阵法更有效。实例验证研究的误分类上下文在统计线性模型是普遍和流行病学文献[12- - - - - -15]。最近工作都包含在参考部分(16- - - - - -20.]。
的主要障碍使用逆矩阵的方法,尽管它的优越性与矩阵法相比,它是微分误分类和限制表,而在实践中,很可能误分类nondifferential或者我们有表中,决定了多中心临床试验中心的数量还是糊涂的水平(21]。例如,当误分类是由于回忆偏倚,预计的误分类率例和对照组相同,导致nondifferential误分类。在这里,我们的目标是进一步扩展中的焦点当误分类nondifferential逆矩阵方法和数据分层地层。
部分2.1提供了定义和符号表一个二进制容易出错的风险。第一次,我们建议正面和负面的预测值作为误分类参数估计的假设下nondifferential误分类,可以用来概括一个逆矩阵方法nondifferential例(部分2.2)。然后我们将概括一个nondifferential逆矩阵方法假设和数据分层的情况下层(部分3所示。1)。直观的封闭公式misclassification-adjusted效应及其方差。矩阵法和可能性方法将简要回顾。此外,我们将提供一个新的两步方法3所示。4矩阵,它使用纠正细胞计数的方法来构造一个加权最大似然法。最后,这项研究将继续进行仿真研究,比较了均方误差(MSE)的每个方法的假设下初速微分和nondifferential误分类。条件的主要文本集中在简单的公式涉及一个二进制分类错误的曝光在病例对照研究中,混杂因素的分层。几个假设是在这项工作。首先,疾病状态和水平地层测量准确。第二,曝光的方法需要一个没有错误的标准来验证验证研究中更进一步的接触。最后,我们认为主要是独立和验证研究。公式说明一项经常被引用的病例对照研究数据的婴儿猝死综合症(SIDS)和母亲在怀孕期间使用抗生素(22]。
2。方法和材料
2.1。定义和符号
首先,考虑一个病例对照研究样本;二进制暴露和结果变量来衡量两个容易出错和正确的方法,分别,以及水平变量(可以是一个“或一些混杂因素)的组合。因此,数据可以被分类表,其th层包含例和控制。因为接触状态是一个容易出错的变量,交叉表将会被误诊。的th地层的错误分类表和本文采用的符号显示在表中1。
|
||||||||||||||||||||||||||||
应该是一个没有错误的变量显示实际的接触状态。容易出错的敏感性和特异性诊断的接触被称为误分类参数或误分类率和定义的和为和,分别。也可以提供误分类率通过另一组参数,称为阳性和阴性预测值,这可以被定义为和为和,分别。在不同的方法开发处理误分类问题,逆矩阵的方法(直接法)使用阳性和阴性预测值作为误分类参数;另一方面,矩阵方法(间接法)和似然方法都应用敏感性和特异性值代替。让代表了流行的容易出错的风险和,也。
误分类的设置都是未知的,需要估计通过验证研究。因此,除了上述样本称为主要研究中,另一个随机样本的大小分别绘制。这个示例的外部验证研究。为了估计误分类参数,以及容易出错的接触状态应测量准确,正确的接触状态验证样本的每个主题由二分错误变量。
2.2。误分类参数的估计
误分类参数允许不同的水平在这种方法和独立的误分类参数为每个地层可以估计的,但是如果我们注意到误分类率相似的地层,地层不管分层,验证样本应该结合。由于符号的简单性,我们将描述的情况下误分类率相同的跨层;否则,估计的参数是相似的。表2显示可用的数据为了验证研究,下标,,显示结果,无错,分别和容易出错的接触状态。误分类参数及其方差估计在验证研究由以下公式: 在这种情况下,一个点,”。”,下标的下标代表总和。时nondifferential误分类结果的误分类率是独立的地位。换句话说,当和=;否则,误分类是微分。我们可以很容易地适应估计的敏感性和特异性nondifferential假设如下: 但是一旦我们假设错误分类nondifferential,敏感性和特异性是相等的疾病状态。在这种情况下,nondifferential敏感性和特异性并不意味着PPV和净现值相等的地层,结果因为PPV和NPV是暴露患病率和敏感性和特异性的函数。由于这个问题,方法,应用预测值作为误分类参数(如逆矩阵方法)将被限制在微分的假设。为了克服这个困难,莫,spiegelman建议使用相同的预测值与微分估计的错误分类的假设,这不是一个合理的方法11]。相反,对于nondifferential误分类,我们提出以下估计预测价值: 在哪里。如果已知常数和敏感性和特异性,使用概率的角色,我们可以估计预测值如下: 当平等的误分类参数地层不能假设,使用不同的验证样本每层和上面的关系,可以单独估计误分类参数。
|
||||||||||||||||||||||||||||||||||||||||
|
。 |
||||||||||||||||||||||||||||||||||||||||
例1。表3展览的主要研究数据来自一项经常被引用的病例对照研究婴儿猝死综合症(SIDS),已检查之间的关系孕产妇使用抗生素在怀孕期间和婴儿猝死综合症的几率22]。两层分类表()根据婴儿的性别,一个共同的SIDS的风险因素。吸毒容易出错的测量是一个采访的回应,并通过医疗记录进行验证。一个单独的样本验证研究具有双重曝光测量(容易出错和错误)提出了表2。使用(1)- (3)和验证数据,单独估计对微分和nondifferential误分类假设敏感性、特异性和预测价值展示在表4。两个细胞表的最后一列4是空白的,因为对于nondifferential误分类,敏感性和特异性为例和对照组是相同的。
|
|||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||
| 这些估计是基于假设误分类率在男性和女性的地层是相同的。 |
||||||||||||||||||||||||||||||||||||
3所示。估计实际的协会
3.1。逆矩阵的方法
在介绍中提到的,马歇尔提出的逆矩阵方法是不是正确的表(10]。他限制了使用他的方法的假设微分误分类。据估计我们提出预测值的(3),逆矩阵方法可以开发到微分的假设。现在,我们推广这个方法表与更进一步的接触和微分或nondifferential假设。估计正确比例的暴露和未曝光的科目地层的主要研究和,分别。这些方程可以写成矩阵形式 有偏见的日志的优势比估计th地层是渐近方差估计在哪里。纠正值(5)是用于构建逆矩阵log-odds-ratio纠正在哪里代表实际接触流行的估计和,也。考虑二项分布,我们派生的渐近方差使用增量方法 在信中代表方差和缩写。假设如果nondifferential误分类,而不是估计阳性和阴性预测值及其方差估计(1),对应的值(3在表达式()必须考虑替代品6疾病组)和修正比例不再是独立的修正比例的对照组。因此,两次日志赔率(之间的协方差7从表达式()必须减去6)。考虑 如果在验证研究每层一个单独的错误估计,日志优势比是独立的;否则,使用相同的误分类参数的所有地层导致协方差(8)之间的和。考虑 如果相同的误分类所有地层参数估计通过假设nondifferential误分类,协方差的估计和是由
让是对称的通过variance-covariance矩阵的估计的优势比,th元素。然后的最小方差加权平均估计log-odds比率,在哪里,也和是向量的估计的优势比,分别。对于大型地层样品,是一致的一致渐近正常估计实际日志优势比,与方差估计量一致。因此,建设一个纠正瓦尔德协会将不可能使用的考验统计,相应的纠正百分比实际日志比值比的置信区间,在那里是标准正态分布的百分比。
为了评估的同质性,我们可以利用一个近似自由度卡方统计数据。大值的统计显示均匀性等的损失将是一个协会总结不足。
3.2。矩阵法
现在我们简要的描述矩阵法。在这个方法敏感性和特异性被用作误分类参数估计log-odds比率。矩阵方法使用方程和估计正确的细胞计数th地层;在这些方程可以写成矩阵形式 矩阵修正log-odds-ratio,和。考虑二项分布格陵兰岛的渐近方差提供,由 在哪里。variance-covariance矩阵相似的其他组件我们派生的逆矩阵的方法。
这个方法有两个缺陷:当敏感性和特异性的总和等于1,改正数估计是未定义的,因为误分类矩阵是奇异的10);如果之和小于1,-预估修正细胞计数。
3.2.1之上。直接概率法
一些作者使用最大似然估计(企业)来估计实际的优势比和测试exposure-disease协会。虽然这个方法可以最有效的校正方法,它没有关闭表单,需要一个迭代解非线性方程组在某些约束。如果没有错误暴露变量是可用的,我们能够估计covariate-adjusted优势比通过以下多个逻辑回归模型:
然而,我们只有对容易出错的二进制变量的访问。我们假设协变量虚拟变量,确定地层主题所属。如果属于主题th地层正如前面提到的,表明整体日志比值比。获得的ML估计未知参数,我们应该数值以下对数似然函数对最大化。本估计的近似标准误差可以通过反演观察到的信息矩阵。考虑 在哪里提出了在表1;请注意,在表达式(13贡献可能性)是观测数据的似然函数,可以得到如下: 在第一项(14)可以使用估计的敏感性和特异性(1)或(2)根据误分类是否微分或nondifferential,第二项显示物流模型(12),最后的最后一学期是一个讨厌的参数,可以通过第二逻辑回归模型建模在。
3.3。加权似然方法
现在,我们简要介绍了两步方法的组合逆矩阵方法和可能性的方法。在第一步中,我们使用逆矩阵方法来纠正错误分类表,在第二步中,我们利用纠正细胞数量分配给在第一步对数似贡献权重。在形式上,给出加权对数似 在哪里代表了纠正细胞计数的数据逆矩阵方法和下标,,显示没有错误的曝光,结果,分别和层数。代表了修正逆矩阵法和细胞计数的数据是其对数似贡献。这个加权方法比以前的更简单的方法和直接使用可能性对数似贡献而不是。日志或纠正的方差可以通过反演得到费舍尔信息矩阵。
3.4。结合实验结果
现在,我们需要一个方法结合的结果主要研究和内部验证研究。我们强调,受试者在验证研究中,传统的分析使用一个错误曝光才能获得一个日志或估计与方差估计。估计效果的主要研究是有偏见的,必须使用前面的公式调整以获得正确的日志或估计与方差估计。加权方法结合的日志或两个样品可以构造如下: 有方差估计。如果收益的加权方法和估计一个共同的价值,这是实现从人口中随机选择样本时,和错误分类参数估计是无偏的。
例2。表中的数据3,我们有更进一步的和,括号中的词代表估计方差。假设研究者假设误分类率相等的地层的男性和女性的婴儿。nondifferential假设下,利用参数估计在表4收益率,矩阵方法和收益率,逆矩阵的方法和。相比之下,我们理应有微分估计误分类率表2;因此,结果矩阵和逆矩阵的方法和,分别。
应用直接毫升(13表中的数据3收益率和分别在微分和nondifferential假设。注意戏剧性的转变在假设一个微分误分类的含义。两步的应用加权方法产生的可能性和考虑到微分和nondifferential情况下,分别。
4所示。模拟研究
我们进行了仿真研究,比较修正log-odds-ratios获得矩阵和逆矩阵的方法,评估适合的最大似然和加权最大似然表。为了模仿SIDS的例子中,总共有1000组数据生成二进制的结果()和其他两个二进制变量是无错的接触状态和分层指标(和),总样本量1144。正确的细胞计数为每个表生成关于以下模拟条件:患病率和条件的接触和。为了生成响应变量,参数的二进制发行版曾经,我们设置的影响参数对所有仿真场景吗,和。更进一步的接触()是假设生成大量nondifferential条件。为了估计误分类参数的每一个模拟数据集,三种情况的20%,30%,和40%的每一层作为内部分别验证样本。编程代码可以通过要求作者提供。
最后四列的表5代表不同的场景相关的案件中,nondifferential误分类不同地层,而四列在他们面前显示各种情况下,nondifferential误分类常数在地层;分析每一列是按照这一列的方式生成。为了比较不同的方法,使用的均方误差(MSE)测量是为了考虑同时估计量的偏差和方差。如您所见,初速估计量比其他更有效的估计量方法在所有场景。我们的仿真研究表明,nondifferential误分类这些可能性逆矩阵方法和方法的性能非常接近但不相等的。逆矩阵的方法明显比矩阵法更精确。可能性和加权似然方法的性能相对相同的两种假设。所有估计的效率将会提高通过增加验证研究样本量,但这个进步会更显著的加权方法,可能性估计的效率将通过增加验证研究样本量大约翻了一番。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 数字在每个单元反映均值调整后的优势比(MSE)基于1000模拟数据集,与真实的。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5。讨论和结论
暴露的错误分类是广泛关注的一个问题的流行病学研究,和大量的文献讨论调整推论exposure-disease关于这样的误分类的关系。矩阵法、逆矩阵法、似然法、贝叶斯方法,SIMEX法的通用工具等进行调整。我们的主要目的是发展nondifferential错误分类,逆矩阵的方法表。至少在二进制分类错误曝光的背景下,本文介绍了几个积极属性的逆矩阵的方法。首先,评估诊断测试,预测值的重要性(而非敏感性和特异性)是众所周知的。逆矩阵法,直接法,使用了预测值。我们提出了简单的封闭估计当误分类是nondifferential阳性和阴性预测值。第二,仿真研究表明,逆矩阵方法估计量实际上是更精确的比矩阵法在所有场景。
我们还研究了参数的影响控制的研究这些方法的家中小企业。我们发现最优估计量的大小取决于验证研究。这是由于这一事实,在一些情况下,验证样本很大,一个好的信息的一部分可以来自验证研究。莫和spiegelman指出这种现象以前比较这些方法的表。这些研究人员表明估计的效率取决于验证研究的相对大小比病例对照比(11]。在另一项研究中,格陵兰指出错误分类的样本参数估计必须足够大以保证SE的近似常态,SP, PPV和NPV (8]。莱尔明确指出,在差动误分类设置,逆矩阵方法等价于最大似然方法(19]。有封闭解,这是完全相同的。出于这个原因,这两种方法应该同样比矩阵的方法更有效。
在这项研究中描述的方法处理暴露的错误分类,但是他们很容易适应疾病误分类。研究取决于一些假设陈述结束时介绍。似乎有必要进一步的研究和扩展这些方法相比,这些假设没有得到满足。这将是有意义的结果状态和接触状态时同时更进一步,当没有黄金标准验证曝光。
总之,当试图做出决定要使用哪一种方法,它可以考虑以下概念很有帮助。虽然标定方法有最小均方误差在所有的情况下,它可以计算困难,不像有一个简单的闭合表达式矩阵和逆矩阵的方法。当non-differential误分类时,逆矩阵方法执行得很好。即使验证研究的规模足够大,它可以执行等于可能性的方法。两步方法具有简单的形式可能性比方法和可以执行可能性nondifferential误分类矩阵和逆矩阵的方法。
利益冲突
作者宣称没有利益冲突。
作者的贡献
毕扬努里·和纳贾夫Zare负责设计、模拟和解释。Seyyed穆罕默德Taghi Ayatollahi监督研究和解释结果。所有作者阅读和批准了期末论文。
确认
这项工作是一个博士论文的一部分毕扬努里·设拉子,支持大学医学科学,设拉子,伊朗。作者也感谢审稿人的宝贵意见。
引用
- 布罗斯,“误分类表”,生物识别技术,10卷,不。4、478 - 486年,1954页。视图:谷歌学术搜索
- i d·j·布罗斯“寄生效应从一个随机变量,“慢性疾病杂志,19卷,不。6,637 - 647年,1966页。视图:谷歌学术搜索
- j .玉米田,w . Haenszel e·c·哈蒙德a . m . Lillienfeld m . b . Shimkin和e·l·温德“吸烟与肺癌:最近的证据和讨论一些问题,“美国国家癌症研究所杂志》上22卷,第203 - 173页,1959年。视图:谷歌学术搜索
- g . g .科赫“结社non-sampling错误措施的效果应急表”,美国统计协会杂志》上,卷64,不。327年,第863 - 852页,1969年。视图:谷歌学术搜索
- A . Tenenbein“二重抽样方案从二项数据估算错误分类,“美国统计协会杂志》上,卷65,不。331年,第1361 - 1350页,1970年。视图:谷歌学术搜索
- b·a·巴伦”误分类的影响估计的相对风险,”生物识别技术,33卷,不。2、414 - 418年,1977页。视图:谷歌学术搜索
- 格陵兰岛和d Kleinbaum”,纠正错误分类的双向表和匹配配对研究,“国际流行病学杂志,12卷,不。1,第97 - 93页,1983。视图:谷歌学术搜索
- 格陵兰岛,“流行病学效应方差估计估计误分类下,“医学统计,7卷,不。7,745 - 757年,1988页。视图:谷歌学术搜索
- j . Selen”调整错误的分类和测量分析部分和纯粹的分类数据,”美国统计协会杂志》上,卷81,不。393年,第81 - 75页,1986年。视图:谷歌学术搜索
- r . j .马歇尔“验证的研究方法评估暴露比例和优势比分类错误的数据,”临床流行病学杂志,43卷,不。9日,第947 - 941页,1990年。视图:出版商的网站|谷歌学术搜索
- m·j·莫西里和d . Spiegelman”矩阵的方法来评估优势比分类错误的曝光数据:扩展和比较,”生物识别技术,55卷,不。2、338 - 344年,1999页。视图:谷歌学术搜索
- o . Davidov d Faraggi, b . Reiser”误分类与协变量离散逻辑回归,”生物统计学杂志》,45卷,不。5,541 - 553年,2003页。视图:出版商的网站|谷歌学术搜索
- 刘x和K.-Y。梁:“调整non-differential误分类错误在广义线性模型中,“医学统计,10卷,不。8,1197 - 1211年,1991页。视图:谷歌学术搜索
- x的菜肴,w·潘,s . g . Gerberich b·p·卡林,“它总是帮助调整物流回归错误分类的一个二进制的结果?”医学统计,24卷,不。14日,第2234 - 2221页,2005年。视图:出版商的网站|谷歌学术搜索
- l . s . Magder和j·p·休斯,“逻辑回归结果测量不确定性时,“美国流行病学杂志》上,卷146,不。2、195 - 203年,1997页。视图:谷歌学术搜索
- r·j·卡罗尔d . Ruppert l . a . Stefanski和c m . Crainiceanu测量误差的非线性模型:一个现代视角查普曼&大厅,纽约,纽约,美国,2010年。
- h·楚z . Wang s r·科尔和格陵兰岛,“敏感性分析的错误分类:一个图形和一个贝叶斯方法,”流行病学年报,16卷,不。11日,第841 - 834页,2006年。视图:出版商的网站|谷歌学术搜索
- 格陵兰岛,“误分类下最大似然和流行病学的封闭估计措施,”杂志的统计规划和推理,卷138,不。2、528 - 538年,2008页。视图:出版商的网站|谷歌学术搜索
- r·h·莱尔”,注意在病例对照研究评估原油优势比与不同分类错误的曝光,“生物识别技术,卷。58岁的没有。4、1034 - 1037年,2002页。视图:谷歌学术搜索
- r·h·莱尔和j·林”,灵敏度分析的误分类通过可能性逻辑回归方法和预测价值权重,“医学统计卷,29号22日,第2309 - 2297页,2010年。视图:出版商的网站|谷歌学术搜索
- a . m .杰里科s格陵兰和g . Maldonado”简短的报告:有多远从non-differential暴露或疾病误分类必须协会远离零偏差措施?”国际流行病学杂志,37卷,不。2、382 - 385年,2008页。视图:出版商的网站|谷歌学术搜索
- j·f·克劳斯,格陵兰岛,和m .伙食房“婴儿猝死综合症的风险因素在美国合作围产期项目,“国际流行病学杂志,18卷,不。1,第120 - 113页,1989。视图:谷歌学术搜索
版权
版权©2013毕扬努里·等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。