文摘

诊断代码在电子健康记录系统可以在精度相差很大。它已经指出,特定诊断代码单调的实例的数量增加与疾病表型分类的准确性。随着越来越多的卫生系统数据库变得与基因组数据,这是至关重要的理解这个错误分类的影响遗传关联研究的力量。这里,我调查的影响这个诊断代码错误分类的基因关联研究,目的是更好地使用卫生信息学数据通知实验设计。之间的权衡(i)减少误分类率从每个体利用额外的诊断实例代码,(2)探讨了由此产生的较小的样本量,和一般规则提出了改进实验设计。

1。介绍

显然,大量的重要临床信息包含在大型电子健康记录(EHR)系统。这些信息可以是一个宝贵的资源来衡量患病率(1和疾病的发病率2),出生月份和疾病易感性之间的关系(3),预测的结果(4),卫生保健的经济影响的测量5),和病因因素的发现6]。这些数据的一个关键特性是诊断代码由医学专家给出病人记录。然而,推断疾病表型的准确性从电子诊断代码可以相差很大在疾病和往往是高程度的错误(7- - - - - -10]。这些研究指出,大量的误分类影响电子诊断代码数据的使用,足以破坏实验利用定义的情况下和控制国际疾病分类(ICD)代码。ICD编码系统是由世界卫生组织制定的,采用美国国家卫生统计中心。更复杂的疾病分类方法,例如使用各种电子健康档案数据和机器学习方法,是很难概括所有疾病和实现高通量的方式。说,我预计,机器学习方法应用于问题的表型预测使用EHR变量特性预测建模最终将取代的唯一使用ICD编码数据。直到那个时候,使用ICD数据可能仍然实用程序在初始屏幕,随后验证通过阳性和阴性预测值较高的方法。

在一般环境中,表型的影响误分类统计力量前面讨论过的遗传关联研究[11- - - - - -14]。爱德华和他的同事们给出的非中心参数渐近权力分布特征的表型误分类(11]。作者使用成本函数来捕获错误分类的效果和显示的分类成本控制为例因过大而分类情况下个人作为控制成本变小了,小如的患病率就变小了。同样,霁等人也调查了非中心参数的计算捕捉表型错误随后用似然比检测基因关联研究[12]。之后,戈登和他的同事们展示了如何把错误分类错误率成趋势检验遗传协会以防/控制研究[13]。最近,餐具和他的同事们调查了异质性的影响在一个临床表型遗传协会(14]。

考虑与误分类ICD数据,I型和II型错误率基因组协会研究被段最近进行过彻底的探索等。15]。段等人的研究发现小假阳性的通货膨胀率,但在相当多的假阴性率在某些等位基因频率,影响大小和疾病流行的参数。在初始屏幕的背景下的ICD编码EHR系统,一些研究调查的实例数量之间的关系特别的ICD编码和诊断实用程序的措施1,16- - - - - -18]。一般来说,诊断的准确性提高了代码的实例的数量;然而,这是牺牲较小的样本大小/增加假阴性。因此,之间有一个权衡I型和II型错误率与ICD代码实例的数量用于定义一种疾病。在这个工作中,我研究这个问题的权衡,并提供一个框架,用于确定高动力EHR-based实验设计使用ICD的疾病由不同数量的实例代码。

3所示。材料和方法

对于大型的遗传协会使用ICD的扫描数据,定义一个简单的疾病分类方案,这样情况下这些人 一个特定的实例ICD的代码。考虑这样一个设计,模棱两可的患者数量的实例( )的代码(例如, )被排除在分析之外。进一步考虑一个比较明确的情况下(即。至少,那些 针对大型实例),固定的控制。关于遗传学、限制与小biallelic标记等位基因的方法隔离人群中至少1%的频率单核苷酸多态性(snp)。定义在一个SNP等位基因对疾病的易感性 让小的相对风险等位基因, , ,这样 。我们的频率 在普通人群中 因此, 的频率是 定义 病例数所得的定义至少有 ICD的实例代码被评估。设置数量的控制 ,这样 。假设 频率控制大约是 模型中的错误分类比例情况下的减少 增加一个单调函数 ,这样的预期数量真正积极的病例 的形式 为不同的ICD编码可能相差很大。最后,让 是统计的阈值确定积极的分析中找到 值< 遗传协会的统计测试被认为是比例的二项测试评估的零假设的频率之间没有相关性 和疾病状态。

统计力量将被用来评估增加的影响 和由此产生的实验设计。在上面指定的模型下,权力在一个常染色体SNP检测协会, ,由近似计算如下: 在哪里 是标准正态累积分布函数, 是逆高斯评分标准, , 频率控制和情况下,分别。使用贝叶斯定理,预期的频率 在情况下的误分类模型

模型越来越多的误分类率减少ICD代码实例,考虑简单的衰减函数 : 在哪里 为每个ICD参数可以估计代码。同样考虑以下形式 的函数 模型定义的病例数减少ICD的使用越来越多的实例代码: 在哪里 的参数捕获病例数下降的速率作为案例状态的定义变得更加严格的使用大量的ICD代码实例,也可以估计为每个ICD的代码。机器现在在统计的计算能力来检测疾病协会相关的遗传标记,使用的数据来自ICD编码系统。

4所示。结果与讨论

上述模型用于进行勘探对权力的ICD代码定义的影响。获得的值 最大化能源检测遗传协会,一个人可以数值解决下列微分方程 :

的解决方案(5)可以解决通过标准数值方法应用于解决 在哪里

最接近的整数值的值 解决连续方程可以用来优化力量对于一个给定的一组参数。为举例说明这种方法的使用,让 , , , , , 。叫这组参数基线模型。 解决了微分方程。因此,使用ICD的七个实例代码将产生最优设计重情况下样本大小和错误分类之间的权衡。设置的参数,图1显示了这组的功率曲线的参数。

探讨功率曲线,不同基线病例数( ),计算被执行 变化从100年到800年。目视检查显示权力的高峰约7实例。图2显示了结果。

接下来,决定的作用 参数对功率曲线,计算其他参数进行修正。数据34显示这些结果。

5。结论

基因数据与纵向电子健康记录可以作为一个非常有用的工具在现代疾病遗传学。然而,误分类ICD编码系统中会严重阻碍大型屏幕使用这些代码的目的基因关联研究。这部作品描述了一个简单的方法来更好地理解错误分类的影响出现在EHR系统为目的的优化实验设计,屏幕无数ICD编码基因关联研究。根据数学模型认为,选择的方法提供了一个方法的实例数量的ICD代码定义为目的的情况下,获得最优的实验设计的遗传标记的识别。额外的工作需要在这方面改进遗传疾病分类方案的关联研究以及其他调查。

信息披露

内容是完全的责任作者,不一定代表美国国立卫生研究院的官方观点。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢他的同事Mehdi Maadooliat,詹,斯科特•Hebbring Ahmad Pahlavan Tafti,和佩吉Peissig非常有用的对话相关的调查。这个出版的研究报告是由慷慨的捐助者Marshfield诊所,NIMH的国立卫生研究院奖(4 ro1mh097464-04),和支持的临床和转化研究研究所临床与转化科学奖项(CTSA目前)计划和国家医学转化中心(NCATS)(格兰特UL1TR000427)。