医疗保健工程

在这一页上

文摘介绍相关工作材料和方法结果与讨论结论信息披露的利益冲突确认引用版权相关文章

研究文章|开放获取

体积2017年| 文章的ID7653071| https://doi.org/10.1155/2017/7653071

诊断代码错误分类的影响优化基因关联研究的实验设计

Steven j . Schrodi ^1、2

学术编辑器: 理查德•西格尔画

收到了 2017年5月17日

接受 2017年9月13日

发表 2017年10月18日

文摘

诊断代码在电子健康记录系统可以在精度相差很大。它已经指出,特定诊断代码单调的实例的数量增加与疾病表型分类的准确性。随着越来越多的卫生系统数据库变得与基因组数据,这是至关重要的理解这个错误分类的影响遗传关联研究的力量。这里,我调查的影响这个诊断代码错误分类的基因关联研究,目的是更好地使用卫生信息学数据通知实验设计。之间的权衡(i)减少误分类率从每个体利用额外的诊断实例代码,(2)探讨了由此产生的较小的样本量,和一般规则提出了改进实验设计。

1。介绍

显然,大量的重要临床信息包含在大型电子健康记录(EHR)系统。这些信息可以是一个宝贵的资源来衡量患病率(1和疾病的发病率2),出生月份和疾病易感性之间的关系(3),预测的结果(4),卫生保健的经济影响的测量5),和病因因素的发现6]。这些数据的一个关键特性是诊断代码由医学专家给出病人记录。然而,推断疾病表型的准确性从电子诊断代码可以相差很大在疾病和往往是高程度的错误(7- - - - - -10]。这些研究指出,大量的误分类影响电子诊断代码数据的使用,足以破坏实验利用定义的情况下和控制国际疾病分类(ICD)代码。ICD编码系统是由世界卫生组织制定的,采用美国国家卫生统计中心。更复杂的疾病分类方法,例如使用各种电子健康档案数据和机器学习方法,是很难概括所有疾病和实现高通量的方式。说,我预计,机器学习方法应用于问题的表型预测使用EHR变量特性预测建模最终将取代的唯一使用ICD编码数据。直到那个时候,使用ICD数据可能仍然实用程序在初始屏幕,随后验证通过阳性和阴性预测值较高的方法。

在一般环境中,表型的影响误分类统计力量前面讨论过的遗传关联研究[11- - - - - -14]。爱德华和他的同事们给出的非中心参数渐近权力分布特征的表型误分类(11]。作者使用成本函数来捕获错误分类的效果和显示的分类成本控制为例因过大而分类情况下个人作为控制成本变小了,小如的患病率就变小了。同样,霁等人也调查了非中心参数的计算捕捉表型错误随后用似然比检测基因关联研究[12]。之后,戈登和他的同事们展示了如何把错误分类错误率成趋势检验遗传协会以防/控制研究[13]。最近,餐具和他的同事们调查了异质性的影响在一个临床表型遗传协会(14]。

考虑与误分类ICD数据,I型和II型错误率基因组协会研究被段最近进行过彻底的探索等。15]。段等人的研究发现小假阳性的通货膨胀率,但在相当多的假阴性率在某些等位基因频率,影响大小和疾病流行的参数。在初始屏幕的背景下的ICD编码EHR系统,一些研究调查的实例数量之间的关系特别的ICD编码和诊断实用程序的措施1,16- - - - - -18]。一般来说,诊断的准确性提高了代码的实例的数量;然而,这是牺牲较小的样本大小/增加假阴性。因此,之间有一个权衡I型和II型错误率与ICD代码实例的数量用于定义一种疾病。在这个工作中,我研究这个问题的权衡,并提供一个框架,用于确定高动力EHR-based实验设计使用ICD的疾病由不同数量的实例代码。

3所示。材料和方法

对于大型的遗传协会使用ICD的扫描数据,定义一个简单的疾病分类方案,这样情况下这些人一个特定的实例ICD的代码。考虑这样一个设计,模棱两可的患者数量的实例()的代码(例如, )被排除在分析之外。进一步考虑一个比较明确的情况下(即。至少,那些针对大型实例),固定的控制。关于遗传学、限制与小biallelic标记等位基因的方法隔离人群中至少1%的频率单核苷酸多态性(snp)。定义在一个SNP等位基因对疾病的易感性和。让小的相对风险等位基因, ,是 ,这样。我们的频率在普通人群中。因此,的频率是。定义病例数所得的定义至少有ICD的实例代码被评估。设置数量的控制 ,这样。假设频率控制大约是。模型中的错误分类比例情况下的减少增加一个单调函数 ,这样的预期数量真正积极的病例。的形式为不同的ICD编码可能相差很大。最后,让是统计的阈值确定积极的分析中找到值< 。遗传协会的统计测试被认为是比例的二项测试评估的零假设的频率之间没有相关性和疾病状态。

统计力量将被用来评估增加的影响和由此产生的实验设计。在上面指定的模型下,权力在一个常染色体SNP检测协会, ,由近似计算如下: 在哪里是标准正态累积分布函数,是逆高斯评分标准, ,和是频率控制和情况下,分别。使用贝叶斯定理,预期的频率在情况下的误分类模型

模型越来越多的误分类率减少ICD代码实例,考虑简单的衰减函数 : 在哪里为每个ICD参数可以估计代码。同样考虑以下形式的函数模型定义的病例数减少ICD的使用越来越多的实例代码: 在哪里的参数捕获病例数下降的速率作为案例状态的定义变得更加严格的使用大量的ICD代码实例,也可以估计为每个ICD的代码。机器现在在统计的计算能力来检测疾病协会相关的遗传标记,使用的数据来自ICD编码系统。

4所示。结果与讨论

上述模型用于进行勘探对权力的ICD代码定义的影响。获得的值最大化能源检测遗传协会,一个人可以数值解决下列微分方程 :

的解决方案(5)可以解决通过标准数值方法应用于解决在哪里

最接近的整数值的值解决连续方程可以用来优化力量对于一个给定的一组参数。为举例说明这种方法的使用,让 , , , , , 。叫这组参数基线模型。解决了微分方程。因此,使用ICD的七个实例代码将产生最优设计重情况下样本大小和错误分类之间的权衡。设置的参数,图1显示了这组的功率曲线的参数。

探讨功率曲线,不同基线病例数(),计算被执行变化从100年到800年。目视检查显示权力的高峰约7实例。图2显示了结果。

接下来,决定的作用和参数对功率曲线,计算其他参数进行修正。数据3和4显示这些结果。

5。结论

基因数据与纵向电子健康记录可以作为一个非常有用的工具在现代疾病遗传学。然而,误分类ICD编码系统中会严重阻碍大型屏幕使用这些代码的目的基因关联研究。这部作品描述了一个简单的方法来更好地理解错误分类的影响出现在EHR系统为目的的优化实验设计,屏幕无数ICD编码基因关联研究。根据数学模型认为,选择的方法提供了一个方法的实例数量的ICD代码定义为目的的情况下,获得最优的实验设计的遗传标记的识别。额外的工作需要在这方面改进遗传疾病分类方案的关联研究以及其他调查。

信息披露

内容是完全的责任作者,不一定代表美国国立卫生研究院的官方观点。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢他的同事Mehdi Maadooliat,詹,斯科特•Hebbring Ahmad Pahlavan Tafti,和佩吉Peissig非常有用的对话相关的调查。这个出版的研究报告是由慷慨的捐助者Marshfield诊所,NIMH的国立卫生研究院奖(4 ro1mh097464-04),和支持的临床和转化研究研究所临床与转化科学奖项(CTSA目前)计划和国家医学转化中心(NCATS)(格兰特UL1TR000427)。

引用

c·a·麦卡蒂b·n·穆克什·f·Giampietro和r . a . Wilke“健康的人2010年患病率Marshfield诊所个性化医学研究项目群:公共卫生基因组研究的机会,“个性化医疗,4卷,不。2、183 - 190年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
y . Ko, m .赵js。Lee和j·金”,通过隐藏的分子机制识别疾病的发病率,”科学报告》第六卷,第39433条,2016年。
视图: 出版商的网站 | 谷歌学术搜索
m·r·博兰z Shahn, d·马迪根g . Hripcsak和n . p . Tatonetti”出生月份影响终身疾病风险:phenome-wide方法,”美国医学协会杂志》上,22卷,不。5,1042 - 1053年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
l g, t·m·奥斯勒·b·Mukamel w·梅瑞迪斯,j .瓦格纳和a·w·迪克“TMPM-ICD9:创伤死亡率预测模型基于ICD-9-CM代码,”年报的手术,卷249,不。6,1032 - 1039年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
j . m . Kinge k . Saelensminde j . Dieleman s e . Vollset和o . f . Norheim”经济损失和疾病负担的医疗条件在挪威,”卫生政策,121卷,2017年。
视图: 出版商的网站 | 谷歌学术搜索
s e . O ' brien s . j . Schrodi z, m . h .聪明,s . s . Virani和a . Brautbar“微分脂质反应他汀类药物与变异BUD13-APOA5基因地区”心血管药理学杂志》上,卷66,不。2、183 - 188年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
m . Icen c·s·克劳松m . t . McEvoy s e·加布里埃尔和h Maradit克雷默,“潜在的错误分类的牛皮癣患者在电子数据库中,“美国皮肤病学会杂志》上卷,59号6,981 - 985年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
j·m·埃文斯和t·m·麦克唐纳”误分类和选择偏见在病例对照研究中使用一个自动化数据库”药物和药物安全》第六卷,没有。5,313 - 318年,1997页。
视图: 出版商的网站 | 谷歌学术搜索
j·a·辛格和s . Noorbaloochi a。r . Holmgren“退伍军人管理局数据库精度诊断类风湿性关节炎,“关节炎和风湿病,51卷,第957 - 952页,2004年。
视图: 出版商的网站 | 谷歌学术搜索
w . Birman-Deych公元沃特曼,y, d . s . Nilasena m·j·雷德福b.f.计,“ICD-9-CM精度编码识别心血管疾病和中风的风险因素,”医疗保健,43卷,不。5,480 - 485年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
b·j·爱德华兹,c·海恩斯·m·a . Levenstien s . j .雀和d·戈登,“权力和样本量计算表型的存在错误的情况下/控制基因关联研究,“BMC遗传学》第六卷,p。18日,2005年。
视图: 出版商的网站 | 谷歌学术搜索
f .霁,y, c·海恩斯s . j .雀和d·戈登”计算渐近权力和病例对照基因关联研究样本量表型和/或基因型的存在误分类错误,”统计应用遗传学和分子生物学第三十七条,卷。4日,2005年。
视图: 出版商的网站 | 谷歌学术搜索
d·戈登·c·海恩斯y杨·l·克雷默和s·j·芬奇,“线性趋势测试病例对照基因协会将随机的表型和基因型误分类错误,”遗传流行病学没有,卷。31日。8,853 - 870年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
m .餐具,j .天沟g . Turecki g . a .卷轴r .呃,和m . Alda“表型和遗传异质性的影响在复杂疾病的全基因组关联研究的结果,“《公共科学图书馆•综合》,8卷,不。10篇文章e76295 2013。
视图: 出版商的网站 | 谷歌学术搜索
r .段m .曹y吴et al .,“测量误差的影响的实证研究基于EHR协会研究,“美国医学信息学协会年度研讨会论文集卷,2016年,第1773 - 1764页,2017年。
视图: 谷歌学术搜索
j . j . Bazarian p . Veazie s Mookerjee和e·b·勒纳,“轻度创伤性脑损伤情况下确定使用精度ICD-9代码,”学术急诊医学,13卷,不。1,31-38,2006页。
视图: 出版商的网站 | 谷歌学术搜索
s . j . Hebbring s . j . Schrodi z, z, d .页面,和m . h .杰出的“PheWAS方法学习HLA-DRB1 * 1501”,基因和免疫,14卷,不。3、187 - 191年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
j·b·领袖s a Pendergrass Verma a . et al .,”协会之间的结果对比现有PheWAS表型定义方法和五个验证电子表型,”美国医学信息学协会年度研讨会论文集卷,2015年,第832 - 824页,2015年。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

915年

下载

698年

引用