文摘
亨廷顿氏病(HD)是一种进行性神经退行性疾病造成的IT15基因CAG重复的扩张。发病年龄(氧化铝)的高清逆相关CAG重复长度和最小长度高清认为原因是36。准确的估计与分布基于CAG重复长度是重要的遗传咨询和临床试验的设计。合作亨廷顿的观察研究试验(群)研究中,CAG重复长度渊源者参与者而闻名。然而,无论是家庭成员股票杭丁顿蛋白基因状态(CAG)扩大渊源者是未知的。在这项工作中,我们使用采用(EM)算法进行处理丢失的杭丁顿蛋白的基因信息一级家庭成员在队列,假设一个家庭成员有相同的CAG长度的渊源者如果家庭成员杭丁顿蛋白基因突变。我们进行仿真研究分析该方法的性能和应用方法分析队列渊源者和家庭相结合的数据。我们的分析显示,高清的估计累积风险出现症状获得合并后的数据略低于渊源者的风险估计数据。
1。介绍
亨廷顿氏病(HD)是一种严重的常染色体遗传性神经退行性疾病,影响电机居多,认知,和精神功能和统一是致命的。高清是由扩张引起的杭丁顿蛋白基因CAG三核苷酸重复的(IT15) [<一个href="#B16">1一个>,<一个href="#B17">2一个>]。影响个体通常开始运动迹象表明在30 - 50岁,通常死15 - 20年后疾病发作(<一个href="#B4">3一个>]。尽管致病基因的识别,目前还没有治疗修改疾病进展。
一个大型高清的遗传流行病学研究,合作亨廷顿的观察研究试验(队列),包括42亨廷顿研究小组研究中心在北美和澳大利亚,于2005年发起,2011年总结(<一个href="#B7">4一个>- - - - - -<一个href="#B2">6一个>]。参与群组(渊源者)进行了临床评估和DNA从全血基因分型的长度CAG-repeat杭丁顿蛋白突变。自2005年以来,队列渊源者从网站IRB批准参与了访谈和家族史提供高清的感情状态信息在他们的家庭成员。CAG重复长度是确定在渊源者,进行面对面采访的高成本的家庭成员可以防止收集所有家庭成员的血样。然而,家庭成员的发病年龄(氧化铝)的HD和重要地位是通过系统的采访渊源者或家庭成员。虽然相对的高清基因型不可用,高清基因的对应分布可以估计基于相对与渊源者的关系、渊源者的突变状态,和假设关于家庭内部相似性CAG的长度(<一个href="#B3">7一个>,<一个href="#B19">8一个>]。
在遗传咨询环境中,对象与CAG重复36或更大的被定义为携带高清突变(载体;(<一个href="#B18">9一个>]),CAG不到36被定义为筛选负数,或者noncarrier<一个href="#B18">9一个>]。众所周知,有一个逆关联CAG重复长度和氧化铝的高清,即重复长度越长,电机开始(早些时候<一个href="#B10">10一个>]。建模这种关系以及HD发病的条件分配给CAG重复长度精确地是重要的遗传咨询和HD临床试验的设计。HD发病的氧化铝是受到约束的观察对审查期。航空公司没有被诊断出患有高清right-censored氧化铝。几个公式,提出了在文献中生存函数的估计年龄在HD诊断给定CAG重复长度(例如,<一个href="#B18">9一个>- - - - - -<一个href="#B20">11一个>])。janice et al。<一个href="#B10">10一个>)表明,标准的半参数生存模型,如Cox比例风险模型,不符合高清数据,提出了一种新的logistic-exponential参数模型。具体来说,HD发病的条件分配给CAG重复长度是建模为一个逻辑函数,位置和尺度参数都根据CAG通过非线性关系。使用一个大型临床数据集,他们观察到单独的指数与CAG长度的关系给优秀经验拟合优度均值的氧化铝及其方差。其他参数的模型,如伽马分布,也提出了在文献[<一个href="#B5">12一个>,<一个href="#B6">13一个>]。janice et al。<一个href="#B12">14一个>)检查几个氧化铝模型文献和显示性能优越的janice et al。<一个href="#B10">10一个>)的预测新诊断HD的为期两年的概率与独立的前瞻性数据。
上述现有方法可直接用于分析群体家庭数据,因为家庭成员并不总是和他们组高清突变状态是未知的。包含家庭数据提供额外的信息;然而,未被注意的高清突变共享状态在家庭成员(CAG-elongated)复杂的分析。看到这,注意影响家长携带突变杭丁顿蛋白有50%的几率将突变的后代。额外的复杂性是后代的可能性CAG重复高于父母更高,如果父母是父亲。自从后代不是基因分型,他或她是否有扩大CAG重复是未知的。在这项工作中,我们对待未知的杭丁顿蛋白基因在一级家庭成员分享地位(CAG-elongated与否)缺失的数据,使用EM算法进行最大似然估计的数据共同渊源者和家庭。有条件地传播状态的家庭成员,我们使用logistic-exponential模型janice et al。<一个href="#B12">14一个>)模型与CAG重复长度的函数。我们进行仿真研究有限样本提议的方法的性能。最后,我们应用这些方法分析队列渊源者和家庭相结合的数据。我们的结果显示高清症状出现的风险略低估计累积使用合并后的数据相比,单独使用渊源者的数据。
2。方法
我们先介绍一些符号。为 首先,考虑渊源者,所有的数据 接下来,我们考虑将家庭成员的阳极氧化铝数据。我们不直接观察到的家庭成员是否股票杭丁顿蛋白突变渊源者,但我们确实有数据关于家庭成员的第一症状、发病年龄以及家庭成员的年龄。当我们把额外的家庭数据,可能生存需要混合形式。让 上述可能性可以最大化的结合EM和牛顿迭代算法。让 自相结合分析,参数估计的可能性最大化通过EM算法,标准的渐近理论应用和标准错误的参数可以通过反相估计预期的或观察到的信息矩阵观测数据的基于对数似。当有缺失数据和EM算法获得初速,根据观测数据矩阵的信息可能很难计算分析或计算。在这种情况下,路易(<一个href="#B13">15一个>]提出了计算观测信息矩阵的条件的时刻第一和第二衍生品的完整数据日志可能性EM算法框架下可以很容易获得。在某些情况下,这些时刻都比相应的衍生品更容易计算的不完整,观测数据对数似。
然而,在我们的应用程序中,观测数据日志的衍生品可能很容易计算。因此,我们计算观测数据的梯度和海赛矩阵对数似直接和估计的标准误差 我们进行了两次模拟研究密切相关的观察队列数据来说明牛顿迭代优化和EM算法的性能(<一个href="#B11">16一个>]。在我们所有的优化过程中,我们集中 我们限制模拟CAG重复长度41至56防范灵敏度非常高或低CAG重复一致janice et al。<一个href="#B10">10一个>]。渊源者的分析数据,我们生成的样本2000例,每一个都有CAG长度从41到56,多项分布的概率 渊源者和家庭相结合的分析数据,我们生成一个样本4000例。我们假设同样比例的渊源者和亲属在合并后的队列数据。家庭成员的可能性 我们提供仿真结果的渊源者只在表和综合分析<一个href="//www.newsama.com/journals/jps/2012/375935/tab1/" target="_blank">1一个>和<一个href="//www.newsama.com/journals/jps/2012/375935/tab2/" target="_blank">2一个>。我们现在的意思是 队列是一个多中心观察研究的个人高清社区。群招聘开放给受试者HD(高清清单)症状与体征,受试者有扩大CAG重复但尚未出现症状的高清()发生前症状,受试者有高清影响父母但是没有测试和没有症状(风险),受试者有祖父母(二级风险)的影响,和对照组没有高清的风险。资料参与渊源者包括遗传状态(是否带高清突变,和CAG重复的数量),临床诊断HD,症状出现的时间和时机的诊断。在我们的分析中,只有与扩大CAG渊源者( 我们首先描述渊源者和家庭队列研究的数据。CAG重复信息长度和年龄是1357年渊源者与CAG重复不同从36到100年(表<一个href="//www.newsama.com/journals/jps/2012/375935/tab3/" target="_blank">3一个>)。从675年渊源者有3409一级亲属可用。我们没有信息的一些渊源者是否来自同一个家庭。我们展示的描述性统计的亲戚关系类型分层的表<一个href="//www.newsama.com/journals/jps/2012/375935/tab4/" target="_blank">4一个>。每个渊源者可能有三个版本的age-at-the-first-symptom(估价者的报告、主体的自我报告和家庭成员的报告)。我们给了最高优先级评定等级的报道的氧化铝的症状。如果穆迪报告版本不可用,然后我们使用主题报告。如果评定等级和主体的自我报告可用,然后,我们使用了家庭成员的报告。21个受试者的自我报告和rater-reported症状不同的阳极氧化铝大于15年被移除。我们渊源者数据集有1151例CAG长度41和56之间用于proband-only分析。类似于janice et al。<一个href="#B10">10一个>),我们限制了分析CAG重复长度41至56防范灵敏度非常高或低CAG重复和偏见由于可能在确定(相对于人口)的主题与CAG长度36到40。
CAG重复信息长度、年龄时的概率评估和作为一个载体(从渊源者接收杭丁顿蛋白突变)是用于2851 1151渊源者的家庭成员。渊源者的数据集,个人发生前症状清单HD和航空公司(24%)。他们age-at-diagnosis记录和age-at-first——汽车标志。1151年渊源者中,876例(76%)受试者经历HD发病诊断HD的平均的氧化铝是44岁(标准差:10.7)。有54%的女性和94%的白种人。我们结合渊源者和家庭数据集有4002个对象。在这个数据集相结合,51%女性和35%受试者经历了HD发病。在4002名受试者中,467人是单例(包括渊源者没有家庭成员)。其他3535例属于623谱系平均大小为5.674 (sd = 2.609)成员。在合并后的数据,有两个不同的概率的载体: 当使用age-at-diagnosis渊源者的数据 敏感性分析,我们比较了基于参数模型和非参数估计提供kaplan meier估计量与一个给定的对象 我们重新分析氧化铝的第一症状使用合并后的渊源者和家庭数据,自age-at-diagnosis不能用于家庭成员未见的人。估计的风险累积高清时代 估计曲线的工具之一是估计有HD发病的条件概率(或保持高清免费)在接下来的五年或十年,给定一个主题没有给定的发病年龄。类似于janice et al。<一个href="#B10">10一个>),在表<一个href="//www.newsama.com/journals/jps/2012/375935/tab6/" target="_blank">6一个>在五年的间隔,我们提出这样的条件概率主题没有高清40岁和CAG重复。例如,40年的主题发生前症状的CAG 42的概率为34% (36% CI: 32%,)在未来10年发展高清(50岁),而对于一个主题的CAG 50这个概率增加到0.93 (CI: 0.91, 0.95)。
我们建议的方法来预测疾病风险从一个已知的突变(或估计外显率函数)。对于大多数复杂疾病,预测疾病的氧化铝等遗传标记的单核苷酸多态性(snp)仍然是一个具有挑战性的问题<一个href="#B8">18一个>]。即使高清等疾病的基因识别,预测模型可以复杂:高清的一个特殊特性是,突变程度是可以量化的,受影响的人群中开展的差异很大。这与典型的分类方法,例如,在全基因组关联研究。提出的方法也适用于其他扩展三核苷酸重复疾病类似于高清。
这个工作的贡献之一是使用家庭数据以及渊源者最大化可用的信息建立一个模型。我们的研究结果显示,估计风险从渊源者和家庭获得数据略低于渊源者的风险估计数据。可能偏向临床样本的渊源者数据由基因阳性或HD-affected主题(例如,对象与早些时候出现更严重的疾病或更有可能参与;受试者可能undersampled)发生前症状,因此整个高清的不公平的代表性的人口,尤其是媒体对象处于危险之中。这种underascertainment如此强烈的合理性CAG长度为40或更少(<一个href="#B3">7一个>],我们排除观测范围内分析。家庭数据可能是一个更好的代表的人口由于家庭成员中包括分析只有通过渊源者的包容。虽然渊源者可能参与这项研究,因为他们有高清或更严重的症状的高清,亲戚都不包括根据CAG重复长度和感情状态。当然,有些家庭成员不会共享扩大CAG重复杭丁顿蛋白与渊源者,因此非谁永远不会发展高清。
注意,我们估计累积的风险出现积极的高清诊断渊源者数据也略低于janice et al。<一个href="#B10">10一个>]也检查age-at-HD诊断。我们估计以后的意思是氧化铝为每个CAG重复长度短于54比janice et al。<一个href="#B10">10一个>]。例如,诊断HD的意思是氧化铝CAG的渊源者42在前的数据是3年后,CAG的43个,4年后(表<一个href="//www.newsama.com/journals/jps/2012/375935/tab3/" target="_blank">3一个>)。平均而言,对所有科目与CAG 41到50之间,平均的氧化铝janice数据是2年前比队列数据。更详细的比较表<一个href="//www.newsama.com/journals/jps/2012/375935/tab5/" target="_blank">5一个>。有几个可能造成这些差别的原因。模型终点,氧化铝,应该被认为是在两个模型略有不同。结果在janice et al。<一个href="#B10">10一个>)是最早在哪个年龄阶段疾病的临床医生记录的一种不可逆转的客观标志。这可能发生早于实际表现的诊断HD的点。(许多临床医生等到有几个这样的迹象。)然而,这也可能发生在一个点晚于渊源者的或家庭的第一份报告的主观症状或他们的第一感知疾病的迹象。CAG 41-49范围,janice等人意味着非常接近出现症状意味着在当前数据。对CAG的长度更长,janice等人估计更像是当前疾病诊断模型。可能的系统性变化之间的临床医生在这两项研究也占不同的估计。
其他潜在的差异数据来源包括潜在research-center-specific异质性在诊断和评级约定和细微变化方法用于确定CAG重复长度。在janice研究中,这些都是衡量各种实验室在队列他们都以相同的实验室。
我们注意到,这里的拟合模型之间的差异和janice等人远远小于其他差异公式在文献[<一个href="#B12">14一个>]。氧化铝概率,条件在当前的时代,尤其相似。在高清研究和遗传咨询,这些条件概率可能是最常用的统计数据从这些公式推导。最后,logistic-exponential形式的参数模型提出了janice et al。<一个href="#B10">10一个>]确实符合实证与分布在队列的数据。这验证使用高清的氧化铝研究这种相对复杂的生存模式和可能会鼓励考虑定量的生物机制会产生指数CAG和氧化铝及其方差之间的关系。
经常有歧义在建模文学有关的确切含义高清”开始。“第一个出现可见的迹象或可报告的高清的症状通常发生在实际的临床表现诊断HD。之前建模的文献,综述了janice et al。<一个href="#B12">14一个>),并没有明确解决这种区别,尽管合成公式经常被用于后续的预测高清诊断(<一个href="#B12">14一个>]。事件中建模janice et al。<一个href="#B10">10一个>)是“第一次神经信号代表一个永久的改变从正常状态中确定一个病人。“这可能是认为的概念”主题的第一个指出症状诊断”,而不是年龄。尽管如此,这个模型已经使用频繁的预测未来诊断HD (<一个href="#B12">14一个>]。在最近的研究中,我们所做的区分首先出现症状和诊断。
在这里,我们假定孟德尔杭丁顿蛋白的传播不受干扰,这样CAG长度不会改变从父母的后代。有几个可能的违反这些假设。CAG的长度,在现实中,有些家庭成员之间的不同,以及那些从他们的父亲继承的基因,平均而言,一个稍长的CAG重复长度比他们的父亲。这个发生的概率要低得多,如果从母亲身上继承(<一个href="#B9">19一个>]。一个解释是,有很多生物的机会CAG长度改变父亲的精子形成的过程比母亲的卵子形成的过程。这些过程及其动力学体外(已经被广泛的研究<一个href="#B3">7一个>,<一个href="#B15">20.一个>),但我们不知道well-verified体内动态种群遗传学模型。假设CAG长度不会改变从父亲的后代可能导致略低估计风险影响渊源者的父亲。
符合janice et al。<一个href="#B10">10一个>和其他的研究<一个href="#B15">20.一个>,<一个href="#B21">21一个>),我们估计减少了低外显率CAG重复长度(≤40)。我们指出,从当前模型参数估计不包括主体与CAG少于41;因此,推断这些主题的估计存在很大风险。然而,可想而知,只要逆关系与CAG和CAG仍然低,疾病风险的生命时间这些主题将低于100%,因为生命时间风险的CAG 41约为100%。
在文献中,没有比例优势模型拟合模型高清的发病年龄。比例优势模型,或类似的线,转换模型,属于半参数模型框架和超出了本文的范围。我们目前正在研究Cox比例风险模型以外的半参数模型。
最后,我们强调,我们当前的模型不包括其他协变量观察,如额外的遗传多态性。此外,我们假设条件独立的家庭成员的发病年龄(氧化铝)的高清CAG重复。这个假设意味着我们不占剩余家庭成员之间的相关性与CAG重复以外的因素造成的,比如生活方式因素。当存在这些残留相关性,点估计从我们目前的方法仍然一致因此仍然有效,尽管估计标准误差不再是正确的。实际使用家庭成员的阳极氧化铝数据的限制是,他们可能比直接收集的数据不可靠的渊源者。这种限制适用于所有其他疾病,特别是与晚发型。这种限制可以更发音时不完全外显率和表型的变化。未来的工作将考虑将这种测量误差分析。最后,提出的方法不包括可能未被注意的效果,可能是网站或clinician-specific或者相关的解释”开始。“未来的研究将集中在协变量将观察和添加family-specific随机效应占剩余的家族聚集性。 y王的研究是由国家卫生研究院的基金R03AG031113-01A2和R01NS073671-01支持。样品和/或队列研究的数据,接收来自惠普的支持疗法,Inc .)被用于这项研究。作者感谢亨廷顿研究小组群体调查人员和协调员收集的数据和/或样品用在这项研究中,参与者和他们的家庭,使这项工作成为可能。
c·a·罗斯,“当更少:谷氨酰胺重复神经退行性疾病的发病机制,“<我>神经元我>,15卷,不。3、493 - 496年,1995页。视图: c·a·罗斯和s . j . Tabrizi”亨廷顿氏舞蹈症:从分子发病机制的临床治疗,”<我>《柳叶刀神经病学我>,10卷,第98 - 83页,2010年。视图: t . Foroud j .灰色,j . Ivashina, p . m·康奈利”亨廷顿氏舞蹈症基于持续时间的差异,发病年龄”<我>神经学神经外科、精神病学杂志》上我>,卷66,不。1,52-56,1999页。视图: k . Kieburtz和亨廷顿研究小组”,统一亨廷顿氏舞蹈症评定量表:可靠性和一致性,“<我>运动障碍我>11卷,第142 - 136页,1996年。视图: e·r·多尔西c·a·贝克·m·亚当斯et al .,“TREND-HD交流临床试验结果研究参与者。”<我>神经病学档案我>,卷65,不。12日,第1595 - 1590页,2008年。视图: e·r·多尔西和亨廷顿研究小组群调查,”表征的一大群人亨廷顿疾病和他们的亲属进入队列研究,“<我>《公共科学图书馆•综合》我>,7卷,不。2篇文章ID e29522 2012。视图: d·法鲁西e . w . Almqvist r . r . Brinkmann y埃瓦萨,和m·r·海登”测量突变亨廷顿疾病的流动意味着一个新的突变率高和大量的探查下迟发性的情况下,“<我>美国人类遗传学杂志》上我>卷,68年,第385 - 373页,2000年。视图: l . n . y . Wang克拉克·e·d·路易et al .,”帕金突变携带者帕金森疾病的风险:评估使用kin-cohort方法,”<我>神经病学档案我>,卷65,不。4、467 - 474年,2008页。视图: d . c . Rubinsztein博士j .希望r .高斯et al .,“表型特征的30 - 40在亨廷顿病(HD)基因CAG重复显示高清36例重复显然正常老年人》重复说:“<我>美国人类遗传学杂志》上我>卷,59号1、16 - 22,1996页。视图: d·r·janice r . r . Brinkman, d .唐尼尔j·s·鲍尔森,和m·r·海登”的新预测模型发病的年龄和外显率基于CAG的亨廷顿氏舞蹈症的长度,”<我>临床遗传学我>,卷65,不。4、267 - 277年,2004页。视图: o·c·斯坦:愉快、m·l·弗朗茨·m·h·艾伯特,s . e . Folstein和c·a·罗斯,“相关性亨廷顿氏病的发病年龄和长度的三核苷酸重复它15,“<我>人类分子遗传学我>,卷2,不。10日,1547 - 1549年,1993页。视图: c·古铁雷斯和a·麦克唐纳<我>亨廷顿病和保险。我:亨廷顿疾病的模型我>、遗传学和保险研究中心(GIRC), 2002年英国爱丁堡。
c·古铁雷斯和a . MacDonald”亨廷顿疾病、重大疾病保险和人寿保险”<我>斯堪的纳维亚精算杂志我>4卷,第313 - 279页,2004年。视图: d . r . janice m·r·海登和j·s . Paulsen”CAG-repeat长度和发病的年龄亨廷顿病(HD):审查和验证研究的统计方法,”<我>美国医学遗传学》杂志上我>,卷153,不。2、397 - 408年,2010页。视图: t·路易斯,“找到观察信息矩阵使用EM算法时,“<我>皇家统计学会杂志》的系列B我>,44卷,第233 - 226页,1982年。视图: n . m . Laird和j . h .制品“随机模型的纵向数据,”<我>生物识别技术我>,38卷,不。4、963 - 974年,1982页。视图: k·马德尔g·利维,e·d·路易et al .,“帕金森病家族史数据的准确性,“<我>神经学我>,卷61,不。1、18 - 23,2003页。视图: j·康、j .赵和h .赵“实际问题构建risk-predicting模型对于复杂的疾病,”<我>《生物制药的统计数据我>,20卷,不。2、415 - 440年,2010页。视图: b·克雷默e . Almqvist j . Theilmann et al .,“Sex-dependent CAG重复的扩张和收缩机制影响亨廷顿疾病的染色体,”<我>美国人类遗传学杂志》上我>卷,57号2、343 - 350年,1995页。视图: c . t . McMurray”机制在人类发展的三核苷酸重复不稳定,”<我>自然遗传学评论我>,11卷,不。11日,第799 - 786页,2010年。视图: r . r . Brinkman, m . m . Mezei j . Theilmann e . Almqvist和m·r·海登”的可能性与亨廷顿疾病影响的一个特定的时代,特定的CAG大小,”<我>美国人类遗传学杂志》上我>,60卷,不。5,1202 - 1210年,1997页。视图:2.1。Proband-Only分析
2.2。将家庭成员
3所示。模拟研究
4所示。队列研究的数据分析结果
5。讨论
确认
引用
版权