文摘
遗传疾病的识别原因进行了通过几种方法增加复杂性。创新的基因方法导致大量的生产数据的支持,需要统计和计算方法是正确处理。本文的目的是提供一个概览的统计和计算方法关注的序列分析和复杂的疾病。
1。介绍
一些疾病的概念可能是继承了父母总是存在,但只有在DNA作为遗传物质的发现,研究分子疾病开始的原因。以来的第一个关联疾病在一个特定的基因缺陷,医学科学家的基因诊断成为目的为了早期识别受影响的病人和改善他们的治疗。对于简单的单基因疾病,传统的方法寻找突变的基因扩增片段的测序的基因区域。一起创新分子方法计算方法允许开发新分析技术创新有助于解开最复杂的案件。未知疾病的基因时,为了确定遗传缺陷,下一代测序技术可以应用到整个基因组序列/外显子组患者的影响,产生大量的数据。2001年初,在第一次人类基因组的组装,Baldi和椰子饼,他们的重要著作1),强调需要的统计和计算支持遗传分析:“这些高通量技术能够快速生产tb的数据太压倒性传统生物方法。因此,需要电脑/统计/机器学习技术今天强而不是弱”。今天,十四年后,需要变得更强的遗传机制作为人类知识仍然增加,使研究遗传疾病一个了不起的冒险以及困难和要求。在疾病发病机理复杂,例如,那些由几个在不同的基因变异引起的,需要更先进的调查。关联研究方法的一些例子在这里报道的荟萃分析方法不同的研究。量化特征与特定的变量相关联的研究是一个热门话题领域的复杂疾病,以及基因表达研究。基因突变的存在/变体不是唯一编码蛋白的功能障碍的原因;事实上也改变其水平可能负责病理表型。在这里,我们报告的这两项研究的结合,表达数量性状位点的分析调查协会关于基因表达的定量数据与整个基因组特定变体的存在。因此本文的目的是为读者提供一个概览的统计和计算方法,重点关注序列分析和复杂的疾病。进一步的热门话题,例如下一代测序方法,基因表达研究,microrna的规定,和表观遗传学,并不仅仅是为了讨论的空间。
本文的组织结构如下:在部分2描述序列变异的研究,而在部分3关联研究的方法、分析和表达数量性状位点,专门针对复杂疾病的研究,讨论了;最后,一些结论是在部分4。
2。测序分析
经典的方法识别的遗传改变遗传疾病致病基因的序列。尽管如此,在过去,一个变体中确定患者和对照组被称为致病性,目前致病性的定义应该更好的证明,因为一些变种只有小对疾病的影响2),不能认为是表型变化的真正原因。唯一一个直接则展示的致病性变异的功能描述蛋白质携带的基因变异。如果这是很难被执行,在网上可以帮助预测。
最快的方法是研究数据库检索信息的一个变种,知道变异之前确定。突变的研究数据库(例如,人类基因突变数据库,HGMG -http://www.hgmd.org/)和单核苷酸多态性(SNP)(例如,http://www.ncbi.nlm.nih.gov/snp)允许链接到以前的论文的变体或链接到1000基因组数据,例如,变异频率。
一些可以立即考虑致病性突变类型,因为他们导致编码蛋白质的戏剧性的变化;包括大型的删除和插入包含一个或多个外显子和删除和插入导致阅读转移和核苷酸替换导致过早终止密码子的形成(无意义突变)。计算预测是必不可少的对于其他突变与不确定的意义,例如,替换导致氨基酸变化(错义),不改变氨基酸序列(同义词),可能导致拼接改变和删除或插入没有转移。利用不同的方法来评估变异效果根据突变类型,如下所示。(1)错义突变。一个氨基酸的变化不可能有害,如果影响不包括氨基酸在蛋白质的功能域或如果它不是必要的蛋白质折叠。最简单的方法用来评估的相关性的多个对齐是一种氨基酸同源序列允许识别如果在进化变异氨基酸是守恒的。这是几种算法的基础上创建评估等错义突变的致病性筛选(排序从宽容宽容;http://sift.jcvi.org/)[3),完全是基于序列。PolyPhen-2(多态表型出现;http://genetics.bwh.harvard.edu/pph2/)[4)评估变异效果使用11特性基于序列比对和结构数据从一个更广泛的选择池使用机器学习方法。另一个工具是基于序列和结构数据PMut(http://mmb2.pcb.ub.es: 8080 / PMut /)基于神经网络的使用(5)训练与疾病有关的突变和中立的变体。突变品酒师(http://www.mutationtaster.org/)[6)是用于不同的突变类型和使用三种不同的模型都基于贝叶斯分类器(5)训练与致病突变和中立的多态性。(2)同义突变。同义突变经常排除诱发突变筛选,因为它们不会引起明显的蛋白质的变化,但他们可以修改监管机制在基因表达的基础。核苷酸序列的任何改变会导致拼接变化或信使rna二级结构的改变造成的不稳定或改变microrna的绑定,导致蛋白表达减少。额外的同义突变致病性机制是由于另一种密码子的使用,可以增加或减少伸长速率取决于tRNA的相对丰度和影响蛋白质折叠7]。同义突变的计算方法研究包括信使rna结构的分析计算序列变化引起的(8,9)、密码子的使用(10],microrna的绑定和拼接报道预测在接下来的段落。(3)拼接。intronic核苷酸变化受主和施主能级附近很容易假定影响剪接机制导致基因内区保留或外显子跳过。每个intronic变体应评估其潜在影响剪接,最近也在雌性生殖道其实变异基因变异导致错义被证明是比蛋白质更相关的拼接过程中变更由于氨基酸变化(11]。工具识别受体的改变/捐助网站包括,例如,人类拼接仪核苷酸的连接强度进行了计算网站基于位置权重矩阵(12),NNSplice基于随机文法推断(13]。GeneSplicer提高剪切位点检测使用一个算法来描述网站基于马尔可夫周围的核苷酸序列建模技术(14]。其他方法的重点是评估其实拼接增强器等ESEfinder(15]。(4)删除或插入没有阅读转移。删除或插入没有阅读转移引发删除或插入一些氨基酸和应该涉及地区的保护和研究的可能改变蛋白质结构。从头预测蛋白质结构仍然是一个挑战,但增加实验的数据结构允许创建工具,如决定罗塞塔(16]搜索现有的结构片段相似的序列和执行片段组装。一个创新的方法来研究其结构耦合与进化研究的蛋白质序列,帮助识别蛋白质的最重要区域(17]。
3所示。复杂的疾病
许多常见的疾病,包括心脏病、糖尿病、高血压、精神分裂症,是复杂的;也就是说,它们是由许多基因与环境因素交互(18,19),使其学习困难。复杂疾病是由于存在的一组基因变异可能诱发疾病,可以开发,如果其他nongenetic因素存在,例如,环境因素。这些疾病也定义为多基因和/或多因子的为了突出其发病机理的复杂性。与复杂疾病相关的遗传变异通常是常见的多态性,单独对表型影响不大;例如,单个变体的存在不能造成任何改变,而一些变体的存在在特定条件下可以被认为是疾病的原因。为了确定疾病机制,疾病有关的基因必须识别和分析相结合;还是决定他们如何相互作用引起的疾病是一个挑战。
3.1。关联研究
第一个变种协会进行了病例对照研究设计。在这个设计中,等位基因或基因型的频率比较感兴趣的网站数量的情况下和控制;更高频率的情况下作为证据表明等位基因或基因型与疾病的风险增加相关。通常这样的研究的结论是,被测试的多态性直接影响疾病的风险或者是附近的标记基因变异影响疾病的风险。由于温和的一个变体的作用,研究人口变得更加大,研究变异的数量增加。全基因组关联研究(GWAS)已经彻底改变了人类遗传学。他们导致了成千上万的识别位点影响疾病易感性和澄清我们对架构的理解复杂的重大疾病(20.]。在GWAS许多常见的遗传变异在不同个体进行分析,以确定如果任何变体与表型特征相关联。一个单核苷酸多态性SNP是单个碱基对DNA序列的变化发生频率大于1% (21]。尽管在过去年GWAS的缤纷复杂的人类的特征是成功完成22),即使是最简单的分析几乎没有总协定最合适的统计程序,包括初步分析,也就是说,哈迪温伯格平衡测试,推理阶段和缺失数据,SNP标记,SNP和多点测试协会(23]。当一个定义明确的表型选择研究人群,和基因型是收集使用适合的技术,基因数据的统计分析。统计方法的概述遗传关联研究中给出了(23]。
事实上的全基因组关联分析数据是一系列单一轨迹统计独立测试每个SNP研究协会的表现型。通常的方法来评估证据之间的关联的遗传变异和表型是计算值为零假设(),没有联系。我们回想一下,值的概率是获取统计测试的结果与实际观察到的相同的零假设是正确的。一些广泛使用的计算方法值是线性回归,逻辑回归,Fisher精确检验,测试(23,24]。如果多个测试执行,调整的值是必需的。这一目标,有几种方法,例如,Bonferroni,错误检测率(罗斯福)价值。我们回想一下,价值的假设是测试的最低罗斯福是显著的。价值观通常是来自完整的分布在所有测试值。然而,随着价值,很难量化多少自信的一个给定的SNP的应该是真正与表型相关。实际上,相同的价值计算在不同的单核苷酸多态性或不同的研究可以有不同影响的合理性真正协会根据影响因素的力量测试,如小SNP等位基因频率和大小的研究。这是因为一个SNP与给定的概率价值是真正与表型相关不仅取决于如何不太可能价值是在还在备择假设下是多么不可能(这不同于测试测试)(25]。贝叶斯方法提供了一种替代方法来评估协会,减轻的局限性值为代价的一些额外的模型假设。作为一个例子,一个贝叶斯分析需要明确的假设影响大小在真正的单核苷酸多态性有关。贝叶斯方法(5)计算措施的证据相比,可以直接在snp内部和在研究中,在研究结果相结合,在单核苷酸多态性的基因,基因和通路。为一个全面的指南,为基因关联研究贝叶斯方法,请参考[25]。一般来说,根据单变量分析发现基因变异只占一小部分的复杂性状的遗传26,27]。“失传现象”的一个可能的解释是,测试协会每个SNP单独的表型是不适合检测多个变量影响小(28]。分析单核苷酸多态性可以忽视一个接一个联合分布的信息。因此,很多协会测试涉及多个snp已应用或开发(23,29日]。多个测试的开发过程包括两个步骤:排名假设和选择截止(即。阈值)的排名。不同的方法使用snp依赖性选择截止(30.,31日),(29日]利用相邻snp的依赖性,发现的隐马尔可夫模型(嗯)32),创建更有效的排名。相反,基于基因测试协会已经提出了(33),贪婪的(34贝叶斯模型选择是用来识别基因中的独立的影响,然后结合生成一个更强的统计信号。进一步揭示战略“失传现象”是使用基因集分析(GSA)作为一种从全基因组单核苷酸多态性数据提取附加信息(35]。GSA的客观评估总体变异的证据协会一整套基因与疾病状态。基因集是一组预定义的基因以外的基于标准的数据分析,例如,基因在特定的生物通路(22]。几种方法进行基因富集在GSA基于确切概率法和测试(36]。GSA有可能检测出微妙的影响相同的多个snp基因集可能错过当单独评估37]。由于众多的基因可以组合成一个有限数量的基因集进行分析,多个测试可以大大减少GSA负担。此外,结合生物知识的统计分析可以帮助研究人员的解释结果。一套先进的审查的基因研究读者可以参考(22),一次彻底的审查统计方法给出了全基因组关联结果“优先”(35]。在[38),相反,SNP是分为SNP集的基础上接近等基因组功能基因或单体型,然后每个SNP的联合效应测试。每个SNP的测试集是通过物流kernel-machine基础测试。后者测试提供了一个统计框架,允许灵活的建模上位性和非线性SNP效应([38),在其中的引用)。几个进一步建议GWAS来自机器学习研究领域(39,40]。从这个角度看,认为方法神经网络(NNs) [5),支持向量机(支持向量机)41),而随机森林(RFs) [42)可能更自然和有效地处理的高维度数据和多个多态性的出现对传统的统计技术(40,43]。许多NNs和混合神经网络的应用开发研究儿童过敏性哮喘(44),帕金森病(45),阿尔茨海默病(46),和多发性硬化症47]。支持向量机应用于帕金森病(48和2型糖尿病49),虽然RFs已经应用于研究克隆氏病(50),家族合并高脂血症(51],结肠癌和卵巢癌(52]。
3.2。荟萃分析的方法
到目前为止,大量的关联研究发现许多与复杂疾病相关的遗传变异。然而,这些研究经常解释只有一小部分的疾病特征的变化(53,54]。常见等位基因的遗传效应小,检测信号需要大样本大小(55]。这种增长的证据已经越来越需要整理和总结的证据来确定真正的遗传关联中大量的假阳性([54)和引用)。此外,复制在独立的数据集的结果是现在被广泛视为一个令人信服的证据的先决条件的协会(56]。这就是为什么荟萃分析已经成为一种越来越流行的方式验证基因位点的常见疾病的诱发和表型。荟萃分析可以被定义为信息的统计集成来自多个独立研究,目的是获得一个整体的估计量(例如,显著性水平,价值和奇怪的比率)研究协会(57]。大多数遗传风险变异发现在过去的几年中来自大规模的GWAS荟萃分析和几百GWAS荟萃分析已经发表(58,59]。大多数这些荟萃分析在发现阶段样本量超过10000名参与者(60]。这些努力已经大幅度提高收益率的发现和验证遗传风险基因座和大型荟萃分析的收益率可能继续增加位点总样本量的比例(57]。GWAS荟萃分析可以在许多组织阶段(见参考文献[58,59为更详细的描述和文献[]57)更简洁)。然而,本文侧重于统计模型的最先进的数据合成GWAS荟萃分析和仔细审查后在57]。
一个可能的方法,也就是说,费雪的方法(57),是基于结合值。这里真正的影响是零的零假设每个组合数据集对备择假设,null检查协会在至少一个数据集。方法密切相关价值是基于组合的平均值值(61年]。虽然这两种方法都相关,的一个优点分数的方法,在费舍尔方法,它考虑的方向效应,这是相当简单的介绍每个研究的权重。另一种受欢迎的方法是固定效应分析,用于合成GWAS的数据和结果是非常有效的优先级和发现phenotype-associated单核苷酸多态性(62年]。固定效应分析假定每个风险等位基因的真正的效果都是一样的在每个数据集。方差倒数加权(56)是最常用的固定效应模型分析,每项研究的加权根据其平方的倒数(标准误差58]。Cochran-Mantel-Haenszel [63年)方法是遗传学的进一步流行使用的方法为方差倒数加权法提供类似的结果(61年]。一个众所周知的估计量之间的方差的随机效应的方法是DerSimonian和Laird估计量(见[57)和引用)。然而,这种方法可能更少的健壮罕见变异(64年]。虽然不采用随机效应模型发现的努力,他们是合适的目标是估计的平均效应值通过不同人群调查变异及其不确定性,例如,用于预测(65年]。在汉族和Eskin [66年),小说随机效应方法提出改善发现当异质性存在尺度效应的研究,不同传统的随机效应模型。贝叶斯技术也用于GWAS荟萃分析。贝叶斯因子(67年由Wellcome Trust)已经使用的病例控制协会,而冠状动脉疾病财团估计给定变量的后验概率是零(68年]。此外,贝叶斯方法已经开发识别最好的继承模型变体GWAS荟萃分析发现(69年)和多基因复杂疾病的结构(70年]。尽管如此,贝叶斯模型有两个主要缺点。首先,他们依赖于假设利息按照给定的先验分布的参数。其次,全基因组的实现需要一个巨大的计算负担(57]。
3.3。表达数量性状基因座
数量性状位点(QTL)定位是一种DNA区域与定量关联现象。在大多数遗传疾病,定量特征往往是疾病严重程度的指标,如血脂异常血脂水平。基因变异可能影响这些定量特征研究的能力,然后影响疾病的严重程度。差异基因表达水平之间的病人和控制是现在公认的一个额外的机制影响一种复杂的疾病的发展。我们在这里报告一个例子QTL研究的基于基因表达水平,表达数量性状位点(eQTL),例如,研究DNA变异对基因表达的影响。实验数据来自eQTL映射主要是由遗传图谱,标记基因型和微阵列数据中提取一组个体。删除后系统的影响,它可以获得基因表达水平的措施。本节不处理统计正确eQTL实验设计的有关问题。这个目的读者可以参考(71年)和引用。
eQTL数据用于所谓的识别热点(72年),构建基因网络(73年临床表型[]和子类的设置74年),和缩短候选基因的列表75年]。所有这些研究都是基于列表的生成成绩单和这些记录对应各自的基因位点。eQTL定位的方法主要是基于通常的QTL定位技术。一个对数的奇怪(LOD)得分为每个记录曲线计算。LOD分数允许比较测量观测值的概率如果两个基因座与尊重的概率随机观察同样的价值观。LOD分数曲线计算得到LOD分数为所有基因的位置。提出了几种方法控制罗斯福的基础上值和值(76年]。
已经说过,在eQTL研究值(LOD分数曲线的峰值对应于每个记录)是用来控制产量和罗斯福的记录列表映射到一个位置。因为这种方法只考虑LOD分数的山峰,它不能用于记录映射到多个位点(76年]。为了应对这个问题,统计方法设计控制整个罗斯福对单个和多个链接77年,78年]。特别是,一个经验贝叶斯方法eQTL映射提出了Kendziorski et al。78年]。股票信息记录方法估计后验概率,每个记录映射到每一个标记。该方法有两个不同的步骤。首先,记录标识。然后,多个eQTL使用后验概率确定。州一个基因组方法与特征如果连杆的后验概率%的概率特征。一个典型的价值是。
后生成的列表记录,识别的热点通常是下一个任务。热点是基因组区域有大量的副本地图。更简单的方法识别热点如下。对于每个基因组区域,计算映射记录的总数。热点候选人总数的地区中排名最高的。虽然很简单,上面的方法可能会失败如果有几个位点的影响,其强度不充分大的被认为是具有统计学意义。的策略应对上述问题提出了Kendziorski et al。78年]。战略在于总结证据支持映射在每一个记录和验证获得的分数超过给定的阈值。进一步的方法提出了热点识别包含在相关记录(平均计算资料79年)从功能上相关的记录和资料(72年]。确定候选人热点后,有必要使用统计测试来评估每个点热的信心。因此一个至关重要的问题是所谓的识别鬼热点,即候选点被认为是错误的热。这个问题已经部分解决Poisson-based测试(80年)能够检测鬼点,通过计算一个特定基因组区域的概率至少会记录与它如果没有任何热点。不幸的是,这个测试时不能应用总结发现的候选热点链接所有记录的证据。
检测的热点收益率届时系统记录的列表,包括检验进一步候选人控制整个集合。这是出于观察,届时系统是comembership的结果在生物学通路功能信息推导出通过暂时的相关记录。詹森和午睡81年)首先表现出点列表可以用来制造网络,代表数学图。图是两个一组顶点和一组边缘,连接顶点的夫妇。在这种情况下,一个顶点代表一个基因或转录。一条边连接两个顶点,当它们之间有关系;此外,重量,以相关系数来衡量,通常是相关的边缘。两两之间的相关性用来识别所有记录派系(82年),即顶点集,代表成绩单,完全通过边连接。我们必须记得,小团体的识别图是一个np问题[34]。这意味着它是一个棘手的问题,如果记录不充分小的图。映射区域集团成员共同进行研究,以确定潜在的候选人可能影响途径。
其他方法,可以允许记录中识别潜在的因果关系的基础上贝叶斯网络(83年]。找到所谓的贝叶斯网络的目标最好的模型的模型,即最优(即描述了数据。,the transcript and/or the loci) in some given model space. Finding the best model usually requires the computation of penalized likelihood that manages the trade-off between the goodness of the fit of the model and the number of model parameters. In order to guarantee that the problem is computationally feasible, the model space has to be moderate. Narrowing down the model space for eQTL mapping is usually performed considering only the transcripts that maps to at least one location [84年,85年]。
我们总结的部分引用一些软件工具eQTL分析目前可用的(86年- - - - - -88年]。
4所示。结论
本文概述的统计和计算方法集中在序列分析和复杂疾病已被提出。讨论在不同技术在这篇概述中,贝叶斯技术似乎有前途的性能在某些领域,例如,复杂疾病(89年]。因为这些方法通常需要惊人的计算负担,他们的应用程序还没有流行的过去。因此,开发新的高性能计算平台是可能的,在未来的未来,大规模使用贝叶斯技术以应对生物问题,特别是与复杂疾病的任务。尽管一些生物学问题已经解决,新的,更加复杂,出现的代表,通过这种方式,小说挑战生物或统计和计算方法。
利益冲突
作者宣称没有利益冲突有关的出版。
承认
作者希望感谢匿名审稿人的宝贵意见。