计算工具的调查来分析和解释全外显子组测序数据

文摘

全外显子组测序(韦斯)是下一代技术的应用来确定变化的外显子组和正在成为一种标准方法研究疾病的基因变异。理解个体的外显决议允许单基地疾病治疗和管理可操作的突变的识别。韦斯技术实验数据生产的瓶颈转移到计算密集型informatics-based数据分析。新开发了计算工具和方法来分析和解释韦斯数据。在这里,我们回顾一些当前的工具,被用于分析韦斯数据。这些工具包括从原始顺序读取所有的对齐变异与可行的治疗方法。每个工具的优点和缺点进行了讨论的目的是帮助研究人员更有益的决定选择最好的工具来分析他们的韦斯数据。

1。介绍

最近新一代测序技术的进步提供革命性的机会描述个体的基因组景观单一基决议确定可行的突变疾病治疗和管理(1,2]。全外显子组测序(韦斯)是下一代技术的应用来确定外显子组的变化,也就是说,所有已知的基因在基因组编码区域。例如,超过85%的孟德尔疾病的致病突变被发现外显子组,和韦斯提供了一个客观的方法来检测这些变异的个性化和精密医学的时代。下一代测序技术已经改变了实验数据生产的瓶颈,计算密集型informatics-based数据分析。例如,外显子组聚合财团(ExAC)组装和再分析60706年韦斯数据无关的个人从各种特定疾病和人口遗传学研究[3]。获得的见解在韦斯,新颖的计算算法和生物信息学方法代表着现代生物医学研究的一个关键组成部分来分析和解释这些大规模数据集。

基因组研究雇佣韦斯增加了多年来,和新的生物信息学方法和计算工具开发了协助分析和解释这些数据(图1)。韦斯计算工具的大多数是集中在调用一个变体的产生从原始测序数据格式(VCF)文件。一旦VCF文件已经生成,下游分析可以由其他计算方法。因此,在本文我们有生物信息学方法和计算工具分为Pre-VCF和Post-VCF类别。Pre-VCF工作流包括工具来调整原始测序读到参考基因组变异检测和注释。Post-VCF工作流包括体细胞突变检测方法、路径分析、拷贝数改变,INDEL识别,和司机的预测。根据假设的性质,除了VCF分析还可以包括变异与临床数据的方法以及潜在的治疗(图2)。

计算工具开发原始测序数据对齐到一个带注释的VCF文件已经建立。大多数研究往往遵循工作流与GATK [4- - - - - -6],SAMtools [7),或这些方法的组合。一般来说,工作流开始调整韦斯读取参考基因组,并读取不同。最常见的这些变异单核苷酸变异(SNVs),但还包括插入、删除、重组。这些变量是用来注释的位置到一个特定的基因。注释后,SNVs发现可以比作SNVs发现在其他研究的数据库。这允许一个特定频率的确定SNV在给定的人口。在一些研究中,如有关癌症,感兴趣的罕见的体细胞突变。然而,在孟德尔的研究中,生殖系突变景观将比体细胞突变更感兴趣。最后VCF文件前产生的对于一个给定的样本,软件可以用来预测如果变体将功能损害排序候选基因的蛋白质进行进一步的研究。

生物信息学方法开发之外建立带注释的VCF文件建立要少得多。在癌症研究中,大多数类型的VCF之外建立工具的重点是体细胞突变的检测。然而,有显著开发其他计算工具包括路径分析、拷贝数改变,INDEL识别、司机突变预测,和候选基因与临床数据和可操作的目标。

在这里,我们将回顾最近的计算工具在韦斯数据的分析和解释,并将重点放在了这些方法在癌症研究中的应用。我们已经调查了当前的趋势相比,下一代测序分析工具和方法,使研究能更好地确定哪些工具是最好的为他们的韦斯精密医学的研究和发展。此外,我们包括公开可用的生物信息学和计算工具的列表为韦斯研究所(表作为参考1)。


计算工具	描述	网站	引用

校准工具
burrows - wheeler对准器(BWA)	执行短期读取校准使用BWT方法与参考基因组允许差距/不匹配。	http://bio-bwa.sourceforge.net/	(8]
领结(1 & 2)	执行短读对齐使用burrows - wheeler指数为了记忆效率,同时维护一个对齐的速度超过每小时2500万35 bp读取。	http://bowtie-bio.sourceforge.net/index.shtml	(9,10]
大羚羊	短阅读同步,达到速度分裂读取分成相等的长度和种子模板应用到保证命中只有2不匹配。	http://www.illumina.com/	Illumina公司有限公司
宝石	短阅读对准器使用字符串匹配代替BWT提供精度和速度。	http://algorithms.cnag.cat/wiki/The_GEM_library	(11]
GSNAP	执行短期和长期阅读对齐,拼接检测长时间运行和短时间距离,单核苷酸多态性,能够检测bisulfite-treated DNA甲基化研究。	http://research-pub.gene.com/gmap/	(12]
MAQ	短阅读对准器兼容Illumina-Solexa ABI确凿的数据,执行ungapped对齐允许2 - 3不匹配为paired-end读取单头读和一个不匹配。	http://maq.sourceforge.net/	(13]
mrFAST	执行短读对齐允许INDELs 8 bp, Illumina公司生成的数据。Paired-end映射使用固定一端插入算法允许检测小说。	http://mrfast.sourceforge.net/	(14]
Novoalign	对齐在paired-end或单头序列,也能做甲基化研究。允许50%的读取长度不匹配和内置的适配器和基础质量减少。	http://www.novocraft.com/products/novoalign/	http://www.novocraft.com/
SOAP (1 & 2)	SOAP2 SOAP1速度提高了一个数量级,可以使一个广泛的阅读的速度长度2分钟一百万单头读取使用双向BWT算法。	http://soap.genomics.org.cn/	(15,16]
SSAHA	使用一个散列算法找到完全或接近完全匹配的DNA和蛋白质数据库中,类似于做一个爆炸搜索每个阅读。	https://www.vectorbase.org/glossary/ssaha-sequence-search-and-alignment-hashing-algorithm/	(17]
Stampy	结合使用一个散列算法和统计模型,为基因组对齐Illumina公司读取,RNA,芯片测序允许大量或变化包括插入和删除。	http://www.well.ox.ac.uk/project-stampy	(18]
YOABS	使用一个0 ()算法,使用散列和tri-based方法都是有效的在调整序列与少3倍记忆200个基点,比SSAHA快10倍。	提供请求非商业使用	(19]
HTSeq	与许多功能基于Python包,方便测序研究的几个方面。	http://www-huber.embl.de/HTSeq/doc/overview.html

辅助工具
FastUniq	进口,排序,并确定PCR重复的短序列测序数据。	https://sourceforge.net/projects/fastuniq/	(23]
皮卡德	皮卡德是一组命令行工具操纵高通量测序(高温超导)数据和格式如山姆/ BAM /补习和VCF。	http://picard.sourceforge.net/
SAMtools	套工具能够查看、索引、编辑、写作和阅读山姆,BAM,补习格式化文件。	http://www.htslib.org/	(7]

SNV和SV打电话
GATK	单核苷酸多态性和小INDELs变体调用;也可以用于非人类和nondiploid生物。	https://www.broadinstitute.org/gatk/	(4- - - - - -6]
SAMtools	套工具能够查看、索引、编辑、写作和阅读山姆,BAM,补习格式化文件。	http://www.htslib.org/	(7]
式	检测SNVs和INDELs使用多项概率方法在韦斯和WGS数据。	http://emu.src.riken.jp/VCMM/	(25]
FreeBayes	单核苷酸多态性的检测,基于、INDELs和结构变异(sv)测序比对使用贝叶斯统计方法。	https://github.com/ekg/freebayes	(27]
indelMINER	Splitread算法确定断点在INDELs paired-end测序数据。	https://github.com/aakrosh/indelMINER	(32]
Pindel	检测INDELs与锚点使用模式增长的方法,提供nucleotide-level决议。	http://gmt.genome.wustl.edu/packages/pindel/	(30.]
鸭嘴兽	检测单核苷酸多态性、基于INDELs替代品,和结构变异(sv)测序比对使用本地调整和地方组装来实现高特异性和敏感性。	http://www.well.ox.ac.uk/platypus	(26]
Splitread	检测INDELs不到50个基点长韦斯或WGS数据,使用split-read算法。	http://splitread.sourceforge.net/	(31日]
精灵	检测INDELs完成使用split-read和soft-clipping方法,特别敏感与低覆盖率数据集。	https://github.com/zhangzhen/sprites	(33]

VCF注释
ANNOVAR	提供最新的VCF文件注释基因,地区,从其他数据库和过滤器。	http://annovar.openbioinformatics.org/	(34]
MuTect	后处理变体消除工件从混合捕获、短读对齐,下一代测序。	http://www.broadinstitute.org/cancer/cga/mutect	(35]
SnpEff	使用38000基因组预测和注释基因变异的影响。	http://snpeff.sourceforge.net/	(36]
SnpSift	工具操纵VCF文件包括过滤、注释情况控制,转换和颠换率等等。	http://snpeff.sourceforge.net/SnpSift.html	(37]
增值税	注释在云计算环境中变异的功能。	http://vat.gersteinlab.org/	(38]

数据库过滤
1000人基因组计划	从1000人口的健康个体基因型信息。	http://www.1000genomes.org/	(41]
dbSNP	数据库53生物体的基因组变异。	https://www.ncbi.nlm.nih.gov/projects/SNP/	(39]
LOVD	免费的开源数据库gene-centered收集病人的DNA变异和存储和门店数据。	http://www.lovd.nl/3.0/home	(40]
宇宙	数据库包含来自人类癌症的体细胞突变分为专家策划数据和全基因组屏幕发表在科学文献。	http://cancer.sanger.ac.uk/cosmic	(42]
NHLBI去外显子组测序项目(ESP)	数据库的基因和机制,导致血液、肺部和心脏疾病通过门店的数据在不同的人群。	http://evs.gs.washington.edu/EVS/
外显子组聚合联盟(ExAC)	60706年数据库无关的个人疾病和人口外显子组测序研究。	http://exac.broadinstitute.org/	(3]
SeattleSeq注释	NHBLI测序项目的一部分;这个数据库包含小说和已知SNVs INDELs包括加入数字,变量的函数,和人类基因组单体型图频率,临床协会和PolyPhen预测。	http://snp.gs.washington.edu/SeattleSeqAnnotation137/

功能预测
CADD	机器学习算法来分数所有可能的860万替换人类参考基因组从1到99基于已知和模拟功能变体。	http://cadd.gs.washington.edu/info	(49]
FATHMM	使用隐马尔可夫模型预测功能的后果SNVs编码和非编码变异通过web服务器。	http://fathmm.biocompute.org.uk/	(46]
轻轨车	利用似然比统计测试来比较一个变种已知变异和确定它们是否预测是良性的,有害的,或未知。	http://genome.cshlp.org/content/19/9/1553.long	(45]
PolyPhen-2	预测的潜在影响产生的变体使用比较和物理特性。	http://genetics.bwh.harvard.edu/pph2/	(44]
筛选	通过使用PSI-BLAST,也能做出一个预测中产生的突变蛋白的影响。	http://sift.jcvi.org/	(43]
背心	机器学习的方法来确定一个错义突变的概率会影响蛋白质的功能。	http://karchinlab.org/apps/appVest.html	(48]
MetaSVM & MetaLR	集成支持向量机和逻辑回归集成9有害的预测评分的错义突变。	https://sites.google.com/site/jpopgen/dbNSFP	(47]

重要的体细胞突变
SomaticSniper	使用两个bam文件作为输入,这个工具使用玛斯的基因型可能性模型来计算肿瘤和正常样本的概率是不同的,因此识别体细胞变异。	http://gmt.genome.wustl.edu/packages/somatic-sniper/	(50]
MuTect	使用统计分析预测体细胞突变的可能性使用两个贝叶斯方法。	https://www.broadinstitute.org/cancer/cga/mutect	(35]
VarSim	通过利用在之前报道的突变,一个随机突变仿真的预测体细胞突变。	http://bioinform.github.io/varsim/	(51]
SomVarIUS	识别未配对的体细胞变异组织样本的测序深度150 x和67%的精度,在Python中实现。	https://github.com/kylessmith/SomVarIUS	(52]

拷贝数改变
Control-FREEC	检测拷贝数变化和杂合性丢失(LOH)配对山姆/ BAM文件通过计算和正常化拷贝数和β等位基因频率。	http://bioinfo-out.curie.fr/projects/freec/	(59]
CNV-seq	映射阅读数计算滑动窗口在Perl和R来确定高温超导研究的拷贝数。	http://tiger.dbs.nus.edu.sg/cnv-seq/	(53]
SegSeq	使用1400万排列顺序读取从癌症细胞系,平等的拷贝数改变从测序数据计算。	https://www.broadinstitute.org/cancer/cga/segseq	(54]
VarScan2	决定了拷贝数变化匹配或无与伦比的样本使用阅读率,然后用一个圆形的二进制位分割算法。	http://dkoboldt.github.io/varscan/using-varscan.html	(61年]
ExomeAI	检测等位基因不平衡包括LOH无与伦比的肿瘤样本使用统计方法能够处理的低质量的数据集。	http://gqinnovationcenter.com/index.aspx	(64年]
CNVseeqer	外显子之间的覆盖匹配序列计算使用比紧随其后的是圆形的二元分割算法。	http://icb.med.cornell.edu/wiki/index.php?title=Elementolab/CNVseeqer&redirect=no	(60]
挖掘机	从韦斯数据检测拷贝数变异3步骤使用隐马尔可夫模型算法。	https://sourceforge.net/projects/excavatortool/	(57]
ExomeCNV	R包用于检测拷贝数变异韦斯的杂合性丢失数据。	https://secure.genome.ucla.edu/index.php/ExomeCNV_User_Guide	(58]
ADTEx	检测肿瘤外显的畸变检测b中实现频率和R。	http://adtex.sourceforge.net/	(55]
反	使用规范化的深度报道检测拷贝数变化从目标重测序数据包括韦斯。	https://sourceforge.net/projects/contra-cnv/	(56]

司机的预测工具
鸿沟	机器学习方法预测体细胞突变的功能意义。	http://karchinlab.org/apps/appChasm.html	(65年]
Dendrix	新创司机只发现于癌症突变数据包括基因、核苷酸或领域有很高的排他性和覆盖率。	http://compbio.cs.brown.edu/projects/dendrix/	(66年]
MutSigCV	Gene-specific和特定的突变频率包含找到的突变基因突变通常将预期的机会。	http://www.broadinstitute.org/cancer/software/genepattern/modules/docs/MutSigCV	(67年]

路径分析工具和资源
KEGG	数据库使用的地图已知生物过程,允许寻找基因和颜色编码的结果。	http://www.genome.jp/kegg/	(68年]
大卫	允许用户输入大量的基因,发现基因的功能注释列表包括通路、基因本体术语等等。	https://david.ncifcrf.gov/	(69年]
字符串	超过2031个生物网络可视化蛋白质交互。	http://string-db.org/	(70年]
BEReX	使用生物医学知识来允许用户搜索生物医学实体之间的关系。	http://infos.korea.ac.kr/berex/	(71年]
有斑纹的	使用基因的列表来确定根据蛋白质相互作用蛋白质之间的物理连接。	http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1001273	(72年]
SNPsea	使用连锁不平衡来确定通路和细胞类型可能影响基于SNP的数据。	http://www.broadinstitute.org/mpg/snpsea/	(73年]

变异与治疗的工具和资源
cBioPortal	数据库,允许下载、分析和可视化的癌症测序研究,包括提供病人和临床数据样本。	http://www.cbioportal.org/	(78年]
我的癌症基因组	癌症研究数据库提供连锁突变状态的治疗和临床试验。	https://www.mycancergenome.org/	http://www.mycancergenome.org/
ClinVar	数据库的表型和人类之间的关系变化,表明健康状况和人类之间的关系变化和影响。	https://www.ncbi.nlm.nih.gov/clinvar/	(74年]
DSigDB	数据库的签名,包括19531个基因和药物17389种化合物,在一定程度上可以帮助识别化合物转化研究药物再利用研究。	http://tanlab.ucdenver.edu/DSigDB	(77年]
网页	知识库允许各种各样的药物知识的可视化。	https://www.pharmgkb.org/	(75年]
DrugBank	包含详细的药物信息与综合药物目标信息8206年药物。	http://www.drugbank.ca/	(76年]

韦斯数据分析管道
fast2VCF	全外显子组测序管道始于原始测序(fastq)文件,结束于一个VCF文件,为小说和专家用户有很好的能力。	http://fastq2vcf.sourceforge.net/	(80年]
SeqMule	韦斯或WGS管道相结合的信息从十校准和分析工具到达一个VCF文件,既可以用在孟德尔和癌症的研究。	http://seqmule.openbioinformatics.org/en/latest/	(79年]
影响	韦斯与原始测序数据分析管道开始读取和分析SNVs和CNAs和链接数据排序列表药物临床试验和DSigDB。	http://tanlab.ucdenver.edu/IMPACT/	(81年]
基因组的云(GotCloud)	自动测序管道执行部分对齐,变体的召唤,和质量控制,可以运行在Amazon Web Services EC2以及当地机器和集群。	http://genome.sph.umich.edu/wiki/GotCloud

2。在Pre-VCF分析计算工具

对齐,删除重复的,变异的召唤,注释,过滤,和预测都是部分的步骤导致代过滤和注释VCF文件。在这里,我们审查每一个步骤,如图2比较和对比的一些工具,可以用来执行Pre-VCF分析步骤。

2.1。校准工具

任何下一代测序分析的第一步是对齐参考基因组的测序读。两种最常见的人类目前hg18和hg19参考基因组。几个校准算法开发了包括但不限于BWA [8],领结1 [9)和2 (10),宝石(11),大羚羊(Illumina公司,Inc .), GSNAP [12],MAQ [13],mrFAST [14),Novoalign (http://www.novocraft.com/),SOAP 1 (15)和2 (16],SSAHA [17],Stampy [18],YOABS [19]。每种方法都有其独特之处,许多论文回顾了它们之间的区别(20.- - - - - -22),我们将不检查这些工具在深度。这些算法的三个最常用的是BWA,领结(1和2),和肥皂(1和2)。

2.2。辅助工具

开发了一些辅助工具来过滤一致读确保下游更高质量的数据分析。PCR扩增可以引入重复paired-end读入测序数据的读取。这些重复的读可以影响映射读取和下游的深度分析。例如,如果检测到变异在重复读取,读取包含变异的比例可以通过变量调用所需的阈值,因此调用错误的积极的变体。因此,删除重复的读是一个至关重要的步骤,准确地代表测序深度在下游分析。一些工具已经开发检测PCR副本包括皮卡德(http://picard.sourceforge.net./),FastUniq [23],SAMtools [7]。SAMtools rmdup发现读,开始和结束在同一位置,找到最高的阅读质量分数,和马克移除重复的其余部分。皮卡德发现相同的5′位置读入一对伴侣和标志副本。相比之下,FastUniq需要新创快速识别PCR方法重复。FastUniq进口所有的读取,根据他们的位置进行排序,然后是重复的。这允许FastUniq没有先决条件需要完整的基因组序列。由于不同的算法使用这些工具,这些工具可以去除PCR副本单独或组合。

2.3。单核苷酸变异(SNVs)调用的方法

对齐到参考基因组序列后,下一步是执行变异检测韦斯数据。有四个大类的变体调用策略:生殖系变异,体细胞变异,拷贝数变化和结构的变异。多个工具,执行一个或多个变体相互调用技术相比,最近(24]。一些常见的SNV调用程序GATK (4- - - - - -6],SAMtools [7),式(25]。实际SNV调用GATK机制和SAMtools非常相似。然而,SNV前后上下文中调用代表这些工具之间的差异。GATK假定每个测序错误是独立而SAMtools认为二次误差分量更重。SNV后调用GATK学习从数据虽然SAMtools依赖于用户的选择,变异调用者与多项概率模型(式)是另一个工具开发检测SNVs INDELs韦斯和全基因组测序(WGS)研究使用多项式概率模型与质量分数和链偏差滤波器(25]。VCMM抑制假阳性和假阴性变体GATK和SAMtools相比。然而,变体调用的数量是类似于先前的研究。式的作者所做的比较表明,尽管所有三种方法调用大量的常见SNVs,每个工具也不确定SNVs发现的其他方法(25]。每个方法调用的能力SNVs不被别人发现时应考虑选择一个SNV变体调用工具(s)。

2.4。结构变异(sv)识别的方法

结构变异等(sv)插入和删除(INDELs)在高通量测序数据比单核苷酸变异识别更具挑战性,因为他们可能包括一个未定义的核苷酸。大多数韦斯研究遵循SAMtools [7]或GATK [4- - - - - -6)工作流将识别INDELs数据。然而,其他软件开发增加的敏感性INDEL发现同时减少错误发现率。

鸭嘴兽[26)开发找到SNVs INDELs,使用当地复杂的多态性新创组装。相比SAMtools GATK,鸭嘴兽Fosmid最低错误发现率SNVs和INDELs 15个样品的全基因组测序。它也有最短的运行时这些工具。然而,GATK和SAMtools Fosmid错误发现率比鸭嘴兽当发现SNVs和INDELs韦斯数据(26]。因此,鸭嘴兽似乎应该使用适合全基因组测序,但谨慎与韦斯数据时,利用这个工具。

FreeBayes INDEL检测使用一个独特的方法比其他工具。方法利用haplotype-based变异检测下贝叶斯统计框架(27]。该方法已在一些研究结合使用其他方法确定的独特INDELs [28,29日]。

Pindel是第一个程序开发解决大型INDELs不明的问题由于WGS读取的短长度30.]。总之,对齐后读取参考基因组,Pindel识别读取,一端是映射和其他不是30.]。然后,Pindel搜索这个阅读的参考基因组地图上未标明的部分在一个用户定义区域的基因组(30.]。这split-read算法成功地识别大型INDELs。其他计算工具发达后Pindel仍然利用该算法为基础的方法检测INDELs。

Splitread [31日)是专门开发的识别结构变异和INDELs韦斯数据从1 bp Mbp Pindel split-read方法的基础上30.]。SAMtools所使用的算法和GATK限制大小的结构变异,变异大于15 bp很少被发现(31日]。Splitread主播读和集群的一端所属的目的确定大小,内容和结构变异的位置(31日]。GATK相比,Splitread叫70%的相同INDELs但发现了19个更独特INDELs, 13是sanger测序验证了(31日]。Splitread独特的能力来确定大型结构变异和INDELs优点结合使用其他INDEL韦斯分析检测软件。

最近发达indelMINER编译的工具需要split-read的优势新创大会决定INDELs WGS paired-end读取的数据32]。之间的比较是SAMtools Pindel, indelMINER与7500 INDELs[模拟数据集32]。SAMtools发现至少INDELs 6491,其次是Pindel 7239和7365 INDELs indelMINER确认。然而,indelMINER的假阳性比例(3.57%)高于SAMtools(2.65%),但低于Pindel (4.53%)。相反,indelMINER有最低数量的假阴性则与398年相比,589年和1181年Pindel SAMtools,分别。每一种工具都有自己的长处和短处,证明了作者indelMINER [32]。因此,它可以预测未来的工具为SV检测将开发一种方法类似于试图把indelMINER最好的方法已经发展到目前为止。

最近的SV检测工具依赖重整split-reads检测删除。而不是一个更全面的方法像indelMINER,精灵(33旨在解决问题的缺失与microinsertions microhomologies和删除。精灵算法soft-clipping重新读取查找最长前缀或后缀目标序列中有一个匹配。的分数,精灵执行比Pindel使用真实和模拟数据(33]。

所有这些工具使用不同的算法来解决这一问题的结构变异,人类基因组中是常见的。这些工具已经在检测sv的优点和缺点。因此,建议使用这些工具来检测相结合的几个sv韦斯。

2.5。VCF注释方法

一旦检测到变异和调用时,下一步是注释这些变体。两个最受欢迎的VCF ANNOVAR[注释工具34]和MuTect [35)这是GATK管道的一部分。ANNOVAR开发于2010年,目的是快速注释数以百万计的变体轻松和注释方法到目前为止仍然是流行的变体(34]。ANNOVAR可以使用基因、地区或基于过滤器注释为变异注释超过20公共数据库的访问。MuTect是另一种方法,使用贝叶斯分类器的检测和注释变体(34,35]。MuTect已广泛应用于癌症基因组研究,尤其在癌症基因组图谱项目。其他的VCF SnpEff[注释工具36]和SnpSift [37]。SnpEff可以执行注释为多个变体和SnpSift允许快速检测显著变异的VCF文件(37]。变异注释工具(增值税)与其他注释工具在一个方面的不同之处就在于增加云计算能力(38]。增值税注释发生在转录水平,以确定所有或只有一个子集的成绩单亚型基因的影响。增值税是动态的,它还注释多个核苷酸多态性(基于)和可用于不仅仅是人类物种。

2.6。变体过滤数据库和参考资料

在标注过程中,许多资源和数据库可以作为过滤条件检测小说从常见的多态性变异。这些数据库得分一个变种的微小等位基因频率(加)在一个特定的人口或研究。基于这个数字需要过滤的变异研究的目的。例如,孟德尔的研究将包括常见SNVs感兴趣而癌症研究通常关注罕见变异发现在不到1%的人口。NCBI数据库dbSNP,成立于2001年,是一个不断发展的数据库包含知名和罕见变异从许多生物(39]。dbSNP还包含额外的信息,包括疾病相关基因的起源,和体细胞和生殖系变异信息39]。

莱顿开放变异数据库(LOVD) 2005年开发其数据库链接到其他存储库,以便用户能做比较,获得进一步的信息40]。最受欢迎的SNV数据库开发从2010年的1000人基因组计划使用统计超过1000测序的各族人民“健康”(41]。这是癌症研究特别有用,因为有害突变在癌症通常是非常罕见的在一个健康的人口。另一个数据库对于癌症的研究是体细胞突变的目录(宇宙)[42]。这个数据库体细胞突变的癌症研究发现从近20000出版物可以识别潜在的重要癌症相关的变体。最近,外显子组聚合财团(ExAC)组装和再分析60706年韦斯数据无关的个人从各种特定疾病和人口遗传学研究[3]。ExAC门户网站和数据提供一个资源评估的意义变异在韦斯数据发现3]。

2.7。突变的功能预测

除了知道特定变种被发现,研究人员可能还想确定变异的影响。已研制出许多功能预测工具,所有略有不同的算法。虽然个别预测软件可以使用,ANNOVAR为用户提供了来自几个不同功能的分数预测因子包括筛选、PolyPhen-2,轻轨交通,FATHMM, MetaSVM, MetaLR,背心,CADD [34]。

筛选确定如果是有害的一个变体使用PSI-BLAST确定保护基于密切相关的氨基酸序列比对(43]。PolyPhen-2使用管道涉及八个基于序列的方法和三种基于结构的方法来确定突变是良性的,可能有害,或认为是有害的44]。似然比检验(轻轨)使用保护密切相关的物种之间来确定突变功能的影响(45]。当三个基因组进行分析筛选,PolyPhen-2和轻轨交通,只有5%的预测有害突变被所有三种方法(同意是有害的45]。因此,它已被证明,使用多个突变预测是必要的检测范围广泛的有害SNVs。FATHMM利用序列保护内隐马尔可夫模型来预测蛋白质的功能影响错义突变(46]。FATHMM重预测基于其致病性突变的蛋白质的相互作用域(46]。

MetaSVM和MetaLR代表两个集合的方法,结合10预测分数(筛选、PolyPhen-2 HDIV PolyPhen-2赫瓦尔,GERP + +, MutationTaster,突变评估员,FATHMM,轻轨交通,SiPhy,和PhyloP)和最大频率1000人口基因组预测观察到有害的变异(47]。MetaSVM和MetaLR是基于整体的支持向量机(SVM)和逻辑回归(LR),分别预测最后的变体分数(47]。

变异效果评分工具(背心)类似于MetaSVM MetaLR,它使用一个训练集和机器学习预测功能的突变(48]。背心的方法的主要区别是,训练集和预测方法是专门为孟德尔的研究(48]。结合注释依赖损耗(CADD)方法区分本身通过集成多个变体与突变,经历了自然选择以及模拟突变(49]。

而所有这些方法预测突变的功能,他们在方法论和生物都略有不同的假设。东等人最近在已知数据集测试了这些预测算法的性能(47]。他们指出,这些方法很少一致同意如果突变是有害的。因此,重要的是要考虑预测的方法以及研究的重点解释时有害的预测结果。

3所示。除了VCF分析计算方法

带注释的VCF文件生成后,过滤,都有几种类型的分析,可以表现(图2)。这里我们大纲六大类型的分析,可以进行代VCF文件后,在癌症研究中特别关注韦斯:(i)重要的体细胞突变,(ii)通路分析,(3)拷贝数估计,(iv)司机预测,(v)变异与临床信息和可行的治疗方法,和(vi)新兴韦斯在癌症研究中的应用。

3.1。方法来确定重要的体细胞突变

VCF注释之后,韦斯样本可以成千上万的SNVs确认;然而,他们中的大多数将保持沉默(同义词)的基因突变,并将不会对后续研究有意义。因此,重要的是要从这些变异识别重要的体细胞突变。开发了一些工具去做这个任务对于癌症韦斯的分析数据,包括SomaticSniper [50],MuTect [35],VarSim [51],SomVarIUS [52]。

SomaticSniper是一个计算程序,比较了正常和肿瘤样本找出哪些突变的肿瘤样本,因此预测,体细胞突变(50]。SomaticSniper使用MAQ的基因型可能性模型(如SAMtools实现的),然后计算肿瘤和正常基因型的概率是不同的。概率是报道作为体细胞评分Phred-scaled概率。SomaticSniper已经应用于各种癌症研究检测重要的体细胞变异。

另一个流行的体细胞突变的识别工具是MuTect [35),Broad研究所开发的。MuTect SomaticSniper一样,利用配对正常和癌症作为输入样本检测体细胞突变。消除劣质读取后,MuTect使用变异检测统计量来确定如果一个变体可能比一个测序错误。MuTect然后搜索六种已知工件排序和删除它们。一组正常样本以及dbSNP数据库用于比较去除常见的多态性。通过这样做,体细胞突变的数量不仅识别也减少到一组更可能的候选基因。MuTect已广泛应用于广泛的癌症基因组学研究所。

虽然SomaticSniper和MuTect需要数据配对癌和正常样本,VarSim [51]和SomVarIUS [52)不需要正常样本体细胞突变。与大多数项目的,VarSim [51)使用一个两步的过程利用仿真和实验数据来评估要求精度校准和变体。在第一步中,VarSim模拟二倍体基因组和生殖系体细胞突变基于现实的模型,该模型包括SNVs和sv。在第二步中,VarSim执行体细胞变异检测使用模拟数据和验证VCF癌症突变的肿瘤。SomVarIUS是另一个最近的计算方法来检测癌症中体细胞变异外,没有一个正常的配对样本(52]。总之,SomVarIUS体细胞变异检测由3个步骤组成。SomVarIUS首先重视潜在的变体网站,测序错误的概率估计,紧随其后的是一个观测变量的概率是生殖系或体细胞。样本中超过150 x覆盖率,SomVarIUS标识体细胞变异至少有67.7%的精度和召回率64.6%,相比paired-tissue体细胞变异调用真正的肿瘤样本(52]。癌症样本VarSim和SomVarIUS都将是有用的,缺乏相应的正常体细胞变异检测样品。

3.2。计算估计拷贝数变化的工具

韦斯数据分析中的一个活跃的研究领域是发展估计拷贝数变化的计算方法(CNAs)。许多工具已经开发了从韦斯数据评估必须基于配对正常肿瘤样本如CNV-seq [53],SegSeq [54],ADTEx [55,反56],挖掘机[57],ExomeCNV [58),Control-FREEC (control-FREE拷贝数调用者)59],CNVseeqer [60]。例如,VarScan2 [61年]是一种计算工具,可以估计体细胞突变和CNAs配对正常肿瘤样本。VarScan2利用正常样本发现体细胞CNAs(大会)首先比较Q20阅读深度正常和肿瘤样本和规范他们之间基于输入数据的数量为每个样本(61年]。拷贝数改变推断从日志₂肿瘤深度比正常的深度为每个地区(61年]。最后,循环分割(CBS)算法(62年)是利用合并相邻段调用一组大会。这些大会可以进一步分为大型染色体臂(> 25%)或焦(< 25%)事件在韦斯数据(63年]。

最近,ExomeAI开发检测等位基因不平衡(AI)从韦斯数据(64年]。利用杂合的网站,ExomeAI发现偏离预期1:1 A和b之间的比率没有正常比较多个肿瘤样本。绝对偏差的b从0。计算和类似于VarScan2频率;哥伦比亚广播公司(CBS)算法应用于每个染色体臂(62年]。为了减少假阳性的数量,与500年创建一个数据库(计数)正常样本过滤已知的AIs。这代表了一个新的工具来分析韦斯AI复发事件的检测没有匹配的正常样本。

系统评价体细胞韦斯数据拷贝数估算工具最近发表(63年]。在这项研究中,六个计算工具必须检测(Control-FREEC ADTEx,魂斗罗,挖掘机、ExomeCNV和VarScan2)使用韦斯TCGA数据从三个数据集进行评估。使用一个SNP数组作为参考,本研究发现,这些算法给高度可变的结果。作者发现ADTEx和挖掘机有最佳的性能相比相对较高的精度和灵敏度参考。研究表明,当前CNA检测工具韦斯数据仍有局限性,并呼吁更健壮的算法对于这个具有挑战性的任务。

3.3。计算工具预测司机癌症外显

癌症是一种疾病的遗传变异和拷贝数变化。这些基因事件可以分为两类,“司机”和“乘客”突变。驱动突变是关键突变驱动癌症的发展,提供了一种生存优势,而旅客突变“围观者”改变,发生改变的主要细胞,但不提供一种生存优势。随着癌症突变负担较高外,确定“乘客”的“司机”突变突变在癌症研究中是一个关键的分析。开发了一些工具找到驱动突变(包括但不限于鸿沟65年],Dendrix [66年],MutSigCV [67年]。

鸿沟(体细胞突变的癌症特异性高通量注释)使用随机森林作为机器学习的方法来区分司机和旅客突变在癌症的区别65年]。鸿沟被训练在策划驱动突变来自宇宙数据库(“正面例子”)和合成旅客突变产生的背景基础替换频率观察到特定的肿瘤类型(“负示例”)。之间的鸿沟时可以实现高灵敏度和特异性识别已知的司机错义突变和随机生成的错义突变,在真正的肿瘤样本进行测试。这种方法一直是流行的司机检测癌症研究人员预测工具和被应用在各种癌症基因组研究。

另一个常见的司机突变工具MutSigCV开发解决问题广泛的假阳性结果,掩盖真实的司机突变(67年]。癌症基因组测序的大小增加了难以置信的基因(如TTN)已被错误地报道是有关癌症而事实上他们大尺寸只是让他们将偶然变异概率增加(67年]。MutSigCV考虑特定的突变频率和频谱以及gene-specific背景变异率、表达水平和复制。通过汇集所有可用的数据到一个工具,MutSigCV已经成为一个标准工具用于驱动突变在癌症研究中识别。

新创司机排他性(Dendrix)是一种新型的计算工具来确定新创司机通路(基因集)从体细胞突变的患者数据66年]。Dendrix算法的主要目标是找到基因集的高覆盖率和排他性属性体数据。高覆盖率属性假设大多数病人至少有一个司机突变的基因集,而高排他性产权假定这些驱动突变很少突变在相同的病人。两种算法在Dendrix发达,一个基于贪婪算法和一个基于马尔可夫链蒙特卡罗(密度)算法,测量集的基因表现出两个标准。Dendrix TCGA应用到数据时,算法确定组的基因突变在大子集的病人,这些突变是互斥的。这个工具提供了一个机会来分析韦斯数据来识别司机在癌症基因组研究途径。

3.4。路径分析方法

已确定候选人后体细胞突变;一个常见类型的分析,以确定哪些途径受到这些突变的影响。常见的通路资源和工具用于这些类型的分析包括KEGG [68年],大卫[69年),STRING [70年],BEReX [71年],斑纹[72年],SNPsea [73年]。

KEGG代表一个最受欢迎的数据库路径分析。大卫是一个流行的在线工具来执行功能富集分析基于用户定义的基因列表。字符串是最大的蛋白质相互作用数据库查询和搜索用户定义的基因之间的相互作用列表。BEReX集成字符串,KEGG和其他数据源探索生物医学基因之间的相互作用,药物、途径,和疾病。字符串和BEReX允许用户执行功能富集分析和灵活地探索用户定义的基因列表之间的交互通过扩展网络。

斑纹(疾病相关蛋白质链接评估者)使用文献报道蛋白质-蛋白质之间的关系来识别重要的物理连接在感兴趣的基因(72年]。有斑纹的推测,遗传变异影响潜在机制到蛋白质-蛋白质之间的关系(72年]。SNPsea是另一个通路分析的工具,需要特定的SNP数据(73年]。SNPsea计算之间的连锁不平衡涉及基因和使用抽样方法确定条件受到这些交互作用的影响。

3.5。计算变异与治疗的工具

变异联系起来的能力,还提供了切实可行的药物靶点在精密医学是一个新兴的研究课题。数据库,如我的癌症基因组提供了这些研究框架(https://www.mycancergenome.org/)。我的癌症基因组提供基因数据和临床治疗治疗之间的桥梁。同样,ClinVar变异之间的关系和临床治疗提供信息(74年]。通过收集相关的变异和临床意义这些变异,ClinVar为研究人员提供了一个数据库来探索测序结果在临床的意义74年]。药理等数据库网页(75年],DrugBank [76年],DSigDB [77年)提供药品和药物靶点之间的链接(变异)。例如,通过查询变量的列表,其中一个数据库,它允许用户通过富集分析来确定可行的目标药物的再利用。

同样,临床数据合并到测序研究个性化医疗的进步是至关重要的。然而,由于缺乏之间的集成电子健康记录(EHR)和分子分析,这仍然是一个挑战将韦斯数据分析转化为临床实践。cBioPortal等项目提供了一个框架,结合测序数据和临床数据可用(78年]。新方法解决这个任务迫切需要利用韦斯的重要应用程序中的数据诊所为了推进精密医学。

4所示。韦斯分析管道

韦斯数据分析管道集成计算工具和方法前面部分所描述的在一个分析工作流。在这里,我们审查三个最近的测序管道SeqMule [79年],Fastq2vcf [80年),和影响81年],同化前面部分中描述的一些工具。

SeqMule突出部分由于使用五对齐工具(BWA,领结1和2 SOAP2和吸附)和五个不同的变体调用算法(GATK, SAMtools, VarScan2、FreeBayes SOAPsnp) (79年]。SeqMule包含至少一个功能,执行Pre-VCF分析生成一个过滤VCF文件。SeqMule还生成一篇基于html报告和图片显示的每一步管道的概况。Fastq2vcf还执行Pre-VCF分析使用BWA GATK作为对齐工具和变体,UnifiedGenotyper, HaplotypeCaller, SAMtools, SNVer导致ANNOVAR和VEP的过滤VCF后实现80年]。Fastq2vcf可用于一个或多种测序数据并行计算环境。

SeqMule和Fastq2vcf管道注重原始测序数据并将其转换为一个过滤的VCF文件。影响(集成分子概要文件与可操作的疗法)韦斯数据分析管道开发借此分析进一步通过链接过滤VCF可行的治疗(81年]。影响管道包含四个分析模块:检测体细胞变异;调用拷贝数改变;预测药物对有害的变异;和肿瘤异质性分析。影响已经应用于纵向样本从黑色素瘤患者获得治疗获得性耐药突变和小说。影响分析揭示CDKN2A作为小说的阻力损失机制dabrafenib和trametinib进一步治疗和预测潜在的药物药理和生物研究(81年]。

比较这三个韦斯管道之间的优势和劣势,SeqMule允许使用不同的对齐算法的管道而影响和Fastq2vcf只利用BWA序列对齐算法。SAMtools影响所使用的常用工具,Fastq2vcf, SeqMule变体。此外,Fastq2vcf和SeqMule聘请GATK和其他变量调用算法变异检测。Fastq2vcf变异注释ANNOVAR和影响。Fastq2vcf也利用和影响利用筛选和PolyPhen-2作为主要的变异预测方法。对于Post-VCF分析,影响管道SeqMule和Fastq2vcf相比,有了更多的选择。特别是,影响执行拷贝数分析,可行的治疗的肿瘤异质性,连接分子概要文件。然而,影响只是设计进行肿瘤样本而SeqMule和Fastq2vcf韦斯数据集的设计。因此,建议用户考虑的分析需要选择适当的韦斯为他们的研究数据分析管道。

最近讨论了奥特曼et al .,美国精密医学计划的一部分(PMI)包括能够定义一个黄金标准的管道和工具为特定的测序研究,使新时代医学(82年]。这样的自动化管道将加速韦斯数据的分析和解释。未来发展需要的数据分析管道将更新的和更广泛的工具为特定的研究问题。

5。结论

总之,我们回顾了几个计算工具韦斯数据的分析和解释。这些计算方法被开发来生成VCF从原始测序数据文件,以及执行在韦斯研究下游分析的工具。每个工具都有特定的优点和缺点,而使用几个的组合会导致更精确的结果。目前,仍有挑战bioinformaticians每一步分析韦斯数据。然而,最大的地区需要的是发展的工具,可以链接信息中发现的VCF文件临床数据库和疗法。在这一领域的研究将有助于推动精密医学通过提供用户友好的和有益的知识超越了实验室。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

作者要感谢平动癌症生物信息学和系统生物学实验室成员的建设性的评论这个手稿。这项工作在一定程度上是由美国国立卫生研究院P50CA058187,癌症联盟科罗拉多,大卫·f·玛格丽特·t·Grohne家庭基金会,里夫金赋予椅子(WAR),摩尔家族基金会。

引用

m . l . Metzker“下一代测序技术,自然遗传学评论,11卷,不。1、脉络,2010页。视图:出版商的网站|谷歌学术搜索
美国古德温,j·d·麦克弗森和w·r·McCombie”时代的到来:十年的下一代测序技术,”自然遗传学评论,17卷,不。6,333 - 351年,2016页。视图:出版商的网站|谷歌学术搜索
m·列克k . j . Karczewski大肠诉Minikel et al .,“60706年分析蛋白质编码基因变异人类,”自然,卷536,不。7616年,第291 - 285页,2016年。视图:出版商的网站|谷歌学术搜索
a·麦肯纳m .汉娜,e .银行et al .,“基因组分析工具包:一个MapReduce框架下一代DNA测序数据分析,“基因组研究,20卷,不。9日,第1303 - 1297页,2010年。视图:出版商的网站|谷歌学术搜索
m·A·DePristo大肠银行,r .府绸et al .,“变异的发现和基因分型的框架使用下一代DNA测序数据,”自然遗传学,43卷,不。5,491 - 498年,2011页。视图:出版商的网站|谷歌学术搜索
g·a·范德·m·o . Auwera c·哈特尔et al .,“从FastQ数据调用高信心变体:基因组分析工具包最佳实践管道,”当前生物信息学技术,11卷,不。1110年,11.10.1-11.10.33,2013页。视图:谷歌学术搜索
h·李,b . Handsaker a Wysoker et al .,”序列比对/格式和SAMtools地图”,生物信息学,25卷,不。16,2078 - 2079年,2009页。视图:出版商的网站|谷歌学术搜索
h·李和r·杜宾“快速而准确的读与burrows - wheeler变换,“生物信息学,26卷,不。5篇文章ID btp698 589 - 595年,2010页。视图:出版商的网站|谷歌学术搜索
b . Langmead c·杰尔m .流行,s . l .扎尔茨贝格”超快和节约内存对齐的人类基因组的DNA序列,”基因组生物学,10卷,不。第三条R25, 2009年。视图:出版商的网站|谷歌学术搜索
b . Langmead s l·扎尔茨贝格,“快gapped-read对齐领结2”,自然方法,9卷,不。4、357 - 359年,2012页。视图:出版商的网站|谷歌学术搜索
s . Marco-Sola m . Sammeth r . Guigo, p . Ribeca“GEM mapper:快速、准确、通用的对齐过滤,“自然方法,9卷,不。12日,第1188 - 1185页,2012年。视图:出版商的网站|谷歌学术搜索
t·d·吴和s . Nacu“快速和SNP-tolerant检测复杂的变异和拼接简而言之读,”生物信息学,26卷,不。7,873 - 881年,2010页。视图:出版商的网站|谷歌学术搜索
j . h . Li阮,r·杜宾“映射短DNA测序读取和调用变体使用映射质量分数,”基因组研究,18卷,不。11日,第1858 - 1851页,2008年。视图:出版商的网站|谷歌学术搜索
c . Alkan j·m·基德t Marques-Bonet et al .,“个性化的拷贝数和节段重复地图使用新一代测序,”自然遗传学第41卷。。10日,1061 - 1067年,2009页。视图:出版商的网站|谷歌学术搜索
k . y . r . Li Li Kristiansen, j . Wang“SOAP:短的寡核苷酸比对计划,”生物信息学,24卷,不。5,713 - 714年,2008页。视图:出版商的网站|谷歌学术搜索
c . r . Li, y李et al .,“SOAP2:一种改进的超快的工具短读对齐,“生物信息学,25卷,不。15日,第1967 - 1966页,2009年。视图:出版商的网站|谷歌学术搜索
z Ning, a·j·考克斯和j . c . Mullikin”SSAHA:快速搜索方法对于大型DNA数据库,”基因组研究,11卷,不。10日,1725 - 1729年,2001页。视图:出版商的网站|谷歌学术搜索
水汽和m .古德森“Stampy:统计敏感和快速算法的映射Illumina公司序列读取,”基因组研究,21卷,不。6,936 - 939年,2011页。视图:出版商的网站|谷歌学术搜索
v . l .加林斯基“YOABS:然而其他生物sequences-an对准器有效线性缩放核苷酸对准器的,”生物信息学,28卷,不。8篇文章ID bts102 1070 - 1077年,2012页。视图:出版商的网站|谷歌学术搜索
h·李和n荷马”,下一代测序,序列比对算法的调查”简报的生物信息学,11卷,不。5篇文章ID bbq015 473 - 483年,2010页。视图:出版商的网站|谷歌学术搜索
j . Shendure和h,“下一代DNA测序,”自然生物技术,26卷,不。10日,1135 - 1145年,2008页。视图:出版商的网站|谷歌学术搜索
t . j . Treangen和s l·扎尔茨贝格”重复DNA和下一代测序:计算的挑战和解决方案,“自然遗传学评论,13卷,不。1,36-46,2012页。视图:出版商的网站|谷歌学术搜索
h .徐x罗,j .钱et al .,“FastUniq:快速新创重复删除工具搭配短阅读,”《公共科学图书馆•综合》,7卷,不。12篇文章ID e52249 2012。视图:出版商的网站|谷歌学术搜索
s . Pabinger皮屑,m·菲舍尔et al .,“变种的调查工具新一代基因组测序数据的分析,“简报的生物信息学,15卷,不。2、256 - 278年,2014页。视图:出版商的网站|谷歌学术搜索
d . Shigemizu藤本,s .秋山et al .,“一种实用的方法来检测SNVs indels从全基因组外显子组测序数据,”科学报告2013年,3卷,第2161条。视图:出版商的网站|谷歌学术搜索
a .轮辋h .表象,即马蒂松et al .,“集成映射、组装和haplotype-based测序方法调用变异的临床应用,”自然遗传学,46卷,不。8,912 - 918年,2014页。视图:出版商的网站|谷歌学术搜索
大肠驻军和g后“Haplotype-based变体从短内容测序检测,”https://arxiv.org/abs/1207.3907。视图:谷歌学术搜索
黄g·埃利森,美国h·卡尔et al .,”一个可靠的BRCA1和BRCA2突变的检测方法在固定肿瘤组织利用多重pcr有针对性的下一代测序,”BMC临床病理学,15卷,不。1,第五条,2015。视图:出版商的网站|谷歌学术搜索
a . k . Talukder s Ravishankar k Sasmal et al .,“XomAnnotate:分析异构、复杂exome-a一步转化医学”《公共科学图书馆•综合》,10卷,不。4篇文章ID e0123569 2015。视图:出版商的网站|谷歌学术搜索
你们k、m·h·舒尔茨问:长,r . Apweiler z宁,“Pindel:模式增长的方法来检测大型删除断点和中型插入paired-end短阅读,”生物信息学,25卷,不。21日,第2871 - 2865页,2009年。视图:出版商的网站|谷歌学术搜索
e . Karakoc c . Alkan b . j . O 'Roak et al .,“检测结构变异和indels外显子组内数据,”自然方法,9卷,不。2、176 - 178年,2012页。视图:出版商的网站|谷歌学术搜索
t·p·a·拉丹·t·l·奥尔森Loughran,和w·米勒,“indels下一代测序数据,鉴定”BMC生物信息学,16卷,不。1,第四十二条,2015。视图:出版商的网站|谷歌学术搜索
z, j . Wang j·罗et al .,“精灵:检测删除从测序数据的重新排列分裂写道,“生物信息学,32卷,不。12日,第1796 - 1788页,2016年。视图:出版商的网站|谷歌学术搜索
和h . m . k . Wang Li Hakonarson,“ANNOVAR:功能注释基因变异的高通量测序数据,”核酸的研究,38卷,不。16日,e164条,2010年。视图:出版商的网站|谷歌学术搜索
k . Cibulskis m . s .劳伦斯,s . l .卡特et al .,“敏感体点突变的检测不洁净和异构癌症样本,”自然生物技术没有,卷。31日。3、213 - 219年,2013页。视图:出版商的网站|谷歌学术搜索
p . Cingolani A .普氏王l . l . et al .,“一个程序注释和单核苷酸多态性的影响,预测SnpEff: snp的基因组黑腹果蝇应变w1118;iso-2;iso-3。”飞》第六卷,没有。2、80 - 92年,2012页。视图:出版商的网站|谷歌学术搜索
p . Cingolani v . m . Patel m .黑人et al .,”使用黑腹果蝇作为一个模型基因毒性化学突变研究一个新项目,SnpSift。”遗传学前沿第三十五条,卷。3日,2012年。视图:出版商的网站|谷歌学术搜索
Balasubramanian l . Habegger s, d . z . Chen等人“增值税:计算框架在个人基因组功能注释变异在云计算环境中,“生物信息学,28卷,不。17日,第2269 - 2267页,2012年。视图:出版商的网站|谷歌学术搜索
s . t .雪莉M.-H。病房,m . Kholodov et al .,“DbSNP: NCBI数据库的遗传变异,”核酸的研究卷,29号1,第311 - 308页,2001。视图:出版商的网站|谷歌学术搜索
i f·a·c·Fokkema j . t .窝Dunnen和p . e . m . Taschner”LOVD:简单创建一个locus-specific序列变异数据库使用“LSDB-in-a-box”的方法,“人类基因突变,26卷,不。2、63 - 68年,2005页。视图:出版商的网站|谷歌学术搜索
1000人基因工程财团,g . r . Abecasis d Altshuler et al .,“从人口规模的测序人类基因组变异的地图,“自然,卷467,不。7319年,第1073 - 1061页,2010年。视图:出版商的网站|谷歌学术搜索
美国福布斯,d·贝尔,p . Gunasekaran et al .,“宇宙:探索世界的体细胞突变在人类癌症知识,”核酸的研究,43卷,不。1,D805-D811, 2015页。视图:出版商的网站|谷歌学术搜索
美国Henikoff p·库马尔,p . c . Ng”预测编码非同义变体的影响蛋白质功能使用筛选算法,”自然的协议,4卷,不。7,1073 - 1081年,2009页。视图:出版商的网站|谷歌学术搜索
中情局Adzhubei, s·施密特,l . Peshkin et al .,“预测方法和服务器损害错义突变,”自然方法,7卷,不。4、248 - 249年,2010页。视图:出版商的网站|谷歌学术搜索
春和j·c·费伊,“识别三个人类基因组内的有害突变。”基因组研究,19卷,不。9日,第1561 - 1553页,2009年。视图:出版商的网站|谷歌学术搜索
h·a·Shihab j .高夫d·n·库珀et al .,“预测功能、分子和表型氨基酸替换使用隐马尔科夫模型的后果,”人类基因突变,34卷,不。1,57 - 65,2013页。视图:出版商的网站|谷歌学术搜索
c .董·魏x剑et al .,“比较和整合deleteriousness预测方法产生SNVs全部外显子组测序研究,“人类分子遗传学,24卷,不。8,2125 - 2137年,2015页。视图:出版商的网站|谷歌学术搜索
h·卡特,c . Douville p·d·斯滕森d·n·库珀和r . Karchin”鉴定孟德尔疾病基因的变异影响评分工具,”BMC基因组学,14卷,p S3, 2013。视图:谷歌学术搜索
科瑞撤m, d . m .威滕p . Jain, b . j . O 'Roak g·m·库珀和j . Shendure”的总体框架估计相对人类遗传变异的致病性,”自然遗传学,46卷,不。3、310 - 315年,2014页。视图:出版商的网站|谷歌学术搜索
d·e·拉尔森c . c·哈里斯,k . Chen等人“Somaticsniper:体细胞点突变的识别在全基因组测序数据,”生物信息学,28卷,不。第三条ID btr665, 311 - 317年,2012页。视图:出版商的网站|谷歌学术搜索
李j . c .μm . Mohiyuddin j . et al .,“VarSim:高保真仿真和验证用于高通量基因组测序与癌症的应用程序的框架,“生物信息学没有,卷。31日。9日,第1471 - 1469页,2014年。视图:出版商的网站|谷歌学术搜索
k·s·史密斯诉k Yadav,裴,d . a . Pollyea c·t·乔丹和s . De”SomVarIUS:体细胞变异识别未配对组织样本,”生物信息学,32卷,不。6,808 - 813年,2015页。视图:出版商的网站|谷歌学术搜索
c·谢·m·t·塔米,“CNV-seq,一个新的使用高通量测序方法检测拷贝数变异,”BMC生物信息学,10卷,不。1,第80条,2009。视图:出版商的网站|谷歌学术搜索
d . y .蒋介石g·斯坦利·d·b·贾菲et al .,“高分辨率的映射和大规模并行测序人类基因组的改变,”自然方法》第六卷,没有。1,第103 - 99页,2009。视图:出版商的网站|谷歌学术搜索
k c编写,j·李,s m .猎人et al .,”推断拷贝数和在肿瘤基因外显子组数据,”BMC基因组学,15卷,不。1,第732条,2014。视图:出版商的网站|谷歌学术搜索
r . j . Li Lupat, k c编写et al .,“反:拷贝数分析有针对性的重新排序,”生物信息学,28卷,不。10篇文章ID bts146 1307 - 1313年,2012页。视图:出版商的网站|谷歌学术搜索
答:麦琪,l . Tattini i Cifola et al .,“挖掘机:检测拷贝数变异从whole-exome测序数据,”基因组生物学,14卷,不。10篇文章R120 2013。视图:出版商的网站|谷歌学术搜索
j . f . Sathirapongsasuti h·李,b·a·j·霍斯特et al .,“外显子组sequencing-based人类基因组变异和杂合性丢失检测:ExomeCNV,”生物信息学,27卷,不。19日,文章ID btr462, 2648 - 2654年,2011页。视图:出版商的网站|谷歌学术搜索
诉Boeva, a .兹诺瓦耶夫,k .爱et al .,“Control-free调用拷贝数变化的深度排序的数据使用GC-content正常化,”生物信息学,27卷,不。2、268 - 269年,2011页。视图:出版商的网站|谷歌学术搜索
江y, d·雷德蒙k聂et al .,“深度测序揭示克隆进化模式和突变事件与b细胞淋巴瘤复发有关,”基因组生物学,15卷,不。8日,第432条,2014年。视图:出版商的网站|谷歌学术搜索
d . c . Koboldt问:张先生,d·e·拉尔森et al .,“VarScan 2:体细胞突变和拷贝数改变外显子组测序发现癌症,”基因组研究,22卷,不。3、568 - 576年,2012页。视图:出版商的网站|谷歌学术搜索
a . b . Olshen h·本特松,p . Neuvial p t首位,r . a . Olshen和v . e .珊”Parent-specific拷贝数tumor-normal配对研究使用循环二元分割,“生物信息学,27卷,不。15篇文章ID btr329, 2038 - 2046年,2011页。视图:出版商的网站|谷歌学术搜索
J.-Y。南:k金,s . c . Kim et al .,“评价体细胞whole-exome测序数据,拷贝数估算工具”简报的生物信息学,17卷,不。2、185 - 192年,2015页。视图:出版商的网站|谷歌学术搜索
j . Nadaf j·北京,美国Fahiminiya”ExomeAI:检测肿瘤的复发性等位基因不平衡使用whole-exome测序数据,”生物信息学没有,卷。31日。3、429 - 431年,2014页。视图:出版商的网站|谷歌学术搜索
h·卡特,j . Samayoa r·h·Hruban和r . Karchin”优先级驱动突变的体细胞突变的胰腺癌使用癌症特异性高通量注释(深渊),“癌症生物学和治疗,10卷,不。6,582 - 587年,2010页。视图:出版商的网站|谷歌学术搜索
f . Vandin、大肠Upfal和b·j·拉斐尔“新创发现突变司机在癌症、通路”基因组研究,22卷,不。2、375 - 385年,2012页。视图:出版商的网站|谷歌学术搜索
p . m . s . Lawrence Stojanov, p .波兰人et al .,“异质性突变在癌症和寻找新的癌症相关的基因,”自然,卷499,不。7457年,第218 - 214页,2013年。视图:出版商的网站|谷歌学术搜索
m . Kanehisa和s . Goto”KEGG:京都基因和基因组的百科全书”,核酸的研究,28卷,不。1、研究,2000页。视图:出版商的网站|谷歌学术搜索
d . w .黄、b·t·谢尔曼和r . a . Lempicki“生物信息学浓缩工具:路径向大型的综合功能分析基因列表”核酸的研究,37卷,不。1,1-13,2009页。视图:出版商的网站|谷歌学术搜索
d . Szklarczyk a . Franceschini s零八et al .,”字符串v10:蛋白质相互作用网络,集成在生命之树,”核酸的研究,43卷,不。1,D447-D452, 2015页。视图:出版商的网站|谷歌学术搜索
A.-C k . Lee m .全s . Lee。棕褐色,j .康“BEReX:生物医学实体关系浏览器”生物信息学,30卷,不。1,第136 - 135页,2014。视图:出版商的网站|谷歌学术搜索
e . j . Rossin k .拉赫s Raychaudhuri et al .,“与免疫介导性疾病相关蛋白质编码基因区域物理交互并建议潜在的生物学,”公共科学图书馆遗传学,7卷,不。1,文章ID e1001273, 2011。视图:出版商的网站|谷歌学术搜索
k . Slowikowski x胡,s . Raychaudhuri”SNPsea:一个算法来识别细胞,组织和通路受到风险位点的影响,“生物信息学,30卷,不。17日,第2497 - 2496页,2014年。视图:出版商的网站|谷歌学术搜索
m . j .它j·m·李·g·r·赖利et al .,“ClinVar:公共档案馆的序列变异和人类表型之间的关系,“核酸的研究,42卷,不。1,D980-D985, 2014页。视图:出版商的网站|谷歌学术搜索
m . Whirl-Carrillo e . m .议员j·m·赫伯特et al .,“个性化医疗药物基因组学知识,”临床药理学和治疗,卷92,不。4、414 - 417年,2012页。视图:出版商的网站|谷歌学术搜索
诉法、c·诺克斯、y Djoumbou et al .,“DrugBank 4.0:药物代谢有了进一步的了解,“核酸的研究,42卷,不。1,D1091-D1097, 2014页。视图:出版商的网站|谷歌学术搜索
j . m . Yoo j . Shin金正日et al .,“DSigDB:药物签名数据库基因集分析,“生物信息学没有,卷。31日。18日,第3071 - 3069页,2014年。视图:出版商的网站|谷歌学术搜索
e·赛拉米j .高,美国Dogrusoz et al .,“门户cBio癌症基因组学:一个开放的平台,探索多维癌症基因组数据,”癌症的发现,卷2,不。5,401 - 404年,2012页。视图:出版商的网站|谷歌学术搜索
沈郭y、x叮,y, g . j . k . Wang,里昂,“SeqMule:自动管道人类外显子组/基因组测序数据的分析,“科学报告5卷,第14283条,2015年。视图:出版商的网站|谷歌学术搜索
x高,j .徐和j·斯塔莫,“Fastq2vcf:简洁透明管道whole-exome测序数据分析,“BMC研究笔记,8卷,不。1,p。72年,2015。视图:出版商的网站|谷歌学术搜索
j . Hintzsche j . Kim诉Yadav et al .,“影响:whole-exome测序分析管道将分子概要文件与可操作的疗法在临床样本,”美国医学协会杂志》上,23卷,不。4、721 - 730年,2016页。视图:出版商的网站|谷歌学术搜索
r·b·奥特曼s .您正在A Sidow et al .,“下一代测序信息,研究路线图”科学转化医学,8卷,不。335年,文章ID 335 ps10, 2016。视图:出版商的网站|谷歌学术搜索

国际基因组学杂志

基因组研究人类疾病的承诺:从基础科学到临床应用

文摘