DeepVariant-on-Spark:小规模的基因组分析使用一个基于云的计算框架

文摘

尽管人类基因组测序已经成为负担得起的,确定的遗传变异从全基因组序列数据仍然是一个障碍或生物信息学支持人员没有足够的计算设备。GATK是一个黄金标准的遗传变异的识别方法,已广泛应用于基因组项目和人口遗传学研究多年。这是在谷歌大脑团队开发了一种新方法,DeepVariant,利用深层神经网络构造一个图像分类模型来识别基因变异。然而,上级的准确性DeepVariant付出的成本计算强度,很大程度上限制了其应用。因此,我们现在DeepVariant-on-Spark优化资源配置,启用multi-GPU支持,加速DeepVariant管道的处理。使DeepVariant-on-Spark更加方便,我们已经部署的DeepVariant-on-Spark谷歌云平台(GCP)。用户可以部署DeepVariant-on-Spark GCP的我们的指令在20分钟后,开始分析至少10个全基因组测序数据集使用免费提供的信用质量。DeepVaraint-on-Spark是小规模的基因组分析免费使用一个基于云的计算框架,适合试点测试或初步研究,同时保留大型测序项目的灵活性和可扩展性。

1。介绍

作为人类基因组测序的成本大幅下降,大型全基因组测序项目启动与精密医学的不断增长的需求。以前的研究已经指出,药物反应是实质性的,不同种族间的差异和精密医学依靠genotype-based处方决策旨在减轻风险,最大限度地提高药物治疗的疗效。因此,国家项目,比如在英国,美国、欧盟、墨西哥、印度、中国、瑞典、韩国、和台湾生物(1- - - - - -8),已经启动,例证了这一趋势。

我们所知,GATK [9- - - - - -11]是一种生殖系遗传变异的主要包识别和已广泛应用于基因组项目(12- - - - - -15),应用于分析125748和15708基因组(外显https://gnomad.broadinstitute.org/about)作为人口遗传学研究的一部分。2016年,谷歌大脑团队宣布DeepVariant [16),利用深层神经网络来构造一个图像分类模型来识别基因变异。DeepVariant优于GATK-a黄金标准方法变异呼叫和赢得了PrecisionFDA真理挑战奖最高的SNP的性能。Supernat等人已经证实的结果PrecisionFDA真理的挑战,证明DeepVariant目前可用的最精确的变量调用者(16]。

DeepVariant的优越的精度为代价的计算强度,因为它需要大约两倍的时间比GATK墙上时钟倍变体识别。DeepVariant由三个步骤:(1)make_examples获得BAM文件,并将它们转换成图像,(2)call_variants执行调用使用ML-trained模型变体,和(3)邮政process_variants变体调用的输出转换成一个标准的VCF文件。跟随作者的指示,call_variants是唯一的一步,可以利用gpu减少变异调用时间50%以上(16]。然而,克服障碍的GPU硬件配置可以为用户没有生物信息学经验是很困难的。此外,call_variants一步目前只支持一个GPU,和另外两个步骤DeepVariant不优化速度,表明仍有改进的空间。

我们在构建针对性DeepVariant-on-Spark是使multi-GPU DeepVariant管道支持和优化资源配置。DeepVaraint-on-Spark利用Apache火花和Hadoop技术推出DeepVariant并行流程并确保我们可以充分利用GPU资源。使DeepVariant-on-Spark更加方便,我们已经部署DeepVariant-on-Spark到谷歌的云平台(GCP)。用户可以按照我们的步进指令,可以自动安装所有必需的包Ansible [17在20分钟)。DeepVariant-on-Spark可以分析至少10个全基因组测序任务提供的免费使用300美元信用质量,适合初步研究或试验测试。另一方面,DeepVariant-on-Spark还提供大型测序项目的灵活性和可扩展性。

2。材料和方法

2.1。部署DeepVariant-on-Spark

DeepVariant-on-Spark设计作为一个基于云的应用程序,利用谷歌云Dataproc (https://cloud.google.com/dataproc/)管理服务运行Apache火花(18]和Hadoop [19)集群在一个快速、更直接和有效的方法。安装gsutil工具是第一步,使用户能够访问谷歌云Dataproc和公开可访问对象(https://cloud.google.com/storage/docs/gsutil_install)。云Dataproc自动化集群资源管理提供了一种机制,使集群节点的灵活的加法和减法。DataProc集群成功推出后,Ansible用于自动化整个集群部署的所有必需的包,其中包括DeepVariant [20.],亚当[21),SeqPiper PiedPiper,使用YAML Ansible剧本的形式语言。本教程页面上可以找到详细的安装说明(https://storage.cloud.google.com/sparkdv/performance-test/DeepVariant-On-Spark_Tutorial.html?hl=zh-TW)。

2.2。全基因组测序和比对NA12878参考样本

30 x NA12878参照样本的全基因组测序从欧洲核苷酸下载存档(ENA),由Illumina公司NovaSeq 6000测序仪150 bp paired-end测序协议。读取对齐到人类参考genome-Gencode GRCh38。p13 bwa-mem。我们一致序列存入存储作为BAM谷歌文件(gs: / / sparkdv /性能测试/ NA12878-novaseq.bam)和使用Qualimap2评估获得的BAM的对齐质量文件(22]。

2.3。DeepVariant-on-Spark框架

目前,DeepVariant只支持单一GPU加速变异召唤,我们与多个GPU机器上不能获得任何好处。因此,DeepVariant-on-Spark旨在利用Apache火花发射多个DeepVariant进程并行解决变量调用的可伸缩性问题。输入文件的BAM首先上传到Hadoop分布式文件系统(HDFS),其次是分割成几个1 Mbp数据块。然后,我们得到的数据块变成Apache镶花的文件格式( 。拼花)通过数据压缩来提高传输性能。克服引入的负载不平衡不平衡染色体的长度,我们汇总1 Mbp数据块到155年大约大小相等的BAM文件根据连续揭露了地区的人类基因组。这些BAM文件变成了弹性分布式数据集(抽样数据结构,可进一步划分和分布在集群火花。最后,火花PipeRDD用于并行化DeepVariant过程火花确保所有GPU资源可以充分利用计算节点(图1)。

图1

DeepVaraint-on-Spark框架。DeepVariant-on-Spark基于Google Dataproc服务。BAM文件导入DeepVariant-on-Spark集群后,BAM文件将被划分为几个1 Mbp块在“亚当变换”步骤中,这些块将被合并到155年小BAM文件”选择BAM”一步。1 Mbp和小块BAM文件存储在HDFS。PiedPiper将管SeqPiper每个BAM文件的路径,而发射DeepVariant生产VCF文件。最后,在“合并VCF”步骤,每个VCF文件将被合并成一个完整的VCF文件。

2.4。要求质量评价的变体

我们进行变体格式调用使用DeepVariant和DeepVariant-on-Spark获得变体(VCF)文件从NA12878参考样本。0.7.0 DeepVariant版本被用于构建原始DeepVariant管道和加速DeepVariant-on-Spark管道在云计算环境中。结果从两个管道与不同的CPU / GPU组合相比GIAB NIST v3.2.2 HG001真实数据23,24)(ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh38/)来确定 - - - - - -分数、召回和单核苷酸多态性和Indels精度值。轮胎式龙门吊vcfeval工具(https://github.com/RealTimeGenomics/rtg-tools)是用于生成中间VCF变体比较(25]。Illumina公司的机会。py (https://github.com/Illumina/hap.py/blob/master/doc/happy.md),一个量化工具,利用计数和分层变体。

2.5。数据访问

本研究中使用的DeepVariant v0.7.0可以在GitHub页面如下:https://github.com/google/deepvariant/releases/tag/v0.7.0。

DeepVariant-on-Spark管道在这项研究中的应用是可以在GitHub页面如下:https://github.com/atgenomix/deepvariant-on-spark。

GIAB NIST v3.3.2如此变体数据集用于评估变量调用者性能可以通过以下链接下载:ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh38/。

可以获得变异评价和比较工具https://github.com/RealTimeGenomics/rtg-tools和https://github.com/Illumina/hap.py。

3所示。结果

3.1。比较DeepVariant和DeepVariant-on-Spark人类30 x WGS数据的进行分析

首先,我们需要确认DeepVariant-on-Spark DeepVariant可以达到相应的精度。之前我们可以执行DeepVariant-on-Spark和DeepVariant之间的对比,我们需要有一个标准的BAM文件调用精度评价的变体。30 x NA12878参照样本的WGS 611997146读GRCh38是一致的。p13参考基因组获得BAM文件,读取对齐,99.82% 41.25% GC, 29.08 x意味着覆盖。我们的分析表明, - - - - - -分数、召回的调和平均数和精度,SNVs和Indels是相同的( - - - - - -得分分别为0.99940和0.96168)DeepVariant-on-Spark DeepVariant相比。如表所示1不同组合下,分析全面执行的硬件设置,结果是一致的。


变体调用管道	变异类型	CPU^一个	GPU^b	F1^c	回忆	精度	真阳性	假阴性	假阳性	基因型不匹配	总数SNV调用

DeepVariant	单核苷酸多态性	16	0	0.99940	0.99937	0.99943	3040855	1928年	1744年	363年	3886287
		32	0	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886337
		64年	0	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886366
		96年	0	0.99940	0.99937	0.99943	3040855	1928年	1744年	363年	3886339
		16	1	0.99940	0.99937	0.99943	3040855	1928年	1744年	363年	3886287
		16	4	0.99940	0.99937	0.99943	3040855	1928年	1744年	363年	3886287
		32	2	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886337
		64年	4	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886366
DeepVariant-on-Spark		32	0	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886403
		64年	0	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886403
		128年	0	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886403
		32	2	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886403
		64年	4	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886404
		128年	8	0.99940	0.99937	0.99943	3040856	1927年	1744年	363年	3886403

DeepVariant	Indel	16	0	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868527年
		32	0	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868535年
		64年	0	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868520年
		96年	0	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868535年
		16	1	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868527年
		16	4	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868528年
		32	2	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868535年
		64年	4	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868520年
DeepVariant-on-Spark		32	0	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868541年
		64年	0	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868541年
		128年	0	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868541年
		32	2	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868542年
		64年	4	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868542年
		128年	8	0.96168	0.95711	0.96628	478265年	21432年	17373年	11151年	868541年

^一个CPU的数量意味着CPU核心。^bGPU意味着NVIDIA Tesla P100 GPU的数量。^cF1意味着F1的分数计算。

3.2。DeepVariant的计算瓶颈

探索DeepVariant的瓶颈,我们评估GCP的DeepVariant管道使用虚拟机配备了16个CPU (2.0 GHz)和60 GB的内存,以添加或删除灵活性为CPU / GPU在现有虚拟机实例。参考运行时建立了DeepVariant使用16个cpu (2.0 GHz),历时17.5小时完成调用从30 x WGS变体。结果表明,“Make_Examples”和“Call_Variants”DeepVariant管道的计算瓶颈。增加cpu的数量可能会改善这两个步骤,但影响不明显(图“Call_Variants”一步2(一个))。然而,当cpu数量的增加,DeepVariant-on-Spark可以提供一个明显改善“Make_Examples”和“Call_Variants”步骤,结果在一个理想的加速比的总体流程(数字2(一个)和2 (b))。只有两个计算节点,相当于32个cpu,要求DeepVariant-on-Spark达到相同的计算性能随着DeepVariant 64 cpu。此外,GCP的最大数量有限的cpu为单个虚拟机到96年,导致贫困DeepVariant的可伸缩性。我们现在DeepVariant-on-Spark并行执行的可伸缩的架构DeepVariant基于Apache火花框架。分布式Apache火花框架提供了一个优秀的解决方案,以解决可伸缩性问题。DeepVariant-on-Spark可以加速默认DeepVariant管道通过七次,在满载128 cpu通过8计算节点,从而实现高性能的基于内存的计算和良好的可伸缩性在多个节点上。我们可以减少整个所的变体叫30 x WGS从17.5到2.5小时DeepVariant-on-Spark框架下使用128 cpu。

(一)

(b)

(c)

(d)

图2

墙上时钟时间和加速DeepVariant和DeepVariant-on-Spark不同组合的CPU / GPU。运行时比较DeepVariant和DeepVariant-on-Spark不同组合的CPU / GPU。(一)DeepVariant纯CPU上运行的机器。(b) DeepVariant CPU / GPU混合机器上运行。(c) DeepVariant-on-Spark纯CPU上运行集群。(d) DeepVariant-on-Spark CPU / GPU混合集群上运行。AdamTransform、SelectBAM Make_Examples、Call_Variants Postprocess_Variants,合并VCF代表DeepVariant或DeepVariant-on-Spark每一步。加速了多少次每个条件比DeepVariant更快的CPU(16)模式。的速度改进DeepVariant-on-Spark在DeepVariant上面提供的链接。DeepVariant-on-Spark使用128 - cpu和8-GPU配置相比,改进的11.58 x时钟时间DeepVariant使用16个cpu。

3.3。可扩展性分析DeepVariant和DeepVariant-on-Spark基于异构计算架构

异构计算,它使用一种不同类型的处理器(CPU或GPU)获得效率和性能,其中包含专门的处理能力来处理特定任务,一直流行在过去的几年里。因此,我们试图将gpu合并到现有的GCP的虚拟机实例。结果表明,GPU加速是微不足道的“Make_Examples”步骤,而在“Call_Variants”介绍了重大改进的一步。合并后的加速加息gpu(数据2 (b)和2 (d));然而,我们不能找到更多的受益于多个GPU,表明当前版本的DeepVariant管道支持一个GPU(图2 (b))。因此,我们引入DeepVariant-on-Spark释放多个gpu的全部威力。DeepVariant-on-Spark评估谷歌云DataProc火花集群2,4,8计算节点(数字2 (c)和2 (d))。每个节点配备了16个cpu (2.0 GHz), 104 GB的内存,1 NVIDIA Tesla P100 GPU处理器。通过DeepVariant-on-Spark,不仅cpu,而且所有的GPU资源可以跨多个节点,充分利用,我们可以减少时钟时间的“Call_Variants”一步~ 45% GPU的数量增加一倍。有八个计算节点,相当于128 cpu和8 NVIDIA Tesla P100 GPU处理器,我们可以减少整个墙上时钟时间从17.5到1.51小时的变体叫30 x WGS。如图2 (d),当我们使用128 8 CPU和GPU,我们可以通过11次,加快管道和加速比仍在增加,表明DeepVariant-on-Spark可以实现CPU和GPU利用率高,比原来的更可伸缩DeepVariant管道。表2描述了时钟* DeepVariant-on-Spark和DeepVariant 1, 2, 4, 8计算节点配备不同的CPU和GPU处理器。


变体调用者	DeepVariant							DeepVariant-on-Spark
机模型	CPU只				CPU + GPU			CPU只			CPU + GPU

CPU^一个	16	32	64年	96年	16	32	64年	32	64年	128年	32	64年	128年
GPU^b	0	0	0	0	1	2	4	0	0	0	2	4	8
火花^c	没有	没有	没有	没有	没有	没有	没有	是的	是的	是的	是的	是的	是的
AdamTransform(人力资源)	0	0	0	0	0	0	0	0.56	0.32	0.2	0.58	0.31	0.2
SelectBAM(人力资源)	0	0	0	0	0	0	0	0.5	0.33	0.23	0.48	0.29	0.2
Make_examples(人力资源)	6.13	3.15	1.73	1.2	5.93	3所示。1	1.6	2.72	1.6	1	2.82	1.48	0.83
Call_variants(人力资源)	10.8	6.53	5.35	3.83	1.51	1.52	1.5	3.66	2.02	0.98	0.7	0.38	0.21
Postprocess_variants(人力资源)	0.56	0.54	0.53	0.48	0.46	0.46	0.45	0.2	0.13	0.07	0.2	0.1	0.06
合并VCF(人力资源)	0	0	0	0	0	0	0	0.02	0.02	0.02	0.02	0.02	0.02
总时间(人力资源)	17.49	10.22	7.61	5.51	7.9	5.08	3.55	7.66	4.42	2。5	4.8	2.58	1.52
美元/每基因组	14.02	15.94	20.77	25.31	17.86	22.72	31.76	23.25	23.98	25.54	28.57	29.23	33.17
#基因组/ 300美元^d	21	18	14	11	16	13	9	12	12	11	10	10	9

^一个CPU的数量意味着CPU核心。^bGPU意味着NVIDIA Tesla P100 GPU的数量。^c火花意味着使用Apache火花。^d#基因组/ 300美元全基因组序列的数字工作意味着可以试验下完成300美元的信贷。

3.4。的成本效益和成本效率DeepVariant和DeepVariant-on-Spark

本研究的主要目的是为用户提供一个参考指南计划发起一个小规模的基因组分析来选择他们的理想解决方案的初步研究。当计算时间不是主要问题,原DeepVariant管道与16个cpu可以相对成本效益的解决方案,它可以分析多达21 WGS数据集在300美元免费GCP提供的信用。然而,默认的虚拟机架构提供的GCP可怜的可伸缩性,限制CPU数量,很难优化DeepVariant运行成本和性能之间的权衡。在同一成本25美元,DeepVariant需要5.5小时完成30 x WGS变体调用任务的继承了约束使用96 cpu,而DeepVariant-on-Spark灵活地调整性价比可能在2.5小时内完成相同的任务。如果时间紧迫,DeepVariant-on-Spark将一个有成本效益的选项,可以完成10 WGS的变体调用数据在仅仅一天。表2分析总结了时钟时间和成本估计30 x WGS GCP。

4所示。讨论

在这项研究中,我们提供了一个灵活、可扩展的框架DeepVariant加速度。DeepVariant调用者是最精确的变体,优于现有的工具SNV Indel识别,其中在常规基因诊断实现潜力巨大。我们建议的框架,DeepVariant-on-Spark,不仅可以减少,同时保持相同的时钟时间精度也打破限制DeepVariant可利用的cpu和gpu的数量。

用户需要建立一个新的账户GCP获得免费的信用,它可以提供一个方便的地方运行DeepVariant CPU和GPU的支持。作者的指示后,我们可以很容易地设置的CPU版本DeepVariant没有任何障碍。然而,我们必须重新编译一个兼容的NVIDIA GPU司机具体DeepVariant版本GCP使GPU硬件的支持,这对没有经验的用户可能是一个挑战。另一方面,DeepVaraint-on-Spark提供一步一步的指示如何准备一个谷歌DataProc集群。安装脚本将自动识别硬件规格和部署相关的驱动程序和包,使CPU或GPU加速的DeepVariant-on-Spark 20分钟。我们所知,实质性的努力,如Nextflow DNAnexus, DNAstack, Parabricks,一直致力于加快DeepVariant管道。Nextflow提供并行处理多个样品每次DeepVariant [26),产生的结果在一个方便的和可再生的方式;然而,每个样本的总墙上时钟时间不变。DNAnexus和DNAstack可以提供并行执行DeepVariant GUI界面,但许可证需要获得这些商业计划的全部功能。Parabricks引入加速DeepVaraint管道与multi-GPU支持。然而,许可费用将收取所有附加gpu来接收他们的最大性能。谷歌基因组学还建议既配置,使用32个虚拟机与虚拟机16 cpu和32 32 cpu“Make_Examples”和“Call_Variants”步骤,分别完成DeepVariant管道30 x全基因组样本1到2小时3美元和4美元的成本。cpu的配置需要提前抢占的虚拟机,虚拟机比普通便宜80%。然而,计算引擎可能在任何时候终止没有保证周转时间和建议只对容错应用程序和用户熟悉质量。此外,计费帐户需要启动抢占式虚拟机,和免费的信用为新用户不允许计算资源的收购。不像大多数的解决方案上面所提到的,DeepVariant-on-Spark学术免费使用。 Despite not being the most cost-optimized solution available, DeepVariant-on-Spark can complete variant calling for 30x whole genome sample in 1.51 hours, which is comparable with the cost-optimized solution provided by Google Genomics. The reduction in wall-clock time to process a single 30X WGS sample is crucial in clinical settings where a result is needed to quickly take a diagnostic decision. When we were preparing this manuscript, multi-GPU support has been implemented in the recent release of DeepVaraint, making some of the benefits of DeepVariant-on-Spark become redundant. However, DeepVariant-on-Spark supports multi-GPU across multiple nodes, which seems to be conceptually better than limited to a single node.

最后,我们提出DeepVariant-on-Spark、灵活和可扩展的工具变量调用基于火花框架。DeepVariant-on-Spark DeepVariant算法的并行化实现多节点集群,使多个gpu的支持,其中加速DeepVariant管道的处理,同时保持精度。我们的指令后,用户可以轻松地部署DeepVariant-on-Spark GCP的20分钟内,开始分析WGS GCP数据集,也有助于研究人员计划发起一个小规模的基因组分析的初步研究,使DeepVariant,调用者TensorFlow-based变体,对一般用户更具吸引力,简化使用催化DeepVairant更广泛使用的工具。

数据可用性

作者声明数据支持本研究的发现中可用的文章。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

PJH监督这项工作和写主要的手稿。PT校对的手稿。JHC准备数据1和2和表1和2。肉干JHC、HHL YXL创新领导力,执行基准测试。CTS,葵花籽油、MTC, SW构建和调整的计算架构。准备安装的文档通车。

确认

我们要感谢长富Kuo博士和人工智能在医学中心的成员为他们有助于改善长庚纪念医院DeepVariant-on-Spark的独立版本。这项工作是支持的长庚医院,林口,台湾(CMRPD1I0131/2/3)和科技部、台湾(大多数108 - 2221 - e - 182 - 043 - my3)。开放获取的资金费用:科技部、台湾(大多数108 - 2221 - e - 182 - 043 - my3)。

引用

r . Tapia-Conyer p . Kuri-Morales j . Alegre-Diaz et al .,“群组简介:墨西哥城前瞻性研究”,国际流行病学杂志,35卷,不。2、243 - 249年,2006页。视图:出版商的网站|谷歌学术搜索
r . z陈,陈、柯林斯et al .,“中国050万人的嘉道理生物:调查方法、基线特征和长期随访,”国际流行病学杂志,40卷,不。6,1652 - 1666年,2011页。视图:出版商的网站|谷歌学术搜索
戈尔。李,j . h . Kim e . j .香港h . s . Yoo h . y .南和o .公园,“韩国国家生物:质量控制程序的collected-human biospecimens,”Osong公共卫生和研究视角,3卷,不。3、185 - 189年,2012页。视图:出版商的网站|谷歌学术搜索
s s·马哈茂德·d·利维,r . s . Vasan和t . j .,”弗雷明汉心脏研究和心血管疾病的流行病学:历史的角度来看,“《柳叶刀》,卷383,不。9921年,第1008 - 999页,2014年。视图:出版商的网站|谷歌学术搜索
m·莫拉c . Angelini f·贝格美et al .,“EuroBioBank网络:十年合作的实践经验,跨国生物对于罕见疾病,”欧洲人类遗传学杂志》上,23卷,不。9日,第1123 - 1116页,2015年。视图:出版商的网站|谷歌学术搜索
c . Sudlow j . Gallacher:艾伦et al .,”英国生物库:一个开放存取资源识别多种复杂疾病的原因中年和老年人群中,“《公共科学图书馆·医学》杂志上,12卷,不。第三条e1001779, 2015年。视图:出版商的网站|谷歌学术搜索
学术界。陈,j·h·杨,c . w . k .蒋介石et al .,“人口结构在现代台湾汉族人口的基于10000名参与者在台湾生物项目,“人类分子遗传学,25卷,不。24日,第5331 - 5321页,2016年。视图:出版商的网站|谷歌学术搜索
a,去寻找更多j . Dahlberg p Olason et al .,“SweGen:全基因组数据资源的遗传变异在一个横截面的瑞典人,”欧洲人类遗传学杂志》上,25卷,不。11日,第1260 - 1253页,2017年。视图:出版商的网站|谷歌学术搜索
a·麦肯纳m .汉娜,e .银行et al .,“基因组分析工具包:一个MapReduce框架下一代DNA测序数据分析,“基因组研究,20卷,不。9日,第1303 - 1297页,2010年。视图:出版商的网站|谷歌学术搜索
赵m .咦,y, l .贾m .他e . Kebebew和r·m·斯蒂芬斯”性能比较的SNP检测工具illumina公司外显子组测序数据评估使用家庭背景信息和sample-matched SNP数组数据,”核酸的研究,42卷,不。12日,pp. e101-e101, 2014年。视图:出版商的网站|谷歌学术搜索
黄,e . Kim Lee,和e·m·马克特”系统的比较变量调用管道使用金本位个人外显子组变异,”科学报告,5卷,不。1,第17875条,2015。视图:出版商的网站|谷歌学术搜索
g . p .财团”,从人口规模的测序人类基因组变异的地图,“自然,卷467,不。7319年,第1073 - 1061页,2010年。视图:出版商的网站|谷歌学术搜索
p h . Sudmant 1000人基因工程财团,Rausch t . et al .,”一个集成的地图2504年人类基因组结构变异,”自然,卷526,不。7571年,第81 - 75页,2015年。视图:出版商的网站|谷歌学术搜索
r·l·柯林斯基因聚合数据库制作团队,h .品牌et al .,“一个开放的资源结构变化对医疗和种群遗传学,”自然,581卷,2020年。视图:出版商的网站|谷歌学术搜索
k . j . Karczewski基因组数据库财团聚合,l . c . Francioli et al .,“在141456人的外显和基因组变化揭示了在人类蛋白质编码基因功能丧失的光谱不耐,“自然卷,581年,第443 - 434页,2020年。视图:出版商的网站|谷歌学术搜索
a . Supernat o . v . Vidarsson v . m . Steen和t . Stokowy”比较的三个变体人类全基因组测序,调用者”科学报告,8卷,不。1,第17851 - 17851页,2018。视图:出版商的网站|谷歌学术搜索
n . k .辛格s Thakur h . Chaurasiya和h . Nagdev“自动配置的应用程序在IAAS云使用Ansible配置管理,”2015年1日下一代计算技术国际会议(NGCT)乌,页81 - 85年,印度,2015。视图:出版商的网站|谷歌学术搜索
m . Zaharia r . s .鑫p·温德尔et al .,“Apache火花,”ACM的通信卷,59号11日,56 - 65,2016页。视图:出版商的网站|谷歌学术搜索
旷k Shvachko, h、s拉迪亚和r . Chansler“hadoop分布式文件系统,”2010年IEEE 26日大规模存储系统和技术研讨会上(MSST)。NV,页1 - 10,斜坡村,美国,2010年。视图:出版商的网站|谷歌学术搜索
r .府绸,p . c . Chang d·亚历山大et al。“一个普遍的SNP和small-indel变体调用者使用深层神经网络,”自然生物技术,36卷,不。10日,983 - 987年,2018页。视图:出版商的网站|谷歌学术搜索
m .宏伟的f . Nothaft c·哈特尔et al .,”亚当:基因组学云规模计算格式和处理模式,“技术代表、技术。众议员UCB /电- 2013电气工程和计算机SciencesUniversity加州伯克利分校,伯克利,CA,美国,2013年。视图:谷歌学术搜索
k . Okonechnikov a Conesa, f . Garcia-Alcalde”Qualimap 2:先进的高通量测序数据,多试样质量控制”生物信息学,32卷,不。2、292 - 294年,2015页。视图:出版商的网站|谷歌学术搜索
j·m·祖克,b·查普曼j .王et al。”整合人类序列数据集提供了一个基准SNP和indel基因型资源调用”,自然生物技术,32卷,不。3、246 - 251年,2014页。视图:出版商的网站|谷歌学术搜索
m·A·Eberle e . Fritzilas p Krusche et al .,“一套参考数据的540万分阶段人类变异验证17人的遗传基因测序一个三代同堂的血统,”基因组研究,27卷,不。1,第164 - 157页,2017。视图:出版商的网站|谷歌学术搜索
j·g·克利里,r·布雷斯韦特,k Gaastra et al .,“比较变量调用文件的性能基准测试调用管道,下一代测序变体”BioRxiv,2015年。视图:出版商的网站|谷歌学术搜索
p .迪托马索·m·Chatzou e . w . Floden p p .嚎叫,大肠帕伦博,和c . Notredame Nextflow允许重复计算。工作流”,自然生物技术,35卷,不。4、316 - 319年,2017页。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

文摘