文摘

种群动态的推理从分子序列数据正成为一个重要的传染病监测的新方法。在这里,我们研究异质性如何接触形状的家谱寄生代理。使用广泛的模拟,我们发现接触异质性可以有强烈影响家谱的结构反映了流行病学相关数量的人口比例等感染。比较模拟野兽重建,我们还发现,接触异质性可以增加序列分离要求的数量估计这些量的一种流行病。我们的研究结果表明,除了需要连接网络结构数据序列数据的准确估计寄生代理的家谱。我们得出这样的结论:网络模型将是重要的在这一领域取得进展。

1。介绍

流行病学是一个数据驱动的领域,它正在以越来越快的速度注入了分子序列数据。这个新的和不断增长的数据源导致多层次模型的调用序列数据之间的关系和传染病动力学(1,2),被称为phylodynamic模型。

通过允许使用额外的数据和综合,phylodynamic建模可能导致改进传染病监测的准确性和质量。例如,诺瓦克病毒疫情报告的数量在2002年有所增加。然而,尚不清楚是否更高的报道人数更多的标志或更频繁的报告疫情暴发。然而,举报偏差不影响分子数据。所以分子数据的联合分析3]提供了宝贵的,很大程度上独立的证据表明增加暴发是真实的。当然,联合分析将有自己的偏见,我们检查的主机接触的异质性。

在接触模型异质性,我们个人在人群中表示为节点,我们代表两个主机互相感染的潜在优势,两个节点的链接。研究人员称结果网络接触网络。连接网络结构必然影响任何复制的家谱传染病蔓延大量人口。在本文中,我们使用术语寄生虫指所有这类传染性病原体,包括细菌和病毒。这些寄生虫必须符合的谱系树内的感染宿主间随着寄生虫的传播形式,和这棵树内的感染必须适合宿主人口的联系网络。虽然更复杂的连接网络结构的元素可能是重要的,我们这里只关注边的数量变化的节点,对应于异质性的接触率。

接触异质性往往没有讨论了作为一个可能的偏见在合并的分析(例如,[4- - - - - -6])。执行合并的分析研究人员认为以各种方式联系异质性。休斯等。7)的系统聚类序列分离有关。Biek et al。8]提到,它可能导致变化的估计 (预期的单一情况下产生的新病例数在易感人群)。Nakano et al。9]讨论了医源性传播可能是一种重要的传播的传播肝炎c·贝内特et al。10)指出,人数规模方面估计合并的分析更准确地解释为人口规模生殖方差的比率。但研究人员很少定量考虑接触异质性如何直接影响他们的联合分析的结果。中场et al。11)做占接触异质性在他们的联合模型饱和参数,但是这个应用程序并不提供一个连接网络结构如何影响家谱的一般说明。

我们的主要目的是评估接触异质性如何影响之间的关系联合重构和寄生虫种群动态的现实。首先,我们建立联系网络与不同程度的异质性。然后,我们通过网络模拟寄生虫的传播,产生流行病动力学仿真和寄生虫的家谱。然后,我们使用野兽软件包[12)生产贝叶斯空中脚踏车(13重建的寄生虫种群动态的基础上,模拟家谱。我们也使用该框架的中场et al。11]预测空中脚踏车重建基于模拟流行病动力学。我们解释连接网络结构如何影响疫情动态,进而影响预测的重建。之间的密切协议预计空中脚踏车和空中脚踏车重建验证这个解释。我们还检查多少模拟家谱空中脚踏车重建作为输入,以产生一个重建要求同意理论预测。

2。材料和方法

我们在网络模拟传染性疾病进展。网络的节点代表主机和敏感的国家,感染,或恢复。网络的边缘确定一组可能的传播活动;跨边缘与易感宿主感染宿主传播感染,直到感染主机恢复。网络中节点的数量保持在10000年,平均学历(学位的边的数量是一个节点)是保持在4。网络建成是常规的,这意味着所有节点具有相同的学位,或与学位从泊松分布采样,指数,或帕累托分布。帕累托网络最低学位是1。常规网络作为模型与零异质性,泊松网络模型与异质性与一个泊松过程相似,与异质性指数网络模型类似于各种社交网络(14),和帕累托网络(无标度网络)模型与异质性的极端水平可能会发现在性接触网络15]。我们使用了Erdos-Renyi算法(16)生成泊松网络和edge-shuffling算法(17)生成规律、指数和帕累托网络。

我们在连续时间模拟流行病和家谱基于随机模拟算法[使用方法18,19]。传染性流行病始于一个节点和其他节点被感染。传染性节点恢复以一定的速率和传播感染易感的邻居(一组节点共享一条边)率。我们画下一个事件的时间从一个指数分布率的总和等于所有可能的事件。然后我们选择一个事件与概率正比于速度,相应网络的状态更新,,直到下一个事件的时间。这个过程是迭代,直到疫情的时间演化达到设置时间点或更多的事件是不可能的。

仿真的源代码可以从作者要求。代码使用GNU科学图书馆(20.版本1.13 + dsfg-1)生成随机数和igraph库(21,版本0.5.3-6)构建网络。

仿真的输出包括流行的时间序列,即感染节点的计数(给定一个固定人口10000节点),发生率,即率之和所有可能的传输。模拟还感染生成树中每个传输是一个分支节点,每个复苏一个终端节点和分支长度等于事件之间的时间。我们采样输入的完整感染树生成树的用处多合并分析。我们通过选择一组节点均匀随机抽样从完全感染树成为提示感染子树的分支。生成子树,我们将全部感染的树枝在随机选择的子集节点没有后代在随机选择的节点的集合,我们修剪掉任何路径的节点没有终止这个子集。

使用抽样感染树作为家谱,我们得到后验分布的用处多人口大小的time-aware方法Minin et al。13),实现在野兽12、版本1.5.4]。获得链长度是100000个国家,每个国家十写入一个日志文件中。我们丢弃的10000个国家中燃烧。在所有情况下,有效样本大小远远超过200人。因此,融合发生。野兽XML输入文件的例子都可以从作者要求。

使用后空中脚踏车人数规模方面分布,我们获得了空中脚踏车轨迹与示踪剂(22,1.5版本)。使用框架的中场et al。11),我们计算预测空中脚踏车,描述下一个结果。

绘制不同随机时间序列模拟在一个共同的时间尺度,我们使用的时间增长几乎确定的每个模拟仿真时间为零。

3所示。结果

3.1。理论

合并理论的群体遗传学领域模型的结构家谱向后的血统取样时间从一组庞大的人口。一个简单的合并的过程其实是一个很好的模型的家谱广泛的场景在群体遗传学23]。在合并过程中,每一对样品聚集到一个共同的祖先血统的家族以恒定速率。当时间单位来衡量的一代,这种速度的倒数有效的人口规模。所以任何对聚集的速度等于双血统的数量除以有效的人口规模。

用处多使用这个简单有效的人口规模和预期的时间之间的关系联合估计人口规模从intracoalescent间隔的长度有家谱。中位数的空中脚踏车重建 在时间 在一个intracoalescent间隔大约是 在哪里 是有效的人口规模, 是一代时间, 的平均数量是对血统intracoalescent区间内的样本,然后呢 intracoalescent区间的长度。

预测空中脚踏车流行病动力学的模型是一个简单的计算速率一双血统将合并,即速率两个链感染合并成一个链。中场et al。11)描述了如何合并率的患病率和发病率。流行,人口规模固定,指感染病例的数量,所以我们表示它 。发病率是指新病例的发生,所以我们表示它 。的聚结速度一个病例 在哪里 的概率是一双特殊的情况下我们可以追溯到一个在过去的传播活动。我们有 使近似,最后传输事件之间也同样可能发生任何一对当前情况。因此,预测空中脚踏车 满足

的相似之处(4)和(1)反映了相似性合并过程的连续时间的流行病传播过程的模型。 然而,通常被认为是作为参数的离散时间种群模型不重叠的几代人。合并过程描述了这样一个模型,当我们的家谱样本人口的一小部分血统。那么,我们如何解释 连续时间流行条件的世代交叠模型了?霜和中场库(24)与Wakeley的一般理论和萨尔基扬(25),我们说一代时间 等于预期的时间受感染的个人传播感染: 然后从(1)和(4), ,我们有

3.2。模拟

确定采样的影响能力的空中脚踏车重建流行历史,我们模拟家谱和修剪一个变量数量的分支从家谱。我们发现少量的修剪的数量迅速减少采样家谱合并事件发生的高峰和晚阶段的流行,从而限制准确重建疫情的早期阶段(图1)。

展示网络结构的重建患病率的影响历史,流行模拟网络与不同的异质性。保持采样平等和增加异质性程度的压缩采样家谱的合并事件的开始流行。图2显示了一个代表性的例子一般趋势,在中级水平的抽样。因此,增加异质性也有类似的效果,减少节点的比例:取样的时间预测的用处多基于患病率和发病率发散估计用处多根据家谱发生之前。

3显示比例的差异患病率的用处多遵循轨迹的患病率和发病率的差异。发病率普遍比预期的时间,直到被感染主机传输感染,和我们这里定义的生成时间(5)。在图3,我们看到那一代的时间,或者很快达到,至少在流行病开始,然后逐渐增加直到流行结束。在常规网络,易感宿主的数量下降的流行导致增加发生。在其他网络,主机不同程度的感染首先转移到高度的主机,然后逐步降低,低的耦合度主机(26- - - - - -28]。因为大量的程度决定了他/她的感染发病率增加,这种运动的感染从高到低度主机被转化成一代倍短然后再在异构网络相对于普通网络(图3)。

4所示。讨论

联系异质性的影响可以家谱的结构相关的重要传染病动力学(图3)。效应的强度会有所不同从系统到系统,和一些系统连接网络结构的其他方面,如短路径的频率(29日和边缘形成的动力学30.- - - - - -33可能也很重要。更普遍的是,模型可能还需要更详细的模型内的感染主机(包括潜伏期,例如),自然选择的影响(34,35),和其他添加才能做出精确的预测在实际系统。

但这些更复杂的数据需求模型可行吗?开始回答这个问题,我们接下来讨论的意义获得相当于我们的模拟数据从一个真实的系统。

我们知道真正的感染树在我们的模拟。在典型的联合分析传染病(如,[13,36]),我们不知道真正的家谱,所以我们必须推断它的动态有效的人口规模。虽然有大量的树木从序列的推理方法(37- - - - - -39),可用各种方法反映了任务的难度。此外,众所周知系统发生学的实践者,替代率设置基本限制可能包含的系统发育信息序列。序列与最近的共同祖先可能没有任何多态的网站可以显示的结构树的分支连接它们。序列的共同祖先太遥远同样含有很少真正的家谱信息(40]。

它可能会解决第二个问题随着时间的推移,通过收集序列没有树中的分支点太远离每一对技巧。对于第一个问题,没有单独序列可以提供信息,和额外的事件链的知识是必要的,以确定感染的感染树。面板标签“聚结时间”图3表明,该附加信息最有可能需要在流行的早期,当有大量的方差在接触网络。那么幸运,接触者追踪方法的许多卫生部门对性传播疾病(性病)[41,42),这被认为是联系异质性高于机载疾病(15]。然而,我们可能需要更广泛的接触者追踪大型家谱进行组装。在美国最近的一项调查的医生(43)发现,不到三分之一的医生经常屏幕病人性病和许多医生依靠病人通知卫生部门和合作伙伴,和在其他国家类似的调查42,44,45]同样表明,接触者追踪不是一般常规医疗的性传播疾病。

也可能需要接触者追踪建立家谱机载感染,因为许多机载传输可能发生在一天中单个应变可能主要在一个主机,作为super-spreading事件在2003年的发热、爆发了(46]。接触者追踪也练习机载疾病。它被用来帮助控制发热疫情(47],天花[48),和肺结核49]。因为接触空气中的疾病可能非常短暂,似乎,即使接触者追踪数据的添加,通常我们可以更了解寄生虫家谱机载疾病相比,性传播疾病。有利的一面,我们的研究结果表明,重建流行的早期部分的能力是健壮的,完整的家谱(图的修剪1)。然而,这种鲁棒性可能取决于我们的抽样方案。使用离散模拟、堆栈等。50)发现,重建的患病率和模拟患病率之间的差异很大程度上取决于样本分布的流行病。另外,目前尚不清楚我们的抽样水平如何比较现实的大量接触者追踪和分子数据为一个特定的传染病。

除了必要填补分子数据,追踪接触者感染可能是必要的,因为家谱并不总是匹配树。这样的冲突可能会发生在传输间隔时间相对较少。当没有时间传输之间的变异成为固定,等位基因位点的序列的顺序出现在传输接种物(或序列隔离)不需要匹配的顺序等位基因出现在宿主中的人口。措施在宿主的病毒载量和序列多样性可能是这样的不一致信息的机会。如果人口往往是大型农场和多样化,那么序列数据可能是无用的重建最近感染链的细节,但仍然有用重建更深的分支的树。从不同在宿主种群序列数据也可以用于合并的模型的参数估计(例如,51),包括寄生虫的宿主中的动态。两个属性,寄生虫可能有助于增加感染的机会树木和家谱匹配是一个低水平的多样性传输接种物(即。,一个强大的传输瓶颈效应)和减少多样性一个潜伏期,之前所有的传播。

在我们的模拟中,我们也知道程度分布的方差。我们有一些数据关于接触网络对一些系统的结构。我们有关于人类性接触网络调查数据(例如,52,53])和调查数据对网络的接近,但不是性,人类接触(54- - - - - -56]。研究人员利用现场数据为野生动物和构造假设接触网络媒介传播疾病(例如,57,58]),研究人员还用人口普查的数据来构造假设接触网络为人类疾病(例如,59,60])。然而,似乎在现实序列数据的分析至少会接触网络的异构性疾病发病率和患病率一样不确定。因此,估计接触异质性可能分析的一个重要目标。我们注意到,以前的工作(例如,61年)还讨论了序列数据估计的潜在使用联系异质性。

5。结论

联系异质性是众所周知的传染病动力学有强烈的影响。传染病动力学之间的关系,我们展示了如何和家谱是同样敏感的联系网络异构性规定。我们认为,直接知识树的感染可能需要除了序列数据的精确推理序列数据的流行。因此,似乎了解各种疾病的联系网络的结构将phylodynamics重要进展。

确认

这项工作是由NSF资助ef - 0742373。德州大学高级计算中心提供的计算资源。