文摘

贝叶斯马尔可夫链蒙特卡罗方法用于推断参数随机开放流行病学模型:的马尔可夫链的susceptible-infected-recovered(先生)模型,它适用于建模和模拟周期性流行。这允许探索推理的两个主要问题出现在很多机械的人口模型。首先,这些过程往往只有部分遵循的轨迹。例如,在流行病传播过程只是部分可观测的:一个人不能记录感染。因此,一个只记录情况下(感染)的观察。因此有些改动或重建个人敏感案件类必须实现。第二,官方报告的观察(病例流行病学)通常是没有,因为他们实际上是记录,但他们已经聚合的时间间隔。为了解决这些问题,探讨以下问题。参数推理完全开放的马尔可夫过程的采样先生是第一考虑。下一个推理系统的不完全观测样本路径进行了研究。 Although this second problem has been solved for the case of closed epidemics, it has proven quite difficult for the case of open recurrent epidemics. Lastly, application of the statistical theory is made to measles and pertussis epidemic time series data from 60 UK cities.

1。介绍

生态理论与数据的链接目前是主要的科学挑战。现代方法,数据收集和存储各级正在迅速提高,从个人的详细研究人口分布的人群和社区在广阔的风景。尽管轻轻松松可以开发统计理论和贝叶斯马尔可夫链蒙特卡罗(密度)计算的统计数据对许多生态问题[1],许多计算问题的解决这些问题基本上仍未解决的,当拟合动态生态模型(离散或连续时间)到大型生态和公共卫生数据集。

事实上,它是可能的,讨论这些使用简单随机流行病学模型计算困难。流行病学过程作为展示优秀的原型推理的两个主要问题出现在很多机械的动态模型。首先,流行病传播过程只是部分。因此在流行病学只记录情况下,很少观察到感染时间准确。其次,官方报告的观察(病例流行病学)通常是没有,因为他们实际上是记录,但在一些他们已经聚合的时间间隔。尽管这些问题在很大程度上解决了封闭的流行的情况下,它已被证明非常困难的情况下打开种群产生周期性流行(地方病)在连续时间很多代。这是因为很难模拟路径的数据由于条件是一个必须从许多记录样本区间的数量infectives开始和结束时的时间间隔。一般来说这已经被证明更容易做短期流行由于数据增加由于计算的限制。记录间隔数量迅速增加的数据计算可能性变得棘手的或不可能的。

本文数据增强战略实现,允许解决这些问题,实现是相当简单的,快速和准确的问题。方法的基础是一个最近提议获得贝叶斯算法提出的威尔金森(2]。推断该算法作为计算基础参数使用一个随机的流行病学模式:的马尔可夫链的susceptible-infected-recovered(先生)的流行病学模式。这里使用的方法包括出生和死亡以及移民的infectives复发,因此允许建模流行病和地方病的推理的模型参数。本文中的计算方法大多来自最近的推理方法在系统生物学参数使用时间序列数据。在结果与讨论部分3.4)的一部分,本文简要回顾了这些计算方法。他们相比这里的贝叶斯方法以及其优势和局限性。

大多数以前的工作使用可能性[爵士3和获得贝叶斯模型4,5)都集中在流行的数据集收集等封闭的小型社区的家庭(6,7)但很少地方病(8]。例外这一趋势是由吉布森和Renshaw [9)和Cauchemez和弗格森的最近的工作8]。可能在当前框架的形式是一样的,在奥尼尔和罗伯茨4),类似于Cauchemez和弗格森8除了在当前研究中出生,死亡,和移民受感染的情况下都包含在动态。这使得这里使用的可能性爵士最类似于第一个利用吉布森和Renshaw [9]。这种假设是模拟一个开放的关键人群随机先生作为地方病的近似模型。增加移民的涌入使计算产生持久而复杂的持续流行振荡模式(10,11]。

应用时间序列数据的推理方法是由两个儿童疾病流行,百日咳和麻疹。它显示如何使用模拟和模型检查重建随机振荡对观察到的情况。最后相干共振的假说是研究表明它可能占的一些经验观察的随机振荡动力学模式的两个地方病。

2。材料和方法

2.1。先生推论:完美的信息

本文的一个随机版本Kermack-McKendrick susceptible-infectious-recovered(先生)模型(12)将用于解决推理问题机械建模的生态。如下所示,此模型的结构化表示(事实上,任何机械模型在生态学)可以立即被用来推导相应的马尔可夫链的随机种群模型。先生的确定性模型,有七个可能的事件:出生、死亡(包括所有可能的标记事件为每种类型的死亡事件),传播,复苏,和移民。确定的框架是由一组耦合常微分方程描述: 在这里, 代表了传输速率, 表示感染人的移民率, 描述了平均传染期(13]。移民一词 是放在恢复方程,以确保基础先生模型常数仅占其人口的基本假设。的 代表每个舱的出生率和死亡率。但是请注意,人均出生率和死亡率可能认为是相同的( ),确保持续长期的人口规模, 。还要注意,这里 状态变量的三维向量。

接下来考虑状态变化的事件驱动的模型。定义 7-dimensional向量的参数与SI相关联的转换(转换到恢复类将被忽略摘要): 定义一个国家如果发生一些变化更新规则适用于每一个可能的事件。更新规则约束的结构连续开放先生方程(1)- (4)指定一个事件之间的关联函数, ,和一个相关的stage-change向量 。定义一个事件通道向量, ,每个路径 在表1描述了一个过渡事件导致积分状态的变化 。表1显示事件定义为(4)随着SI状态的更新模型给出的爵士(1)和(2)可能被用作模板来构建这些途径。结构化表示立即给先生的马尔可夫链的转移概率模型(14,15]。方程(1)- (3)现在可能被用来指定事件的概率函数, ,和相关的stage-change向量 。例如,自定义事件1代表一个传输事件, 在时间 瞬时速度 , ,在那里 代表的瞬时转变的概率事件路径 。使用定向网络图所示1,考虑事件的路径 。这是代表网络中的箭头连接的节点随机的 变量。蓝点代表个人流经网络。个人的流动与随机变量的节点 由箭头指向表示框,使点火时间事件和状态变化向量 与事件的发射有关。节点之间的瞬时流量(或跳) 是由 。发射的影响在一个单独的节点 是由 和对应于第一个组件 的状态变化向量 。对节点的影响 是由 ,这是第二部分 状态改变向量的 。所有事件的直接网络代表开放先生可以以同样的方式对待。更一般的,可以写 随机机械模型基于数值模拟(5)由计算燃烧转变为每个节点的网络。每个过渡的发射是由随机时钟运行一次由指数分布决定。例如,在图1框代表的时钟保持时间离开这样一个转变是由相关的事件函数。

2显示了感染病例随机输出打开先生。在本节中向量 代表的样本路径有完整的信息。假设上完整的信息记录间隔时间和发生的时间序列为每个单独的事件在种群中传播。让 的总数统计的事件类型 。Bookkeep事件的时间和类型的命令集 ,在那里 , 在增加订单。接下来,考虑一个记录事件发生在命令的时间间隔 ,这是一个类型的途径 。在附录中(1.1节)在网上补充材料doi: 10.1155 / 2012/390694,这是表明建设的似然函数是随机模拟算法(SSA)使用分解联合密度 事件标记指数, ,在那里 是一种元素组成的吗

它也可以显示使用分解形式的事件函数,可以跳链中的所有转换带来前进的柯尔莫哥洛夫方程(KFE;见附录(1.2节), 在哪里 , , , 从上面的定义。如附件所示(章节1.1 - -1.3)马尔可夫链的标准统计推断理论(2,16,17)可以应用于模拟的马尔可夫过程,得到一个简单的,但计算量,最大似然理论这类随机过程。事实上,这些结果表明,一个人可以分析计算封闭解参数估计,因为它的因素 独立函数,一个用于事件函数的每个参数及其相关的通路。这给了最大似然估计 先生的 ,因为 。这已经证明之前关闭随机流行病模型(18,19]。在本节中,它已经表明,相似的结果开放的随机动力学特有的疾病。的分解也将以一种新的方式使用,最近在贝叶斯上下文所倡导的威尔金森和他的同事们(2,20.]。在这种情况下,分解意味着如果独立参数的先验分布采用这种独立性将被保留后验。因此,贝叶斯定理可能放置在分解的可能性获得允许建设基于仿真模型算法的随机先生。这样的应用程序的这个定理先生的案例研究 ,在那里 代表了伽玛分布和 是由每个索引先生 中指定的表1和图1。然而,在这个方法可以应用于从实际获得的数据流行不完全观测必须解决的问题。这将在本文的下一节讨论。

2.2。先生推论:不完全信息
2.2.1。离散数据记录

前一节处理获得完全信息的情况下观察到的样本路径。在本节中不完全信息的情况下,例如当样本路径由固定间隔记录,获得的数据被认为是使用的输出向量 。因此,采样输出向量是现在被认为只包含部分观测数据。修正计算,取决于样本路径的可能性下真正的模型和样本路径的可能性在一个近似模型,考虑到数据是固定在两个端点。这需要计算的可能性在一个非齐次泊松过程模型,它现在将声明(威尔金森(2),10.2节)。

简单的符号,现在认为“true”样本路径 只是观察到倍 。因此,固定在两个端点的数据可能被表示为 。完整的数据区间离散采样轨迹的可能性 然后大约由吗 在哪里 , ,代表了整个区间的非齐次泊松过程。

使用可能的比率, ,允许一个健壮的统计决策对接受或拒绝一个离散时间间隔采样。

使用泊松近似允许实现快速随机模拟算法简单(速度远远超过标准SSA)通过应用概率函数确定的流率。这实质上对应计算欧拉的增量 跳跃随机模拟方法(21]。这些计算算法简要描述在附录中(章节1.3 - -1.5)。

使用这个框架密度实现是相当简单的(见[2),10.3节):(a)初始化算法,有效样本路径与观测数据一致。(b)从全部样本先生参数条件给他们当前样本路径。(c)为每个报告时间间隔提出新的样本路径与报道一致端点并接受/拒绝pmmh一步。(d)获得输出状态。回到(a)。应用该算法的细节讨论了马尔可夫链的先生在附录中(1.6节)。

2.2.2。不遵守的敏感情况下

因为数字敏感案件不可以从直接观察他们必须从疫情数据重建。模拟和实证估计研究一个简单的重建法(22使用)。该方法利用关系 在哪里 是易感类中个体的数量, 报告病例的数量 平均报道病例数在整个数据集。考虑到情况下报告数据敏感的情况下重建通过集成(8)从

3所示。结果与讨论

3.1。重建随机振荡

它一直是一个挑战在流行病学数学理解流行病暴发的复发,建立适当的模型,允许研究这一现象(23- - - - - -27]。复发性传染病常常会表现出复杂的和复杂的动态,不容易使用确定性模型研究;人口特性转化可能发挥重要作用在决定的结果过程尤其是人口低于某个临界尺寸(关键社区大小)28,29日]。近期许多理论研究扩大Bartlett的“内在随机振荡”的概念认为,人口持续长期的随机流行状态(10,11,30.];一个类似的假设是复杂的随机振动的理论研究在捕食系统(31日]。本文将探索这个场景和估计参数持续嘈杂的周期性流行使用前一节中描述的数据同化模型。

参数估计的时间序列模拟使用先前描述的随机先生移民模型。用于参数向量 表所示2和代表复发儿童疾病如麻疹、腮腺炎、百日咳。两个周期性流行场景探索。这些标签1和疾病在表22。城市规模的 被认为与预期寿命的20年。模型这种流行病的周期性,感染的移民率 假设,因此,平均每10个星期到达一个新的感染。感染病例和敏感案件的数量总是绘制每隔一周的数据。同样用来估计参数的采样间隔总是在每周的间隔。这对应于不完美的观察场景中描述的部分2.2。1。在接下来的部分场景,在该场景中,案例报告必须用来重建易感类将处理。一个模拟的例子被感染的情况下时间序列如图2:蓝线是使用疾病从一个模拟1参数值;红线是模拟使用疾病2参数值。二百五十周的感染病例的观察先生移民模型本文中讨论。敏感的情况下表现出类似的复杂的噪声振动模式但不显示在图。

使用受感染和敏感的情况下获得的时间序列模拟参数表所示3推断。分析获得的数据是使用标准的贝叶斯数据分析(2,20.,32- - - - - -34]。后平均值和标准差被用来推断二百万年之后获得迭代参数的推理算法。熔化的100000次迭代每100值和迭代变薄了。

4显示了五百周的马尔可夫链跟踪观察疾病的2。快速收敛的链向一个地区包括目标参数先生被认为对所有参数 除了移民率 。颜色面板显示了估计 改善数据添加(图中黄色的线是用来表示为五百周的观察结果,红色线为一千周的观察,和蓝线一万周的观察)。图5显示了五百周的核密度估计观察疾病的2。迁移率的核密度估计, 10000年,周的观察。疾病1型复发性传染病类似结果(结果未显示)。流行的所有参数可以估计足够长的时间序列(见下表3)。

最后,它应该先生指出,近无偏估计的参数 足够持久的吸引子重构周期性流行,至少如果点吸引子的主导特征值推断,这被认为是一个重要的组成部分在推动嘈杂的振荡周期性流行的工作回到迷睡[23- - - - - -29日]。

3.2。流行推理60英国城市

在本节中参数估计使用时间序列数据60英国城市。百日咳和麻疹数据使用情况得到通知记录来自英国英格兰和威尔士注册一般。对麻疹百日咳病例报告每周和每两周。针对这两种疾病病例从1944 - 1967年期间进行了分析。城市的大小范围从10530 (Teignmouth) 3249440(伦敦)。报告病例三个英国城市如图7

重建的敏感情况下(基于部分中描述的方法2.2。2)使用模拟麻疹和百日咳感染时间序列如图6。图3仿真结果显示麻疹和百日咳随机振荡器。应用该方法的执行吸引子重建观察麻疹时间序列如图7四个英国城市。得到了合理的相似性之间的比较准确(已知)敏感时间序列与时间序列重构敏感。模拟中使用的参数表2与1和麻疹百日咳贴上疾病疾病2。

8显示了估计获得60英国城市百日咳和麻疹。最引人注目的是大量的统计变化的百日咳的估计,特别是在感染的持续时间的估计。

3.3。推断相干共振

相干共振发生在噪声放大的否则静止系统交互的底层特性转化动力学振荡瞬态的确定性动力学。什么是迄今为止一直缺乏一个严格的统计方法,使量化的理论预期,推动这一进程使用观察时间序列数据。本文中所开发的方法现在是用来推断流行持续振荡的嘈杂的麻疹和百日咳流行通过相干共振的机理。

Kuske et al。11]表明,爵士的泊松过程模型可以近似用随机常微分方程的变量的变化。按比例缩小的模型的线性化振动频率与团结慢慢腐烂。Kuske等人推测先生随机模型的解决方案类似于一个不同的近似模型捕获完整的随机模型的本质。在这个随机模拟持续振荡有很特别的结构:他们是一个家庭Ornstein-Uhlenbeck正弦信号调制的过程。这猜想Kuske et al。11]推导简单定量条件持续振动噪声时间序列的存在。因此,他们能够描述的参数区域 在细节,包括随机模型的功率谱密度的行为及其多尺度近似。他们的参数空间将作为制定的起点相干共振的假设随机流行探索。

Kuske et al。11)给生物标准持续振荡通过相干共振先生模型的两个范围: 因此,这些界限可以被估算研究 探索这一地区的英国麻疹和百日咳数据。

假设 是一个讨厌的参数。虽然 据估计,它不会在以下的分析中发挥作用;因此,本节将被忽略。除了 感兴趣的参数估计的 , , 哪些是需要估计 。主要的预测模型对随机扩增的Kuske et al。11,465页)如下:(1)对于很小的值 希望看到一个非常小的振荡。(2)当 增加但低于一个确定性的随机波动的平衡缓慢衰减,这样两个随机和确定的组件相互作用来确定吸引子动力学。(3)当 大的随机变化管理动态,以便基于慢变近似调节不再是合适的。

主要的结果如下。图9显示了估计的方差麻疹和百日咳时间序列的平稳过程。因为这个数量限制随机波动的方差相对缓慢的时间尺度可以用来确定在这个时间尺度波动的相对灵敏度。它可能是观察图9存在很小的估算值 百日咳(蓝色);因此,希望看到一个相对较小的非常嘈杂的振荡传播通过吸引子。在这种情况下,统计噪声将不可能被放大优化对确定性频率功率谱和将显示更多的不规则波动由于随机扩增人口噪音。因此,它可能是预测功率谱分布不会像大幅达到顶峰,而多尺度近似有效百日咳不如其他病原体。相比之下,图10表明麻疹(红色)观察到一个更为温和的估计的值 。这意味着与确定性的随机波动的平衡缓慢衰减,这样两个随机和确定的过程贡献的动力产生的相干共振模式。麻疹流行预测功率谱密度会有更强的频率峰值附近的确定性。麻疹噪声振动预测是更好的结构化和展览更连贯的周期在内源性和麻疹流行时期会表现出更敏感随机扩增。他们会放大噪声的产生更多的定期随机周期在附近的一个固定的频率。

10显示了估计的情节每年感染(标记为伽马)与速度 在分析预测范围预计多尺度动力学导致相干共振。在图9光绿线代表的v型边界 计算使用 。这个地区大约是相同的尺寸计算的范围 在500000和000000 (11]。蓝线在图7代表了一定的轮廓 。麻疹(红色)和百日咳(蓝色)估计躺在设定的约束 相干共振;然而,百日咳的边界 绑定,这似乎表明,这些流行像麻疹疫情可能会表现出多尺度动力学。似乎并不存在很强烈的慢速和快速分离时间尺度在决定百日咳动力学为麻疹有动态。因此,一个预计少连贯性和结构化的振荡为百日咳更多的连贯性和结构化的振荡麻疹疫情。这些结果支持那些图中观察到10和互补。

3.4。系统生物学推理方法

本文利用参数估计用于机械生化系统的建模2)地址之间存在的鸿沟的重要挑战流行病的数学建模和数据分析。本文获得贝叶斯模型的方法已被证明是有用的在弥合这一差距,以及在测试中有趣的假说有关随机扩增属性的流行病。然而,这种计算理论的应用本文简化开放的马尔可夫链的先生只是第一步。但它是一个很重要,使得调查数据的属性在流行病学流行疾病非常重要的推理问题。在本节中其他一些,最近的系统生物学方法进行了综述和比较的方法。系统生物学的一些优势将简要讨论和推断方法可以使用在本文中给出的结果。

计算和数学技术的应用从所谓算法系统生物学35)流行病学建模问题可能会证明卓有成效。连续时间随机模型的推导过程和相应的可能很一般。然而,威尔金森的方法(2)和他的同事们是第一步在建模系统的随机影响由于小数量的分子或个人在人口研究。事实上,后来的研究作者关注基于扩散近似推理方法,问题就更容易处理和扩大大型系统更容易但不适合系统的低密度是常见的。应用威尔金森获得贝叶斯模型马尔可夫跳过程的方法需要使用离散泊松近似逼近连续系统。然而,如本文所示这种近似允许获得流行疾病的结果,否则不可能获得使用算法提出如早些时候由吉布森和Renshaw [9)为例。也正如本文中使用的规模较小所以计算密集型它还不能适用于规模较大的问题。摘要的主要原因,一个简化的马尔可夫链的爵士模型使用。然而,即使简化模型的一个可能的问题长等待时间罕见的事件。模拟和变分最大似然方法在系统生物学36- - - - - -38)患有类似疾病获得贝叶斯模型的方法。

最近突破自动评估罕见事件的概率在生化系统(39- - - - - -41),然而,可以解决一些基本的问题。第一次加速最大似然估计的随机生化系统在望,可以基于连续时间SSA。建设推理算法基于这些最近的研究在系统生物学将允许扩展本文给出的结果更现实的流行病学模型包括多个暴露和感染类等过程。它还将允许包括疾病相互作用的可能性,对两种疾病可能需要多达五十个状态变量模型(42]。

4所示。结论

在本文中一个简单的贝叶斯推断参数的获得方法开放先生使用随机模拟模型应用于模拟和观测流行时间序列数据。本文描述的方法对扩展都通用的更复杂的流行病学情况,目前未来工作的目标。这是非常有用的,因为人口模型的高效集成的复杂可能是目前激烈的持续研究的对象。分析数据的方法在本文开发的实现使用标准的贝叶斯数据分析(2,20.,32- - - - - -34]。

本文获得的结果表明,百日咳和麻疹流行的行为对人口结构噪声的存在。时间序列60英国城市被用来估计对这些病原体流行病学参数。相干共振模型适合的数据来推断多尺度效应的作用在生产周期和振幅的流行病。发现麻疹似乎符合模型相当好。然而,百日咳似乎并不符合模型,据预测,似乎并不存在很强烈的快与慢时间尺度之间的分离为百日咳似乎存在麻疹疫情。因此,一个预计少连贯性和结构化百日咳振荡,但更多的连贯性和结构化的振荡麻疹流行。统计理论在本文中被用来研究相干共振的流行病(10,11使用经验时间序列数据)。希望未来的工作将针对这些结果扩展到更复杂的流行病建模(43),如免疫介导的过程在病原体相互作用理论42,44]。

确认

这项工作有部分是由密苏里大学和杜克大学。作者要感谢海伦穿和Pej Rohani对早期版本的意见和建议。