文摘

当评估从一个时间序列因果影响到另一个在一个多元数据集有必要考虑其它变量的调节效应。存在许多变量和可能减少数量的样本,全面调节会导致计算和数值问题。在本文中,我们解决问题的部分调节变量的有限子集,在信息论的框架下。该方法测试模拟数据集和颅内脑电图记录的一个例子从一个癫痫的话题。我们表明,在许多情况下,调节在一个小数量的变量,被选为最丰富的司机节点,导致结果非常接近同完全多元分析和更好的少量的样本。这是特别相关的伤亡是稀疏的模式。

1。介绍

确定大脑如何连接是一种关键的神经科学。获得更好的理解大脑的神经生理学过程与机制,可以补充大脑结构连接的调查统计遥远的大脑区域之间的依赖关系(功能连通性)或模型旨在阐明drive-response(有效连接)的关系。成像技术的进步保证立即改善我们的知识结构连接。一个常数计算和建模工作为了完成优化和调整功能和有效的连接到定性和定量数据和生理变化的应用程序。信息流在整个大脑的路径可以揭示其功能在健康和病理。每次我们记录大脑活动我们可以想象,网络节点的监测活动。这个活动是动力,有时混乱。动态网络(1)模型物理和生物行为在许多应用程序中;同时,同步动态网络拓扑的影响网络本身(2]。一个伟大的需要存在发展的有效的方法从时间序列数据推断网络结构;提出了一个动态版本的贝叶斯网络在3]。方法检测动态网络的拓扑结构,提出了基于混沌同步,在4]。

格兰杰因果关系已成为选择的方法来决定是否以及如何两个时间序列产生因果影响(5,6]。这种方法是基于预测:如果第一次系列的预测误差减少包括第二个测量在线性回归模型中,然后第二次系列据说因果影响第一个。这个框架被用在许多领域的科学,包括神经系统(7- - - - - -10],reochaos [11),和心血管变异性(12]。

从一开始(13,14),大家都知道,如果两个信号受到了第三个,不包括在回归,这导致虚假的伤亡,所以多变量情况下的扩展。有条件的格兰杰因果分析(CGCA) [15)是基于自回归模型的一个简单的扩张一般多变量情况下包括所有测量变量。CGCA正确估计耦合提出了多元数据集(16- - - - - -19]。可是有时,一个完全多元方法可以乘火车可以纯粹的计算问题,甚至概念:存在冗余变量的应用标准分析导致低估的伤亡20.]。

提出了几种方法,以减少维数的多变量集,依靠广义方差(16),主成分分析(19),或格兰杰因果关系本身(21]。

在本文中,我们将解决这一问题的部分调节变量的有限子集,在信息论的框架下。直觉,你可能期望调节在一个小数量的变量应足以消除间接交互连接模式是稀疏的。我们将展示这组变量可能选为司机的信息最丰富的变量和描述应用程序模拟的例子和一个真实的数据集。

2。材料和方法

我们首先描述格兰杰因果之间的连接和信息理论方法像传递熵(22]。让 是一个时间序列可能近似平稳马尔科夫过程的顺序 ,也就是说, 。我们将使用速记符号 ,因为 和治疗这些数量 实现的随机变量 。得到目标的风险功能 代表的最佳估计 鉴于X,和对应23回归函数 。现在,让 是另一个时间序列的同时获得数量,并表示 。最好的估计 ,鉴于 ,现在是 。如果广义马尔可夫性质, 然后 的知识 不改进的预测 。传递熵(22)是一种衡量违反2:由此可见,格兰杰因果关系意味着非零转移熵(24]。高斯假设下它可以表明,格兰杰因果关系和转让熵是完全等价的,只是不同的一个因素两个(25]。格兰杰因果关系的推广到多元时尚,在以下描述,允许动态网络的分析(26]和辨别之间直接和间接的交互。

让我们考虑 时间序列 ;状态向量表示: 窗口长度(的选择 可以使用标准的交叉验证方案)。让 的均方误差的预测 所有的向量的基础上 (对应于描述由内核线性回归和非线性回归方法(24])。多元格兰杰因果关系索引 定义如下:考虑的预测吗 的基础上,但所有的变量 的预测 使用的所有变量,那么因果关系措施错误的变化在两个条件,那就是, 注意,在[24)不同的因果关系已经使用的定义, 相关的两个定义显然是一个单调变换: 在这里,我们首先评估因果关系 使用有意义的特征值的选择中描述(26解决过度拟合的问题(5);然后我们使用(6)和表达我们的结果 因为它是这个定义,因果关系是传递熵的两倍,等于 ,在高斯的情况下25]。

现在转到本文的焦点,我们解决问题应对大量的变量,当应用程序的多元格兰杰因果关系可能是可疑的,甚至是不可行的,而双变量因果关系检测也间接的伤亡。在这里,我们显示少量的调节变量,被选为最丰富的候选人驱动变量,足以消除稀疏连接的间接相互作用模式。空调在大量的变量需要大量的样品为了得到可靠的结果。减少变量的数量,一个必须条件,因此为较小的数据集提供更好的结果。通用配方的格兰杰因果关系,一个人没有办法选择这组变量减少;另一方面,在信息论的框架下,可以一一列举最有益的变量。一旦它被证明(25)格兰杰因果是相当于高斯变量之间的信息流,格兰杰因果关系评估部分调节成为可能;据我们所知这是第一次提出这样的方法。

具体地说,让我们考虑因果关系 ;我们修复的数量变量,用于调节,等于 。我们表示 的设置 变量,在 ,最有益的 。换句话说, 最大化互信息 在所有的子集 变量。然后,我们评估因果关系 高斯分布的假设下,互信息 可以很容易地评估,看25]。此外,而不是搜索在所有的子集 变量,我们采用以下近似策略。首先,驱动程序的互信息变量,和其他变量,据估计,为了选择的第一个变量子集。的第二个变量子集选择剩下的那些,会同之前选择的变量,互信息最大化的驱动变量。然后,一个不断添加其余的变量通过迭代过程。调用 选定的一组 变量,一组 添加、获得 ,变量,其余的,最大的信息增益。重复此过程,直到 变量选择。这个贪婪算法,对相关变量的选择,预计将给好的结果的假设下稀疏的连通性。

3所示。结果与讨论

3.1。模拟数据

让我们考虑线性动力系统的晶格 节点、与方程 在哪里 的耦合, 噪声的强度, 的是单位方差先验知识。高斯噪声条件。噪音水平决定所需的最少的样本结构恢复的评估建议的方法都是真实的,不是由于随机性碰巧的格兰杰因果关系标准(见讨论(24,26]);尤其是噪音不应该太高,模糊的决定性影响。首先我们认为一个有向树16节点图中描述1;我们设置 等于0.9图的每个指示链接从而获得,否则为0。我们设置 。在图2我们展示的应用提出的方法产生的数据集(8),长100样品,在网络检索的质量方面,表达的敏感性(检测到现有的链接的百分比)和特异性(失踪链接的比例正确公认nonexisting)。双变量分析提供敏感性100%,特异性92%。然而,调节几个变量就足以把证据直接伤亡同时获得高灵敏度的值。完整的多变量分析(获得 倾向于16)给这里,而低灵敏度由于低数量的样本。这是一个明显的例子,调节在一个小数量的变量比调节的变量。

另外一个例子,我们现在修复 并构造耦合的知名Zachary数据集(27),34个节点的无向网络。我们为每个链接分配一个方向,相等的概率,并设置 等于0.015,有向图的每个链接从而获得,否则为0。噪音水平设置为 。网络显示在图3:我们的目标是估计这导演系列网络测量的时间节点。

在图4我们展示的应用提出的方法产生的数据集(8),敏感性和特异性,不同数量的样本。双变量分析检测到几个错误的相互作用;然而,调节几个变量就足以把证据直接伤亡。由于基本图的稀疏,我们得到的结果非常接近一个完整的多变量分析;这里的多变量分析恢复真正的网络,而且样品的数量是足够高的。在图5,关于选择的变量调节的阶段被执行时,我们把互信息增益的函数变量的数量 :它减少 增加。

3.2。癫痫EEG数据

现在我们考虑一个真正从一个数据集 电极植入大脑皮层表面的网格,癫痫患者的大脑的28]。我们考虑两个前十秒的间隔和癫痫的发病后立即调用时,分别preictal期和发作的时期。在图6我们展示了我们的方法的应用preictal时期;我们使用了线性因果关系。电极之间的二元方法检测许多伤亡;然而,他们中的大多数都是间接的。根据多变量分析只有一个电极,观察到影响他人,即使在多变量分析:这个电极对应于一个本地化的信息来源,可能表明假定的癫痫病灶。在图6结果表明,调节 变量提供了相同的模式对应于多变量分析,从而似乎是健壮的。这些结果表明,有效连接稀疏preictal时期。进一步证实,在图7我们发现情节伤亡的总和作为调节变量的数量的函数,preictal时期;到达高原已经对小的值

在图8同样的分析显示w.r.t.猝发的时期:在这种情况下调节 变量不繁殖模式与多元的方法获得。缺乏鲁棒性的因果关系模式的关于 似乎表明,有效的连接模式,在危机期间,不是稀疏。在数据910我们显示,每个电极和preictal和发作的时间,分别总即将离任的因果关系(获得的和伤亡在所有其他变量)。这些照片证实了上面的讨论:看因果关系如何变化 可以提供有效的稀疏连接的信息。

4所示。结论

我们有解决问题的部分调节变量的有限子集,同时估计因果连接,代替完整的调节,从而导致计算和数值问题。分析模拟的例子和一个真实的数据集,我们已经表明,调节在一个小数量的变量,被选为最丰富的司机节点,导致结果非常接近同完全多元分析和更好的少量样品,尤其是当伤亡的模式是稀疏的。此外,在因果关系如何变化的调节变量提供的稀疏连接的信息。