不同对象之间的因果关系、事件或变量普遍存在于自然科学和社会科学(
7]。因果关系可以从观察被检测到非平稳的时间序列数据,和优势还需要合格的
8,
9]。许多因果模型提出了基于概率理论、图论、贝叶斯网络等。
10]。时空交通复杂的因果关系可以发现网络流量状态。例如,如果一个交通堵塞事件发生在一个特定的路段
r
一个在时间
t,上游相邻路段的交通状态
r
b下次可能会拥挤吗
t
+
1由于交通流量的冲击波,然后
r
一个可以被视为导致的
r
b。
除了交通波的传播在物理网络,交通信息的传播也会导致时空的因果关系。例如,如果在路上发生了严重的交通事故
r
一个
′交通管理部门将发布的交通事故信息导航平台,指导司机避免拥挤的部分
r
一个
′。然后,更多的司机更愿意选择另一条路线,导致严重的交通堵塞段
r
b
′。虽然
r
b
′是远离
r
一个
′在太空中,实时交通信息共享加强时空它们之间的因果关系。
香农提出的信息熵的基本概念(
27简要解释。
x
我
我
=
1、2
,
…
,
n是设置为离散变量的状态吗
X。的信息
我
x
我为变量
x
我被定义为(
1),
我
x
我
≥
0。更大的概率
x
我,越小的信息
我
x
我,小的不确定性
x
我。相反,概率越小
x
我,更大的信息
我
x
我和更大的不确定性
x
我。当的概率
x
我1,信息
我
x
我是0。
(1)
我
x
我
=
−
日志
p
x
我
。
信息熵
H
x数学期望的定义为信息
我
x
我为
X计算(
2)。信息熵
H
x能反映的平均数量的不确定性和信息
X。信息熵越大
H
x信息量越大,变量
X;信息熵越小
H
x,为变量的信息量越小
X。
(2)
H
x
=
E
我
x
我
=
−
∑
我
=
1
n
p
x
我
日志
p
x
我
。
互信息
米
X
,
Y提出了量化两个相关变量之间的公共信息,如(所示
3)。更大的互信息
米
X
,
Y,变量之间的相关性越强
X和
Y。然而,互信息是对称的,不能代表信息传递的方向。
(3)
米
X
,
Y
=
∑
我
=
1
n
∑
j
=
1
n
p
x
我
,
y
我
日志
2
p
x
我
,
y
j
p
x
我
p
y
我
。
3.3。传递熵
2000年,施赖伯[
28]提出转移熵来衡量的信息量传输和基于信息不对称之间的交互系统理论。传递熵
TE
Y
⟶
X两个离散系统
X
,
Y计算(
4),
x
我和
y
我代表国家的价值
X和
Y当时
我,分别。
x
我
k
=
x
我
,
x
我
−
1
,
…
,
x
我
−
k
+
1表示的值
X在时间期间
我
,
我
−
k
+
1代表过去的状态
k的时刻。
y
我
l
=
y
我
,
y
我
−
1
,
…
,
y
我
−
l
+
1表示的值
Y在时间期间
我
,
我
−
l
+
1代表过去的状态
l的时刻。
p
x
我
+
1
,
x
我
k
,
y
我
l是联合概率。
p
x
我
+
1
|
x
我
k
,
y
我
l和
p
x
我
+
1
|
x
我
k条件概率。传递熵一直被视为一种因果关系的指标由于其不对称的性质。
(4)
TE
Y
⟶
X
=
∑
x
我
+
1
,
x
我
k
,
x
我
l
p
x
我
+
1
,
x
我
k
,
y
我
l
日志
p
x
我
+
1
|
x
我
k
,
y
我
l
p
x
我
+
1
|
x
我
k
。
传输信息熵的熵代表了不同
x
我
+
1与之间的情况
x
我
k和
y
我
l知道,只有
x
我
k已知的。如果
X在特定的时间完全由它的历史状态,未连接
Y,将熵是0。的参数
k
,
l的采样周期吗
X
,
Y传递熵的计算。的增加
k
,
l,需要更多的计算资源和数据来估计的联合概率密度。考虑到信息传播时间延迟的影响,鲍尔et al。
29日)修改传递熵的计算通过嵌入预测地平线
h,见
(5)
TE
Y
⟶
X
=
∑
x
我
+
1
,
x
我
k
,
x
我
l
p
x
我
+
h
,
x
我
k
,
y
我
l
日志
p
x
我
+
h
|
x
我
k
,
y
我
l
p
x
我
+
h
|
x
我
k
。
随着预测地平线不同,参考
x
我
k会改变。本研究采用提出的修改传递熵蜀和赵
24)(
6)。
x
我
k取而代之的是
x
我
+
h
−
1
k,这是更适合评估转让熵考虑时间延迟。
(6)
TE
Y
⟶
X
=
∑
x
我
+
1
,
x
我
+
h
−
1
k
,
x
我
l
p
x
我
+
h
,
x
我
+
h
−
1
k
,
y
我
l
日志
p
x
我
+
h
|
x
我
+
h
−
1
k
,
y
我
l
p
x
我
+
h
|
x
我
+
h
−
1
k
。
3.4。计算方法传递熵
的联合概率密度(
5)估计的核密度估计函数。的概率密度估计(
7)。
K
x
−
x
我核函数的值是在哪里
x
我。概率密度
p
^
x内核函数值的平均值在一定范围内。核密度估计方法不依赖于数据的先验分布,也适用于非高斯分布的数据。高斯核函数是用来估计为每个路段交通状态的概率密度(
8)。的参数
θ表示窗口的宽度的计算核函数的值。
(7)
p
^
x
=
1
N
∑
我
=
1
N
K
x
−
x
我
,
(8)
K
x
−
x
我
=
1
2
π
θ
e
−
x
−
x
我
2
/
2
θ
2
。
联合概率密度
p
^
x
,
y为
x
,
y所示(
9),和相应的联合高斯核函数计算(
10)。
(9)
p
^
x
,
y
=
1
N
∑
我
=
1
N
K
x
−
x
我
,
y
−
y
我
,
(10)
K
x
−
x
我
,
y
−
y
我
=
K
x
−
x
我
K
y
−
y
我
=
1
2
π
θ
2
e
−
x
−
x
我
2
+
y
−
y
我
2
/
2
θ
2
。
不同变量之间的相互作用随时间。滑动窗口技术是利用动态计算沿时间轴之间传递熵变量,它可以减少采样数据大小和提高效率的因果关系分析。滑动窗口描述靠窗的宽度
w和移动步长
l。原始状态空间分为
n连续的子空间
年代
我。每个窗口由
w时间间隔。移动步长
l小于
w。窗口的宽度
w不应该太小;否则,小窗口中的采样数据会影响核密度估计的准确性。移动步长
l不应该太大;否则,它不能及时反映信息传输过程的变化。如图
2对于时间序列数据的长度
l时间间隔,滑动窗口开始以一个固定的步长
l。对于每一个窗口,计算概率密度,然后传递熵向量的维度可以获得
p
=
l
−
w
+
1随着时间的推移,这可以反映出时变传输信息。
滑动窗口的原理图。
道路网络组成的
米公路段是用来说明熵转移矩阵的计算。每个路段的交通状态可视为一个变量,从而为这个交通系统变量的总数
米。之间传递熵计算任意两个变量,然后二维熵转移矩阵
T
米
×
米获得对于每个滑动窗口,如图所示(
11)。考虑到转移的方向熵,
T
米
×
米不是一个对称矩阵,每一对的公路段,
t
我
j
≠
t
j
我。对角线上的元素都是0。
(11)
T
米
×
米
=
0
t
12
⋯
t
1
米
t
21
0
⋯
t
2
米
⋮
⋮
⋱
⋮
t
米
1
t
米
2
⋯
0
。
在消除对角线零元素后,传递熵矩阵
T
米
×
米每个滑动窗口转换成一个行向量
t
e
我
=
t
12
我
,
t
13
我
,
…
,
t
1
米
我
,
t
21
我
,
t
23
我
,
…
,
t
米
米
−
1
我。窗口的幻灯片后开始结束的时间序列,
p传递熵向量可以获得。然后,所有传递熵向量集成在一起,形成一个转移熵矩阵的维度
p
×
米
2
−
米路网交通状态,这可以表示不同路段之间的信息传输。滑动窗口可以提高转移熵的计算效率利用有限的数据在每个窗口中,这使得它适用于实时交通管理系统。
(12)
t
e
=
t
12
1
,
t
13
1
,
…
,
t
1
米
1
,
t
21
1
,
t
23
1
,
…
,
t
米
米
−
1
1
t
12
2
,
t
13
2
,
…
,
t
1
米
2
,
t
21
2
,
t
23
2
,
…
,
t
米
米
−
1
2
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
t
12
p
,
t
13
p
,
…
,
t
1
米
p
,
t
21
p
,
t
23
p
,
…
,
t
米
米
−
1
p
。
4所示。时空的因果关系网络交通流建模4.1。因果关系的显著性检验方法
因果推论,假设因果关系之间存在任何两个不同的交通状态变量
X和
Y因果关系,然后需要基于实测资料的验证。原因变量和结果变量可以通过因果关系分析歧视。传递熵是不对称的,因为相反的方向传输的信息量是不同的。确定因果关系的方向和强度,因果相关系数
ρ
X
,
Y定义模型的因果强度(
29日]。因果关系的方向和强度是衡量之间的区别
TE
Y
⟶
X和
TE
X
⟶
Y,见
(13)
ρ
X
,
Y
=
TE
Y
⟶
X
−
TE
X
⟶
Y
。
当传递熵
TE
Y
⟶
X的方向
Y
⟶
X大于
TE
X
⟶
Y的方向
X
⟶
Y,
Y是原因变量的
X,信息传递的方向
Y
⟶
X。相反,当
TE
Y
⟶
X小于
TE
X
⟶
Y,
X是原因变量的
Y,信息传递的方向
X
⟶
Y。当
TE
Y
⟶
X等于
TE
X
⟶
Y,
ρ
X
,
Y
=
0,之间没有因果关系
X和
Y。由于数据噪声或干扰,因果相关系数
ρ
X
,
Y一般不等于0。如果
ρ
X
,
Y太小,因果相关性不显著。然后,有必要设置一个因果相关系数阈值来定义重要的因果关系,即因果关系的显著性检验。如果
ρ
X
,
Y超过阈值,之间的因果关系
X和
Y是显著的。
因果关系的显著性检验可以被视为一个假设检验问题确定因果关系。零假设是如果
ρ
X
,
Y很小,之间没有因果关系
X和
Y。如果
ρ
X
,
Y足够大,零假设被拒绝,和之间存在因果关系
X和
Y。鲍尔et al。
29日)使用蒙特卡罗方法来重建一个新的替代时间序列的因果关系显著性检验,这应该满足以下假设:之间的因果关系
X和
Y完全摧毁,统计分布的
X和
Y保持不变。本研究利用段提出的方法等。
31日破坏的原始时间序列
X和
Y与
l时间间隔。新的时间序列
X
′和
Y
′构造,见(
14)。重建的时间序列的统计分布
X
′和
Y
′与原时间序列是一致的吗
X和
Y。
(14)
X
′
=
x
我
,
x
我
+
1
,
…
,
x
我
+
米
−
1
,
Y
′
=
y
j
,
y
j
+
1
,
…
,
y
j
+
米
−
1
,在哪里
米的长度是
X
′和
Y
′;
我
,
j是随机选择的
1、2
,
…
,
l
−
米
+
1;和
我
−
j
≥
e,在那里
e远远大于预测地平线
h确保几乎没有因果关系
X
′和
Y
′。然后,因果相关系数
ρ
=
ρ
1
,
ρ
2
,
ρ
3
,
…
,
ρ
N计算为
X
′和
Y
′。表示因果关系的显著性检验进行(
15),
μ
ρ和
σ
ρ的平均值和标准偏差
ρ
1
,
ρ
2
,
ρ
3
,
…
,
ρ
N。意义阈值
ε是设置为
μ
ρ
+
3
σ
ρ。当因果关系系数
ρ
X
,
Y小于
ε,之间没有因果关系
X和
Y;当因果关系系数大于
ε之间存在显著的因果关系
X和
Y。
(15)
ρ
X
,
Y
−
μ
ρ
≥
3
σ
ρ
。
4.2。网络流量状态评估
评估网络流量状态,影响系数和影响系数定义为每个公路段。道路段
我的影响系数
R
出
我表示把熵从道路段的总和
我其他道路段在网络(
16),它可以描述道路段的影响
我另一方面公路段。同样的,受影响的系数
R
在
我表示转移熵之和其他路段道路段
我(
17),它可以描述其他道路段目标道路上的影响
我。
数据驱动的方法识别潜在的瓶颈和关键路段提出了从时空的因果关系的角度分析。道路段大
R
在
我可以被视为潜在的瓶颈环节,这是最有可能受到网络中其他路段的交通状态。道路段大
R
出
我可以被视为关键路段,最有可能影响其他路段的交通状态。
(16)
R
出
我
=
∑
j
TE
我
⟶
j
,
(17)
R
在
我
=
∑
j
TE
j
⟶
我
。
4.3。动态时空交通因果关系图
时变网络流量状态会导致动态时空的因果关系图。由于熵的不对称转移,时空交通因果关系图是有向图,代表动态交通状态变量的因果结构,如图
3。道路网络组成
n公路段所表示的节点
r
1
,
r
2
,
…
,
r
n。导演边演示显著因果关系两个路段的交通状态。时空的因果关系图在不同的时间片的结构有很大的不同。例如,
r
我引起的吗
r
j在时间
t
−
1,而他们之间没有联系
t和
t
+
1。任意两个路段之间的因果强度定义为定向边的重量。因果关系系数
ρ
r
我
,
r
j道路段
r
我和
r
j在
t
−
1
,
t基于传递熵计算
TE
r
j
⟶
r
我和
TE
r
我
⟶
r
j根据(
13)。因果关系矩阵
W
t传递熵在时间
t计算(
18)。定向边缘,并有很强的因果关系相关的重量设置为1时,体重是设置为0且没有明显的因果关系。然后,可以删除冗余连接建设的因果关系图。因果关系矩阵的计算过程如图
4。
(18)
W
t
=
w
我
,
j
t
=
1
,
TE
我
⟶
j
t
>
TE
j
⟶
我
t
,
ρ
我
,
j
t
≥
ε
,
w
我
,
j
t
=
0
,
其他人
。
动态时空交通因果关系图。
因果关系矩阵的计算过程。
基于动态时空的因果关系图,提出了四项指标来评估道路网络中的任何道路段的影响从因果关系的角度依赖性。输入学位
D
在
t
我被定义为(
19),表示其他的交通状态的影响
n
−
1道路段的
r
我在时间
t。输出的程度
D
出
t
我被定义为(
20.),表示道路段交通状态的影响
r
我另一方面
n
−
1公路段。输入度的总和
总和
D
在
我和输出度的总和
总和
D
出
我定义量化道路段之间的因果关系
r
我和其他道路段时间期间
T所示(
21)和(
22)。
(19)
D
在
t
我
=
∑
j
n
−
1
w
j
我
t
,
(20)
D
出
t
我
=
∑
j
n
−
1
w
我
j
t
,
(21)
总和
D
在
我
=
∑
t
T
∑
j
n
−
1
w
j
我
t
,
(22)
总和
D
出
我
=
∑
t
T
∑
j
n
−
1
w
我
j
t
。
在这项研究中,考虑到有限的计算资源,参数
k和
l设置为1。最大延时设置为40分钟,和参数
h预测地平线是设置为
1,
4]。熵可以计算任意两个部分之间转移的不同的方向。例如,
r
220年上游段路吗
r
223年和的变化
TE
r
220年
⟶
r
223年和
TE
r
223年
⟶
r
220年如图
6。
传递熵的变化在不同的方向:(a)
TE
r
220年
⟶
r
223年;(b)
TE
r
223年
⟶
r
220年。
熵在不同的方向转移
r
220年和
r
223年表所示
1。例如,
TE
r
223年
⟶
r
220年大于
TE
r
220年
⟶
r
223年在晚上高峰时间18:30,
TE
r
223年
⟶
r
220年大于
TE
r
220年
⟶
r
223年在非高峰时间的时间13:30。因此,下游段
r
223年有更明显的影响在上游段吗
r
220年在晚上高峰拥堵期,而上游段
r
220年有更明显的影响在下游段吗
r
223年在非高峰时间的时期。
考虑计算复杂度,三个关键参数设置为
k
=
1
,
l
=
1
,
h
=
1。时变传输熵在不同的方向,
TE
r
220年
⟶
r
223年和
TE
r
223年
⟶
r
220年,如图
7。交通的变化因果关系系数
ρ
r
220年
,
r
223年如图
8。相邻路段之间的传递熵随时间变化很大。信息传输的方向和数量不同时期有很大的不同。例如,10点之间信息传输的方向和18:00主要
r
223年
⟶
r
220年,18:00之间信息传输的方向和晚上九点是主要的
r
220年
⟶
r
223年。因果关系系数的分布网络交通流集中,如图
9。
传递熵的变化在不同的方向。
交通的变化因果关系系数。
因果关系系数的分布。
5.3。时空交通因果关系分析
转移不同路段之间的熵值与时间和空间波动很大,反映了信息传递的变化。每一段路都可能是潜在的原因或结果。的影响系数
R
出
我和影响系数
R
在
我所有的道路段早上高峰时间,晚高峰时间,非高峰时间的时间如图
10。网络中的每个道路段由一个泡沫。泡沫的大小表示道路段的平均速度。气泡的分布是由
R
出
我和
R
在
我,它可以定量描述的交互网络交通流状态。早上高峰时间的泡沫是最分散的。表
3列出了潜在的瓶颈段最大的
R
在
我和最大的关键路段
R
出
我。潜在瓶颈段的空间位置和关键路段的道路网络图所示
11。的关键道路段主要分布在中部和西部地区的上海城市。
分配系数影响的影响系数和道路网络:(a)早上高峰时间;(b)非高峰时间的时间;(c)晚上高峰时间。
潜在的瓶颈部分和关键路部分。
潜在的瓶颈部分
关键路段
早上高峰时间
r
35
,
r
328年
,
r
70年
r
123年
,
r
36
,
r
30.
非高峰时间的时间
r
341年
,
r
323年
,
r
251年
r
22
,
r
348年
,
r
61年
晚高峰时间
r
429年
,
r
318年
,
r
95年
r
16
,
r
226年
,
r
224年
空间分布的关键路段:(a)潜在瓶颈段;(b)关键路段。
并不是所有的交通因果相关性显著。在本节中,阈值
ε设置为0.05的因果关系显著性检验。输入度的总和
总和
D
在
我和输出度
总和
D
出
我计算的早上高峰期(7:00-10:00),非高峰时间的时期(13:00-16:00),和晚上高峰期(17:00-20:00)。的分布
总和
D
在
我和
总和
D
出
我如数据所示
12和
13,分别。输出度分布更集中输入度分布。总的来说,
总和
D
在
我在早上高峰时间比的大晚上高峰时间。的分布
总和
D
在
我在非高峰时间的小时值较小的分散,因此道路段更有可能影响其他路段交通拥堵的交通状态。同样的,
总和
D
出
我在早上高峰时间比,大晚上高峰和非高峰时间的小时。道路段更有可能影响其他路段的交通状态。一般来说,不同路段之间的因果关系在高峰时间段是更重要的比非高峰时间的时间段。
分布的
总和
D
在
我对不同时期:(一)早上高峰时间;(b)非高峰时间的时间;(c)晚上高峰时间。
分布的
总和
D
出
我对不同时期:(一)早上高峰时间;(b)非高峰时间的时间;(c)晚上高峰时间。
关键路段的空间位置
r
302年
,
r
391年
,
r
286年
,
r
181年大上午8点30度可视化在图输出
15。特定的空间结构
r
302年
,
r
391年
,
r
286年
,
r
181年如图
16。黄色部分都是关键路部分,绿色部分是入口和出口坡道或交换坡道。公路段
r
302年
,
r
391年
,
r
286年位于附近的十字路口和高速公路进出口与复杂的交通流。
r
181年位于中间的东西高速公路,这是主要的走廊和熊在上海最大的交通量东西方向。这些关键道路段通常是拥挤的,这可能会影响到交通道路网络中的其他部分。
空间位置的关键路段。
空间结构的关键路段:(a)
r
302年;(b)
r
391年;(c)
r
286年;(d)
r
181年。