文摘

预测交通运行条件对城市交通规划和管理是至关重要的。提出了大量的算法来提高预测精度。然而,这些研究主要是基于完整的数据,没有讨论大量数据缺失的脆弱性。和应用这些算法在高成本的约束下,高质量的实时交通数据采集的大规模的公路网络。本文旨在演绎道路网络的交通运行状况与少量的关键部分基于出租车GPS数据在中国西安的城市。确定这些关键部分,我们假设不同路段内浮动车的状态相关,相互代表和设计启发式算法利用注意力机制图中嵌入神经网络(GNN)。结果表明,设计的模型达到一个高的精度比传统方法只使用两个关键段公路网络占2.7%。拟议的方法生成的关键部分是有成本效益的方案,大大降低了交通信息收集的成本和更明智的没有要求极高的预测精度。我们的研究对节约成本有指导意义的各种信息采集技术路线规划等浮动车或传感器布局。

1。介绍

交通运行条件、测量与交通流、旅游时间,和车辆速度,是一个重要的指标来反映城市道路网络的服务水平。旅行者设计有效的旅行计划,包括起飞时间、交通方式和路线,而流量管理器开发策略来应对各种交通情况提前预测交通道路网的操作条件(1- - - - - -3]。因此,交通状态预测一直是一个研究热点。随着各种交通信息提供高质量的数据集,巨大的复杂的机器学习算法(4- - - - - -8)被应用于处理这个问题,预测精度被推到一个相当高的水平。

虽然算法的原则是不同的,他们的实现在同一个程序或场景,如图1(一)和1(b),在图1(一)、交通状态预测的每一部分都是独立的9]。历史信息预测上更有优势;例如,相关分析是用来分析历史交通流和交通流之间的相关性在当前时间间隔(10]。在图1(b)、交通状态预测道路网段的合作(11- - - - - -13]。entropy-based灰色关联分析是实现选择车道段强烈与巷段的预测(14]。卷积神经网络也用于提取空间特征(15]。他们都是基于假设的路网交通状态在不同的位置有相关性与空间分布(16]。一般来说,预测效果优于第一第二场景。然后,我们考虑第三个场景:预测的车辆速度段所有在网络上使用可用的部分片段(图的历史信息1(c))。

我们将讨论第三现场实际应用。我们把一个实验组成的道路网七十五年段(定向)在西安城市中国(见图2(a))。的平均值和标准偏差的旅行速度每一部分图所示2(b),我们假设有传感器安装在每一段记录车辆的动态流。理论上,该算法适合于上述第一或第二场景可以完成预测任务。然而,一旦传感器故障导致数据丢失或错误,这些算法将不会工作。他们需要经常维护所有传感器保证实时数据的质量。事实上,维护资源通常是有限的,因为很难保证大量的传感器是绝对没错的。同时,长期。一个合理的替代方案是保持一小部分片段的传感器和建立一个预测算法只基于不完整的数据记录,即使在最坏的情况下,只有这一部分传感器的操作;整个道路网络的预测精度还满足需求。然后,挑战不同的纯速度预测提出的问题:如何识别关键段确定理解整个路网的交通状态?

为了解决这个问题,我们引入了神经网络图(GNN),一个扩展深度学习模型来处理图形数据(17]。这是well-performed找到元素之间的复杂关系信息(18- - - - - -20.]。结合注意力机制(21),我们构造一个GNN-based机器学习模型,关键领域的历史交通信息作为输入,并预测每个段的链接速度旅行在接下来的时间间隔。每一部分的注意力机制量化贡献的旅游交通信息速度的预测时道路网络模型中的每个链接实现下游预测误差的最小化为目标。我们利用定量贡献设计启发式算法,它消除了部分以最小self-attention系数是最微不足道的一个迭代。剩下的部分最终确定为关键部分。性能使用的结果表明,该模型的交通数据只有两个关键部分超出了常规方法在实验道路网络中使用历史平均水平。该方法的应用可以减少交通信息为代价,需要收集显著轻微损失的预测精度。在这里,我们介绍一些相关研究(22- - - - - -24]。的方法,提出了利用道路段的时空旅行速度之间的因果关系的时滞相关系数函数,利用相关系数估计的局部平稳性道路段的旅行速度处理丢失的旅行速度值的问题车辆在某些路段,由于已被称作车辆群体感知数据的粗糙22]。然而,我们的研究的目的是减少数据需求主动通过识别关键段虽然这些先前的研究旨在减少负面影响的数据丢失的被动。

总之,我们的主要贡献如下:(1)根据应用程序的限制,将收集交通信息段尽可能少,以减少采购成本;我们提出一个新的研究问题:如何识别的关键部分,为保证交通状态预测精度为所有在道路网段的最有效的方法。(2)我们提出一个启发式算法选择部分失踪的交通信息很难弥补别人的关键部分的注意机制。(3)我们做一个实验研究,预测数据段的2.7%可以满足精度要求。临界段计划非常合算的,提供各种信息采集技术的成本节约思想。

1.1。问题的形成

我们描述简明的问题如下: 在哪里 是真实的车辆速度段 在训练样本 , 是一个向量的预测速度, 是一个决策变量的jth段和 如果它被选中 代表了成本的限制。目标函数(1)之间的均方误差最小化真正的速度和预测的速度在所有部分: 在哪里 车辆动态和历史信息的吗 代表了复杂的预测未来车辆速度关系从历史信息。方程(5)历史信息收集从选中的关键部分。

然后,问题可以分为两个子问题。(一)决策变量赋值:每个部分的贡献为道路网络是异构和车辆速度预测受道路网络拓扑和流量分配的影响。临界段识别是一个组合优化问题。我们要设计一个启发式算法对于这个np难的问题。(b)的预测关系 建立通过机器学习模型:它是一个典型的非线性回归问题。

2。方法

2.1。GNN-Based机器学习模型车辆速度预测

在各种GNN变化,图关注网络(25引起我们的注意。我们利用self-attention机制探索每一部分预测车辆速度的贡献对整个网络。结合我们的问题,一个图注意力层描述如下: 在哪里 是隐藏的特征矢量细分 - - - - - -层。最初, 历史信息记录在段吗 段的最终预测的速度吗 是邻居的组段段 是一个学习权重矩阵每个共享 =特征向量的维数 在下一层和当前层,分别。 激活函数和吗 的贡献系数表示关注历史信息段 预测车辆速度 是计算的注意机制如下: 在哪里 是独立的前馈网络共享任何一双 和量化的重要性 是另一个可学的权重矩阵,将隐藏的特征向量转换成更高级的特性在喂养 是连接操作。

在这里,我们考虑你的邻居 在图论中,邻居意味着节点直接连接到当前节点。道路网络,部分的布局与地理位置限制,没有显式链接,空间段看起来像近邻,比如段20/22/69图2。然而,我们可以断言,段与段56没有相关62,即使他们是在网络的两端?答案当然不是。大大增加车辆流段56可能引起交通堵塞段62年的下一个时间间隔。公路网络是一个复杂的系统,它不仅是一个衬底拓扑结构,但也带来了交通动态。因此,我们以公路网为一双接触网络中任何部分有一个链接,可以放入机器学习模型。链接的相关性强度量化的关注智能机制。

2.2。以临界段识别的贪婪算法

节一节第二子问题解决“问题”的形成,这是建立预测关系 通过机器学习模型。对于关键段识别,我们设计一个基于附件的启发式算法 - - - - - -注意系数 模型完成后培训, 每一对段计算测试集。一个指标需要设计一些决定哪些部分的数据是放弃或保留在每一个步骤。

复杂系统领域的许多研究中心的节点(26,27)表明,节点集的影响不是简单的每个节点排序组合的效果。影响车辆速度预测历史信息中部分是冗余和可替换的。那么,什么是不可替代的?一段 ,高self-attention ,意味着速度预测主要依赖于历史信息本身。车辆动态在这段相对独立的道路网多段self-attention较低。如果这部分的数据丢失,很难从其他部分的数据中提取有用的特性预测。

根据这一线索,我们给出一个贪婪算法来生成关键段的迭代计划。在每个步骤中,段 self-attention最低的 (见红色的符号表1贪婪的方式)被移除: 在哪里 其余部分与历史信息。和机器学习模型是更新重新训练 每个迭代。迭代将停止,直到剩下的数量降到成本限制 ,如算法1

(1) 输入:整段设置 ,在所有段历史信息 ,真正的车辆速度在所有领域 ,剩余部分组 ,在剩下的历史信息
(2) 初始化 ,
(3)
(4) 培训机器学习模型 采取 样品和 作为标签。
(5) 得到self-attention系数 计算在
(6) 删除历史信息段 与最低
(7)
(8)
(9) 结束时
(10) 返回

方程(6)是一家专业对剩下的人来说,GNN块,如图3。通过删除片段没有历史信息,车辆速度的预测价值利用在其余部分的隐藏特性生成GNN块,计算如下(线性块图3): 在哪里 是一个学习的重量(回归系数)。之间的区别 是, 是一个常数, 在不同的时间间隔改变每个样本。

3所示。实验和结果

3.1。数据和机器学习模型配置

我们使用的数据是车辆轨迹的时期内ride-hailing订单二环路西安城市的区域。迪迪的数据平台和跨越10/01/2016 11/29/2016。数据集的GPS点覆盖整个道路网络图2并由路由处理,确保数据可以对应于实际的道路信息。GPS点的收集时间间隔2 - 4。司机的主要字段的数据集包含ID、订单ID,时间戳,经度和纬度。获得的数据预处理后,车辆的平均速度是每段每5分钟6点到晚上10点之间。我们把车辆速度和流量在前两小时历史交通信息预测车辆速度在接下来的5分钟。训练集的数据前48天(10/01/2016-11/17/2016)和评估的测试集是后者的数据12天(11/18/2016-11/29/2016)。

该模型的详细结构如图4。单个GNN块包含两个图形注意力层使用漏水的规则激活和一个Conv1D层使用线性激活。神经元的数量是32,16岁,在每一层1,分别。在第一图注意力关注系数计算层采用贪婪算法。前馈神经网络组成的三层Conv1D漏水的规则激活和使用一个SoftMax层合并成一个单一的图表注意力层系数计算的关注。神经元的数量是16日,16日,分别在每个Conv1D 1层。隐藏的特性输出从第二图注意力层作为线性块的输入。线性分组由一个线性回归层和一层Conv1D使用线性激活。的回归系数线性回归层=剩下的数量乘以数量的部分删除。亚当的神经网络训练的方法优化器与批处理大小为256和10的学习速率e−3。

3.2。临界段识别车辆速度预测的结果

结果如图所示5(一个)。绿色圆圈表示道路网络的平均预测精度提供一定数量的关键部分选择贪婪算法。相比之下,我们设计的贪婪算法二世删除的数据段以最小的贡献 每个迭代: 的贡献 段的 是它对其它领域的贡献的总和(看到绿色符号表吗1):

贪婪算法二世保留那些遭受最关注的其他部分作为至关重要的部分,是一个更直观的解决方案。结果由黄色圆圈所示图5(一个)。此外,我们主观设定一个下限(红色水平线在图5(一个)作为参考的常规方法使用历史平均水平,以相同的时间间隔的平均车速历史天(工作日和周末是有区别的),每个段的预测价值。

我们观察到(a)的准确性GNN-based机器学习模型完整数据的75段增加近12%相比传统方法(最左边的绿色圆圈图5(一个);(b)的贪婪算法生成一个计划(称为计划我)只包含两个关键领域的预测精度,不完整的数据仍然超出了低限制(第二个绿点右边的图5(一个);(c)计划(称为方案二)来满足这个需求需要六个贪婪算法生成的临界段二世(第六右边黄色的圆圈图5(一个);和(d)所选关键部分的数量减少,预测精度下降。在每个迭代中,贪婪算法优于贪婪算法。

该模型的预测误差部分如图5 (b)。的价值x设在道路网段的数量。蓝色酒吧只使用不完整的数据生成包含历史信息对方案的关键部分。橙色酒吧使用完整的数据生成整个道路网络。

3.3。从交通角度解释能力的关键部分

为了给一个洞察关键段的特点,我们在道路网络可视化方案我和方案二,如图6。我们发现这两个方案我和方案二世喜欢选择段道路网络的边缘。这些特定的段感知外部车辆流进入网络和内部车辆流离开网络敏感。监督信息流动在他们方便来估计车辆流的总量以及道路网络的拥塞程度。

段24日和29日在东西方向道路道路网络的独特的表达方式。因为表达方式的进出口控制立交桥路口,车辆速度的动态时间序列具有很强的连续性,干扰少的流流入其他部分。这个结果协议与贪婪算法的逻辑我选择与最大self-attention临界段。右转车道在段29日与交通拥挤是一个主要的表达方式和道路网络之间的联系。方案我也表明当前车辆动态这两个关键领域的最佳注意如果我们要预见到整个路网的交通状况。

3.4。从机器学习的角度解释能力的关键部分

为了分析为什么我计划是一种有效的设计(因为计划我需要数量的关键片段比方案二世满足预测的需求),我们检查每一部分的代表通过机器学习模型,使用可视化的技术开发了高维特性称为t-Distributed随机邻居嵌入(t-SNE)(见图7)。具体来说,二维生成嵌入的隐藏特性输出从第一层通过运行t-SNE GNN块算法,往往感知相似的国家表示映射到附近的点(28]。换句话说,图的节点位于次要情节密切7意味着隐藏的功能从历史信息记录在这些片段中提取高度相似。两个节点代表两个关键领域中选择方案我都在早上高峰时间(图远7(一)(图)和晚高峰小时7 (c))。他们的功能是不相关的,这样他们有足够的能力来表达合作其他节点的功能。对比地,部分六个节点中选择方案二世分布密集特别是在晚上高峰,如图7 (d),七十五个节点是由k - means集群分为六类和五个关键领域中选择方案二属同一范畴(绿色)指示II是高度冗余的配置方案。这就是为什么选中的部分的数量计划II是三重的计划我但方案二世的表现并不比方案。我们认为它必须是一个很好的计划关键的隐藏功能嵌入在不同的时间间隔段属于不同的类别。

3.5。改进预测精度之间的关系和数量的关键部分

除了满足预测精度的需求,我们还考虑到效率意义的程度相当于历史信息转化为预测精度。一个代表性的案例是显示在图8。我们使用贪婪算法来生成三个方案包含一个/两/三个关键部分,分别。显然,第二个方案包含两个关键部分是一样的上述计划。然后,第一和第二的是作为一个对照组和第二和第三的是作为另一个对照组。关键部分的数量从1到2,预测精度在十八段明显提高(见图8(一个)突出了颜色橙色),预测精度的提高超过2%(图只有一段8 (b)当数量继续增加到三个。旁边的数字部分的数字是减少预测误差(日军)。比较图8(一个)与图8 (b),我们发现的增长预测精度显著不同的增量关键部分的数量是相同的。换句话说,车辆速度预测的平均收益将由单位数量的历史信息,视为一个段,各方案是不同的。

3.6。改进预测精度之间的关系和数量的关键部分

收集车辆流段的信息需要成本,无论通过浮动车和传感器。在我们讨论的实际应用介绍,成本可能是维护成本或生产成本的传感器。虽然预测精度提高关键段的数量,该计划成本也增加了。假设一个段信息的收集是一个单位成本,成本效益衡量的平衡性能和成本计划量化如下: 在哪里 当前方案的预测精度,基准方案仅包含一个关键部分,分别和 是选择的关键部分的数量在目前的计划。贪婪算法所产生的成本效益的方案我作为一个整体呈现下降的趋势增加 如图9之前,曲线下降迅速 达到8,然后逐渐趋于平缓。比较图5(一个)与图9,我们认为方案包含一个小数量的关键片段更明智的,如果不存在极高的预测精度的要求。成本效率可以参考索引来帮助决策除了尽可能最大限度地提高预测精度。

4所示。讨论和结论

我们的研究的目的是确定少数关键段显著降低交通信息的收集量的许可轻微损失预测的准确性,而不是盲目地追求极高的预测精度。我们得出以下结论:(1)在实验道路网络,平均旅行速度的预测精度预测模型使用的部分历史交通信息收集的只有2.7%的关键部分是使用历史平均水平优于常规方法。提出了贪婪的方法可以有效地识别关键段理解整个路网的交通状态。(2)使用t-SNE高维特征的可视化技术,我们知道一个方案的关键部分是最优的,如果产生的二维嵌入信息的分布特征的关键部分是分散,表明临界段的交通信息不是多余的。(3)信息获取的成本效率意义的效率改进的等效交通信息预测精度不断下降的更丰富和更丰富的信息。交通信息采集应考虑购置成本和预测精度要求全面的交通状态。(4)结果为节约成本提供一个思想信息采集技术。例如,因为只有少数的交通流信息的关键部分需要被记录,浮动车的旅行距离和传感器的安装或维修数量急剧减少。

我们的研究可以从两个方向改进。首先,复杂的预测模型设计进一步建立一个更精确的关系历史交通信息和预测车辆速度,如混合动力模型研究存在的GNN和递归神经网络结合29日)和动态建模的空间依赖性流量(30.]。其次,关键段识别方法是进一步设计找到一个最佳组合的重要部分。他们试图使曲线在图5(一个)缓慢下降。

数据可用性

数据支持我们的研究结果可以发现https://outreach.didichuxing.com/research/opendata/

的利益冲突

作者宣称没有利益冲突。