文摘
准确预测和可靠的重要因素的分析事件间隙时间的两个主要对象交通事件管理(TIM)系统,因为它可以帮助缓解交通拥堵造成的交通事故。本研究适用于极端的梯度提升机算法(XGBoost)来预测事件间隙时间在高速公路和分析间隙时间的重要因素。XGBoost集成了统计和机器学习方法的优越性,可灵活地处理非线性数据在高维空间和量化解释变量的相对重要性。收集到的数据从2011年的《华盛顿事件跟踪系统用于这项研究。调查潜在的哲学隐藏在数据,K——选择集群数据为两个集群。每个集群的XGBoost建立。贝叶斯优化XGBoost用来优化参数,和日军被认为是评价预测指标预测性能。比较研究证实XGBoost优于其它模型。此外,响应时间,AADT(年度平均每日流量)、事件类型和车道封闭类型被认为是重要的解释变量间隙时间。
1。介绍
根据林德利(1)、交通事故导致约60%的不再发生的交通拥挤。这些拥挤可能会导致很多负面影响,如降低道路容量,增加二次事故的可能性(2),而不利的社会和经济现象(3]。当交通事故发生时,及时和可靠的事件持续时间预测中扮演一个重要的角色在交通当局为交通指南设计策略。高速公路容量手册,在交通事件持续时间(有四个阶段4):检测时间(从事件发生的时间检测),响应时间(从事件检测验证),间隙时间(从事件验证的时间间隙),和恢复时间(从事件的时间间隙正常交通状态)。严重的事件,不及时清除可能导致两次甚至三次事件持续时间(5]。与其他阶段相比,间隙时间是最重要和最耗时的阶段的时间事件的过程。因此,本文的目的是要有效地预测间隙时间和调查间隙时间的重要影响因素。
在过去的几十年里,大量的工作已开展预测事件的持续时间。这些方法主要可以分为统计方法和机器学习方法。统计方法有自己的模型假设和预定义的潜在的依赖和独立变量之间的关系(6)提供可辩解的统计方法的能力。广泛使用的统计方法总结如下:概率分布分析方法(7,8),回归方法(9- - - - - -13),离散选择法(14),结构方程方法(15),hazard-based持续时间法(16),Cox比例风险回归方法(17- - - - - -19,加速失效时间法(20.- - - - - -23]。与统计方法、机器学习方法是基于一个更灵活的映射过程,不需要假设之前或更少。和灵活的映射允许机器学习方法处理非线性数据在高维空间中,但它不能探索潜在的因变量和自变量之间的关系。这些广泛使用机器学习方法分为K最近邻居法(24- - - - - -27),支持向量机方法(26- - - - - -28),贝叶斯网络方法(29日- - - - - -34),人工神经网络方法(2,35- - - - - -37)、遗传算法(37,38),基于树的方法(25,39- - - - - -41),和混合法42]。
总之,传统事件间隙时间预测的研究依赖于统计模型与先前的假设或机器学习模型解释能力较差(43]。为了解决上述问题,我们应用极端梯度提升机(XGBoost)方法来预测间隙时间,然后调查交通事故间隙时间的重要影响因素。因为XGBoost继承了统计模型的优点和机器学习模型,可以处理非线性高维数据时计算变量间的相对重要性。
在这项研究中,预测性能XGBoost检查使用的数据在2011年华盛顿事件跟踪系统。为了更好地探索潜在的哲学隐藏在原始数据,我们集群原始数据的固有属性。然后为每个集群XGBoost模型建立。该方法详细的框架部分3.5。
剩下的这个研究组织如下。节中描述的数据源2。部分3介绍了K算法,则XGBoost算法、贝叶斯优化算法,评价指标,以及该方法的框架。模型结果与讨论部分中概述4。最后一部分是结论。
2。数据描述
交通事故数据收集从华盛顿事件跟踪系统(智慧),发生在部分从波音通路(157年里程碑),西雅图中央商务区(165年里程碑)。这段不仅是一种高incident-occurrence区域还需要对拥挤的交通需求(44]。因此,它被选为研究对象。和年度平均每日流量(AADT)来自于公路安全信息系统数据库(上学)。天气历史数据来自美国国家海洋和大气管理局(NOAA)的气象站。详细的数据表的组件1。有14个离散解释变量和2连续解释变量在这个数据集。的属性,它们分为六类:事件,时间,地理,环境,交通,和操作。变量的具体值集第三列在表1。为了平衡独立变量的变化,响应时间和AADT变量都是归一化(41,43- - - - - -46]。
完全,2565事件记录从智慧数据库检索的时间从1月1日到2011年12月31日。平均值和标准结关时间值,分别为13.10分钟,14.63分钟。大价值标准(14.63分钟)意味着大多数的间隙时间值是完全不同于他们的平均值。即原始数据应该被处理的数据组织。
3所示。方法
3.1。K则算法
K算法,则由MacQueen [47),是一种广泛使用的聚类方法领域的数据集。样本数据集具有类似特征可以聚集到同一个类通过使用K——(48]。本研究中使用的数据表示为{ }, 和n代表事件的数量,米解释变量的数量,y表示实际间隙时间。的详细步骤K则算法提出了如下:步骤1:假设集群的数量(K集群),从数据集随机选择集群中心。步骤2:确定集群的其他样本的距离函数 在这里,和集群的中心吗一个和集群b,表示集群一个。步骤3:毕竟样本已集群,每个集群的新中心应该使用以下公式计算: 在哪里集群是样品的数量j。第四步:重复步骤2和步骤3,直到中心的集群内的许可。因此,我们可以发现的价值K集群和集群中心重要性能,聚类的K则非常依赖于初始聚类中心的选择和数量K。获得一个合理的K,我们使用轮廓系数评价指标,由Rousseeuw提出(49),定义如下: 在这里,之间的平均距离是样品吗我和其他样品在同一集群,是最低的平均距离的样品吗我所有剩下的样品。
3.2。极端的梯度提升机算法
陈和Guestrin [50)提出了极端的梯度提升机(XGBoost)算法。它被认为是梯度增加机器的高级应用(GBDT),采用决策树为基础的学习者实现分类和回归。提高的综合方法可以调整当前模型的预测误差通过添加新的模型到模型(41]。提高模型的预测结果是所有模型得分之和。因此,预测XGBoost得分之和K提高了树和显示在以下方程: 在哪里是样本,的分数是在提高了树,F是促进树木组成的空间。减少XGBoost的拟合误差,改善监管GBDT相比,它提出了如下: 在哪里和实际值和预测值的吗前项目损失函数,样本需要可微凸函数,后者项相对应的处罚为避免过度拟合模型的复杂性。第二项的方程(5)可以详细如下: 这两个和是常数,T表示数量的总和的叶子,的分数是叶子。当方程(6)= 0,将转换为传统GBDT公式。
根据方程(5)和(6),训练误差和模型复杂度XGBoost的两个主要部分。前面的树一直在训练时,当前树可以使用添加剂的训练,训练方法。这意味着,当提高了树是训练有素的,以前的参数树(从第一个树树)是固定的和相应的变量是常数。以提高了树作为一个例子,损失可以表示如下:
在这两个项目(有两个公式7):
第一项的方程(8)和(9)前的和分数和和监管树木和第二项的得分和监管提高了树,的预测价值吗迭代,的监管迭代。
方程(8)和(9)代入方程(7),然后方程(7)是扩大利用泰勒公式如下:
的被认为是x和被认为是 。然后,方程(7)改变如下:
陈和Guestrin [50建议,也可以写成 在哪里的叶子节点x,显示的重量或者,可以被视为的预测价值迭代,d是叶节点的数量。然后,方程(11)可以表示如下: 在哪里和的一阶和二阶梯度统计数据。当是固定的,最优叶重量和度量函数可以用来衡量树结构的质量可以计算:
3.3。贝叶斯优化算法
贝叶斯优化算法(BOA),最著名的可伸长的贝叶斯网络的应用程序,基于概率模型的建设。这个模型定义了目标函数的分布从输入数据,输出数据。在这个贝叶斯优化过程中,从最优解获得全球统计特征和建模通过使用贝叶斯网络51]。这就是为什么美国银行显示其优势在机器学习模型,因为这些机器学习模型需要更精确的参数灵活地处理非线性高维数据(52]。在这项研究中,美国银行是应用于优化XGBoost中的参数,目的是准确地预测交通事故间隙时间。
贝叶斯优化的成就包括两个核心部分:前函数(PF)和收购(AC),也称为效用函数(51]。高斯过程(GP)通常被认为是作为PF。交流是用来平衡模型的勘探和开发。贝叶斯框架优化呈现在图1描述和主要步骤如下:(1)将数据分为训练数据和验证数据使用k倍交叉验证方法。初始化参数被定义为目标的模型 。(2)目标模型初始参数的准确性是评价通过使用验证数据,然后记录的准确性。优化的目标是减少验证精度。(3)高斯过程(GP)是用来记录的准确性。(4)目标模型的参数更新的全科医生的结果。然后,交流电的最大值是用于选择下一个点,因为它达到了优化通过确定下一个点来评估。改进的概率、预期的改善和信息增益是三个被广泛使用的交流(51]。在这项研究中,将选择改善交流。然后,最好的验证的准确性是数学写如下: 在哪里是验证准确性和的概率是与这是通过使用医生执行。
3.4。评价指标
一般来说,平均绝对百分比误差(日军)是一种常用的预测指标对回归模型的预测性能进行评估。如上所述,这些数据被描述为{ }, ,可以被认为是一个矩阵的大小 。具体地说,n事件的数量和吗代表的实际价值事件。考虑的预测价值吗事件。然后,日军可以表示如下:
用这个公式,日军是一个相对的预测指标,可以测量模型的预测性能根据实际值和预测值。
3.5。该方法的框架
介绍了在节2,我们需要一个合适的方法来处理原始数据集来组织数据集对哲学探索潜在的隐藏在数据变得更加容易。为此,在本研究中,我们选择K则算法作为集群的方法的原始数据集分成几个类别数据相似度高。然后,XGBoost模型为每个类别进行预测。介绍了该方法的主要步骤如下:步骤1:聚类通过使用原始数据分成几个类别K则算法。集群的数量是由最优轮廓系数(详细信息介绍部分3.1)。步骤2:把集群数据分成为每个类别的训练数据和测试数据。使用训练数据来构造XGBoost模型。步骤3:美国银行用于优化参数为每个XGBoost构造模型。第四步:测试数据输入到训练XGBoost,然后预测的间隙时间将输出和记录。第五步:计算预测指标(日军)和解释性因素的相对重要性
指出,交通事故的数量增加,数据集将不断更新,因此XGBoost应该重新训练。
4所示。预测结果和讨论
本研究的对象有两种:(a)检查XGBoost模型预测性能的间隙时间和(b)调查间隙时间的重要因素。我们首先处理原始数据,包括数据聚类,聚类评价。接下来,将数据分为训练数据和测试数据的比率7:3。XGBoost是利用训练数据训练和测试数据用于模型评估。然后,比较研究了XGBoost的预测性能。日军被选作为预测措施。最后,计算所有解释变量的相对重要性,和事件的重要解释变量间隙时间进行了分析。总体而言,该模型是通过编码和执行Python。
4.1。数据预处理
在建模之前,已经通过处理原始数据集K则算法。节中描述3.1集群的数量(K)的关键参数K则算法。找到最好的K的值,K增加选择从2到10来计算相应的轮廓系数,结果如表所示2。假设迭代停止当轮廓系数连续5迭代不改善。迭代停止时K5 = 7,连续的轮廓系数迭代正在减少。根据方程(3),一个更高的轮廓系数表明一个更好的聚类性能。根据表2,当K= 2,轮廓系数达到最大的值(0.613),这意味着K在这项研究中设置为2。在这种情况下,原始数据集中成两个集群在这项研究。呈现每个集群显然,我们画目标变量的散点图的一个解释变量(随机选择),如图2。的x设在间隙时间和y设在表示响应时间。图2(一个)显示了这两个变量的散点图的原始数据,而图2 (b)显示集群数据的散点图。如图2 (b),集群1标注紫色代表相对间隙时间短,和集群2标有黄色表明长间隙时间。
(一)
(b)
为了知识两个集群的特点很明显,几个重要指标计算表3。总的来说,有2246起集群1和319年集群事件2。关于集群1,意思是,标准,中位数,和范围值的间隙时间9分钟,5.44分钟,7.00分钟,22分钟。在对集群2中,这些值,分别是39.25分钟,15.25分钟,35分钟,75分钟。中值中值在每个集群相比,我们可以发现中间值,分别大于平均值的两个集群。结果表明,间隙时间的分布在两个集群是倾斜的,而不是正态分布。然后,我们计算两个间隙时间分布的偏斜值,并在集群2集群1中0.92和1.59。他们两人现在的右偏态,这与之前的研究相一致(26,39,41]。分布数据的间隙时间在两个集群数据所示3(一个)和3 (b)。
(一)
(b)
(c)
(d)
两个数字3(一个)和3 (b)现在长尾分布的范围值22和75。很难处理的数据与这样一个值范围宽(53]。在这种情况下,为了使间隙时间的分布接近正态分布,我们使用数据转换处理清关时间数据在两个集群。关于集群1,间隙时间的偏差值是0.92,0.5和1之间,表明中值偏差。因此,根据经验法,我们应用平方变换处理集群1中间隙时间。在对集群2中,倾斜值是1.59比1,导致高度倾斜。日志转换将间隙时间用于集群2。介绍了数据分布的改变间隙时间3 (c)和3 (d)。在图3,蓝线是集群数据的拟合曲线和黑色线表示的正态分布曲线拟合的计算平均值和标准的价值观。如数据所示3 (c)和3 (d),改变了数据的分布接近正态分布。
4.2。参数优化
一般来说,有三种方法来优化参数,包括系统的网格搜索方法,随机搜索方法,贝叶斯优化方法。网格搜索方法适用,因为它系统地搜索整个搜索空间,但费时。相比之下,跑得快的随机搜索方法虽然错过最好的值作为搜索随机搜索空间。贝叶斯优化连续采样的过程,计算和更新模型。在总体上,我们将贝叶斯优化方法应用于在XGBoost找到最优参数。这些参数包括树的最大深度(max_depth),树木的数量(n_estimators),树的学习速率(learning_rate),随机抽样对树木的百分比(子样品)之和最小叶子节点样本权重(min_child_weight)和随机抽样比例特性(colsample_bytree)。的增加n_estimators可能改善的准确性XGBoost但增加计算时间。max_depth用于避免过度拟合。相比之下,大min_child_weight将导致underfitting。子样品和min_child_weight分别表示行和列抽样。学习速率的意义是避免过度拟合确定和增加模型的鲁棒性54]。因此,所有这些参数应该为实现最优性能的最佳模型。
python的贝叶斯优化是打包在一个模块,称为Hyperopt [55]。目标函数(f最小值),搜索空间(空间),优化算法(算法)和最大数量的评估(max_evals) Hyperopt的四个主要对象,用于完成美国银行。在本研究中,XGBoost是f最小值,树Parzen估计违约的藻类,max_evals通常设置为4。关于搜索空间,我们集n_estimators∈[500], learning_rate∈[0.05, 0.1], max_depth∈(2,10),子样品∈[0.1,0.9],colsample_bytree∈(0.1, 0.9),和min_child_weight∈(2,12]。此外,我们使用5倍交叉验证期间参数调优,结果如表所示4。
对于集群1,ncolsample_bytree _estimators、learning_rate max_depth,子样品,和min_child_weight分别设置为140,0.09,6,0.5,0.7,和3。在对集群2中,得到XGBoost当最好的预测性能n_estimators = 100, learning_rate = 0.05, max_depth = 5,子样品= 0.5,colsample_bytree = 0.3, min_child_weight = 5。XGBoost模型达到最佳的预测性能时使用这些最佳参数。和的日军值优化XGBoost两个集群是0.348和0.221,分别。
4.3。比较分析
检查XGBoost间隙时间预测的预测性能,我们选择几个常用模型包括支持向量回归(SVR)模型,随机森林(RF)模型,和演算法模型进行比较。以确保仙女比较,测试数据和参数方法(BOA)的所有模型都是相同的。SVR模型,我们选择径向基函数(RBF)作为核函数。γ和点球C RBF的两个关键参数,设置为0.1,64年,32和0.15,两个集群。射频模型树的数量(n_estimators),树的最大深度(max_depth),内部节点的最小数量的样本分割(min_samples_split)和最小数量的叶节点(min_samples_leaf)是四个关键参数,设置为195,8日,11日和23个集群中的1到100年,13日,18日和12集群中的2。在演算法模型方面,射频模型相同,n_estimators、max_depth min_samples_split应该确定。此外,learning_rate分裂(max_features)和最大特性还需要优化。这些演算法在两个集群的参数设置为470,6日,25日,0.05,7和425年,9日,30日,0.11。四个候选人的日军如表所示5两个集群,最小的值被标记为粗体。
如表所示5集群1,日军的价值观XGBoost, SVR,射频,和演算法是0.348,0.363,0.357和0.383。XGBoost代表最小的日军,间隙时间预测集群1中显示出它的优越性。至于集群2,日军的价值观XGBoost, SVR,射频,和演算法是0.221,0.253,0.228和0.231。与其他模型相比,XGBoost代表日军最小(0.221)。这意味着XGBoost模型优于SVR,射频,演两个集群。这个结果证实XGBoost间隙时间预测的优越性。
4.4。解释的因素重要性评价
不同的解释变量有不同的对目标的影响因素(56,57]。调查间隙时间的重要因素,每一个解释性因素的相对重要性计算通过使用XGBoost与最优参数两个集群。一个解释性因素相对重要性较高意味着它生成一个强影响清关时间41]。在这项研究中,我们假设因素相对重要性超过8.0%被定义为重要的解释因素,一般因素的相对重要性从2.5%到8.0%,剩下的解释性因素被认为是无关紧要的因素。在这种情况下,解释的因素,其重要性如表所示6。
至于集群1,AADT(17.70%)、事件类型(17.30%),响应时间(15.10%),和车道闭包类型(8.00%)分为间隙时间的重要的解释因素相对重要性大于8.00%。间隙时间的一般因素包括六个解释的因素,如WSP涉及(7.60%),每年的月(6.10%)、交通控制(5.00%)、天气(4.70%)、天星期(4.60%),高峰时间(3.10%)。高(2.50%),剩下的时间(2.10%)、重型卡车相关(1.70%)、损伤(1.70%),和工作区域(0.30%)被视为无关紧要的集群1中解释变量。关于集群2,四个解释性因素都包括在重要的解释因素间隙时间,包括AADT(14.00%)、事件类型(12.8%),响应时间(22.30%),和关闭车道类型(8.40%)。和火(8.40%)、天气(6.10%),每年的月(6.10%)、交通控制(6.10%)、损伤(5.00%),高(2.80%)和一般的解释因素。高峰时间(2.20%)、重型卡车(2.20%),涉及WSP涉及(1.70%)、天的周(1.10%)、时间(0.60%),和工作区域(0.20%)分为微不足道的解释性因素事件间隙时间。
对于两个集群,AADT,事件类型,响应时间和关闭车道类型被认为是重要的解释因素的间隙时间。但同样的因素可能产生不同影响间隙时间在不同的数据集(58]。详细,AADT间隙时间短的最大贡献集群1并生成第二个集群2中对长间隙时间的影响的相对重要性,17.70%和14.00%,分别。一般来说,AADT代表当前交通的特点(59,60]。即交通拥堵具有高AADT可能使这一事件难以明确,导致较长的间隙时间。事件类型,分别占17.30%和12.80%和长间隙时间短和集群1中排名第二和第三的集群2。如表所示1,事件类型因素包括残疾人车辆,碎片,废弃的车辆,碰撞等。这些事件可能会阻止正常流量(61年,62年]。在这种情况下,运输当局可能进行一系列的策略来应对这些事件造成的问题(63年,64年]。有趣的是,时间越长,间隙时间似乎比间隙时间短不太敏感的事件类型。也许长时间清理意味着高事故的严重性。15.10%和22.3%的相对重要性,响应时间因素是第三个因素对集群1间隙时间短,收益率最大的集群2中对长间隙时间的影响。结果表明,长间隙时间更敏感的响应时间比较短的间隙时间,这与先前的研究一致(18,19]。每一分钟的反应时间的增加,和清理时间将增加百分之一18,19]。关闭车道类型因素是第四两个集群的贡献因素。它表明事件的严重程度通过限制车辆进入事故现场(41]。
5。结论
在这项研究中,应用XGBoost预测事件间隙时间发生在高速公路上,研究间隙时间的重要因素利用收集到的数据从2011年的华盛顿事件跟踪系统。我们首先简要介绍原始数据和该方法。原始数据被使用集群K则算法更好地探索底层的关系。然后,我们建立了XGBoost每个集群的典范。每个集群数据分为训练数据70%和30%的测试数据。训练数据申请XGBoost建模和优化参数的基础上5倍交叉验证蟒蛇。测试数据是用来衡量XGBoost的预测性能。和日军被认为是预测指标。检查XGBoost的模型性能,支持向量回归(SVR),随机森林(RF),选择演算法来预测间隙时间。比较研究显示,XGBoost优于其他三种模型日军最低的两个集群。获得间隙时间的重要因素,我们计算每个解释性因素的相对重要性,然后定义量化指标对重要的解释因素,一般的解释因素,无关紧要的解释因素。结果是,响应时间,AADT、事件类型和关闭车道类型是重要的解释因素的间隙时间。
值得注意的是,交通事故是时间序列的过程65年]。几乎从这一过程获得的事件信息(66年]。建模基于获取事件信息是该方法的局限性。因为,在事件的初始阶段,预测可能不准确由于获得的信息是不完整的。未来研究多级更新的信息应该是一个有前途的未来研究方向。此外,策略处理未被注意的异质性的因变量,特别是在交通事件,可能是一个热门话题,由于一些省略变量(例如,驾驶行为)可能会产生潜在的对目标变量的影响。
数据可用性
交通事件数据用于支持本研究的结果可从通讯作者和第一作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究得到了国家自然科学基金(71701215)、中南大学创新项目(没有。2020 cx041),中南大学(没有的基础。502045002),科学和创新湖南省交通部门的基础(没有。201725年),中国博士后科学基金会(2018 m630914和2019 t120716号)。