文摘
识别事件持续时间的影响因素是重要的交通管理机构,以减轻交通事故在高速公路运营的影响。先前的研究已经提出了多种方法来确定交通事故的重要因素间隙时间。这些方法通常选择一个“真正的”模型中大部分的替代模型基于一些模型选择标准。然而,传统的方法通常忽略了不确定性模型的选择。提出了一种贝叶斯模型平均(BMA)模型来解释模型不确定性的平均所有合理的模型使用后验概率作为重量。BMA模型用于分析2584高速公路事故记录来自我走廊在西雅图,佤邦,美国。结果表明,BMA方法有能力解释解释变量之间的因果关系和间隙时间。此外,BMA方法可以提供比Cox比例风险模型更好的预测性能和加速失效时间模型。总的来说,在这个研究结果可以用于交通应急管理机构申请的另一个方法预测模型不确定性被认为是交通事故间隙时间。
1。介绍
提高交通事件管理的效率是一种常见的措施缓解交通拥堵(1- - - - - -3]。尽管交通事件持续时间不同的定义和组件在不同的研究中,间隙时间被认为是最无法控制的组件(4]。作为一个阶段的事件持续时间,这取决于每个人的独特因素事件(5]。因此,了解影响因素的影响,准确的事件间隙时间预测评估交通事件管理策略至关重要6]。
不同的方法已经被用来预测事件间隙时间和分析影响因素的影响在过去的几十年。一般来说,这些方法可以分为统计方法(7)和机器学习方法(8,9]。统计方法通常可以解释机制之间的独立和依赖的变量基于严格的数学公式(10,11]。从方法论的角度来看,回归分析和hazard-based方法两个主要统计方法来分析事件持续时间数据。回归方法广泛用于事件持续时间预测在先前的研究中,如线性回归(12,13]。克服事件间隙时间之间的简单线性的假设和解释变量,研究人员提出了hazard-based (HBDM)持续时间模型准确地预测事件的持续时间和探索重要因素对事件持续时间的影响,如Cox比例风险(PH)模型和加速失效时间(尾部)模型(14]。南和做手脚5]应用不同发行版HBDMs分析基于681起事件持续时间从华盛顿州的事件反应小组项目。李和法齐奥(15)使用比例hazard-based Cox-regression模型分析解释变量对响应时间的影响和间隙时间,分别。李和商16)选择最佳模型从17候选人不同的尾模型有不同的分布根据贝叶斯信息准则(BIC)值,调查每个事件的影响因素和预测每个事件的时间阶段。Ghosh et al。17)指出,尾模型与广义F分布优于其他五个参数hazard-based持续时间模型在分析事件在密歇根间隙时间收集的数据。Haule et al。18]调查重要因素对事故的影响间隙时间和选择最佳模型从三个尾模型与不同分布的Akaike信息准则(AIC)。
介绍了最近,大量的替代方法的框架下HBDMs近年来。例如,2-component log-logistic有限混合模型被邹et al。19]分析事件从华盛顿获得间隙时间数据事件跟踪系统(智慧),和模型相比,可以更好的异构性问题在会计标准的生存模式。有别于传统conditional-mean HBDMs,分位数回归(QR)模型可以估计变化的解释变量对事件的影响间隙时间的每一分位数事件持续时间分布不同(20.,21]。和copula-based方法提出了适应事件间隙和其他阶段的事件持续时间之间的相关性,结果表明,联结模型优于对数正态分布尾部模型在预测间隙时间22,23]。
与统计方法、机器学习方法可以用来克服事件间隙时间和解释变量之间复杂的非线性关系事先假设输入数据(24,25]。在前面的研究中,再(资讯)和贝叶斯网络算法被用来预测事件间隙时间26- - - - - -28]。此外,决策树(DT)模型可以指定的相对重要性不同的解释变量与响应变量和被广泛用于分析交通事件持续时间(29日]。然而,决策树的结构高度依赖数据,导致不稳定。克服single-tree-based交通事件持续时间数据不平衡问题的方法,马et al。30.)发现梯度提高决策树模型有更高的性能模型解释和预测精度传统DT模型(31日]。基于传统DT模型,极端的梯度提升机算法应用于分析和预测间隙时间数据(32,33]。然而,机器学习模型通常不能够解释估计和解释变量之间的机制。
总的来说,hazard-based模型和基于树模型是两种常用的统计和机器学习模型在交通事故持续时间分析。然而,这些提到的方法通常没有考虑模型的不确定性(例如,尾部模型与γ,威布尔,或者log-logistic模型)(34]。换句话说,传统方法通常假定模型估计是“真正”的模型,然后做测试中大多数替代“true”模型根据一些标准BIC (35]。因此,重要的是要考虑候选人之间的不确定性模型,尤其是当这些模型被认为是合理的,尽管不同的预测(36]。否则,由此产生的模型估计可能是偏见,导致错误的推理分析的事件间隙时间。贝叶斯模型平均(BMA)提出的德雷伯(37)提供一个统计理论依据在计量经济学建模解决模型的不确定性问题。这种方法结合和平均所有合理的模型认为(模型与影响力的各种组合变量)通过设置不同的先验概率分布(38),已广泛应用于各个领域,比如水管故障预测(39),公司违约预测(40),和化学工程41]。
本研究的目的是应用BMA方法占模型和参数的不确定性建模时事件间隙时间。检查建议的方法,2584年高速公路事故记录来自我走廊在西雅图进行了分析。估计和预测的结果提出BMA模型和常规HBDMs然后比较和分析。
2。方法
本节描述BMA的一般特征,两个传统HBDMs和奥卡姆的窗口的方法。最后一个方法是使用抽样技术在模型空间。
2.1。贝叶斯模型平均
BMA使用后验概率作为重量平均所有合理的模型。因此,让 我们表示的集合模型表示未来的观测值事件间隙时间使用新的输入数据。然后,依照法律规定的总概率,概率密度函数(PDF)根据观测数据集D是 在哪里 的后验分布基于候选模型 ,这是BMA方法的输出。和正确的预测模型的概率是 ,也称为后验概率模型(PMP)。在模型空间 , 。PMP是由贝叶斯规则: 在哪里 是边际模型给定模型的可能性和模型的参数向量 。此外,和 之前的密度吗和可能考虑到模型 ,分别。指的是先验概率被认为是“真正”的模型。后的均值和方差介绍如下:
基于以前的工作,模型空间的大小的总和(1)不切实际。为了解决这个问题,奥卡姆的窗口方法用于选择一个合适的候选模型从模型空间和将在下一节中介绍。
2.2。奥卡姆的窗口方法
奥卡姆的窗口的方法提出了马迪根和阿布42)减少模型的后验概率较低的模型空间 。两个基本原则进行了消除模型预测远比他们的竞争对手。
首先,如果PMP的模型在模型空间中远低于计算模型,提供了最高的PMP,模型从模型空间被丢弃吗 。这些模型未能满足公式 应该排除在方程(1)。的指的是最高的模型PMP,和的值C= 20,因为它是由数据分析师。
第二,如果复杂模型的多媒体播放器使用奥卡姆剃刀低于其简单的子方法,这些模型从模型空间应该丢弃属于
因此,公式(1)可以表示为 在哪里 。
此外,跳跃算法实现上述原则作为搜索策略。有兴趣的读者可以看到同伴纸更多细节关于这个算法43]。
2.3。Cox比例风险模型(PH)
Cox比例风险模型(PH)是一种最常用的半参数生存分析模型。这个模型是用来调查受访者的生存时间之间的关系和预测变量(44),给出了如下: 在哪里生存时间, 代表一个解释变量的向量,估计的系数,测量p-covariates的影响, 是风险函数,是一个未知的基线风险,也就是说,如果所有的危险的价值等于零,方程(8)也可以写成 在哪里 被定义为风险比率(人力资源),任何两个人的不断随着时间的推移根据考克斯PH值的假设模型。
2.4。加速失效时间(尾部)模型
基于风险函数,尾模型假定生存时代的日志共线性的影响显然,可以写成 在哪里估计的系数,是一个误差项。有各种不同的参数分布(如威布尔,对数正态分布,和log-logistic模型),可用于尾模型。
比较的目的,这一事件数据分析使用Cox模型和船尾log-logistic模型PH值。在前面的研究中,建议log-logistic尾模型优于其他两个尾模型(用威布尔或对数正态分布分布)的拟合优度统计和预测性能。因此,这两个传统HBDMs终于选为基准模型在这个研究。
2.5。数据描述
在这项研究中,这一事件之间的数据从我获得走廊波音通路和西雅图中央商务区从智慧中检索,用于管理事件日志数据。选择这个网站的原因是沉重的交通需求和频繁incident-induced交通拥堵事件。此外,在以前的研究中,唐et al。32)使用数据源分析解释变量的影响,并检验该模型的预测性能。和侯et al。45]分析了时变的影响显著的变量基于这个数据集。共有2584个有效事件从1月1日到2009年12月31日从智慧中选择数据集包括15直言候选人解释变量。此外,这个数据集的平均值和中位数事件的间隙时间13.58分钟,9分钟。的最小值和最大值1分钟和382分钟,分别。标准偏差为17.35分钟。候选人变量提出了表的关键信息1。
3所示。结果与讨论
本节描述的建模结果BMA方法,考克斯PH值模型和log-logistic尾模型。模型的平均策略而言,假设所有可能的组合15个候选人解释变量的先验概率是一样的。如前所述,奥卡姆的窗口方法实现排除复杂的模型执行好远比简单的竞争对手和丢弃他们从模型空间。结果表明,BMA方法和两个基准模型在解释不同解释变量基于相同的数据集,和前可以提供更好的预测性能。所有使用R统计软件进行统计分析。
表2列表后意味着,标准差和后效应的概率 相关系数不同的解释变量的使用方法。后效应概率 =后验概率的总和为所有包含解释变量的选择模型。例如,后效果与解释变量相关的概率单行道了有7.8%的质量为零。不像其他的统计模型,它可以观察到的变量“单行道封锁”不包括在所有选定的模型,虽然它有一个重大影响事件间隙时间。最高的20个不同模型PMP终于由奥卡姆的窗口选择方法,其中五个最优模型(PMP > 0.05)表所示2占总数的59.69%后验概率。此外,一些变量(即估计系数。,一个dvised WSP, disabled vehicle, debris, heavy truck, weekends, winter, weather, and incident on HOV lane) are not listed in Table2因为值大于显著性水平(0.05)。发现,模型1中最大的PMP可以占到总数的22.8%后验概率,这意味着存在模型不确定性。
如图所示,该模型平均预测的结果事件间隙时间产生有趣的解释。后效果七个解释变量的概率等于100%。这个结果表明,响应时间、交通控制、碰撞,多个车道阻塞,全部关闭,伤害,和夏天,所有选中的模型最高的PMP包含这些解释变量,因此它们的主要因素影响交通事件持续时间的间隙。积极的系数在该模型的结果表明,风险较高,间隙时间随该变量的值更高。
很明显,夏季导致间隙时间短,这意味着事件间隙随的时间比其他季节,夏天短,其余变量,它们都导致清关时间过长。
BMA结果表2显示,我们可以看到,对事件响应时间显示了疲软影响间隙时间,系数这意味着需要更多的时间来准备事件反应在拥挤的交通时间。交通管制的估计系数−0.527间隙时间值得关注改善措施由交通事件管理等事件反应小组(红外热成像)指导上游交通事件。
考虑事件类型中,碰撞是唯一的一个重要变量影响清关时间。和火的参与和伤害事件间隙时间显示了积极的影响。这些结果说明火灾和碰撞的参与会导致清关时间过长或更小的风险率和通常是导致交通堵塞的主要因素。
四种类型的通道关闭除了所有通道阻塞产生重大影响事件间隙时间。这是由于增加操作事件的恢复过程的复杂性。经过仔细观察,所有重要变量,总关闭对事件影响最强的间隙时间,这表明长间隙时间通常是与总封闭车道。进一步解释BMA模型,估计的生存概率是绘制在图1。
与此同时,表3和4考克斯PH值模型的参数估计结果列表和船尾log-logistic模型进行比较的目的,分别。没有列出一些变量的估计系数表3和4因为值大于显著性水平(0.05)。考克斯指出,在模型中,回归系数的符号(系数)是相反的尾模型。积极的系数在考克斯PH值模型的结果表明,风险较高,因此该变量的值较高的间隙时间减少。注意,不同于BMA的结果,所有类型的事件而言非常重要考克斯PH值模型中的值。此外,三车道封闭类型(单行道封锁,多个车道阻塞,总关闭),响应时间,交通管制,受伤,火灾,和工作区域涉及所有导致清关时间过长或更小的风险率。碎片,废弃的车,晚上,和夏天所有导致事件间隙时间短或更大的风险率。这些研究结果与先前的研究利用分位数回归一致性。
在船尾log-logistic模型中,晚上是发现统计学意义与BMA模型。和残疾人车、垃圾和废弃车辆所有导致更长时间的间隙时间在两种生存模式中,而这些变量不显著BMA模型。当模型不确定性的原因是,他们的后效应概率BMA明显低于其他变量。进一步解释了考克斯PH值模型,log-logistic尾模型,估计的生存概率数据绘制2和3。
考克斯PH值的估计系数,log-logistic船尾,BMA模型可以给宏观事件的持续时间和有价值的见解。旅游通道阻塞,PH值的估计系数−0.796 Cox模型的系数0.615 log-logistic尾模型表明强烈影响间隙时间,虽然BMA的后效应概率模型= 8.2%,这意味着这个变量实际上是一个不那么重要的行列式事件间隙时间。此外,促成因素导致长间隙时间可以确定,因此交通应急管理机构可以改善他们的管理计划和应对策略。如表所示2- - - - - -4,变量“全部关闭”和“火”涉及对事件有更强的积极影响间隙时间。因此,当关闭所有通道和消防涉及交通事故被认为是,更应注意防止进一步的严重事件。
更重要的是,BMA的后效应概率模型可以克服的夸大效果的证据。的值系数表示这些关系是否具有统计学意义。一般来说,值单一模型的预测是用作衡量解释影响事件的间隙时间。然而,值通常夸大效果的证据(46]。
转向模型结果,表5显示了概率和后效应一些变量的值。几个变量(即。,response time, traffic control, collision, multiple lane blocked, total closure, injury involved, and summer), the值从考克斯PH值概率模型和后效应 从BMA模型都表明,有高度显著的影响( 和 )在间隙时间。然而,英国医学协会(BMA)模型和考克斯PH值模型显示在表的变量的不同的结论5。的PH值值Cox模型夸大效果的证据。晚上,碎片,和工作区域,他们被认为是非常重要的值( ),尽管BMA的后效应概率模型的证据表明,一个效应不强。另外,残疾人车,废弃的车辆,和所有旅游线路阻塞事件间隙时间的不太重要的决定因素值( ),但后效应概率提供弱证据事件影响清关时间。和过去的变量事件共巷,这两种方法显示极低确定性的证据产生影响。因此,考克斯PH值模型夸大效果的证据解释变量与后效应概率( )BMA模型结果显示在表中5。
此外,当拒绝零假设的“无效”,值使用的考克斯PH值模型不能区分两个场景,如下:(一)很少有数据来检测对解释变量的影响,和(b)数据为零假设提供证据。然而,BMA的后效应概率可以克服的夸大的证据产生的上述问题产生影响。例如,所有旅游通道阻塞模式和事件巷发现事件间隙时间的一个不太重要的决定因素价值观和后效应的概率。所有旅游通道阻塞, = 8.2%,这正是(a)中描述的场景,而 高巷的事件表示“没有效果的零假设的证据。“后者可以近似为后验概率的影响足够小,也就是说, ,当是不到一半的标准误差(47]。
3.1。比较预测的性能
如前所述,BMA可以提高预测的性能比其他任何单一的候选模型由于忽略了模型不确定性单选择模型。这一事件持续时间数据也被应用于分析每个解释变量导致响应变量的重要性通过使用两个传统的生存分析模型。是指出,考克斯PH值模型的预测值是相对于样本观察。因此,我们采用了非参数阶跃函数(NPSF)的方法来预测预期的持续时间(48]。进一步证明BMA的预测性能,平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分误差(日军)被用来测量差异BMA和考克斯PH值模型在评估的准确性。这些性能指标进行了计算 , 和 ,在哪里和观测值和预测值的间隙时间事件吗 ,分别。小美、RMSE和日军值表明更好的预测性能。
在这项研究中,2584个事件记录被随机分为两个子集,其中一个是用作培训subdataset BMA的应用和基准模型,另一种是用作测试subdataset测量预测性能。部分的数量用于构建和测试模型是1500年和1084年,分别。使结果更可信,训练和测试subdataset根据10个随机种子不同选择。
表6报告预测性能指标的均值BMA和考克斯的PH值模型,以及log-logistic尾模型。大胆的值是最小的美,RMSE和日军值在三个模型。如表所示6在这项研究中,多个随机实验表明该BMA模型结果在更好的预测性能与两种传统生存模型的三个性能指标。因此,可以得出结论:BMA模型可以改善传统生存模型的预测性能。
4所示。结论
本研究应用贝叶斯模型平均(BMA)事件间隙时间分析和预测。BMA方法相比Cox比例风险模型和加速失效时间模型(log-logistic分布)2584年分析高速公路事故记录来自我在西雅图走廊。总结了主要结论如下:(1)响应时间、交通控制、碰撞,多个车道阻塞,全部关闭,伤害,和夏季的主要影响因素是交通事故的时间间隙。(2)三种考虑模型的建模结果显示差异的估计系数,如响应时间、流量控制和夜晚。(3)相比,考克斯PH值和log-logistic尾模型,后效应概率BMA可以克服的夸大对解释变量的影响相反的证据值一个模型。(4)BMA的预测性能优于两种经典的生存模型预测交通事故时间隙时间。
对于未来的工作,BMA可以适用于解释解释变量的影响事件间隙时间或其他阶段的事件持续时间。马尔可夫链蒙特卡罗模型组成应与奥卡姆的窗口方法进行比较。此外,BMA可以扩展到确定间隙时间数据中的异常值的后验概率模型。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
共同赞助的这项研究是由中国国家重点研究和发展计划(批准号2018 yfe0102800),上海市科学技术委员会(批准号19210745700)和中央大学的基础研究基金(批准号22120210009)。