文摘
随着高速公路的发展信息化系统,更容易获得高速公路的交通流数据,广泛用于研究交通流状态和交通安全之间的关系。然而,随着开发程度的高速公路系统在不同地区不同,交通在某些地区收集的数据的样本量不足,和数据的精度相对较低。为了研究有限的数据对实时高速公路交通事故风险建模、三个数据集包括高精度数据,小样本数据,数据被认为是低精度。首先,贝叶斯逻辑回归是用来识别和预测的风险三个数据集。其次,基于贝叶斯更新方法,对高、低迁移测试精度的数据集。最后,机器学习和统计方法的适用性低精度数据集进行了比较。结果表明,贝叶斯逻辑回归的预测性能改善与样本容量的增加。贝叶斯逻辑回归可以识别各种重大风险因素在不同精度的数据集。比较,支持向量机的预测性能优于贝叶斯物流。此外,贝叶斯更新方法可以改善移植模型的预测性能。
1。介绍
近年来,新能源汽车的潜在安全隐患逐渐吸引了注意力,尤其是纯电动汽车的事故(1,2]。随着新能源汽车和共享车辆进入高速公路,他们也面临着交通碰撞的风险。道路系统的重要子系统之一,高速公路大大促进了人们的出行,提高货物运输效率。同时,由于交通量大、速度快的高速公路的车辆,相对容易发生严重的交通事故,这带来了极大的危害人民生命和财产的安全。高速公路交通事故已成为不容忽视的问题之一(3]。
大量的学者做了大量研究交通安全。一些学者分析之间的内部关系因素导致事故和事故的分布规律的基础上,交通事故历史数据收集,然后提出了相应的对策。例如,考虑到时间的差异,元等人采用一种改进的关联规则挖掘算法,分析协会在高速公路交通事故的影响因素,发现隐藏的关联规则和算法改进的准确性(4]。田等人的时间和空间分布特征分析在山区高速公路事故历史事故数据的基础上,确定了重要的影响因素,并提出相应的改进策略(5]。一些学者分析了事故的主要影响因素根据特定的事故场景。在结Mergia等人分析了崩溃。指出酒后驾车和超速增加事故的严重程度在不同地区,恶劣的天气增加了事故的严重性合并区域,和逆线性条件会增加事故的严重程度在不同地区(6]。鑫等人研究的因素不是观察,证明,在不同的清规戒律,驾驶行为、环境特征和其他因素的影响有显著差异碰撞率(7]。Haghighi等人研究了道路设计特点在碰撞的影响,发现10英尺宽的车道和窄肩与碰撞严重程度显著相关,增加车辆密度和护栏长度可以降低事故严重程度(8]。为了研究的影响司机的年龄在碰撞严重程度,奥斯曼等人构建一个通用的命令响应概率单位模型减少异质性的干扰,发现每个变量在不同的年龄段有不同的影响事故(9]。许等人介绍了贝叶斯空间随机系数模型来考虑空间结构和非结构化数据的异质性研究碰撞速度的空间变化规律和原因因素,提高模型的拟合效果,验证了空间结构异质性的存在会导致偏差参数估计(10]。王等人研究了风险因素的影响城市交通事故频率同时考虑空间和时间相关/异质性的交通事故。线性回归模型、空间滞后模型(SLM),空间误差模型(SEM),和会期时间效应误差模型(T-FEEM)建立和比较,分别为(11]。找出相关的事故风险的因素在不同区域类型及其内在关系,杨等人把三个部分高速公路(市区、郊区和山区,在华盛顿州,美国)为研究对象,基于AHP改进先验的关联规则挖掘算法,确定了事故风险影响因素及其复杂的关联规则12]。李等人调查的可能性,使用支持向量机(SVM)模型进行碰撞损伤严重程度分析和比较了SVM的性能模型和顺序probit模型。发现产生的支持向量机模型更好的预测性能的碰撞损伤严重程度比OP模型(13]。此外,分对数和托比特书模型也被广泛应用在交通事故分析(14- - - - - -22]。
随着高速公路信息化的发展和动态交通管理的提高,实时碰撞风险模型已被广泛研究[23- - - - - -26]。基于回路探测器数据和事故数据收集的上海高速公路系统,太阳等人建立了一个贝叶斯网络(BN)模型来分析实时交通流参数和崩溃的风险高速公路(27]。你等人建立了一个支持向量机模型来分析高速公路交通流数据对后端崩溃。结果表明,支持向量机分类器有很高的实用价值和可靠性的实时碰撞预测基于交通流数据的单个卷探测器(28]。许等人建立了一个基于交通流的崩溃风险预测模型数据和气象数据通过使用基于美国高速公路物流模型数据。结果表明,天气状况产生重大影响事故风险(29日]。马等人建立了事故风险评估和分析模型使用高速公路事故数据和实时交通流数据。重要变量选择的随机森林算法,建立了支持向量机模型。模型在不同的内核函数的评价能力进行了比较。结果表明,该模型能有效地评价道路事故风险根据实时交通流量30.,31日]。
传统的“postevent“交通安全分析可以分析事故发生的主要影响因素,但很难反映动态交通流特性的影响在崩溃的风险。目前,大多数研究使用交通流数据建立实时碰撞风险模型是基于现有的数据进行建模和分析。然而,不同的地区有不同程度的发展,交通流量和交通事故的数据收集将是不同的。然后交通流变量也产生重大影响交通事故的发生呢?如果影响小,某些技术手段可以用来改善相应模型的准确性?
为了研究上述问题,根据所需的基本数据实时碰撞风险模型,本文构造数据集的三种类型:(1)高精度数据集;(2)小样本数据集;(3)低精度数据集。基于上述三种类型的数据集,统计和机器学习方法用于研究的分类和预测模型的性能在不同的数据集,并进一步分析了这两种方法的适用性。
从数据的角度,本文使用统计逻辑回归,贝叶斯理论和支持向量机来模拟不同类型的实时数据崩溃的影响风险建模。此外,不同方法的适用性比较在不同的数据类型。本文的结论可以作为一个参考为随后的公路交通安全的实践和研究。
2。数据描述
2.1。数据源
本文选择了交通流和交通事故数据的里程碑,100 - 132年我在2016年在华盛顿州。图1描述了研究区域的主要高速公路部分。
2016年,共有332个交通事故发生在这个高速公路的部分。在选定的区域,152组回路探测器排列双向,相邻环之间的平均距离约0.7公里。每个循环探测器收集平均速度、占用和交通量在20秒内每车道。
2.2。变量
在现有的研究中,交通流数据5分钟块用于分析,并得到好的研究结果(8- - - - - -13]。因此,本文采用交通流数据5分钟块进行分析,主要包括体积、速度、和每个车道的入住率。在坠机前5 - 10分钟的时间选择和两组上游和下游回路探测器都被考虑在内时,如图2。
除了上述的基本回路探测器检测到的数据,如体积、速度、和入住率的上游和下游循环,本文结合交通流变量如下(2]。考虑到体积的差值、速度、和占用上游和下游之间循环可能导致车辆事故、体积之间的差值的绝对值,速度,和占用上游和下游之间循环。同时,外侧车道之间崩溃也崩溃的主要形式之一。卷的平均差值、速度和入住率相邻车道构造描述相关变量之间的横向碰撞。的具体含义如表所示1。
2.3。样品结构设计
2.3.1。高精度数据集样本
高精度数据集是指交通流和交通事故的数据收集的数据由美国高速公路系统作为标准。在美国高速公路循环探测器铺设密度高,完全和交通事故信息收集。
本文采用配对抽样方法与控制样本,和noncrash数据在相同条件下为每个事故数据提取比例为1:4。事故数据noncrash数据的比例是1:4匹配(2]。数据预处理后,191年的交通事故数据和764年noncrash数据。高精度数据集样本如图3。
2.3.2。小样本数据集
为了研究数据样本量的影响实时碰撞风险模型构建,必须获得小样本数据与不同的样本大小。构建小样本数据集的主要观点摘要如下:获取和匹配精度高的数据集,并提取高精度的数据集的数据比例的5%,10%,20%,30%,和50%,构建不同比例的小样本数据集。在图所示的小样本数据集4。
2.3.3。低精度的数据集样本
低精度的数据集是指从数据收集的数据集构建探测器密度较低而美国高速公路系统。考虑到数据很难获得,本文构造一个低精度数据集通过某些手动处理方法。与在美国的高速公路系统相比,许多高速公路在中国没有完整的循环检测设备,和探测器之间的距离相对较长。本文的平均距离探测器某段高速公路在中国作为一个参考,和美国的高速公路数据被用来构造一个低精度数据集。低精度数据集样本如图5。
主处理想法如图6。手动删除在循环回路号码文件的一部分,剩余的循环之间的平均距离约等于参考价值。然后加工循环文件用于匹配精度较低的数据集的数据集。筛选后,总共有32个双向循环。低精度的数据集是由配对抽样检查方法,644年和161年崩盘数据和noncrash数据得到。
3所示。实时交通事故风险预测模型
3.1。贝叶斯逻辑回归
逻辑回归是一个广义线性回归模型中常用的统计方法。二项逻辑回归模型的基础上,本文建立了高速公路事故之间的碰撞风险模型和实时交通流量(23,28]。飞机失事概率研究的数据集对应于一个特定的数据显示如下: 在哪里代表了th数据;代表了事故发生的概率值;代表一个解释变量及其系数的线性组合。
使用贝叶斯方法估计逻辑回归模型的系数。贝叶斯方法假设所有模型中未知参数是随机变量。在建立贝叶斯模型 ,有必要设置先验概率分布所有的参数在模型中,代表该参数的已知信息获取训练数据 。在获得的训练数据 ,贝叶斯统计模型是统计推断通过后验概率分布。根据贝叶斯定理,后验概率分布的参数在模型可以表示如下:
公式(2)表明,参数的后验概率分布考虑两个训练数据中包含的信息Y和参数的已知信息 。 是参数的后验分布在模型米在给定的训练数据Y。 的联合概率分布Y和在模型米。代表的边际概率分布模型米,训练数据的概率分布Y在给定的条件下。代表的先验概率分布参数在模型米之前获得的训练数据Y。是模型的似然函数米。
3.2。贝叶斯更新方法
基于贝叶斯更新方法,贝叶斯Logistic回归模型建立了轮回的实时崩溃高速公路(32]。贝叶斯方法可以获得模型中每个参数的后验概率分布的先验概率分布模型移植期间可以复位。
也就是说,当低精度的数据集用于建立一个实时碰撞风险模型,贝叶斯方法可以用来获得每个风险因素的后验概率分布。当高精度数据集需要建立Logistic回归模型移植到低精度的数据集的后验概率分布的风险因素在前面的模型可以作为风险因素的先验概率分布在新模型中,如以下公式所示:
贝叶斯更新方法的示意图如图7。
是参数的后验分布在给定的数据集和 ; 似然函数;参数的先验概率分布 ; 似然函数给定数据集吗和参数 ; 和似然函数;是参数的后验分布在给定的数据集 。
3.3。支持向量机
支持向量机(SVM)是一种基于统计理论的机器学习分类算法(26,27]。它可以通过现有的信息和获得最优解可以处理小样本或有限的样本。在样本空间,线性支持向量机把超平面 区分标签数据集,法向量和吗是位移项。
任何点之间的距离x在样本空间和超平面可以写成
标记样本数据集 ,+ 1是事故数据,−1 nonaccident数据。如果能正确分类,它可以
当样本维度高,它可能导致样本数据的线性不可分离性。SVM对这种情况的处理方法是提高样本数据的维数,将线性nonfraction数据在低维空间到高维空间中的线性可分的数据,然后使用线性支持向量机在高维空间找到最优分类面。
3.4。评价指标
在数据分类模型,精度可以直观地显示模型的整体分类性能,即表示为正确分类样本结果的比例在总样本在所有样本如下公式所示: 在哪里代表样本的数量将是积极的;代表样本的数量预测-类-类;代表样本的数量预测消极和积极的类别;代表样本的数量预测正类作为负类。
混淆矩阵见表2可以直接显示模型的分类结果和计算相应的真阳性率(TPR)和假阳性率(玻璃钢)索引。
接受者操作特征(ROC)曲线可以利用TPR和玻璃钢。中华民国代表的曲线预测精度的数据集在不同概率阈值。ROC曲线下的面积的AUC值可以计算出测量模型的质量。AUC值越接近于1,模型的性能越好。
4所示。结果与讨论
4.1。小样本数据集的结果分析
为了研究不同样本大小的影响数据集建立碰撞风险模型,贝叶斯逻辑回归建立模型用于提取的5%,10%,20%,30%,和50%的高精度数据集,分别。表3显示了重要的风险因素为每个数据集由物流逐步回归筛选。
通过比较模型的重大风险因素与不同的样本数据集,它是发现,样本大小会影响实时碰撞风险模型。不同的模型不仅共享相同的(即。,the same impact factors) but also have their own characteristics. It provides a basis for subsequent analysis.
从表可以看出3,上游的速度循环(up_s每个数据集的)是一个重要的变量。这表明,对于不同的数据集,上游影响事故发生的一个重要因素,它扮演着一个重要的角色在解释事故的原因。与此同时,有其他危险因素的差异每个数据集。一些风险因素是重要的在一个小样本,而不是别人。这表明每一个小样本数据集有不同的特征和有一定差异实时碰撞风险模型的建立。
图8是中华民国曲线和AUC值图的实时碰撞风险模型建立的贝叶斯Logistic回归方法与不同的小样本数据集。
从图可以看出8,AUC值的变化实时碰撞风险模型建立了贝叶斯逻辑回归不会增加增加的样本数据集的大小,但在一个波动的状态。然而,AUC值减少的总体趋势。
对于每一个碰撞,交通流状态是不同的。当样本数据集的大小是不同的,数据集的结构比较复杂。贝叶斯物流的重大风险因素筛选模型建立了每组数据主要解释预测数据集的分类效果,每个数据集的重要危险因素的最佳组合筛选模型。因此,将会有不同的碰撞前体在不同数据集的结果。正如上面提到的,随着样本量的增加,数据集结构变得更加复杂。在给定的重大风险因素的组合在不同的数据集,事故的概率是更复杂的,因此模型的AUC指数会减少。
随着样本数量的增加,交通事故的数量也增加了。在这一点上,交通流状态的多样性的交通事故增加。筛查的风险因素,可以看出,风险因素变化的组合与不同的样本大小。的因素(如常见的意义up_s),每个数据集都包含的独特意义的因素。不同交通流状态的数据结构多样化。因此,模型的准确性基于不同的数据集可能会减少。同时,由于数据量的增加,交通事故的数据量也在不断增加。虽然整体模型的AUC值减少,甚至还在0.7或更高一点,表明交通事故分类正确数量的增加,。它还表明,当样本容量增加,尽管样本结构多样化,可以提取数据的法律随着样本容量的增加。这是改进后的模型的分类性能。样本量的增加可以提高实时碰撞风险模型的预测性能。
4.2。可靠性验证模型的可转让性
4.2.1。准备低精度的数据集和高精度数据集风险模型比较
逐步逻辑回归用于屏幕上有重大影响的因素的风险模型,并使用贝叶斯方法来估计模型的系数。表4显示了模型系数估算后的比较重要的风险因素。
从表可以看出4,有部分相同的解释变量之间有显著的水平低精度和高精密的数据集,例如abs_dif_o和up_s。表明这两个解释变量,在这两个数据集,上游的速度回路和占用上游和下游之间的差异的绝对值循环可以有效地解释事故的原因。两套数据集之间的差异up_dif_o低精度的数据集有一个重要的模型,解释影响down_dif_v和up_dif_s高精度的数据集对模型有更强的解释效果。系数的估计,它可以发现,每个系数的95%置信区间估计不包含0,表明估计的系数是重要的。上游的平均速度(up_s)两个模型的系数为负,表明,在指定的行驶速度范围的高速公路,平均上游速度的减少一个单位将导致崩溃风险的增加。
每一块数据分类和模型建立的准确性的两套数据集如表所示5。
与此同时,两个数据集的混淆矩阵模型分类和预测如表所示6和7。
中华民国曲线和AUC值模型的建立两个数据集的基础上,如图所示9。
(一)
(b)
通过上述指标的比较,可以发现,当数据集建立相对较稀疏的循环密度是用于建立贝叶斯Logistic回归模型,模型的分类精度为70.68%,略低于高精度数据集的分类精度与大型循环密度73.30%。然而,低精度的模型AUC值数据集是0.656,比这小得多的高精度数据集。原因如下:很少有解释性因素低精度的数据集和数据信息丢失,这在一定程度上影响模型的准确性。相比之下,当循环密度较大,可以收集更多的交通流信息,和交通变量产生重大影响交通事故可以筛选出来,从而使模型更加准确。
4.2.2。高精度数据的应用程序模型的基于集合的模型精度较低的数据集
应用模型的高精度低精度的数据集,数据集分类精度为69.3%,混淆矩阵如表所示8。
中华民国曲线和AUC值获得如图10。
直接应用模型建立了高精度低精度的数据集,数据集分类结果不如先前建立的低精度的数据集。当使用逻辑回归来筛选变量,变量最优组合的两个数据集是不同的。模型参数估计的过程中,获得最适合的是最好的变量在每组数据。因此,当应用于其他的数据集,将会有不适用的情况。可以看出,直接移植模型的不能达到一个更好的预测分类效果。
4.2.3。贝叶斯更新对高精度数据集模型和低精度数据集模型
(一)贝叶斯更新方法被用来更新和移植模型建立的原始精度高的后验分布数据集。低精度数据集模型的参数估计变量被认为是先验分布的参数估计精度高的数据集模型,然后更新它。获得的结果如表所示9。
更新后的高精度数据模型的分类精度为68.94%,和混淆矩阵如表所示10。ROC曲线和AUC值获得如图11。
(b)贝叶斯更新方法被用来更新和移植模型建立的原始低精度数据集。后验分布的参数估计精度高的数据集模型的先验分布变量被认为是低精度的数据集模型的参数估计,然后更新它。获得的结果如表所示11。
更新的分类精度低精度数据集模型是70.83%,和混淆矩阵如表所示12。ROC曲线和AUC值获得如图12。
通过更新模型建立的精度高的数据集,它可以发现,模型的预测精度不能有效地改善当模型应用于低精度数据集更新之前和之后。更新前的预测精度是69.3%和68.94%后的更新,减少了0.36%,AUC值降低了0.002。
通过更新模型建立的低精度的数据集,它可以发现,模型的预测精度是70.68%和70.83%,分别之前和之后的模型应用于低精度的数据集和分类精度提高了0.15%。此外,AUC值从0.656增加到0.657。
模型的分类精度为70.68%的低精度数据集。基于模型的评价指标、模型的分类精度在一定程度上提高了移植的结果。因此,69.3%不能满足要求,而另一个模型移植的结果达到70.83%的要求。相比之下,提高模型的比较小,仅为0.15%。然而,在交通安全领域,它将提高某些精度有实际应用意义。在后续的研究中,更好的模型或方法可以进一步提出让模型移植的结果更好。从上面可以看出,贝叶斯模型更新方法可以提高移植的效果在一定程度上,但整体效果是有限的,这表明这个方法确实可以进行移植模型。有限的改善的原因可能是解释效果最重要的因素在逐步回归筛选了,和之间的差别参数估计的贝叶斯方法和参数估计,最大似然估计很小。此时,模型的参数已经成为一个优秀的组合参数值。在贝叶斯更新的过程中,模型的先验信息几乎没有影响,所以整体改进模型的影响很小。
此外,它是必要的,以确定更新的模型对象。通过以上的研究和比较,可以得出结论,更新模型精度较低的数据集将获得模型具有更高的预测性能。
4.3。基于支持向量机的分类预测模型
为了与之前的研究相一致的方法,数据集没有分为训练数据集和测试数据集。分类预测模型精度高和低精度数据集建立了基于SVM的分类精度和混淆矩阵如表13- - - - - -15。
ROC曲线和AUC值如图13。
(一)
(b)
通过分析这两组数据集和支持向量机模型,本文发现,当循环密度相对稀疏,模型的精度确实有一些影响,低精度数据集建立支持向量机模型的准确性为76.9%,AUC值是0.8,高精度数据集建立支持向量机的精度是78.7%,和AUC值是0.82。两个模型之间的比较表明,高精度数据集建模要好。与其他机器学习模型相比,沈认为天气变量建立随机森林实时事故风险模型(33]。在这个模型中,模型的精度达到82.1%。在这项研究中,作者筛选数据的特点,把天气考虑在内。与支持向量机模型相比,精度提高了3.4%。在进一步的研究中,数据可能是相应的处理,和支持向量机的参数进行调整,以实现更高的预测性能。
与贝叶斯Logistic回归模型相比,在相同的低精度数据集的情况下,整体建立支持向量机模型的预测性能更好,分类精度提高了6.22%,AUC值提高了0.144。当循环密度很小,循环数据信息不发达,一个实时碰撞风险模型可以建立基于贝叶斯逻辑回归,可有效过滤掉崩溃的重大风险因素,可以详细解释和量化相应的风险因素。然而,严格的限制和数学关系的整体模型的预测效果。SVM是一个黑盒的机器学习算法,它能有效地学习特性的影响结果和反映他们的预测结果。
因此,当数据集不够准确,建议使用机器学习算法建立模型分类和预测崩盘的风险。当数据准确性好,统计逻辑回归方法可以用来屏蔽重大风险变量来解释事故风险预测模型和分类。
5。结论
考虑到实时数据有限条件的影响高速公路交通事故风险模型,本文构建高精度的数据集,低精度的数据集,和小样本数据集,这些数据集进行了建模和分析基于贝叶斯逻辑回归,和实时碰撞风险模型的可靠性移植基于贝叶斯更新验证。最后,建立了贝叶斯模型的优缺点后勤和支持向量机进行了比较。本文的主要结论如下:(1)贝叶斯逻辑回归的重大风险因素建立在不同样本大小是不同的。与样本容量的增加,模型的评价指标下降。然而,模型的整体性能得到改善。样本量的增加可以有效地提高模型的分类和预测性能。(2)当循环探测器收集到的数据密度很小,贝叶斯逻辑回归模型的预测性能弱于基于低精度的数据集的贝叶斯Logistic回归模型基于高精度数据集。此外,重大风险因素明显不同的两个模型,表明贝叶斯逻辑回归不适合低精度数据集。(3)基于贝叶斯更新方法,模型的有效性验证迁移。应用重要的变量参数的后验分布的贝叶斯物流模型基于高精度数据设置为低精度的数据集,这种方法可以提高贝叶斯物流模型的预测性能使用低精度数据集。(4)与贝叶斯逻辑回归相比,基于SVM的碰撞风险模型具有更高的预测性能。即使低精度的数据集的情况下,其预测性能明显改善与贝叶斯逻辑回归相比,表明支持向量机是一种更好的选择的情况下数据精度不足。然而,支持向量机不能有效解释的原因崩溃的风险。当数据质量高,贝叶斯逻辑回归可以用于建模和预测,和崩溃的风险可以解释道。
在这篇文章中,贝叶斯逻辑回归和支持向量机应用于分析各种数据集的影响交通事故的风险模型。此外,其他机器学习方法和工程特性的增强效果在碰撞风险模型的建立可以研究。一些碰撞风险模型移植的新方法也应该学习在未来。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关这项研究的出版物。
确认
这项研究受到了中国博士后科学基金会(2021 m700333)。