结合道路交通事故死亡人数的预测模型基于独立和相关的变量

文摘

为了建立一个组合模型可以满足变化规则道路交通事故死亡人数的数据,可以反映出多种因素对交通事故的影响和改善预测精度为事故,Verhulst模型建立了基于中国道路交通事故死亡人数的数量从2002年到2011年;和汽车所有权、人口、GDP、公路货运量,公路旅客运输体积,公路通车里程的因素被选为建立多元线性回归模型的死亡人数。那么这两个模型结合起来是一个组合预测模型的权重系数。Shapley值法应用于计算权重系数通过评估的贡献。最后,合并后的模型被用来计算死亡人数的数量从2002年到2011年,和组合模型与Verhulst和多元线性回归模型。结果表明,新模型不仅可以描述死亡人数数据特征还量化的程度影响死亡人数由每个影响因素有很高的精度和很强的实用性。

1。介绍

循序渐进的“交通安全科技行动计划”,实施“法律的中华人民共和国道路交通安全法》,“交通事故的数量和损伤的程度显示自2004年以来下降趋势;然而,每年死亡人数仍约60 000。指标,在四个交通事故死亡人数有直接影响的安全感和社会的稳定度,因此了解死亡人数在未来有很大的指导意义进行后续的交通管理措施和政策,并将发挥指导作用的发展和方向交通安全保障技术。因此,协议的预测死亡人数一直是相关研究的关键(1- - - - - -5]。然而,交通事故是很难预测由于其随机性。因为相关的预测方法都受到各种因素的影响,精度难以保证。

常用的预测方法包括回归分析方法,指数平滑法、模糊分析方法和时间序列方法。领域的交通安全事故,灰色理论、马尔可夫方法,人工神经网络是几个主要的预测方法。例如,基于灰色模型GM(1,1)对交通事故预测,介绍了马尔可夫链预测方法的李et al。6),然后灰色马尔可夫预测模型是由他。利用人工神经网络的优点,如强非线性逼近,模糊推理,和自学,盾和施7)建立了BP神经网络预测模型的交通事故。Zhang et al。8)和其他人来说,利用ARIMA模型,做了一些研究时间序列的平稳性的死亡率在中国100年有000人在交通事故中从1970年到1997年,使用SPSS软件适合的模型和预测。结论如下:ARIMA模型可以提高预测精度,可以应用于不同的季节性和季节性时间序列。基于灰色系统理论和马尔可夫理论,赵和徐9)和其他人使用系统云灰色模型SCGM (1,1) c以适应道路交通的一般趋势的时间序列数据,提出了灰色加权马尔可夫模型SCGM (1,1) c可以用来预测交通事故的数量。该模型适用于动态预测时间序列较短,更少的数据,而不是随机波动太大。

上述方法都有自己的特点,但每个人都有自己的缺陷;例如,使用灰色理论中GM(1,1)模型,我们可以从交通事故数据进行分析数据的特点和变化规律,并预测未来的趋势。该模型易于使用,不需要考虑其他因素,但它只能描述单调变化的过程。如果结合马尔可夫理论,我们可以得到一个新的模型“灰色马尔可夫模型”适用于随机波动过程的交通事故;然而,正如为模型,没有统一标准的分类系统的状态。人工神经网络是一种方法,模拟了人类大脑的信息输入和决策输出过程,在这过程中,信息处理和模型建立的具体过程是没有显示,这是非常简单和方便,但是数据的精度影响很大。多元回归方法可以构建事故结果和相关因素之间的数学关系和量化过程和事故的各种因素的影响程度,而模型的准确性相对较差,选择的因素是可变的,和未来趋势的因素必须预测事故的最终预测之前,这意味着预测数据将作为因变量的预测。

本文总结和分析了上述两种模型的优缺点。首先,计划使用Verhulst模型,最适合交通事故灰色理论,做出初步预测的基础上,分析事故数据的特征(10,11),描述事故的变化趋势;同时,为了反映了其他因素对交通事故的影响,多元回归模型方法建立交通事故造成的死亡人数分析交通事故的依赖关系;然后,为了结合两种模型的优点,交通死亡人数的预测模型相结合,基于独立和相关的变量。这个模型不仅可以反映出交通事故的变化的波动规律,也反映了交通死亡人数的相关法律由多种因素的相互作用引起的。

2。Verhulst模型交通死亡人数

2.1。Verhulst模型

近年来,交通死亡人数在中国的发展趋势表明饱和s形过程,所以它是适合使用Verhulst模型预测(12]。Verhulst模型构建的基本和过程如下。

(1)模型构建。让交通事故死亡人数的原始数据序列;是数据的数量。

根据原始数据,一个累积生成操作数据序列的死亡人数是建立如下: 在上面的公式中,之间的关系和是,。是连续的邻居序列意味着什么,: 所以被称为灰色Verhulst模型。考虑到是准备过冬Verhulst方程模型。

让向量的参数确定,,在这是发展和灰色号码内部控制灰数。

离散化公式(4)给。

使用最小二乘法来解决这个问题。

的公式,

的参数值,可以获得。把它们代入公式(3)来解决,让冬化方程的解决方案。即积累的时间响应函数生成序列

模型的时间响应公式

逆累积的换算公式

(2)剩余模型的测试。有必要测试精度之前建立一个预测模型,可确定有效性。剩余的测试是一种常用的测试方法。详细模型值和测量值进行测试。

计算的值由模型和转移来然后计算逆累积生成操作的绝对和相对误差序列的原始序列和:

2.2。死亡人数预测

基于中国的交通事故死亡人数的数据从2002年到2011年,上述Verhulst模型的计算方法,可以建立一个预测模型。具体数据见表1。


一年	2002年	2003年	2004年	2005年	2006年
死亡/人	109381年	104372年	99217年	98738年	89455年
一年	2007年	2008年	2009年	2010年	2011年
死亡/人	81649年	73484年	67159年	65225年	62387年

进行逆累积操作原始序列的死亡人数并给出了逆累积操作序列及其1-iAGO邻居代序列

通过计算,;给出了。

把上面的参数代入公式(7);预测模型如下:

根据上面的公式,预测的死亡人数从2002年到2011年再一次,和残差计算。表中所示的细节2。


一年	死亡/人	预测价值/人	相对误差/ %

2002年	109381年	109381年	0
2003年	104372年	104176年	0.188
2004年	99217年	98859年	0.361
2005年	98738年	93468年	5.337
2006年	89455年	88042年	1.580
2007年	81649年	82621年	1.190
2008年	73484年	77246年	5.119
2009年	67159年	71955年	7.141
2010年	65225年	66785年	2.392
2011年	62387年	61769年	0.991
全面的错误			2.700

3所示。多元线性回归方法

3.1。模型概述

多元线性回归方法的主要思想是建立两个或更多的依赖和独立变量的相关分析。有许多相关的研究和技术是非常复杂的。回归模型建立后,统计模型的测试是必要的,包括确定系数测试(测试),回归系数的显著性检验以及)和回归方程的显著性检验测试)。如果回归方程的显著的测试失败了,可能是重要的因素在选择中错过了独立的变量,或独立和相关的变量之间的关系是非线性的,在这种情况下,模型应该被重建。

3.2。影响因素分析模型

道路交通系统主要由人,车,路,和环境,每个子系统包含多个因素。如果一个或多个因素出错,交通安全将贴现和交通事故的概率会增加。因此,道路交通事故预测分析需要从以上四个系统在宏观和微观方面;应考虑事故的特点,与事故相关的因素研究,和事故的过程和诱惑量化。本文研究了死亡人数法律和交通事故的未来发展趋势在中国,这属于macroresearch,因此本文打算选择一些macroindicators因素,如人口、车辆人口,公路通车里程,客运和货运周转量。选择macroindicators的主要原因是上述因素可以反映出整体的交通活动。例如,人口基数大,这次旅行体积相对较大;汽车数量的增加,公路通车里程将鼓励游客旅游;客运和货运周转量可以直接反映了频繁的乘客和货物的交通行为。众多的交通行为会增加交通事故的基数,与交通事故。 Besides, influenced by policies and security technology as well as some other factors, the number of traffic accidents and death toll should be subject to change; however, these kinds of factors were difficult to quantify, and if quantification was unscientific, the correctness and precision of the prediction model would be affected, so this paper would not select relevant indicators for the time being.

3.3。死亡人数预测

与交通事故死亡人数从2002年到2011年在中国作为因变量和上面的相关数据作为独立变量,建立了一个模型。详细的数据见表3。


一年	死亡/人	车辆人口/ 10⁴车辆	人口/ 10⁴人	国内生产总值(GDP) / 10⁸元	由公路货运量/ 10⁴	客流量路/ 10⁴人	公路里程/公里

2002年	109381年	2053.17	128453年	120332.7	1116324	1475257	1765222
2003年	104372年	2382.93	129227年	135822.8	1159957	1464335	1810000
2004年	99217年	2693.71	129988年	159878.3	1244990	1624526	1871000
2005年	98738年	3159.66	130756年	184937.4	1341778	1697381	3345200
2006年	89455年	3697.35	131448年	216314.4	1466347	1860487	3457000
2007年	81649年	4358.36	132129年	265810.3	1639432	2050680	3584000
2008年	73484年	5099.61	132802年	314045.4	1916759	2682114	3730200
2009年	67159年	6280.61	133474年	340902.8	2127834	2779081	3860823
2010年	65225年	7801.83	134091年	401512.8	2448052	3052738	4008229
2011年	62387年	9356.32	134735年	472881.6	2820100	3286220	4106387

SPSS 18.0被用来建立一个多元线性回归模型,计算上述因素之间的关联和依赖variables-death收费(见表4)——来计算决定系数、测试值和测试值。表中所示的细节4。


独立变量	相关系数与死亡相关的交通事故

车辆人口(10⁴车辆)	0.941
人口(10⁴人)	0.987
国内生产总值(10⁸元)	0.971
由公路货运量(10⁴ )	0.951
由公路客运量(10⁴人)	0.974
公路里程(公里)	0.890

在表4,独立变量之间的相关系数的最小值和死亡人数为0.890,这表明,以上六个因素与交通死亡人数有显著相关性,因此构建一个多元线性回归模型是可行的。此外,测定系数的回归模型,,这表明数据回归的模型方程是非常高的。每个因素的系数表所示5。


	系数	标准错误	的价值	意义

常数	779909.386	802935.957	0.971	0.403
车辆人口(10⁴车辆)	−9.153	21.124	−0.433	0.694
人口(10⁴人)	−5.403	5.943	−0.909	0.430
国内生产总值(10⁸元)	−0.147	0.235	−0.625	0.576
由公路货运量(10⁴ )	0.087	0.141	0.618	0.580
由公路客运量(10⁴人)	−0.028	0.027	−1.054	0.369
公路里程(公里)	0.003	0.003	1.023	0.382

回归模型的方程可以得到上述系数值:

的方程,死亡人数/人,车辆人口/ 10吗⁴车辆,人口/ 10⁴人,国内生产总值(GDP) / 10⁸元,被公路货运量/ 10吗⁴ ,被公路客运量/ 10吗⁴人,公路里程/公里。

的死亡人数从2002年到2011年再次被上面的方程,预测和预报值的相对误差可以看到在桌子上6。


一年	死亡/人	预测价值/人	相对误差/ %

2002年	109381年	110334年	0.871
2003年	104372年	105103年	0.700
2004年	99217年	97660年	1.569
2005年	98738年	96681年	2.083
2006年	89455年	89975年	0.581
2007年	81649年	83033年	1.695
2008年	73484年	72208年	1.736
2009年	67159年	69830年	3.977
2010年	65225年	64208年	1.559
2011年	62387年	62035年	0.564
全面的错误			1.534

4所示。结合交通死亡人数的预测模型

假设组合预测模型,在这每个模型的加权系数,,。本文的模型两个模型的结合,我们可以让Verhulst模型和让是多元回归模型建立组合预测模型。

在上面的组合预测模型,加权系数将直接影响模型的准确性,所以合理的加权系数的选择是非常重要的。选择方法包括算术平均法、标准偏差法、均方逆法、层次分析法和最优加权法。算术平均数是最简单的方法,但由于贫穷的合理性,并不能反映模型之间的差异和贡献最终的预测结果。对于层次分析法,加权系数的值必须手动分配相关的学者,这是受主观因素。最优加权法的准确性非常高,但是计算复杂;此外,加权系数可能是消极的,在实际应用中有很大的局限性。

本文沙普利法确定权重系数,提出了一种数学方法,教授沙普利在1953年可以用来解决多人合作游戏,实现公平和有效的分配团队成员之间的总收入(13]。最大的优势是,原则和结果容易被对方视为公平,结果很容易被接受。的总误差预测相结合,生成的联合行动的原因各单一预测方法的预测相结合的过程中,可以被视为一种“合作关系”的预测方法相同的目的。

4.1。Shapley值法

假设组合预测模型各种预测方法,可以用,的任何子集,是这个子集的综合误差,误差的绝对值th预测方法,总误差的预测相结合。的值如下:

在上面的公式中,的样品和数量吗相结合的预测误差th预测方法与数据。

沙普利值的分布公式

的公式,是一组包含预测模型。在组合预测模型的数量。是重量系数反映模型的贡献组合模型。是去除模型模态的组合。

每种预测方法的权重的组合预测

4.2。重量计算的预测模型

据表的结果2和6,总组合预测的误差。

基于夏普利值的概念,所涉及的“合作关系”成员的总误差分配组合预测模型,合并后的错误他们所有的子集,分别。结合错误的值中包含向量误差的平均值高于子集。见表7。


子集

平均值的错误	1.534	2.700	2.117

根据沙普利计算方法,获得了每个成员的夏普利值如下:

两个成员的总和的总和,这表明两个错误产生两种单一预测方法等于总误差。这表明,每种方法的共同错误的计算是正确的。和共同的价值观表明预测模型的精度。根据上面的计算和公式,最终的重量各单一预测方法的组合预测模型

基于上面的重量和,组合预测模型有如下:

4.3。分析模型的准确性和结果

4.3.1。预测的值从2002年到2011年在中国交通死亡人数

使用上面的公式的组合预测模型来预测中国的交通死亡人数从2002年到2011年,结果,见表8,可以通过计算获得的。


一年	死亡/人	组合模型的预测价值/人	相对误差/ %	Verhulst模型的相对误差/ %	多元线性回归模型的相对误差/ %

2002年	109381年	109595年	0.196	0	0.871
2003年	104372年	104384年	0.011	0.188	0.700
2004年	99217年	98590年	0.632	0.361	1.569
2005年	98738年	94190年	4.606	5.337	2.083
2006年	89455年	88476年	1.094	1.580	0.581
2007年	81649年	82714年	1.304	1.190	1.695
2008年	73484年	76114年	3.579	5.119	1.736
2009年	67159年	71478年	6.431	7.141	3.977
2010年	65225年	66206年	1.504	2.392	1.559
2011年	62387年	61829年	0.894	0.991	0.564
全面的错误			2.025	2.700	1.534

在上述三种模式,Verhulst模型可以反映事故数据的波动,这是一个伟大的改变它的精度;然而,综合误差2.700%还非常小。多元回归模型是受多种因素影响,有很多原始数据计算,这可能反映了实际数据的变化趋势,所以模型的准确性是很高的。最大相对误差仅为3.977%,综合误差仅为1.534%。组合预测模型的相对误差就上述两个模型之间的错误,和综合误差为2.205%。虽然有点准确性低于多个回归模型,该模型适用于中长期事故预测,因为这个模型的结果可以反映事故数据的变化规律,并且模型采用依赖关系的思想因素和事故的数量在多个回归模型;因此,它不仅能反映未来趋势定性,也反映了因素之间的数学关系和模型定量。

4.3.2。预测的值从2012年到2013年在中国交通死亡人数

从2012年到2013年的数据不是用于建模,所以它们适合验证模型的准确性,和相关的统计数据从2012年到2013年如表所示9。


一年	死亡/人	车辆人口/ 10⁴车辆	人口/ 10⁴人	国内生产总值(GDP) / 10⁸元	由公路货运量/ 10⁴	客流量路/ 10⁴人	公路里程/公里

2012年	59997年	10933.09	135404年	519470.10	3188475	3557010	4237500
2013年	56017年	12670.14	136072年	568845.21	3076648	1853463	4356200

中国的交通死亡人数从2012年到2013年由公式计算(13),(14)和(20.),的值和相对误差如表所示10。


一年	死亡/人	多元线性回归模型		Verhulst模型		组合模型
一年	死亡/人	预测价值/人	相对误差/ %	预测价值/人	相对误差/ %	预测价值/人	相对误差/ %

2012年	59997年	62402年	4.009	52130年	13.112	54437年	9.267
2013年	56017年	73962年	32.035	47911年	14.471	53762年	4.025

从表10,死亡人数的预测价值的多元线性回归模型在2012年是62402,相对误差为4.009%,但73962年和2013年的32.035%。通过分析道路的客流量在2013年,它与2012年相比下降到52.107%。但从2002年到2011年,由公路客流量每年增长近10%。这可能是一个伟大的关系在2013年中国高速铁路的操作,因此预测结果与现实之间有很大的差距在2013年。结果表明,多元线性回归模型不稳定投影在政治和经济的不稳定。Verhulst模型的稳定性高于多元线性回归模型从表10,但它也有一个很大的相对误差,13.112%和14.471%,分别在2012年和2013年。死亡人数预测组合模型的价值很好,相对误差是9.267%,2012年4.025%,2013年,结果符合实情,所以组合模型有效性较高。

5。结论

(1)交通事故的发生,伟大的随机性和burstiness,涉及人力、车辆、道路环境,和其他因素。很难预测事故的变化规律与普通模式。Verhulst模型被认为是最接近自己的变化规律预测模型;然而,它不能被用来描述其他因素的定量影响。(2)通过量化数学多因素变量和因变量之间的关系,多元回归模型可以反映客观规律,交通事故受到很多因素的影响;然而,很难选择的因素,并预测所需的数据预测,所以错误通常是非常大的。(3)结合以上两种方法,计算权重系数每个模型通过Shapley值法,组合预测模型可以构建基于Verhulst模型和多元线性回归模型。合并后的模型不仅可以描述的特性数据意外死亡,但死亡人数也量化的影响因素;此外,模型精度非常高,非常实用。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

本文由“中国国家自然科学基金(51308177号,51178158)”和“专门研究高等教育的博士项目基金(没有。20120111120021)”和“安徽省自然科学基金(没有。1408085 mg137)。”

引用

r . j .中小企业“公式的有效性在交通工程和道路安全,”事故分析和预防,4卷,不。4、303 - 312年,1972页。视图:出版商的网站|谷歌学术搜索
r . Fieldwick和r . j .布朗,“道路伤亡,限速的影响”交通工程和控制,28卷,不。12日,第640 - 635页,1987年。视图:谷歌学术搜索
S.-P。Miaou”,卡车事故之间的关系和几何设计的道路部分:泊松和负二项回归,”事故分析和预防,26卷,不。4、471 - 482年,1994页。视图:出版商的网站|谷歌学术搜索
T.-j。张,c c。唐,y。康,d .赵“泊松分析交通事故预测模型及其应用”高速公路和交通研究期刊》的研究和发展,27卷,不。6,132 - 137年,2010页。视图:谷歌学术搜索
X.-M。乔,a .徐和w·蜀”,中国道路交通事故的发展趋势预测,“长安大学学报,24卷,不。6,64 - 66年,2004页。视图:谷歌学术搜索
李x y:张,g . f .江”Grey-Markov模型预测交通事故。”高速公路和交通研究期刊》的研究和发展,20卷,不。4、98 - 101年,2003页。视图:谷歌学术搜索
s h。董和Z.-s。史”,研究基于BP神经网络的道路交通事故预测,“中国安全科学杂志,20卷,不。9日,15 - 20,2010页。视图:谷歌学术搜索
j . Zhang X.-M。刘,杨绍明。关铭他和Y.-S。陈,“应用ARIMA模型预测交通事故。”北京大学技术杂志》上,33卷,不。12日,第1299 - 1295页,2007年。视图:谷歌学术搜索
l .赵和H.-k。徐:“交通事故预测基于加权灰色马尔可夫SCGM (1,1) c,”计算机工程与应用,48卷,不。31日,第11 - 15,2012页。视图:谷歌学术搜索
F.-J。王,蔡博富。李,C.-Z。玉,“道路交通事故灰色Verhulst预测模型”,交通运输工程杂志》上》第六卷,没有。1,第126 - 122页,2006。视图:谷歌学术搜索
黄永发。郑,M.-F。黄,h·陈,“建设和实施道路交通事故灰色预测模型在福州,”武汉理工大学学报(交通科学与工程),35卷,不。3、634 - 636年,2011页。视图:出版商的网站|谷歌学术搜索
g . s . Liu见鬼,n .谢灰色系统理论及其应用,科学出版社,北京,2010。
l . s . a .沙普利值n人游戏美国新泽西州普林斯顿大学,普林斯顿大学出版社,1967年。

计算智能和神经科学

文摘