为了建立一个组合模型可以满足变化规则道路交通事故死亡人数的数据,可以反映出多种因素对交通事故的影响和改善预测精度为事故,Verhulst模型建立了基于中国道路交通事故死亡人数的数量从2002年到2011年;和汽车所有权、人口、GDP、公路货运量,公路旅客运输体积,公路通车里程的因素被选为建立多元线性回归模型的死亡人数。那么这两个模型结合起来是一个组合预测模型的权重系数。Shapley值法应用于计算权重系数通过评估的贡献。最后,合并后的模型被用来计算死亡人数的数量从2002年到2011年,和组合模型与Verhulst和多元线性回归模型。结果表明,新模型不仅可以描述死亡人数数据特征还量化的程度影响死亡人数由每个影响因素有很高的精度和很强的实用性。
循序渐进的“交通安全科技行动计划”,实施“法律的中华人民共和国道路交通安全法》,“交通事故的数量和损伤的程度显示自2004年以来下降趋势;然而,每年死亡人数仍约60 000。指标,在四个交通事故死亡人数有直接影响的安全感和社会的稳定度,因此了解死亡人数在未来有很大的指导意义进行后续的交通管理措施和政策,并将发挥指导作用的发展和方向交通安全保障技术。因此,协议的预测死亡人数一直是相关研究的关键(
常用的预测方法包括回归分析方法,指数平滑法、模糊分析方法和时间序列方法。领域的交通安全事故,灰色理论、马尔可夫方法,人工神经网络是几个主要的预测方法。例如,基于灰色模型GM(1,1)对交通事故预测,介绍了马尔可夫链预测方法的李et al。
上述方法都有自己的特点,但每个人都有自己的缺陷;例如,使用灰色理论中GM(1,1)模型,我们可以从交通事故数据进行分析数据的特点和变化规律,并预测未来的趋势。该模型易于使用,不需要考虑其他因素,但它只能描述单调变化的过程。如果结合马尔可夫理论,我们可以得到一个新的模型“灰色马尔可夫模型”适用于随机波动过程的交通事故;然而,正如为模型,没有统一标准的分类系统的状态。人工神经网络是一种方法,模拟了人类大脑的信息输入和决策输出过程,在这过程中,信息处理和模型建立的具体过程是没有显示,这是非常简单和方便,但是数据的精度影响很大。多元回归方法可以构建事故结果和相关因素之间的数学关系和量化过程和事故的各种因素的影响程度,而模型的准确性相对较差,选择的因素是可变的,和未来趋势的因素必须预测事故的最终预测之前,这意味着预测数据将作为因变量的预测。
本文总结和分析了上述两种模型的优缺点。首先,计划使用Verhulst模型,最适合交通事故灰色理论,做出初步预测的基础上,分析事故数据的特征(
近年来,交通死亡人数在中国的发展趋势表明饱和s形过程,所以它是适合使用Verhulst模型预测(
根据原始数据,一个累积生成操作数据序列
让
离散化公式(
使用最小二乘法来解决这个问题
的公式,
的参数值
模型的时间响应公式
逆累积的换算公式
计算的值
基于中国的交通事故死亡人数的数据从2002年到2011年,上述Verhulst模型的计算方法,可以建立一个预测模型。具体数据见表
中国的交通事故死亡人数从2002年到2011年。
| 一年 | 2002年 | 2003年 | 2004年 | 2005年 | 2006年 |
| 死亡/人 | 109381年 | 104372年 | 99217年 | 98738年 | 89455年 |
| 一年 | 2007年 | 2008年 | 2009年 | 2010年 | 2011年 |
| 死亡/人 | 81649年 | 73484年 | 67159年 | 65225年 | 62387年 |
进行逆累积操作原始序列的死亡人数
通过计算,
把上面的参数代入公式(
根据上面的公式,预测的死亡人数从2002年到2011年再一次,和残差计算。表中所示的细节
Verhulst模型预测值的交通事故死亡人数从2002年到2011年在中国。
| 一年 | 死亡/人 | 预测价值/人 | 相对误差/ % |
|---|---|---|---|
| 2002年 | 109381年 | 109381年 | 0 |
| 2003年 | 104372年 | 104176年 | 0.188 |
| 2004年 | 99217年 | 98859年 | 0.361 |
| 2005年 | 98738年 | 93468年 | 5.337 |
| 2006年 | 89455年 | 88042年 | 1.580 |
| 2007年 | 81649年 | 82621年 | 1.190 |
| 2008年 | 73484年 | 77246年 | 5.119 |
| 2009年 | 67159年 | 71955年 | 7.141 |
| 2010年 | 65225年 | 66785年 | 2.392 |
| 2011年 | 62387年 | 61769年 | 0.991 |
| 全面的错误 | 2.700 |
多元线性回归方法的主要思想是建立两个或更多的依赖和独立变量的相关分析。有许多相关的研究和技术是非常复杂的。回归模型建立后,统计模型的测试是必要的,包括确定系数测试(
道路交通系统主要由人,车,路,和环境,每个子系统包含多个因素。如果一个或多个因素出错,交通安全将贴现和交通事故的概率会增加。因此,道路交通事故预测分析需要从以上四个系统在宏观和微观方面;应考虑事故的特点,与事故相关的因素研究,和事故的过程和诱惑量化。本文研究了死亡人数法律和交通事故的未来发展趋势在中国,这属于macroresearch,因此本文打算选择一些macroindicators因素,如人口、车辆人口,公路通车里程,客运和货运周转量。选择macroindicators的主要原因是上述因素可以反映出整体的交通活动。例如,人口基数大,这次旅行体积相对较大;汽车数量的增加,公路通车里程将鼓励游客旅游;客运和货运周转量可以直接反映了频繁的乘客和货物的交通行为。众多的交通行为会增加交通事故的基数,与交通事故。 Besides, influenced by policies and security technology as well as some other factors, the number of traffic accidents and death toll should be subject to change; however, these kinds of factors were difficult to quantify, and if quantification was unscientific, the correctness and precision of the prediction model would be affected, so this paper would not select relevant indicators for the time being.
与交通事故死亡人数从2002年到2011年在中国作为因变量和上面的相关数据作为独立变量,建立了一个模型。详细的数据见表
从2002年到2011年的相关统计数据。
| 一年 | 死亡/人 | 车辆人口/ 104车辆 | 人口/ 104人 | 国内生产总值(GDP) / 108元 | 由公路货运量/ 104
|
客流量路/ 104人 | 公路里程/公里 |
|---|---|---|---|---|---|---|---|
| 2002年 | 109381年 | 2053.17 | 128453年 | 120332.7 | 1116324 | 1475257 | 1765222 |
| 2003年 | 104372年 | 2382.93 | 129227年 | 135822.8 | 1159957 | 1464335 | 1810000 |
| 2004年 | 99217年 | 2693.71 | 129988年 | 159878.3 | 1244990 | 1624526 | 1871000 |
| 2005年 | 98738年 | 3159.66 | 130756年 | 184937.4 | 1341778 | 1697381 | 3345200 |
| 2006年 | 89455年 | 3697.35 | 131448年 | 216314.4 | 1466347 | 1860487 | 3457000 |
| 2007年 | 81649年 | 4358.36 | 132129年 | 265810.3 | 1639432 | 2050680 | 3584000 |
| 2008年 | 73484年 | 5099.61 | 132802年 | 314045.4 | 1916759 | 2682114 | 3730200 |
| 2009年 | 67159年 | 6280.61 | 133474年 | 340902.8 | 2127834 | 2779081 | 3860823 |
| 2010年 | 65225年 | 7801.83 | 134091年 | 401512.8 | 2448052 | 3052738 | 4008229 |
| 2011年 | 62387年 | 9356.32 | 134735年 | 472881.6 | 2820100 | 3286220 | 4106387 |
SPSS 18.0被用来建立一个多元线性回归模型,计算上述因素之间的关联和依赖variables-death收费(见表
相关系数。
| 独立变量 | 相关系数与死亡相关的交通事故 |
|---|---|
| 车辆人口(104车辆) | 0.941 |
| 人口(104人) | 0.987 |
| 国内生产总值(108元) | 0.971 |
| 由公路货运量(104
|
0.951 |
| 由公路客运量(104人) | 0.974 |
| 公路里程(公里) | 0.890 |
在表
每个因素的系数值。
| 系数 | 标准错误 | 的价值 |
意义 | |
|---|---|---|---|---|
| 常数 | 779909.386 | 802935.957 | 0.971 | 0.403 |
| 车辆人口(104车辆) | −9.153 | 21.124 | −0.433 | 0.694 |
| 人口(104人) | −5.403 | 5.943 | −0.909 | 0.430 |
| 国内生产总值(108元) | −0.147 | 0.235 | −0.625 | 0.576 |
| 由公路货运量(104
|
0.087 | 0.141 | 0.618 | 0.580 |
| 由公路客运量(104人) | −0.028 | 0.027 | −1.054 | 0.369 |
| 公路里程(公里) | 0.003 | 0.003 | 1.023 | 0.382 |
回归模型的方程可以得到上述系数值:
的方程,
的死亡人数从2002年到2011年再次被上面的方程,预测和预报值的相对误差可以看到在桌子上
多元线性回归模型的预测价值的交通死亡人数从2002年到2011年在中国。
| 一年 | 死亡/人 | 预测价值/人 | 相对误差/ % |
|---|---|---|---|
| 2002年 | 109381年 | 110334年 | 0.871 |
| 2003年 | 104372年 | 105103年 | 0.700 |
| 2004年 | 99217年 | 97660年 | 1.569 |
| 2005年 | 98738年 | 96681年 | 2.083 |
| 2006年 | 89455年 | 89975年 | 0.581 |
| 2007年 | 81649年 | 83033年 | 1.695 |
| 2008年 | 73484年 | 72208年 | 1.736 |
| 2009年 | 67159年 | 69830年 | 3.977 |
| 2010年 | 65225年 | 64208年 | 1.559 |
| 2011年 | 62387年 | 62035年 | 0.564 |
| 全面的错误 | 1.534 |
假设组合预测模型
在上面的组合预测模型,加权系数将直接影响模型的准确性,所以合理的加权系数的选择是非常重要的。选择方法包括算术平均法、标准偏差法、均方逆法、层次分析法和最优加权法。算术平均数是最简单的方法,但由于贫穷的合理性,并不能反映模型之间的差异和贡献最终的预测结果。对于层次分析法,加权系数的值必须手动分配相关的学者,这是受主观因素。最优加权法的准确性非常高,但是计算复杂;此外,加权系数可能是消极的,在实际应用中有很大的局限性。
本文沙普利法确定权重系数,提出了一种数学方法,教授沙普利在1953年可以用来解决多人合作游戏,实现公平和有效的分配团队成员之间的总收入(
假设组合预测模型
在上面的公式中,
沙普利值的分布公式
的公式,
每种预测方法的权重的组合预测
据表的结果
基于夏普利值的概念,所涉及的“合作关系”成员的总误差分配组合预测模型
每个子集的错误。
| 子集 |
|
|
|
|---|---|---|---|
| 平均值的错误 | 1.534 | 2.700 | 2.117 |
根据沙普利计算方法,获得了每个成员的夏普利值如下:
两个成员的总和
基于上面的重量
使用上面的公式的组合预测模型来预测中国的交通死亡人数从2002年到2011年,结果,见表
组合模型预测的价值在中国交通死亡人数从2002年到2011年。
| 一年 | 死亡/人 | 组合模型的预测价值/人 | 相对误差/ % | Verhulst模型的相对误差/ % | 多元线性回归模型的相对误差/ % |
|---|---|---|---|---|---|
| 2002年 | 109381年 | 109595年 | 0.196 | 0 | 0.871 |
| 2003年 | 104372年 | 104384年 | 0.011 | 0.188 | 0.700 |
| 2004年 | 99217年 | 98590年 | 0.632 | 0.361 | 1.569 |
| 2005年 | 98738年 | 94190年 | 4.606 | 5.337 | 2.083 |
| 2006年 | 89455年 | 88476年 | 1.094 | 1.580 | 0.581 |
| 2007年 | 81649年 | 82714年 | 1.304 | 1.190 | 1.695 |
| 2008年 | 73484年 | 76114年 | 3.579 | 5.119 | 1.736 |
| 2009年 | 67159年 | 71478年 | 6.431 | 7.141 | 3.977 |
| 2010年 | 65225年 | 66206年 | 1.504 | 2.392 | 1.559 |
| 2011年 | 62387年 | 61829年 | 0.894 | 0.991 | 0.564 |
| 全面的错误 | 2.025 | 2.700 | 1.534 |
在上述三种模式,Verhulst模型可以反映事故数据的波动,这是一个伟大的改变它的精度;然而,综合误差2.700%还非常小。多元回归模型是受多种因素影响,有很多原始数据计算,这可能反映了实际数据的变化趋势,所以模型的准确性是很高的。最大相对误差仅为3.977%,综合误差仅为1.534%。组合预测模型的相对误差就上述两个模型之间的错误,和综合误差为2.205%。虽然有点准确性低于多个回归模型,该模型适用于中长期事故预测,因为这个模型的结果可以反映事故数据的变化规律,并且模型采用依赖关系的思想因素和事故的数量在多个回归模型;因此,它不仅能反映未来趋势定性,也反映了因素之间的数学关系和模型定量。
从2012年到2013年的数据不是用于建模,所以它们适合验证模型的准确性,和相关的统计数据从2012年到2013年如表所示
从2012年到2013年的相关统计数据。
| 一年 | 死亡/人 | 车辆人口/ 104车辆 | 人口/ 104人 | 国内生产总值(GDP) / 108元 | 由公路货运量/ 104
|
客流量路/ 104人 | 公路里程/公里 |
|---|---|---|---|---|---|---|---|
| 2012年 | 59997年 | 10933.09 | 135404年 | 519470.10 | 3188475 | 3557010 | 4237500 |
| 2013年 | 56017年 | 12670.14 | 136072年 | 568845.21 | 3076648 | 1853463 | 4356200 |
中国的交通死亡人数从2012年到2013年由公式计算(
组合模型预测的价值在中国交通死亡人数从2012年到2013年。
| 一年 | 死亡/人 | 多元线性回归模型 | Verhulst模型 | 组合模型 | |||
|---|---|---|---|---|---|---|---|
| 预测价值/人 | 相对误差/ % | 预测价值/人 | 相对误差/ % | 预测价值/人 | 相对误差/ % | ||
| 2012年 | 59997年 | 62402年 | 4.009 | 52130年 | 13.112 | 54437年 | 9.267 |
| 2013年 | 56017年 | 73962年 | 32.035 | 47911年 | 14.471 | 53762年 | 4.025 |
从表
交通事故的发生,伟大的随机性和burstiness,涉及人力、车辆、道路环境,和其他因素。很难预测事故的变化规律与普通模式。Verhulst模型被认为是最接近自己的变化规律预测模型;然而,它不能被用来描述其他因素的定量影响。
通过量化数学多因素变量和因变量之间的关系,多元回归模型可以反映客观规律,交通事故受到很多因素的影响;然而,很难选择的因素,并预测所需的数据预测,所以错误通常是非常大的。
结合以上两种方法,计算权重系数每个模型通过Shapley值法,组合预测模型可以构建基于Verhulst模型和多元线性回归模型。合并后的模型不仅可以描述的特性数据意外死亡,但死亡人数也量化的影响因素;此外,模型精度非常高,非常实用。
作者宣称没有利益冲突有关的出版。
本文由“中国国家自然科学基金(51308177号,51178158)”和“专门研究高等教育的博士项目基金(没有。20120111120021)”和“安徽省自然科学基金(没有。1408085 mg137)。”