识别和标记潜在风险驾驶:一个多级的过程使用真实的驾驶数据

文摘

每年,超过5000万人受伤,135万人死于交通事故。危险驾驶行为是负责超过一半的所有致命的交通事故。识别危险驾驶行为在实际驾驶(RWD)数据集是一个有前途的途径减少相关的死亡率负担这些不安全的行为,但许多技术障碍必须克服。在此,我们描述的实现多级过程分类标记RWD数据作为潜在风险。在第一阶段,数据格式,减少为分类做准备。在第二阶段,重新格式化数据的子集称为潜在风险(或不)使用Iterative-DBSCAN方法。在第三阶段,然后使用标记子集适合随机森林(RF)分类models-RF模型被选择后发现执行比逻辑回归和人工神经网络模型。在最后阶段,RF模型预测用于标签剩余的RWD数据作为潜在风险(或没有)。每个阶段的实现是RWD分类数据的描述和分析汽车在公共道路上行驶的安阿伯市密歇根。总的来说,我们发现2270万年观察驾驶2.682亿潜在风险的观察。 This study provides a novel approach for identifying potentially risky driving behaviors within RWD datasets. As such, this study represents an important step in the implementation of protocols designed to address and prevent the harms associated with risky driving.

1。介绍

每年,在全球范围内,交通事故导致135万人死亡,5000万人受伤1]。1998年在美国,美国国家公路交通安全管理局(NHSTA)发现,攻击性驾驶行为发生在大约三分之二的致命车祸(2]。从那时起,多个研究证实了攻击性驾驶行为之间的联系和致命的车祸3- - - - - -8]。AAA基金会发现,从2003年到2007年,超过一半的致命事故是攻击性驾驶行为的结果(9]。为了减少攻击性驾驶行为的危害,小说等识别策略驾驶行为是必需的。

“攻击性驾驶”的概念被正式定义在梅尔帕里的1968工作,“侵略的道路上,”他说,“汽车现在所涉及的压力增大使司机的心理效率更重要的因素比汽车他开车的机械效率”(10]。看着几个研究的话题,没有一个正式的共识的攻击性驾驶行为的定义,但它从粗心,鲁莽的行为“愤怒”11- - - - - -14]。一个定义了这些不同概念的攻击性驾驶行为如下:“驾驶行为是积极的如果是故意的,可能增加碰撞的风险,是出于不耐烦,烦恼,敌意,和/或试图节省时间”(15]。因为它不是通常可以准确地评估急躁,烦恼,或者司机的态度,一般简单的关注这definition-driving行为的中间增加碰撞的风险。因此,“危险驾驶”这个词被用在本研究而不是“攻击性驾驶。“然而,攻击性驾驶以来用于几个以前的研究,使用相同的术语指这些。

当危险驾驶的例子,如紧密衔接,闯红灯,超速,很容易认出(15),在实践中,确定实际风险驱动大规模复杂缺乏数据和策略正确评估表示数据。视频可能赶上一辆车闯红灯和GPS装置可以记录它的车辆超速,但所需的步骤可用数据和识别的危险驾驶行为模式需要创新的策略。这是特别重要的在处理“大数据”,这是目前在交通研究文献有限。

随着技术的进步,能够收集大量的真实的驾驶数据(RWD,如速度、加速度,车辆在整个旅行的标题)大大增加。使用机器学习策略来识别和分类的攻击性驾驶行为在这些大型RWD数据集是一个领域崭露头角的兴趣。一个数组的监督学习方法,如线性回归(16,17[],朴素贝叶斯分类18),支持向量机(19),人工神经网络(19,20.)、动态时间扭曲再邻居(21),随机森林22),和深度学习方法(23)已经被用于分类RWD数据作为积极的或不是。无监督方法如k - means (24,25),自组织映射(一种无监督神经网络)25],和DBSCAN [26)被纳入攻击性驾驶行为分类的努力,。

这些研究是重要的进步努力从RWD数据识别的攻击性驾驶。峰等人使用测量纵向混蛋为了识别的攻击性驾驶行为(16]。王等人创建的索引来确定不平稳的驾驶动作作为潜在的攻击性驾驶行为指标(17]。Jahangiri等人发现攻击性驾驶谈判时把建模的车辆穿越车道条纹(22]。几项研究使用RWD收集的数据从智能手机18,19,21,27]。香港等人RWD和约翰逊等人使用智能手机的数据来识别攻击性驾驶风格(18,21]。玉等人识别特定类型的攻击性驾驶行为的统计资料(如编织、抨击休息,等等)和使用智能手机RWD数据训练模型来识别这些行为(19]。Jeihani等人利用一系列的机器学习策略来确定观察突然变化(即统计概要。突然,突然下降速度和转)[28]。

尽管这些努力代表重要的步骤在减轻危险驾驶的危害,为机构和组织致力于改善交通安全,这些个人的研究并没有提供一个完整的帐户的所有必要的措施(如重组RWD数据分析和会计RWD大尺寸的数据通过时间和节约内存算法的选择)从RWD数据识别危险驾驶行为。提供一个指导危险驾驶分类的实现策略是必要的,以确保机构有权使用这些策略来提高本辖区内交通安全。

本研究的总体目的是为分类观察演示一个多级的过程在一个大型RWD数据集作为潜在风险,只使用运动数据。我们提出四个不同阶段的过程分为:格式化的数据分析;标签数据的一个子集作为潜在风险或不使用无监督学习技术;这些标签数据集培训监督学习模型;最后,利用这些模型标签剩余的RWD数据作为潜在风险。在每一步,我们提供具体实现细节可以帮助未来的策略识别潜在风险驾驶行为在RWD数据。因此,我们的方法首先试图通过驾驶行为(即组织观察。,left turns, right turns, accelerating, and merging) and then seeks to identify outlying observations within each group. Further, while researchers and agencies may opt to utilize different specific tools and strategies within each phase of the classification process, the four overarching phases presented herein provide a novel approach for implementing risky driving classification. We note as well that future research should seek to confirm if the process we employ successfully identifies observations related to risky driving outcomes such as car accidents and traffic violations, and we provide recommendations for future steps in the discussion.

2。数据描述和研究的网站

数据从安全飞行员模型部署(SPMD)研究通过研究获得的数据交换,通过美国联邦公路管理局(现在可以通过网站)29日]。数据被收集在2012年10月和2013年4月在安阿伯,MI,从近3000辆汽车。在这项研究中,数据从2013年4月的第一个星期被利用和子集只包括数据在瑙县(方便,在一个矩形的形状)。

本研究使用基本的安全消息(bsm)通过参与车辆。bsm的速度传播10 Hz,包含车辆的运动状态(即数据。、速度、加速度和角速度)和位置。具体来说,“BsmP1”文件的数据对应于2013年4月。这个文件是204 GB,大约15亿的观察。在这项研究中,使用这个文件的一个子集对应四个工作日和周末两天在这第一周和包含大约2.68亿个观测。数据存储在本地PostGreSQL数据库,使用R编程语言访问和操纵。为进一步关于“BsmP1”文件的详细信息,(引用文件的元数据30.,31日]。

3所示。方法

本研究的总体目标是设计和现在的协议识别潜在风险驾驶行为在大型RWD数据集。我们的方法的主要逻辑是数据的潜在风险驾驶行为看起来非常类似于nonrisky变化的数据配置文件(即相同的行为。、高风险的左转和高风险左转不会有类似的数据配置文件),然后,潜在风险的行为是那些为其特定行为(即至少正常。潜在风险的左转有一个数据概要outlies平均数据概要数据集的所有左转弯)。因此,这个过程被划分为四个主要阶段:重新格式化标记BsmP1数据子集进行分析(每天的一个子集);标签格式数据的子集潜在风险或不使用Iterative-DBSCAN (I-DBSCAN)方法;使用标记子集训练分类模型(随机森林)为每个各自的一天;最后,利用分类模型将整个天的相应数据。随机森林被选中后,比较它和逻辑回归和人工神经网络。

从4月开始,BsmP1数据1 - 7,2013年,被存储在七种不同的PostGreSQL表,每个各自的一天。由于编译错误,从周三开始,4月3日,不包括在本研究进行分析。因此,六BsmP1数据对应于4月1 - 2和表4 - 7被利用。每天我们选择分析的数据分别有三个主要原因:首先,由于可行性的大尺寸的数据文件;其次,以确保我们使用过程的再现性;第三,因为我们假设驱动模式在工作日和周末可能不同(由于工作上下班),因此可能会出现不同类型的危险驾驶行为。关于第二点,我们不注意reproducibility-while一致反映出精度建立任何方法论的一个重要特性的方法。关于第三,我们生成的直方图的观察时间为工作日和周末来证实这个假说。每一个表(∼2 - 5 GB)太大,有效分析R,因此,前三个阶段的过程,数据的随机子集(∼7 - 10%的完整的数据)被选为每个六天。是很重要的,以确保这些随机样本含有“完全开车旅行。“如果我们仅仅把随机观测,那么就没有保证连续的观测序列中提取阶段的描述,这将是澄清的重要性。IDs BsmP1数据包括独特的车辆,因此,我们随机选择100车辆每天的id(代表∼7 - 10%的车辆IDs)然后提取所有观察相应车辆id。

3.1。阶段一:重新格式化的子集

数据格式来解决两个问题:第一,以确保数据的格式最好的识别潜在风险的驱动;其次,以减少数据的大小,提高运行时我们的标记方法的可行性在两个阶段。对于第一个,BsmP1数据是一组观测的速度测量10赫兹。显而易见,当考虑这些数据是一辆车的驾驶行为不能被看个人理解时间点观察。单个观察是否包含信息的速度和加速度和偏航,但缺乏完整的上下文事件包含在。正因为如此,我们的部分重新格式化过程需要连续的30集BsmP1数据点并将其合并为单一的观察监控- - - - - -期数据代表3秒钟windows(30的观察10 Hz数据对应于3秒)。关于第二点,这些监控- - - - - -期每隔一秒钟观察生成(1 Hz),这意味着重新格式化数据集包含总数的10%的观察与原始的子集。在图1,我们提供一个视觉描绘时间点观察(红色钻石)是如何转化为监测期间观察(蓝色和绿色矩形)车辆可以看到在一个恒定的速度移动,每个监测期间矩形包含三十时期钻石,开始一段新的监控每十时期钻石。

图1

TP数据转化为像素的数据使用车辆匀速运动为例。红色的钻石代表TP观察和蓝色和绿色矩形代表议员观察。每个议员观察包含30新议员TP观察和观测开始每10 TP观察。的重要性,它是在每个议员指出,有重叠。第四、第五和第六个监测周期被染成绿色为了提高视觉可读性的团队之所以如此迫不及待地公布他们的颜色区别不举行进一步的意义。

一个子集的重新格式化过程如下。首先,观察是由车辆ID,然后按时间。我们不想把数据对应不同的车辆,也不是不同的旅行从相同的车辆,所以我们把每辆车的数据连续旅行。因为我们分类数据的时间,我们确定了跳跃的开始新的旅行的记录间隔时间观察。在这一点上,将数据分为个人连续旅行。然后,对于每一个旅行,时间点观察合并,这样每隔一秒,三秒的数据(即。,三十观测)合并成一个单一的观察。的时间点数据的速度、加速度、偏航和标题合并创建监测期间数据的平均值,标准差,最大和最小值的速度、加速度,和偏航率,以及整体改变标题和标准偏差的变化方向。独特的数据数组标识符为30时间点观察合并生成。的格式的数据集监控- - - - - -期数据被用于下一个阶段。

3.2。阶段二:标签格式的数据,一种无监督学习方法

后重新格式化,数据准备被贴上潜在风险。这个任务完成后使用一种无监督学习方法,通过两个主要步骤:首先,利用k - means聚类算法和航向变化阈值的数据子集到基本驾驶行为(教育局);其次,利用density-based空间聚类的应用程序与噪声(DBSCAN)聚类算法以迭代方式来识别潜在风险的驱动(32]。这种方法背后的基本概念是一套教育局发生(如加速,掉头,合并到高速公路,等等),这些教育局将可能有类似的统计资料。潜在风险的行为,然后,被确定为进一步异常值的数据点的规定集群,作为被运行在每个教育局DBSCAN cluster-this是为了捕捉异常火花机的实例。

这两个步骤的首先是识别所有教育局集群内的数据。要做到这一点,我们首先细分数据速度和航向的变化。除以速度,我们跑k - means只使用平均速度变量来产生三种不同的集群(低、中、高速)。基于速度的数据分类进行了预备一步类似以前的研究(17,24]。然后,数据进一步细分为五个不同的转类基于航向的变化(左,右转(标题的变化大于45度);左派和右派曲线(改变航向10至45度);和异性恋(标题在10度)变化)。随后,k - means运行在每个15子集,利用距离平方的总和“肘”的方法来确定最优数量的集群(聚类变量是:平均、最大速度和标准偏差;平均、最大、最小、标准差和加速度的混蛋;平均值,最大值,最小值,标准差,混蛋的偏航率)。结果这一轮的k - means代表教育局集群。

每个教育局的集群识别,DBSCAN进行迭代(I-DBSCAN) [26]。数据一直以来的想法是,聚集到教育局,每次迭代的数据密集和DBSCAN一起将集群的大部分数据。DBSCAN回报n集群和一套噪声(即。,未聚集的数据)。一个迭代的I-DBSCAN如下:首先,DBSCAN是运行在dataset-the“肘”的方法是用来确定最优参数ε;第二,集群被认为是“正常”的集群组成的至少90%的dataset-if没有这样的“正常”集群存在,I-DBSCAN从一开始就是终止并再次运行;第三,所有数据确定为噪声提取并贴上潜在风险;第四,如果任何额外的集群已确定,他们是提取并贴上潜在risky-if没有额外的集群识别,然后检查,如果没有额外的集群已经是第三次被发现,如果是这样,I-DBSCAN终止和返回的结果;最后,如果不终止,另一个I-DBSCAN迭代是利用“正常”进行集群的数据集。在某种意义上,这一过程就像剥洋葱的层了,最远的外围数据点在哪里“剥皮”,贴上潜在风险和密集的数据集在中间贴上不是潜在风险。I-DBSCAN后所有生成的教育局集群上运行,标签数据集是合并在一起。运行在所有教育局I-DBSCAN集群和合并后的结果,我们已经标记整个数据集。

为了完成这整个阶段,软件需要写入过程简化和自动化。自“肘”的方法运用在k - means和DBSCAN无法轻易自动化,一个R脚本编写semiautomate标记过程。用户通过标签的脚本编写走过程,提示用户输入的值在必要时“肘部”方法和自动化过程的所有其他方面。

3.3。第三阶段:预测危险驾驶,一种监督式学习的方法

数据标记,下一阶段是训练分类模型来识别潜在的危险驾驶行为。首先,它是必要的,以确定最优分类模型来承担这项任务。随机森林,我们选择比较逻辑回归和人工神经网络。

3.3.1。逻辑回归

逻辑回归模型是常用的在统计科学由于其易于实现以及提取的能力估计的因果关系(log-odds比率的形式)33]。给定一个二分结果0和1的可能值,计算出感兴趣的概率(作为一个值从0到1),一个事件发生时( ),给定一组已知的预测因子。一个典型的线性回归模型,从结果值来 ,不适合建模二分结果(33]。因此,逻辑回归模型是基于物流分布定义如下: 在这可以被理解为的期望值给定一组预测(33]。标签数据集组成的两个结果和预测可用于符合逻辑回归模型,利用最大似然估计值,计算模型系数。一旦符合逻辑回归模型,该模型可用于标签组成的数据集观察的预测。每组的观察, 可以计算,然后分配给每个观察这个值作为预测的概率 (33]。

3.3.2。随机森林

随机森林分类模型是一种强大的方法来实现一种“整体学习”,许多分类树生成和输出聚合生成的分类预测(34,35]。随机森林是建立在“装袋,”的概念n分类树生成独立于彼此,每使用一个独特的引导生成样本的训练数据集35]。二元分类,每一个n树木被认为有一个投票,最后分类的观察是基于多数投票的决定n树。在一个标准的分类树,从根节点开始,每个节点分裂基于模型中包含的所有预测,但是,在随机森林,每个节点的分裂的决定是由使用一个随机子样品可用的预测(35]。Liaw和维纳所指出的,“这有点不合常理的策略证明许多其他分类器相比,表现非常好,包括判别分析、支持向量机、神经网络和强大的反对过度拟合”(35]。

因此,有两个结果Y可能的值为0或1的训练集米向量的预测X,n通过上述方法生成分类树。在训练后,生成预测如下:每一个树,f_t,考虑到一套新的预测X′,返回值为0或1,表示每个树的结果被认为是一个投票。结果,要么是0或1,得到最多的选票, ,作为预测的返回值Y′为预测因子的集合X′。这在数学上可以理解如下:

3.3.3。人工神经网络

人工神经网络响应了数字难题:计算机能够解决数学计算的速度,远远超过人类的能力,但是,同时,不能解决复杂问题,人类有能力这样做瞬间(36]。包罗万象的概念是人类大脑的神经结构设计良好的回答复杂的问题,这样,一个算法复制这个架构同样可以回答。对于这个项目,我们认为是一个前馈的单隐层神经网络(37]。在这种体系结构中,有三层的神经元:输入层、隐层和输出层。输入层对应于输入变量(即。为每个变量),一个神经元。每个变量在输入层由加权连接流, ,每个隐层神经元(37]。我们使用一个网格搜索方法确定最优隐层神经元的数量从1到输入层神经元的个数。每个隐层神经元连接的加权流,β,单一输出层神经元37]。因此,鉴于n输入变量 ,米隐藏的神经元,二分结果Y和线性激活函数 ,神经网络可以定义如下: 在哪里的矢量流连接n输入神经元我^th隐藏的神经元,流连接吗我^th隐藏的神经元对单一输出神经元,b_我,相关的偏见吗我^th隐藏的神经元(37]。给定一个样本,l总体观察,预测集X_我和二分结果Y_我的值, ,β_我,b_我发现通过最小化模型输出与实际结果之间的距离值,如下(37]:

3.3.4。评价最好的模型适合

为了评估这三个建模方法最适合于预测潜在风险驾驶行为,我们跑5倍交叉验证标签的子集。在这个过程中,数据集被分成5组。对于每个组合的四组,选择四组用于训练分类模型,然后评估模型在识别潜在风险驾驶在五组。真阳性率和假阳性的每个迭代计算为了创建我们的主要评价指标,接收机操作曲线下的面积(AUC)。我们重复这些5倍验证25倍的三种分类模型和提取AUC平均成绩和相应的接收机操作曲线。作为一个次要结果,运行时提取。应当讨论的结果,随机森林分类模型优于他人。

后确定随机森林分类模型的最佳选择,随机森林模型是适合每一个六天的数据(4月1 - 2和4 - 7)。

3.4。阶段四:标签的所有数据

的随机森林模型4月1 - 2和4 - 7每一个训练有素的子集BsmP1每一天的数据,随机森林模型被用于标签的所有数据在每一个数据集。要做到这一点,数据提取每一个数据集通过车辆ID,转化为监测期间数据格式(使用相同的过程阶段中描述),然后标记利用各自的随机森林模型。这些标签数据集被保存在数据库中。在这一点上,所有的BsmP1数据,重新格式化监测期间格式,在4月1 - 2和4 - 7,贴上潜在风险。因为每一监测期间观察包括30的引用时间点观察合并创建它,然后选择也可用于标签原始BsmP1观察潜在风险(如果他们出现在任何风险监控- - - - - -期观察贴上危险)。作为额外的分析,我们每天标记每个数据集与每个其他的5(即随机森林模型。4月1日,我们标注数据集的4月2日和4月4 - 7数据集)。然后我们计算的比例具有潜在风险的观察(即每日观察到模型。,the April 1st model labeling the April 1st dataset), which are also identified as risky by each of the other day’s models. Finally, to better characterize differences between observations labeled as potentially risky and those that are not, we generated histograms of the distribution of two variables: acceleration jerk (derivative of acceleration) and yaw jerk (derivative of yaw). These values were calculated by comparing the first and last time point of each monitoring period. These variables were chosen because we hypothesize that risky driving behaviors will often be characterized by sudden changes in movement, which may be captured by changes in yaw and acceleration. Given large size of the datasets, we present the histograms with data corresponding to April 1.

4所示。结果

BsmP1数据子集的日历天,共有六个子集对应于4月1 - 2和4 - 7,2013(见表1对于每个表中的数据点数量和相应的车辆的数量)。进行分析,从每天100辆ID是随机挑选的,所有数据对应于每个车辆提取(见表ID和各自的一天1100年大小车辆随机样本)。由于技术数据库问题,数据对应于4月3日是不习惯。我们猜测,工作日和周末驱动模式是截然不同的,与平日驾驶模式被定义为峰值驾驶活动在早上和晚上。在图2我们显示直方图的工作日和周末开车观测时间,证实了这个假设。


日期	数据库的大小¹	的车辆数量	100辆样本大小¹

星期一,2013年4月1日	44.5	1395年	3.61
星期二,2013年4月2日	51.4	1418年	3.03
星期四,2013年4月4日	50.0	1430年	3.27
星期五,2013年4月5日	50.0	1405年	2.97
2013年4月6日,星期六	39.7	1133年	3.37
太阳,2013年4月7日	32.6	1072年	3.14

¹的观察,数百万。

(一)

(b)

4.1。阶段一:重新格式化数据

每六个子集转换时间点观察到监测期间格式。这导致了数据集的大小减少了一个数量级(见表2对于每个表之前和之后的观测数量转换,以及不同的连续开车旅行的数量确定在每个样本)。


日期	数据集的大小之前转换	转换后数据集的大小	不同的汽车旅行

2013年4月1日	361万年	291155年	1383年
2013年4月2日	303万年	257752年	1350年
2013年4月4日	327万年	277634年	3085年
2013年4月5日	297万年	250467年	1225年
2013年4月6日	337万年	203073年	1773年
2013年4月7日	314万年	212488年	811年

4.2。阶段二:标签与I-DBSCAN子集

集群协议分别适用于每一个尺寸重新格式化描述数据集标签所有点是潜在风险。每个数据集的比例贴上潜在风险的范围从8.25%到10.0%,表明聚类协议一致的方式表现(见表3数据点的原油数量和比例的数据点标记为潜在风险在每个数据集)。


日期	潜在风险的数据点	数据集的比例(%)

2013年4月1日	24021年	8.25
2013年4月2日	23063年	8.95
2013年4月4日	26296年	9.5
2013年4月5日	25227年	10.0
2013年4月6日	19672年	9.69
2013年4月7日	19666年	9.26

4.3。阶段三:随机森林模型拟合

带安全标签的数据时,我们比较三种不同的分类模型的性能正确地识别潜在风险的驱动点使用5倍交叉验证。总的来说,我们发现,随机森林表现逻辑回归和人工神经网络(见图3AUROC每个模型和表4每个分类的意味着AUC得分和运行时模型)。


模型	意味着ROC曲线下面积(AUC)	运行时为单5倍迭代(年代)

逻辑回归	0.731	7.3
随机森林	0.982	87.6
人工神经网络	0.927	483.0

识别随机森林的最佳分类模型后,我们适合不同的随机森林模型的六个标签数据集。这些随机森林分类模型对应于每个六天。

4.4。阶段四:标签的所有数据

六个随机森林模型安装在前阶段被用来标签PostGreSQL数据库中所有的数据对应。天车辆,提取的数据格式监测期间结构、标签使用相应的随机森林模型,然后插入一个新的PostGreSQL表对应的日期的观察。表5显示原始数据库表的大小,大小的新格式,标签表和条目标记为潜在风险的比例。在图4数据,我们目前的两个热点图对应250个随机选择的工具:一个所有这些车辆的观察(左)和观测贴上的其他潜在风险。


日期	原始数据库大小	标签格式数据库大小	标记潜在风险的比例(%)

2013年4月1日	4450万年	392万年	7.10
2013年4月2日	5140万年	432万年	7.54
2013年4月4日	5000万年	460万年	7.93
2013年4月5日	5000万年	447万年	8.90
2013年4月6日	3970万年	292万年	7.62
2013年4月7日	3260万年	243万年	6.89

接下来,我们试图确定cross-applying每个随机森林模型的性能在每个其他的数据集。在表6,我们介绍当天的比例的潜在风险驾驶行为模型最初发现cross-day模型也发现。例如,4月6日随机森林模型标记为223075年4月6日观测的潜在风险,4月5日随机森林模型还标注72.6%的223075观察潜在风险。整体,cross-day模型总是标签至少46.6%(包括80.2%)观察当天模型贴上潜在风险。这提供了一个指示,不同的潜在风险驾驶事件发生在不同的日子里,因此天都模型训练似乎捕捉这些差异。似乎有重大变化的模型,因此未来的研究应该努力寻求更好地理解这些变化和改进。


		数据集标签
		4月1日(%)	4月2日(%)	4月4日(%)	4月5日(%)	4月6日(%)	4月7日(%)

随机森林模型	2013年4月1日		49.1	65.7	47.1	46.6	52.8
	2013年4月2日	52.0		51.8	69.2	67.6	72.9
	2013年4月4日	59.3	49.2		47.7	50.0	57.0
	2013年4月5日	56.3	73.6	56.4		72.6	80.2
	2013年4月6日	50.6	69.0	54.4	69.4		73.4
	2013年4月7日	50.4	65.7	53.7	68.8	66.8

百分比代表的比例最初标记观察(当天模型)cross-day模型也确认。我们注意所有cross-classifications标记类似比例的每个数据集作为潜在风险(∼5 - 10%)。

最后,我们试图描述潜在风险的差异,而不是潜在风险的观察。我们推测,一些高风险驾驶事件会以更突然的运动和变化,因此,加速度的变化(加速度混蛋)和偏航率(偏航混蛋),平均大于nonrisky事件。评估,在图5,我们现在的直方图分布的对数的加速度和偏航混蛋潜在风险,而不是潜在风险的观察从4月1日。情节表明危险驾驶的观察往往具有更大的偏航和加速度混蛋。鉴于假设风险驾驶行为往往表现为突然改变运动,这提供了最初的验证,我们的方法适当确定这样的观察。

5。讨论

在这里,我们提出了一个多级的过程在一个大型的、无标号数据集RWD和确定观测代表潜在风险驾驶行为。现代技术进步取得了丰富的数据访问运输人员,但是方法和解决方案来处理这些数据是必要的,如果我们做出有意义的改善交通安全。,我们展示了如何无监督学习methods-k-means DBSCAN,和主成分分析和监督学习methods-logistic回归,随机森林,人工神经网络应用系统的方式来识别潜在的危险驾驶行为在RWD数据。虽然不是所有RWD数据集将结构相同,实施的四个阶段和细节提供交通研究人员和专业人士框架需要复制这个过程和识别潜在风险驾驶在他们自己的数据集。

而定义的过程提供了一个程序来识别潜在的危险驾驶行为,有直接的实现必须解决的障碍如果这样的一个方法是更普遍可用的。为了进行定义的阶段,我们的研究团队开发的软件工具在r . DBSCAN,主成分分析,和k - means都需要人机界面识别函数参数(通过“肘部”方法),考虑到这些算法需要多次运行,为我们的团队辅助软件简化这个过程完成这个项目。因此,有必要对软件解决方案,简化风险驱动识别过程。本文中概述的步骤提供一个新颖的方法来实现这样的软件解决方案。

该方法的应用程序是直接的。RWD通过识别潜在风险驾驶行为数据,我们可以确定何时何地潜在风险驾驶行为是最集中。这将提供交通机构实时、可操作的信息来改善交通安全在他们的辖区。它还提供了一种方法来衡量(即安全对策的有效性。,how much risky driving has been reduced after implementation of a desired countermeasure).

这项工作的主要限制是关于我们是否有真正识别危险驾驶行为。一般的想法是,通过k - means,我们已经识别出的每个基本驾驶行为(教育局)和潜在的风险驱动点,确定使用DBSCAN,那些露营的观察他们的集群。我们认为风险驾驶行为就会出现类似于nonrisky同行(即。,the macro-profile of a nonrisky left turn and a risky left will be very similar), but that when comparing observations of the same EDB, those risky driving behaviors will be identifiable by outlying statistics (i.e., a risky left turn may be identified by a greater acceleration than the average left turn). Future research steps should be taken to assess the external validity of the findings of this method. While we displayed that on average potentially risky driving observations labeled by our approach were characterized by higher yaw and acceleration jerk, future research should also seek to characterize individual EDB to better understand how the statistical profiles of potentially risky data points differ from those not labeled as such. Another limitation of the study was that the models developed were dependent on specific days. Separate-day models were trained, and it was shown that a model trained using a specific day can capture a minimum of 46.6% (up to 80.2% depending on the day) of potentially risky driving events on a different day. This raises a practical consideration in real-world use cases. Future work could focus on developing models for specific days (e.g., Mondays) across different weeks and investigate if, for example, a Monday model could consistently identify different potentially risky events if tested on a different Monday. A hypothesis to explore is that risky driving events are different (to some degree) across different days (i.e., Monday vs Friday) of week but very similar across same days of different weeks (Monday week 1 vs Monday week 2).

6。结论

总的来说,这项研究提供了多种对危险驾驶的进步贡献分类。的总体步骤提供一个新颖的方法RWD数据可以格式化和无监督和监督机器学习方法如何应用于识别潜在的危险驾驶行为。进一步,我们展示了特别k - means, DBSCAN,随机森林可以应用在这个努力。我们评估随机森林的predictivity(除了逻辑回归和人工神经网络),发现它是高度敏感和具体预测潜在风险驾驶行为。总之,我们提供了一个有意义的实现过程危险驾驶分类项目,努力改善交通安全的必要工具。

数据可用性

使用的数据来支持本研究的发现是公开的https://catalog.data.gov/dataset/safety-pilot-model-deployment-data。

信息披露

本文的内容反映了作者的意见,负责提供的事实和信息的准确性。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究是由安全通过中断(Safe-D)国立大学交通中心(UTC),美国交通部的资助的大学交通中心项目(联邦资助数量:69 a3551747115)。

引用

世界卫生组织,道路安全全球现状报告》2018年瑞士日内瓦,世界卫生组织,2018年。
国家公路交通安全管理局,激进的司机交通不同资本环城公路焦点小组的发现国家公路交通安全管理局,华盛顿特区,美国,1998年。
c . Ma陈汉宾、w .香和w·严”的攻击性驾驶行为的影响driver-injury highway-rail年级口岸的严重事故,”《先进的交通工具卷,2018年,页1 - 10,2018。视图:出版商的网站|谷歌学术搜索
t·e·博伊斯和e·s·盖勒”,检测车辆的评估问题行为和驾驶风格:,“事故分析和预防,34卷,不。1,51 - 64,2002页。视图:出版商的网站|谷歌学术搜索
b . g . Simons-Morton z, j·c·杰克逊和p . s . Albert“高架开车时重力事件预测崩溃和接近崩溃?”美国流行病学杂志》,卷175,不。10日,1075 - 1079年,2012页。视图:出版商的网站|谷歌学术搜索
克劳尔,t .新玩意儿,尼尔诉,j . Sudweeks和d·拉姆齐比较现实的行为驱动率高和低的崩溃和接近崩溃国家公路交通安全管理局,华盛顿特区,美国,2009年。
l·埃文斯交通安全科学服务社会,布隆菲尔德山,MI,美国,2004年。
r . Paleti: Eluru, c . r . Bhat”检查的攻击性驾驶行为的影响在交通事故的司机受伤严重,”事故分析和预防,42卷,不。6,1839 - 1854年,2010页。视图:出版商的网站|谷歌学术搜索
AAA交通安全基金会攻击性驾驶:研究更新华盛顿特区AAA交通安全基金会,美国,2009年。
m·h·帕里侵略的道路上:一个试点研究驾驶行为的情况,塔维斯托克出版物,伦敦,英国,1968年。
l . Mizell m .联合,d . Connel攻击性驾驶:三项研究华盛顿特区AAA交通安全基金会,美国,1997年。
d .示“攻击性驾驶:司机和的贡献情况,”交通运输研究F部分:心理学和行为,1卷,不。2、137 - 160年,1998页。视图:出版商的网站|谷歌学术搜索
k·h·贝克,m .问:王,m·m·米切尔”问题,性格和行为的司机:认同积极司机认为交通安全呢?”《安全研究,37卷,不。2、159 - 165年,2006页。视图:出版商的网站|谷歌学术搜索
s . k . Balogun: a . Shenge和s e . Oladipo”影响攻击性驾驶行为的社会心理因素在商业和私人汽车司机在拉各斯的大都市,“社会科学杂志卷,49号1,第89 - 83页,2012。视图:出版商的网站|谷歌学术搜索
l . Tasca“攻击性驾驶行为研究文献之回顾,”第一届全球网络会议论文集的攻击性驾驶,安大略省,加拿大,2000。视图:谷歌学术搜索
f .冯包,j . r .说话的佛兰纳根c m .程度和r . Wunderlich车辆纵向混蛋可以用来确定积极的司机?考试使用自然的驾驶数据。”事故分析和预防卷,104年,第136 - 125页,2017年。视图:出版商的网站|谷歌学术搜索
x, a . j . Khattak g . Masghati-Amoli j . Liu和美国的儿子”是什么级别的瞬时波动驱动决定?”交通研究部分C:新兴技术58卷,第427 - 413页,2015年。视图:出版商的网站|谷歌学术搜索
黄永发。香港,b .保证金和A·k·戴伊“攻击性驾驶行为,分享服务传感平台模型”第32届ACM会议程序在计算系统中人为因素丹佛市,页4047 - 4056,美国2014年。视图:谷歌学术搜索
j . Yu y朱、陈y, z . Chen l .香港和m·李,“细粒度异常驾驶行为检测和识别与智能手机,“IEEE移动计算,16卷,不。8,2198 - 2212年,2017页。视图:出版商的网站|谷歌学术搜索
m . Shahverdy m . Fathy r . Berangi, m . Sabokrou”司机使用深卷积神经网络行为检测和分类,“专家系统与应用程序,第149卷,第113240页,2020年。视图:出版商的网站|谷歌学术搜索
d·约翰逊和m . m . Trivedi”驾驶风格识别使用智能手机作为传感器平台”学报》2011年第14届国际智能交通系统IEEE会议华盛顿特区,页1609 - 1615,美国2011年。视图:谷歌学术搜索
a . Jahangiri诉j·贝拉尔迪的乳白色,s . Ghanipoor Machiani,“应用程序真正的字段连接车辆数据对攻击性驾驶行为识别水平曲线,“IEEE智能交通系统,19卷,不。7,2316 - 2324年,2018页。视图:出版商的网站|谷歌学术搜索
m·h·Alkinani w z汗,问:艾尔沙德,“检测驾驶员疏忽使用深度学习和攻击性驾驶行为:最新进展,要求和开放的挑战,”IEEE访问,8卷,第105030 - 105008页,2020年。视图:出版商的网站|谷歌学术搜索
a . Jahangiri s . g . Machiani诉Balali,“大数据探索研究攻击性驾驶行为智能城市的时代,”智能城市的数据分析CRC出版社,页163 - 182年,泰勒和弗朗西斯集团,2019年美国佛罗里达州博卡拉顿的。视图:谷歌学术搜索
j·李和k张成泽,”评价的攻击性驾驶行为的框架基于车载驾驶记录,“交通运输研究F部分:心理学和行为,65卷,2017年。视图:谷歌学术搜索
c标志、a . Jahangiri和美国Ghanipoor Machiani,“迭代DBSCAN (I-DBSCAN)识别标记内的攻击性驾驶行为真实的驾驶数据”《智能交通系统22日会议,奥克兰,新西兰,美国,2019年。视图:谷歌学术搜索
r . Akikawa et al .,“分享服务风险交通状况检测和分类,”学报2020年IEEE国际会议上普适计算和通信车间(PerCom研讨会),页1 - 6、奥斯汀、TX,美国,2020年。视图:谷歌学术搜索
m . Jeihani a . h .倒,a . Ardeshiri驾驶分心检测机器学习模型美国马里兰州巴尔的摩,摩根州立大学,2020。
美国运输部安全试验模型部署数据美国交通部,华盛顿,美国,2018年。
美国运输部,安全试验模型Deployment-Sample数据,来自安阿伯市,密歇根州,版本1美国交通部,华盛顿,美国,2014年。
美国运输部,安全试验模型部署采样数据环境数据手册,1.3版美国交通部,华盛顿,美国,2015年。
m .酯和H.-P。Kriegel,Density-Based算法发现在大型空间数据库集群的噪音,AAAI出版社,新奥尔良,洛杉矶,美国,1996年。
d . Hosmer s Lemeshow, r·斯特应用逻辑回归美国新泽西州霍博肯市威利,第3版,2013年版。
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
a . Liaw和m·维纳“随机森林分类和回归,”R新闻,2 - 3卷,2002年。视图:谷歌学术搜索
a . k . Jain j . Jianchang毛,k . m . Mohiuddin“人工神经网络:一个教程,”电脑卷,29号3,31-44,1996页。视图:出版商的网站|谷歌学术搜索
f . Lolli r .甘贝里尼a . Regattieri e . Balugani t .他是美国古奇,“单隐层神经网络预测间歇性需求,”国际生产经济学杂志》上卷,183年,第128 - 116页,2017年。视图:出版商的网站|谷歌学术搜索

《先进的交通工具

机器学习在交通工程中的应用

文摘