文摘

近年来,自动驾驶系统被认为是最热门的研究主题之一,人工智能(AI)和智能交通系统(ITS)。旅行经验自动车辆和个性化的智能自动驾驶系统可以改善驾驶的理解。尽管先前的研究已经提出方法驾驶风格的理解,个性化驾驶分类还没有彻底解决。因此,在这项研究中,提出了一种监管方法理解驾驶行为结构和潜在的驾驶风格,通过融合先验知识。首先,一个新颖的方法建立了驾驶行为编码和原始数据挖掘。然后,标记潜在狄利克雷分配(LLDA)提出了解潜在的驾驶风格从个人驾驶和驾驶行为。最后,飞行员安全模型部署(SPMD)数据被用来验证该模型的性能。实验结果表明,该模型揭示了潜在的驾驶风格有效地显示真实情况的好协议,它提供了理论指导对驾驶行为识别在自动驾驶车辆更好的个人体验。

1。介绍

自动车辆技术发展迅速,已经应用在一些城市公共生活。自动化工具,如自动化出租车和自动化汽车共享,可以为人们的日常通勤提供服务。现在,自动化在广州等城市,出租车已经被证明是可行的,上海和长沙在中国政府和像百度这样的公司合作,Weride, Robotaxi。据估计,自动化车辆将在未来获得更多的显著增长和关注。同时,满足人们的骑在成功中扮演着重要角色的自动车辆。更好、更个性化的服务可以提供,如果驾驶风格的驾驶员或乘客准确识别。然而,交通环境通常是复杂的,在短时间内可能不同;异构司机也许会有不同的反应甚至在相同的交通环境,称为潜在的驾驶风格。如图1(即,当接近一个低速车。,the red one), a driver with the moderate driving style (i.e., the blue one in the right-hand side of Figure1,以下称为温和驱动程序)往往倾向于遵循前面的汽车,而不是改变车道和超越。在这种情况下,乘客适应激进的驾驶风格(以下称为激进的乘客)可能会觉得不舒服,导致低满意度;同样,温和的乘客可能会经历不舒服当积极的司机决定改变车道超过前面的车一样的情况。分析和理解不同的驾驶风格的异构驾驶员自动可以帮助减少passenger-driver对失配率,以这样一种方式,提高旅客满意度。

研究驾驶风格最近执行;一个巨大的数量的影响因素导致不同的驾驶风格的定义。基于不同的定义、方法和传感器数据在之前的研究成果,主要是认为不同的驾驶风格本身和驾驶的司机相关信息数据代表驾驶行为。实例的司机的信息,Rios-Torres等人收集真实的混合能源汽车(HEV)驾驶数据包括平均速度,加速度,和用户信息,如年龄,性别,和家庭收入为进一步研究提取驾驶员的驾驶风格。司机的内部因素和驾驶行为都是考虑更好的驾驶风格的理解1]。Taubman-Ben-Ari等人发现关系司机驾驶风格的内部因素包括年龄,性别,工作,教育和人格(2]。自我报告工具开发MDSI检查驾驶风格和因素之间的关联。它发现自尊,需要控制,感觉寻求和外向性显著相关的驾驶风格。哈维尔等人采用心率传感器发现驾驶风格和心率的相关性(3]。研究表明,积极的行为是在2.5%和3%之间跳动每分钟高于安静的行为。我们之前的研究也表明,驱动上下文像行人轨迹也在驾驶行为产生重大影响4]。专注于驾驶行为,邓小平等人设计了一个驾驶行为问卷了解并对司机进行分类,包括28个项目对驾驶行为(5]。通过构造速度曲线和accel模型来修改它们,速度曲线和曲线得分27%更好。然而,只有驾驶行为和主观判断可能不正确地代表驾驶风格隐藏在驾驶员。Marinez等人表示,只有司机内在因素和驾驶行为可能过分单纯代表驾驶风格。司机的驾驶风格是一种必要的个人开车,和相同的驾驶行为在不同交通环境可能不同提取驾驶风格(6]。例如,虽然前面的障碍是在路上,司机可能与高速或低速行驶。前司机往往是积极的,而后者可以被归类到“温和”或“小心”类。为了解决发现的问题个性化开车,应该提出一个模型提前发现潜在的驾驶风格。

潜在狄利克雷分配(LDA)的主题模型在发现潜在的创新应用主题从行为数据而不是自然语言处理(7),例如,挖掘个体行为模式从个体行为模式从看电视(电视)模式(8),分析自主移动机器人行为LDA-based方法(9),发现潜在的量化结构通过LDA模型和KFCM模糊c(内核)的算法(10),和理解个性化驾驶状态利用LDA模型(11]。然而,与我们之前的工作相比,该模型是不受监督,监督模型可以利用先验知识(即。特定任务的类标签)学习一个有效的模型,使更多的驾驶风格识别的意义。此外,专注于汽车运动数据削弱交通场景的重要性在复杂的驾驶风格识别,这可能会导致不准确的驾驶风格识别。总而言之,我们提出一个模型,使用监督知识和上下文数据。

1.1。文献综述

近年来,有研究驾驶风格识别的科学研究。提出了各种方法和适应在驾驶行为识别11- - - - - -13,18]。驾驶风格识别的问题主要是考虑作为一个分类问题从数据与司机相关信息。

许多非监督机器学习方法对集群上执行驾驶风格识别。Constantinescu等人提出了PCA(主成分分析)和HCA(分层聚类分析)来描述行为与时间序列车辆运动数据12]。运动数据记录每个司机的驾驶行为准确地说,五个类别的驾驶风格从“主动”后“咄咄逼人”的分析。范Ly等人使用无监督方法k - means和监督学习方法SVM(支持向量机)进行驱动程序分类(13]。开车从内部传感器是公认的基于事件的车辆运动数据。不同排列的刹车,转向和加速事件,驾驶风格被归类为集群的结果。陈等人使用高斯混合模型来分析驱动信号包括刹车灯开关,纵向和横向加速度,方向盘角度,和车辆速度(14]。视觉驱动信号分布的信号作为驾驶风格识别提出了加速度剖面,使福利更好的ADAS(高级驾驶员辅助系统)设计。朱等人采用k - means模型集群行驶参数包括最小时间行驶在同一车道,加速度,和时间超过限制速度15]。它反映了三种类型的驾驶活动,加速,驾驶速度,改变车道。与模糊综合评价、集群相似度超过60%。张等人提出了DBSCAN模型,一个无监督聚类方法,对驾驶风格进行分类与车辆行为特征后代表Gipps模型(16]。刘等人表现出semisupervised Tri-CatBoost方法减少驾驶风格识别的标签数据(17]。该模型有效地降低标签依赖原始高维驾驶行为数据,提高了分类精度。

一些研究指出,驾驶风格基于驱动的数据可以通过隐马尔可夫过程模型进行建模。邓等人提出的方法基于隐马尔科夫模型的时序驱动制动过程数据(18]。每个制动事件编码与制动力、制动冲动,和时间窗口的刹车隐马尔科夫状态;该模型实现有效的驾驶风格判别。太阳等人提出了一个通过多维高斯的驾驶风格识别方法隐藏的马尔可夫过程与车辆的均方根加速度样本(19]。同样,王等人提出了一种层次隐马尔可夫模型对驾驶模式分析驾驶风格萃取(20.]。汽车行为分割后的加速度、速度和距离导致车辆被HDP-HSMM提取(隐藏狄利克雷process-hidden半马尔科夫模型)。后驾驶模式使用HDP-HSMM频率分布显示了司机,驾驶风格很容易被识别和标记。Murphey等人提出了一个驾驶风格与混蛋和速度数据分类模型(21]。比较不同的窗口大小,驾驶分类结果使用不同窗口大小和驱动程序可以分为不同的驾驶风格。王等人改编semisupervised支持向量机分析司机的驾驶风格与纵向驾驶行为(22]。该模型引入了带安全标签的数据,以帮助支持向量机模型构建分类器,然后使用无监督模式集群驱动数据。在某种程度上,运动车辆收集的数据代表了驾驶行为和他们的驾驶风格。然而,这些模型忽略了交通环境下驾驶行为的重要性。

其他研究人员关注什么因素影响驾驶风格识别最不同的因素导致不同驾驶行为和驾驶风格的理解。Marinez等人提供了调查因素对驾驶风格,包括交通环境和车辆运动(6]。虽然表示原始数据繁多,特征提取专注于速度分布,加速时间,减速度时间和平均速度。环境因素(即。,traffic situation, season, weather, road type, and road condition) are considered to influence driver’s judgement which leads to different driving behaviors and different driving styles. Ishibashi et al. constructed a driving style Questionnaire for analysis [23]。参与者被要求回答18个问题关于日常驾驶。采用PCA对驾驶风格分析;然而,问卷取决于主体的判断是在不同的情况下驾驶体验。Cordero等人提出了一个层次模型的驾驶风格识别(24]。的驾驶风格是由三个层次的功能,包括情绪状态,司机状态和驾驶风格。与慢性的应用方法和Ar2p方法,更复杂的驾驶风格模式是公认的更好、更精确。驾驶风格识别与车辆运动数据变得更高维、复杂的考虑交通环境因素。潜在的与交通的关系上下文被发现更好的识别是必要的。

尽管驾驶风格分类许多挑战,在特征提取已经成为流行话题发现模型,如LDA模型(8- - - - - -11,25- - - - - -27]。张等人开发了一个时代课题耦合的LDA模型来分析个体行为模式从看电视(电视)模式(8];它发现观看模式关系看行为和时间。达克沃斯等人一个LDA-based方法申请自主移动机器人行为分析(9]。陈等人利用LDA模型为理解个性化驾驶状态,三种类型的驾驶风格在哪里认识到通过驱动信息(11]。陈等人应用LDA与支持向量机分类的场景从图片中提取的特征(25]。功能隐藏场景下成功地提取各种类型的场景。刘等人提出了无关友情LDA模型,它可以提取文档和发现隐藏的特征相似性和社区之间的亲密关系(26]。拉梅奇等人提出了一个监督LDA模型应用先验知识与标签,它允许LDA模型学习文档与相应的标签(7]。先验知识,只有一些文档的模型本身模型对应语料库的标签。七等人提供了一个修改LDA模型利用纵向驾驶行为和发现潜在的驾驶风格通过数据挖掘技术(10),三种类型的驾驶风格由LDA-based成功分类模型。也免不了等人提出了一个LDA模型从离散的场景分割提取驱动话题双清晰度分析仪(DAA)从连续驾驶行为数据(27]。他们适应驾驶数据只包含车辆运动相关驱动程序但没有流量数据上下文。

1.2。目标和贡献

正如上面提到的,上面所示的模型应用于行为数据挖掘是最传统的生成模型在无监督学习框架。此外,驱动数据(10,11,19,26适应更专注于相关驱动程序(即车辆运动数据。、加速和制动)获得驾驶的话题。然而,驾驶环境显然有重大贡献的驾驶风格(驾驶主题)的认可。这启发我们用监督主题模型,可以有效地处理多个数据源的驾驶风格识别。进一步探索创新使用LDA的行为模式分析,LLDA介绍适应专家知识作为监督司机的驾驶行为识别模型更好的发现潜在的个人驾驶特性。因此,我们利用标记连接运动LDA模型数据和传感器数据全面找出潜在的驾驶风格在不同驾驶员的驾驶行为。为了从原始数据中提取驾驶风格,一个编码方法也提出了矿井和理解运动的驾驶行为数据和传感器数据。我们研究的整体结构如图2

我们工作的主要贡献三个方面如下:首先,监督LLDA模型介绍驾驶风格建模,可以考虑先验领域知识(即。由专家、驾驶风格标记)的监督模型第二,一个编码方法,运动和上下文(MCAM)运动聚合模型数据和交通环境数据提出了驾驶行为第三,MCAM + LLDA方法结合LLDA和MCAM提出了有效的驾驶风格识别,从而提高分类精度的驾驶风格

本文组织如下。更广泛的描述word-encoding LDA-based模型方法和提出了部分2。实验和数据挖掘部分进行3。结果和分析的驾驶风格和的比例提出了检测驾驶员的驾驶风格4我们的结论,最后一节礼物。

2。方法

LDA模型是一个成功的话题发现模型来分析文本的话说,就是善于发现潜在的主题下文档,包括单词(7]。我们用LDA模型揭示潜在的驾驶风格(主题)驾驶行为(单词)不同的驱动程序(文件)。基于上述设置,司机可以定义为一个混合的驾驶风格。驾驶风格弥漫驾驶行为,提出了模型中的隐变量。驾驶行为的原始驱动数据和雷达数据,可以观察到在我们提出的模型。该模型可以自动地组织、理解和总结驾驶行为,从而实现驾驶风格分布估计。然而,驾驶行为的宪法从原始数据的问题仍然存在。在这里,我们介绍一个方法的文字编码驾驶行为,即。,运动和上下文聚合模型如下。

2.1。运动和上下文聚合模型

在这项研究中,驾驶行为从原料中提取运动车辆数据和雷达数据通过数据挖掘技术。驾驶行为编码的方法对原始数据图所示2。虽然速度和加速度数据是连续驾驶数据略有差异值不是不同的驾驶行为识别。例如,10 KM / h与11公里/小时不是不同反映相同的驾驶环境下的驾驶风格。没有必要将其分类为两种驾驶行为。所以,我们将它们合并建立集群范围表示这个特性。驾驶行为由五个特征的浅蓝色的框架。的特性可以被描述为两个部分:驾驶行为和驾驶场景。第一部分是运动的数据,包括速度、加速度,并将信号。另一部分来自雷达数据,包括前目标和车道偏移量。例如,加速度是分为两类,命名为积极的和消极的。 Both categories of positive and negative acceleration are divided into five types named very low, low, middle, high, and very high, respectively. All types should be concluded in raw data. Hence, for continuous features like acceleration and speed, we set a maximum absolute value as a whole range and then divided into five equal intervals (five types). The combination with categories would become ten possible features state for one feature. For noncontinuous features like turn signals, we just take all of its states as types to contribute to the behavior word combination. As for obstacles data, in one specific period, obstacles in vision may have more than one obstacle like cars, buses, or others that block the way. We divide the obstacle into two categories and three types, which indicates that each obstacle detected in the radar is processed with one category and one type. In the same period of one driving behavior, only one obstacle is valid in a block that is combined by a category and a type. Six blocks are in the preceding visual area and each one is at a binary state. Zero means no obstacle, and one means the opposite. The light green frames present a simple classification from driving data. Five features can be combined as the corpus of words, and one trip records raw data in sequence as a document.

基于上述车辆运动编码数据和传感器数据,LLDA模型可以形成中的词的元组构成速度因子,加速因子,将信号因子,障碍因素,和车道偏移的因素。例如,一个司机的驾驶行为被描述为“非常低的速度,非常低的加速度,改变车道,前面的障碍,巷”在一个特定的时期。也可以重新组合成一个句子”司机改变车道以非常低的速度和非常低的加速度而前障碍是关闭,车道上的车辆。“一个司机的一次被认为是一个文档组成的句子。word-encoding过程如图3驾驶行为,他们的编码如表所示1。连续驾驶数据形成离散的驾驶行为序列,满足要求的LDA模型自然语言的过程。驾驶行为的频率分布给出了编码后的驾驶行为数据,和驾驶行为代表长尾的特征。我们只显示前100名频繁的话在图4

2.2。驾驶风格识别模型

鉴于以上信息和描述,驾驶行为和潜在的驾驶风格和个性化驾驶是定义良好的。数学符号表所示2。在提出的模型中,驾驶风格分为三种类型命名“攻击性驾驶行为,”“温和的开车,”和“小心驾驶”(驾驶风格的数量可以增加迅速的主题数K)。每个个性化驾驶有比例的驾驶风格。编码的驾驶行为确定驾驶风格。典型的LDA模型是一种无监督模型没有先验知识。标签LDA (LLDA)是一个典型的监督LDA模型(6]。它包含了传统LDA模型之间一一对应的每一个文档的主题和标签。原LLDA模型成功地发现限制性标记文档中的主题与监督方法。它不同于普通的LDA,从监管标签和话题,提高标签的性能从富裕的信息文件。在这项研究中,驾驶风格会受制于这些主题对应一个司机(文档)标签集。根据图的图形模型5和符号表所示1,每一个司机是由一系列驾驶行为指数w(m)= ( 1、… 纳米)和一系列二进制Λ主题指标()= (l1、…lk),每个 ∈{1,…V},每lk {0,1}。生成过程,不同的传统LDAΛ多项分布对应的标签()。生成过程如表所示3

生成的标签使用伯努利抛一枚硬币,为每个主题k,标签Φ先验概率k。的标签投影矩阵l(m)的大小DK为每一个司机。矩阵的定义如下。为每一行∈{1。d}和列j∈{1。K},L矩阵()被分配的

狄利克雷主题之前α= (α1、……αK)T预计的l()到一个低维向量α(d)如下:

这意味着潜在的话题仅限于他们的标签。考虑到标签Λ(),标签之前Φ模型的其余部分分开。吉布斯抽样也申请了模型训练。抽样概率一个司机的驾驶风格z在LDA模型给出的标签

方程(3)将被应用在我们的研究中,吉布斯抽样,最后驾驶风格从原始开车的比例数据和给定的标签, 意味着驾驶行为的计数 的驾驶风格j但不包括当前指定的驾驶风格 吉布斯抽样的结果标记LDA将在下一节中所示。

3所示。实验和数据挖掘

3.1。数据集

SPMD(安全飞行员模型部署)模型中使用的数据收集从设备上实现车辆和路边设备(28]。这个模型是由UMTRI(密歇根大学交通研究所)在安阿伯市密歇根。这些数据收集期间安全飞行员模型部署(SPMD)。这些实体的数据集将提供包括基本的安全信息(bsm),车辆轨迹,和各种driver-vehicle交互数据,以及上下文数据模型描述在何种情况下部署数据收集。大部分的数据包含在这个环境中从船上获得车辆设备和路边单元。

我们使用的实验环境中运行python 3.6。这与大量数据文件,这些文件由python包处理“熊猫”分为体积小的文件。数据集包括BrakeEvents BSMEvents、DataFrontTargets HV_Primary, HV_Radar。本文使用的数据是HV_Primary和HV_Radar文件。HV_Primary。csv文件中包含所有详细的操作数据测试,包括瞬时驱动数据如设备ID,访问数,速度,加速度,转向灯,GPS的位置。HV_Radar文件提供的数据收集从雷达装置兼容设备ID和旅行。所有的障碍检测的速度和范围X和Y坐标也包括在内。样品原始数据如表所示4

每个记录在这个数据集访问驱动程序识别。数据是按次数量然后列为时间序列记录,时间分辨率为100毫秒。不合格的或无效的记录在数据集对去噪已被移除。作为MCAM解释说,连续特性,如速度或加速度,我们设置了最大速度值30米每秒108公里每小时,和记录速度值/最大值将被删除。

3.2。数据处理

样本数据的多样性和多维驾驶行为描述满足我们的要求,我们把300次从300年数据作为文件在我们的模型中。监督模型,超过一百万驾驶行为记录文档应用在训练集和测试集。我们对原始数据编码格式见表4与我们的运动和上下文聚合模型为五个功能。然后,驾驶行为由这五个功能。

我们用10倍交叉验证(随机种子= 1,…10),促进结果的准确性;例如,测试数据集1代表十司机在整个数据集随机选择。在我们的研究中,车辆运动数据的类型和数量不仅提高驾驶行为数据挖掘结果的性能也提高的难度和复杂性分析过程。连续数据离散编码到单词从图所示2。在LDA, driver-driving风格分布仅限于前参数α(如果有关于分布的先验知识,它可以嵌入通过设置阿尔法精心)。topic-words分布仅限于前参数β(类似于α)。通常,每个条目的α和β是一些设置为相同的值,因为我们之前没有任何这样的两个分布的信息。建议后,托马斯和马克的研究(29日),前狄利克雷参数α值设置为16.67,50除以3(主题)的数量和β是设置为0.01。设置为0.01,相对较小的β意味着它可以会导致细粒度分解驾驶行为的驾驶风格。

为适应先验知识在我们提出的模型中,专家知识标签驾驶数据是必要的。的速度和加速度曲线从司机开车前的样本信息帮助我们标签驾驶风格从驾驶员在图所示6。三个驾驶风格被假定为驾驶员在我们的研究中,我们收集的数据的少量标记最有可能的两个标签由专家知识。每个司机在我们的验证数据集的速度曲线和加速度曲线。司机的平均速度、平均加速度、最大速度和最大加速度是量化和离散为驾驶风格标签三个层次。例如,司机在数据集2 1的平均速度曲线是大约15米/秒,平均加速度约2米/秒2。最高速度不超过35米/秒。总之,这个司机是贴上“温和”和“谨慎”的速度和加速度曲线特征。

4所示。结果与讨论

基于数据和模型,提出潜在的驾驶风格的分布发现驾驶行为数据。驾驶风格识别的平均精度如表所示5。我们比较聚类算法如下:(我)支持向量机(29日]支援向量机是一个监督学习模型用于分类分析。数据将被构造的超平面。(2)美国全国广播公司(30.朴素贝叶斯分类器是一个家庭的简单的“概率分类器”根据应用贝叶斯定理,并有很强的独立特性之间的假设。(3)然而,[31]-k-nearest邻居是一个方法使用的测量特性分类和聚类之间的距离。

该模型的平均精度(60.5%)高于比较方法。为了评估司机个性化分类、宏观F1的平均性能也表所示56。macro-F1值被定义为以下谐波平均查全率和查准率: 在哪里N表示样本大小和 表示样本与类标签的数量 更高的加权宏观F1可以证明所示方法更好的性能。

进一步的性能价值提出LDA-based模型,困惑(PPL)也报道。困惑的直观地解释词汇分布与均匀的预期大小的模型需要生成一个特定的句子。困惑的低价值表明,自然语言处理模型需要更少的可能性选择词语料库的文档,提供较低的歪曲和更好的理解单词的文档了解潜在的主题。日志困惑值被定义为: 在哪里 表示的驾驶行为的次数t一直在观察司机吗 通过查询模型推导出吉布斯抽样后,表示驾驶风格k分布的司机 平均日志困惑88.83使用该模型。1843令牌从每个样本语料库驱动数据提取。这也证实了我们提出的模型的优越性。

结果的比例每个司机驾驶风格。的驾驶风格的两个驾驶员从引入模型见图7。驾驶风格是一个混合的组合三种驾驶风格。例如,在图7(a),这个司机的驾驶风格持有比例,包括54.1%的攻击性驾驶行为,44.4%的温和驾驶,小心驾驶的1.5%。

这个司机驾驶风格的演绎是认真完成,但激进的驾驶风格也是一个相当大的一部分,匹配这个驱动程序的标签为“谨慎温和。“结果表明,该模型可以有效地发现驾驶行为的驾驶风格和推进性能的理解。驾驶状态的平均比例个性化驾驶和驾驶风格展示在表对应的标签7在实验中,它显示了驾驶风格的比例为30文档数据集2用于交叉验证。

5。结论

了解驾驶行为的应用程序提供了一个选项自动个人开车,有必要促进自动车辆的体验之旅。研究侧重于提出一个修改监督LDA模型潜在的驾驶风格个性化。首先,我们连续车辆运动数据和交通上下文数据编码成离散驾驶行为系列。然后,司机的驾驶风格描述为混合个性化驾驶的驾驶员驾驶风格分布,基于监管标签LDA模型和给定的先验知识。最后,进行了案例研究,实验结果表明,该模型有效地揭示潜在的驾驶风格,显示真实情况的好协议。此外,结果提供信息的比例每个驾驶员的驾驶风格和驾驶行为的分布对于每个驾驶风格,可以实现自动驾驶的个性化驾驶。

与我们之前的研究中,我们提出了一个新颖的编码模型引入驾驶上下文数据结合适应bag-of-words模型驱动数据。此外,而不是无监督主题概括,介绍了监督hyperparameters限制driver-driving风格分布和style-driving驾驶行为。我们打算进一步优化我们的单词更有效的编码方法,利用这些连续的数据,提高该模型的性能。使用更多的驾驶上下文数据样本的标记LDA可能降低解释的困惑驾驶行为和提供更好的潜在的驾驶风格的理解。驾驶行为和交通环境的共生关系是揭示自然从标记LDA与先验知识。

数据可用性

使用的数据是SPMD(安全性试验模型部署)的数据(27]。这个模型是由UMTRI(密歇根大学交通研究所)在安阿伯市密歇根。为进一步数据集访问,请访问https://www.its-rde.net/

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持中国国家重点研发项目的一部分在格兰特2018 yfb1600600;部分由中国国家自然科学基金资助下61703319,71702066,51775396,和U1764262;部分下的湖北省技术创新的主要项目拨款2017 cfa008;基础研究基金和部分的中央大学在格兰特自慰:2021 vi042。