文摘
随着大数据技术的发展,基于使用保险(UBI)从保险公司得到广泛的重视。无论何时产品专注于识别个体司机的风险之间的关系从互联网和在线渠道行为变量的车辆(IoV)数据。尽管omnichannel信息集成了许多行业的发展,它并没有被用来改善司机在保险行业风险分类模型的准确性。探讨相结合的角色不同渠道变量在改善司机的风险的分类。具体来说,几个模型,包括逻辑回归和三种不同的数据挖掘技术(神经网络、随机森林和支持向量机),增强与驾驶行为数据基于IoV和线下消费行为收集的数据从4 s(销售、备件、服务调查)经销商,应用于风险的分类模型。实证结果表明,包括线上和线下渠道数据提高了不同的风险评估;结果还显示脱机消费行为变量的重要性在不同的模型。这些见解有重要意义对保险公司无论何时定价策略和成本管理。
1。介绍
每年个人驾驶风险特点是实质性的变化(1]。据世界卫生组织统计,每年大约有135万人死于交通事故,这意味着每天有近3700人死于交通事故(2]。同时,因为保险是一种重要的风险转移工具,交通事故损害保险公司所带来的好处(3]。因此,预测事故的因素并确定相关个人驾驶风险分类为保险公司将有很大的价值。
由于数据收集的限制,早期的研究对事故风险分类集中在人口统计变量,如司机年龄和性别、年龄和车辆特征,如车辆和颜色(4]。最近,传感器技术已经在汽车行业广泛采用(5]。随着物联网的发展(物联网),一个巨大的在线渠道流数据生成反映驾驶行为,这提供了新的机会对事故进行分类。新的机会为保险公司提供强大的业务决策支持,特别是在关系基于使用保险(保险)或用户行为(无论在哪里)6,7]。如今,无论在哪里产品的价格是由个人的驾驶行为收集的车载数据记录(由),不同于原来的无论何时,只使用车辆使用信息(8,9]。
另一方面,随着5 g等新技术的发展和移动设备,omnichannel零售业加速了线上和线下渠道的组合信息。因此,研制了许多新的商业模式,如在线和离线self-order和购买在线和接店(麻醉剂)。如今,无论在哪里主要考虑在线而不是线下渠道建设各种型号的信息。可以使用omnichannel保险行业受益于信息?脱机消费行为包括几个心理和personality-related特征,这可能与事故风险的关系。例如,如果一个司机选择昂贵的汽车零部件,这可能是一个迹象表明他们珍惜他们的车,这可能意味着他们有一个车祸的可能性相对较低。然而,驾驶行为变量从在线渠道不包括收集这些信息。因此,本文探讨了脱机消费行为数据是否可以提高事故风险分类的准确性。首先,我们把之前的研究和专家领域知识从物联网中提取更多的变量数据,可以反映驾驶行为。后来,我们从汽车经销商获得离线数据构建脱机消费行为变量。 Detailed models for classifying different crash risks are run using these online and offline channel variables. Second, in line with the existing literature, we categorize the variables as basic or new, and we verify the power of the new variables.
综上所述,本研究建立了一个新的框架,结合物联网数据和离线消费者行为数据分类不同程度的事故风险。此外,对于这两个新类别的变量,我们发现将脱机消费行为变量添加到基本模型可以显著改善崩溃风险分类的准确性,虽然汽车的力量将变量是相对较弱。据我们所知,没有研究到目前为止一直在进行线下消费行为与司机崩溃风险的分类。重要的是,我们的框架可以丰富保险公司的商业惯例。
本文的其余部分组织如下。部分2概述崩溃的风险,无论何时定价和omnichannel信息集成。部分3描述了数据来源,包括车辆使用信息,和线上和线下渠道变量。我们的方法,基于不同的数据和模型,在部分说明4。部分5介绍了实证结果和讨论。节6结论出发。
2。相关工作
2.1。事故风险
交通事故是世界上主要的问题之一,而且影响社会和经济发展。为了减少事故风险,学者们相当关注的因素造成车辆碰撞。研究表明,三个因素对交通事故有重大影响:司机行为、环境因素、车辆因素(10]。其中,司机的行为是作为最重要的因素在交通事故11- - - - - -13辛格],[14]表明,驾驶错误的主要原因是交通事故的74%。因此,为了减少交通事故,重要的是要理解司机崩溃风险行为的影响。
最常见的一种方法,收集研究驾驶行为数据崩溃是使用司机自我报告问卷的形式。冬天和Dodou [15]发现驾驶错误和违反相关违规负面报道随着年龄的增长,男性多于女性。罗等。13),使用12项版本的驱动程序行为问卷,发现不同因素与崩溃。然而,许多研究表明,这种方法并不总是可靠的(16,17),第二种方法是调查事故数据。Lombardi et al。18]分析了120809致命事故在美国2011 - 2014年期间,发现大多数司机致命的交叉碰撞都是十几岁的司机或老司机。李等人。19)发现不同事故类型受到不同因素的影响。例如,司机在雨天发生的事故中,在许多情况下,年轻司机或年老的司机。同样,李et al。20.]研究了土地利用模式和车辆事故之间的关系。然而,这种方法并不提供一个全面了解驾驶行为(21]。第三种方法是使用驾驶模拟器来收集驾驶行为数据。乔杜里和Velaga22]分析了干扰效应时不同年龄段的司机开车时使用手机模拟器,发现事故的概率增加三倍或四倍在使用手机。再次使用驾驶模拟器实验中,帕瓦尔et al。23)发现司机在时间压力下的制动行为受到许多因素的影响,包括进场速度和驾驶记录。赵et al。24)发现不刹车的迂回不是关键有效的避免碰撞的崩溃。此外,驾驶模拟器数据被用来研究自主车辆的风险评估25]。然而,司机在实验环境不同于自然的驾驶行为(26,27]。
其余的方法是使用自然的驾驶数据探索驾驶风险。最早的研究使用100导航相机在美国汽车收集驾驶数据(28]。建立了重要的发现,即注意力不集中是大约93%的交通事故的主要因素,嗜睡与12%的崩溃(28]。使用车辆的驾驶数据配备摄像头,一个新颖的方法提出了基于不同的操作状态的相互关系来识别不同级别的驾驶风险(29日]。
互联网的车辆(IoV)是一个特殊的领域,物联网已经成为一种流行的平台与各种车辆信息。IoV的发展,许多研究人员已经使用全球定位系统(GPS)数据代替驾驶行为数据研究事故风险的位置数据30.]。例如,托莱多et al。31日)使用超速变量从GPS设备收集事故风险的风向标。埃里森et al。30.)使用GPS采集加速度和位置数据来分析司机的安全。车载诊断(OBD)伐木工人也被用于收集驾驶行为信息,如速度、制动、加速,这些信息往往是更可靠的比GPS数据(32,33]。曹et al。34]使用的驾驶行为数据(包括减速、制动、位置和加速度)收集的OBD伐木工,结合集群技术,预测事故事件。
我们发现,许多研究开始探索基于IoV数据崩溃的风险,以最常见的变量是基于速度和加速度。然而,很少有研究考虑车辆的变量,这也与事故风险(24]。因此,本研究的目标之一是探索使用更多的物联网信息崩溃的风险。
2.2。无论在哪里的价格
保险公司想要区分他们的产品价格通过识别司机的风险(16]。因此,预测司机的风险是保险公司的一个核心任务(35]。传统的汽车保险定价包括车辆信息和驱动特性,比如汽车颜色和司机的性别,但是司机的驾驶行为是最重要的因素是风险。因此,无论何时定价风险分类的研究最近吸引了太多的关注。
马等。36)合并实时GPS车辆轨迹和事故数据到他们的广义线性模型,探索汽车事故的概率。他们的GPS数据包括独特的contextual-based风险度量,不同于传统无论何时因素。Paefgen et al。37,38]细分不同类型的基于GPS的车辆里程数据从1600辆汽车,包括行车速度和时间,来探索小说无论在哪里溢价模型和预测事故。在他们的开创性工作在机器学习的应用无论在哪里定价,他们得出的结论是,逻辑回归(LR)模型比神经网络(NN)模型更合适的目的(37]。然而,在事故的分类、神经网络模型表现出最好的性能。Baecke和喷口39]使用远程信息处理数据(总距离、总行程时间、位置距离,白天的距离,和事故信息)和高峰时间旅行时间评估驾驶风险保险。然而,数据集的司机都是30岁以下的。黄和孟40)收集30驾驶行为变量来自远程信息处理数据,结合不同模型对风险进行分类和预测索赔频率。他们验证了潜在的驾驶行为变量和机器学习无论何时上下文。通过检查驾驶数据从一个自然的驾驶实验,新的无监督算法被应用于不同的驾驶模式,可以帮助企业制定合理的战略无论在哪里(41]。
尽管先前的研究描述了类型的远程信息处理数据可用于无论何时,进一步组合与其他类型的变量仍有待调查。脱机消费行为对企业很重要,因为这可以反映出,在某种程度上,消费者心理状态或个性42]。例如,消费者购买高质量的汽车零部件可能认真对待他们的汽车,这可能降低风险发生的概率。此外,一些信息省略了从在线渠道信息,比如远程信息处理数据,可能存在于脱机消费行为。郭和方43)使用逻辑回归分析驾驶员的个性之间的关系和驾驶事故和验证,数据特征的预测车辆碰撞紧密相连。同样,我们的研究探索的力量离线在无论何时定价和消费者行为,据我们所知,第一次这样做。
2.3。Omnichannel信息集成
新技术,如5克、智能移动设备,和网站,广泛应用于各种业务场景,促进omnichannel信息集成的开发。这样的集成可以为客户提供一个增强的购物体验(44,45]。最近omnichannel信息集成的研究主要集中在零售和餐饮行业。相对于零售、Gallino和莫雷诺(46)发现,当在线商店提供库存信息实体(领头军)商店和允许顾客打架,在领头军商店销售增加,同时通过在线商店销售下降。高和苏47使用分析模型得到相似的结果。另外,他们发现一个分散的零售系统可能会更有效的提高收入来自打架。李等人。48)发现,线下渠道提供优势当在线评论信息集成到线下渠道。在餐饮业,高和苏49)发现,在线和离线订单信息集成时,餐厅可以减少顾客的等待时间,增加需求。
然而,则较少受到关注提出新的商业模式,在保险行业需要集成不同的频道信息。无论在哪里是一个非常非常大的市场,但缺乏有效的分析工具导致了许多保险公司为失去机会。因此,在这项研究中我们的目标是开发新的商业模式,整合各种渠道信息,比如IoV数据和线下消费行为数据,提高行业无论在哪里。
3所示。数据描述
本文中使用的数据集来自中国汽车公司。保护客户隐私和商业秘密,数据都麻木了。在这项研究中使用的所有车辆都配备了OBD伐木工,和车辆的活动是上海的面积,在中国最大的四个城市之一。
我们碰撞的样本收集2019年1月1日,3月31日,2020,然后收集相应的车辆数据的时间碰撞前的一年。准确地评估司机的风险,我们分类碰撞严重或普遍,不同于以往的研究,没有这样的区别(40]。严重碰撞被定义为一个安全气囊被部署在这次经济危机中,这可以使用IoV检测信息。一般的碰撞被定义为一个轻微的碰撞,安全气囊没有部署,如一个小工具。我们确认我们的分类与相应的维护信息,包括使用年间配件和维修费用低于10000元人民币。根据正/负样本的比例一至五,我们之间无碰撞车辆随机采样1月1日2019年3月31日,2020年,我们花了一年的数据采样时间。我们未能得到IoV数据样本的一些样品和删除。表1显示不同碰撞车辆的最终数据。样本比此前的许多类似的研究,这增强了我们的研究结果的可靠性。
独立变量是多源数据。基本车辆信息是广泛应用于事故风险研究40]。我们使用的信息,从销售记录,包括汽车价格和年龄。表2介绍了车辆信息和描述性统计。
驾驶行为变量从GPS数据和OBD-based数据收集。GPS通常收集轨迹数据,包括时间、经度、纬度、速度、方向,每隔15秒。本研究中使用的OBD信息加速和减速的担忧。为了减少存储压力,OBD采用触发器集合规则;即,它开始收集数据实时加速度达到一个阈值时,它停止收集当加速度低于阈值。从这些在线实时数据,我们可以获得驾驶行为信息,使我们能够评估某些驾驶风险。
这些在线渠道数据包括三种类型:速度、加速度,车辆的转向。首先,速度可以反映驾驶习惯和道路条件。高和低的车辆速度可能会导致碰撞事故。因此,速度是广泛应用于事故风险的研究。除了使用的平均值和分位数在先前的研究中,我们的速度数据包括速度段的比例。第二,加速度变量主要反映的行为踩油门或刹车踏板。个人,有良好的驾驶习惯通常保持安全车距,总是注意周围的环境,可以有效地降低事故风险。大多数研究使用绝对值,而不是结合加速度与里程和严重程度。然而,加速度数据结合里程和严重程度的数据能更好地反映驾驶行为,和不同的加速度行为导致不同类型的碰撞。因此,在本文中,我们包括更多的加速度变量。 Finally, many accidents are related to vehicles’ turns. Compared with driving on a straight road, drivers need to consider pedestrians and turning lanes when turning. For example, high-speed turns may make the vehicle body unstable and cause an accident. Prior studies have found that swerving relates to driving behavior, but few studies have characterized this variable in detail [24,40]。我们因此包括turning-related特性不同类型的转每100公里,比例的不同,和速度的不同。
表3概述了驾驶行为变量。驾驶行为之间的关系和不同类型的碰撞是显而易见的;例如,汽车碰撞的平均速度低于车辆在无碰撞事件。然而,车辆严重碰撞速度的比例值大于90的高于其他两种类型的碰撞。加速度的行为,严重的频率加速/减速每100公里是最低的车辆参与无碰撞事件。右转在严重碰撞的比例相对较低,和扭转的比例相对较高。
线下渠道信息,本研究使用汽车保养行为在领头军的商店。这些消费行为数据可以反映驾驶员的个性和行为,这可能会扮演一个角色在预测司机的风险。良好的汽车维护行为可能保持车辆状况良好,避免造成交通事故车辆的问题。同样,高质量的维修配件可能反映了主人的担忧他们的车辆,可以减少他们参与汽车碰撞的概率。表4显示所有消费行为变量描述性统计。无碰撞的样本首选去4 s(销售、备件、服务调查)经销商店铺的维护,而在严重碰撞使用其他类型的商店。英里的平均维修时间间隔最大车辆参与严重碰撞和其他类型的冲突,虽然天集团是最短的间隔。因此,模型分类司机的风险可能会取得更好的性能与消费者行为数据补充。
4所示。方法
4.1。装箱数据
图1提出了我们的研究的结构。装箱数据是一种常见的预处理方法,可以减少过度拟合的风险。数据装箱方法分为两类:监督和非监督。监督装箱装箱的时候会考虑因变量的值,并可以实现装箱后的最小熵。这种方法,结合因变量在装箱时,提高了预测精度,而非监督装箱不提供相同的优势。因此,我们选择监督装箱,我们采用经典的决策树装箱方法,哪些变量到升序排序,然后计算平均在两个相邻的变量。之后,选择最大的基尼系数值的平均值作为划分的阈值变量,它迭代,直到达到终止条件。不同于以往的研究,使用连续或离散变量,我们使用两种类型的数据用不同的模型,这有助于我们理解不同的行为之间的关系和预测司机的风险(50,51]。
我们选择70%的随机数据集作为训练集,剩下的30%构成了测试集。我们使用训练集,以确保不同变量的节点均匀划分为六个箱子。测试集分为箱根据节点。
4.2。模型驱动的风险
在无论在哪里的研究中,LR模型被广泛用于估计车祸因为他们的高稳定性(37,39,40]。准确地分类不同的风险,我们首先区分无碰撞和碰撞事件,然后严重的和一般的碰撞。LR是一个著名的数据挖掘方法,分类问题(52),其保险公司的稳定是一个重要的要求。通过这种方法,司机的风险的预测模型如下: 在哪里X我表示一个向量包含为客户选择独立变量的值我,β是一个向量相应的系数。
虽然在某些情况下线性模型表现良好,公司有时喜欢机器学习模型,因为他们的准确分类的性能。射频,在这项研究中,我们选择神经网络和支持向量机(SVM)模型来构造非线性模型。这些模型已经广泛应用于先前的研究驾驶员的风险(53,54]。首先,神经网络模型,我们选择一个前馈神经网络由输入层、隐藏层和输出层。不同层之间的神经元是完全连接。输入层神经元的个数等于因变量的数量,和输出层神经元的数量等于1。隐层神经元的数目设置为10。
射频由一个决策树是一个功能强大的机器学习方法预测和分类(55]。射频选择特性随机变量和样本通过引导大量的树木,可以弥补单一决策树的局限性。计算射频源相对较低,它可以处理大数据建模以很高的速度。在这项研究中,我们采用CART-based射频模型和不同变量放入RF模型分类不同的司机的风险。
支持向量机,一个监督学习技术,源自广义线性分类器。随着非线性方法的发展,波沙等人提出的非线性支持向量机使用内核的方法(56),在许多研究领域表现良好,例如人寿保险和银行保险(57,58]。因此,我们使用SVM分类司机的风险,选择多项式核函数。
4.3。模型建设和评价
我们将随机数据集,以70%为训练集和30%作为测试集,训练集是用来确定最优模型。LR模型,有必要确定系数。在构建一个机器学习的过程模型中,一些hyperparameters需要调整,如射频的学习速率模型。因此,我们使用网格研究方法结合5倍交叉验证训练集的选择这些参数和选择规则,以确保AUC的最优值。网格搜索,我们使用Python中的Gridsearch功能平台。
我们使用测试集来评估不同的模型和某些变量的性能。我们选择AUC,接受者操作特征(ROC)曲线下的面积,作为性能指标。ROC曲线的纵轴的真正积极的利率(如碰撞样本正确分类的比例)和假阳性作为其水平轴率(如无碰撞样本的比例错误归类为碰撞样本)。如果一个分类模型执行理想情况下,曲线接近左上角。这个标准是对类不平衡,更适合我们的研究比其他指标如准确性或F-measures [59]。
5。实验结果与讨论
5.1。线上和线下渠道信息化模型的结果
在本节中,我们使用所有的依赖变量构造一个模型。结果当使用nonbinning和装箱数据表中给出5和6,分别。模型使用nonbinning数据,所有的结果都比随机分类(AUC = 0.50),这证明了三种类型的碰撞可以发现高水平的性能基于这些数据。一般来说,执行的模型在确定严重的碰撞和碰撞样品比无碰撞和碰撞样本。最后,LR模型与神经网络模型相比,有更好的性能和稳定性。射频和SVM模型的性能并不健壮,但是他们有最优性能预测一般无碰撞和碰撞和严重的碰撞和碰撞事件,分别。
在表6,我们看到,所有使用装箱数据模型的性能优于使用nonbinning数据模型。最高的比例增加了32.74%。在所有情况下,LR模型的性能优于其它模型。这些结果表明,数据装箱可以提高模型的性能,因此装箱数据采用下面的实验。
5.2。高功率因素的识别和分析的新变量
结果部分5。1建立的模型使用各种信息来提高分类的精度不同的碰撞。在先前的研究中,影响速度,加速度,开车时间,和里程司机的风险研究,但迄今为止没有一项研究探讨了转变和线下消费行为变量的影响。因此,我们使用车辆信息,所有速度变量,和加速度变量构建的基本模式。我们将把变量和脱机消费行为变量添加到基本模型和识别高功率变量。实验结果如表所示7和8。
对于无碰撞和碰撞事件的分类,将变量只提高支持向量机模型的性能。然而,线下消费行为变量大大提高每个模型的结果。具体来说,每个模型的AUC的增加超过10%,平均为12.42%。表8介绍了分类结果严重碰撞和碰撞。和之前一样,把变量不为模型,但线下消费行为变量是有利于他们的进步。虽然性能没有改善分类的无碰撞和碰撞,AUC的增加平均仍然是7.78%。
表7和8显示脱机消费行为变量可以大大提高所有模型的性能。因此,探讨不同的脱机消费行为变量的力量,我们构造不同的脱机消费行为模型,不同的驾驶风险分类结果如表所示9和10。无碰撞和碰撞的分类(表样本9),所有改善分类结果的变量。AUC平均增加率的平均维修间隔期天是10.62%,但是产品的平均数量的力量用于维护一个插曲并不强劲,尤其是在NN和射频模型。其他三个变量也有助于分类模型。消费者行为的性能检测一般严重的碰撞和碰撞是类似于上面的结果(见表10)。平均维修间隔期的天仍是最有效的因素在线下消费行为变量,和英里的平均维修间隔期的力量需要第二位的平均维修间隔期的天。
这些结果表明我们的框架的有效性识别不同的司机的风险。是很有帮助的使用数据装箱技术对这些变量进行预处理。我们发现把行为变量不是非常重要的风险分类模型;然而,脱机消费行为被证明是有效地分类司机的风险。这些因素已经在先前的研究探索,因此我们的研究结果对保险实践和学术研究都是有用的。
5.3。实际意义、局限性和未来的工作
本文结果表明以下无论何时定价和成本控制策略可能是受雇于保险公司。首先,保险公司可以使用分类模型对不同类型的碰撞来调整汽车保险的定价,降低自己的成本。通过使用一个更准确的分类模型一般和严重的碰撞,保险公司可以向客户收取更高的费用,有一个高概率的严重冲突,从而减少他们的损失。为客户的高概率一般的碰撞,保险公司可以增加略有溢价,从而不仅减少他们的损失相对于一般的碰撞也吸引有价值的客户从保险公司不区分严重和一般的碰撞。第二,保险公司可以使用脱机消费行为变量来开发积极的成本控制策略。消费者行为,作为非常重要的车辆碰撞分类变量,可以区分无碰撞,碰撞,和严重的碰撞事故。这带来了一个新的方法来汽车保险成本控制策略,使保险公司配合汽车维修商店给消费者,例如,有时限的汽车保养券,培养他们的车辆维修行为,从而减少碰撞的概率和控制薪酬成本。
虽然这篇文章提供了一些有价值的业务策略,无论何时也有一些局限性,未来的工作可以解决。首先,本文研究了车辆在一个城市,但地区差异可能影响交通事故。未来的研究可能寻求使用一个全国性的样本来验证我们的结论。其次,本文主要考虑变量反映了司机的行为。未来的研究可以探讨更多的外部变量的影响,比如天气,不同的驾驶风险的分类。
6。结论
近年来,无论在哪里的崛起,保险公司有更大的关注因素可以提高司机的风险的分类,而司机和保险市场呼吁更有效的产品无论在哪里。因此,本文提出了新的模型检测不同的司机的风险通过结合物联网数据和离线消费者行为数据。我们探索不同的变量所增加的能力提供了令人惊讶的建议改善产品无论在哪里。我们的主要结论如下。首先,本文提出了分类模型可以检验不同级别的车辆碰撞(无碰撞,严重的碰撞,碰撞和通用),一个令人满意的水平的性能。第二,脱机消费行为变量是强烈的能力提高分类的性能模型。这些天的平均维修间隔期是最有效的提高分类结果的准确性。车辆维护经常不太可能参与碰撞事件。
数据可用性
使用的数据来支持本研究的发现没有可用,因为作者与该公司签署了一份保密协议,提供了数据。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究得到了国家社会科学基金(20 bjy180)和上海财经大学研究生创新基金(cxjj - 2017 - 418)。