文摘
近年来已经有越来越感兴趣在使用聚类分析的交通模式识别的代表支持交通系统运营和管理的交通状况(TSMO);一体化走廊管理;和分析,建模和仿真(AMS)。然而,有限的信息来支持机构的选择最合适的聚类技术(s),相关参数,最优数量的集群,集群分析结果,并选择代表每个集群的观察。本文探讨并比较了使用现有的聚类方法对交通模式识别,考虑上面的。,这些方法包括k - means, K-prototypes K-medoids四分层方法的变化,结合主成分分析与k - means混合数据(PCAmix)。在这些方法中,K-prototypes和k - means电脑产生最好的结果。本文关于开展提供建议和利用聚类分析的结果。
1。介绍
很长一段时间,决定与交通运输系统规划与规划相关的操作都是基于有限的数据收集了几天。这个数据被用来获取信息,应该是代表了整个交通系统条件。因此,管理和操作的评估策略;信号控制优化;和使用分析,建模和仿真(AMS)是有限的在大多数情况下,交通系统的一个场景条件。
运输系统管理和操作项目的进展和相关的智能交通系统技术部署,定量和详细的交通,和事件已经可以从多个数据源的数据,允许更好的识别系统性能的改进方案和评估不同的拥堵,事件,和天气场景利用数据分析和先进的AMS的工具。这是特别重要的评估替代策略以来,这些策略的主要好处是他们的能力,以适应不同的系统条件。联邦高速公路管理局(供)实现这个需要更新他们的指导使用AMS包括聚类分析来确定操作AMS的场景作为一个重要的组成部分。决策支持系统开发支持交通系统操作决策还需要交通模式的识别,开发潜在的反应计划实时激活。
已经越来越感兴趣,使用聚类分析交通模式识别的交通状况的代表在上述应用程序的支持。然而,有限的信息来支持机构的选择最合适的聚类技术,聚类分析结果,并选择观察每个集群的代表。的一大部分进行聚类分析来支持上述应用程序利用k - means聚类方法。这种方法也广泛应用于其他学科,在分析大型数据集是非常有效的。然而,它的应用程序是有限的数据集只有定量变量,利用欧式距离作为不同矩阵(1]。一些因素交通模式是分类变量在使用前或通常转换为分类变量。因此,利用k - means方法与这些变量被认为是不合适的。有明确需要审查现有的聚类方法和提供的建议对他们的适用性和性能相关的各种应用程序。
这项研究的目的是支持运输机构在他们选择聚类技术和相关参数识别操作场景。探讨和展示了使用现有的集群交通模式识别的方法。,这些方法包括k - means, K-prototypes K-medoids四分层方法的变化,结合主成分分析(PCA)与k - means混合数据(PCAmix)。在提供这种调查,本文旨在激励机构和交通工程研究人员探索和理解各种可用的聚类方法和应用最合适的方法和执行最适合他们的应用程序。
2。检查集群的应用程序
聚类分析是一种无监督学习技术,是指一个分组或细分技术应用到一个对象集合群他们在一个对象在一个集群的方式是密切相关的对象在不同的集群相比2]。聚类方法通常利用集群对象的不同措施。虽然聚类分析已经使用了很长一段时间在其他学科,在交通工程领域的使用方法是有限的。然而,越来越有兴趣在此用近年来由于详细的数据可用性的增加和对场景识别的识别需要AMS和决策支持系统的应用,如前所述。
夏和陈3)使用k - means聚类识别交通流阶段基于交通密度和速度数据聚合在15分钟内。作者还使用一个嵌套的集群技术,每个集群水平进一步subclustered分类高速公路分为几个层次的操作条件4]。公园(5)发现,几如k - means聚类方法和模糊聚类在交通量预测是有效。陈等人。6)使用k - means聚类以及Davies-Bouldin指数和轮廓系数来捕获不同的团体在车里时间和空间旅行行为使用车牌识别数据。概率模糊c均值聚类,聚类发现成功地认识城市道路拥堵模式基于GPS轨迹(7]。光谱集群,集群方法,允许使用更少的维度,是用于分析交通状态变化基于定量的速度数据(8]。使用集群的其他研究包括哦,托托,&里奇(9)和Alvarez &哈迪(10]。
最广泛的例子,利用聚类分析在交通工程中使用AMS试验台由供料(11- - - - - -13]。这项工作涉及六台试点测试AMS的使用先进的评价策略。这些都是圣马特奥(101),达拉斯,圣地亚哥,帕萨迪纳市菲尼克斯,芝加哥台。努力强调multiscenario评估的重要性,包括建模与不同交通模式而不是平均一天。台使用聚类分析来识别交通模式基于测量如体积、速度/旅行时间和事件数据(例如,事件和天气)。
在达拉斯AMS试验台(14];四个操作条件被确定为每个时期使用基于车辆行驶路程的k - means聚类(车辆行驶里程)、旅行时间、事件严重程度,和降水。有趣的是,研究定量变量转化为分类变量在使用它们之前集群。例如车辆行驶里程是分为三个层次,降水分为湿和干燥。
圣地亚哥试验台(15)使用事件持续时间、需求,旅游时间,对延迟集群事件的影响。应用k - means聚类后,四个操作场景被选为每一个高峰时期。
帕萨迪纳市的实验(16)也利用k - means聚类根据车辆行驶里程,旅行时间,事件的总数,总持续时间的事件,和降水识别三个操作场景AMS在工作日高峰时期。
凤凰试验台(17]使用每小时流量统计,每小时的旅行速度,每小时降水、计时事件频率,每小时流量统计,在集群和旅行速度。层次聚类方法应用首先找到最小数量的集群。k - means聚类被用于确定四个交通模式在每一个时期。虽然分层聚类本身适用于发现交通模式,分析团队没有解释的理由使用k - means后利用分层集群。因为所有四种模式选择使用聚类代表干几天,五分之一模式代表雨天被选为分析使用一个额外的k - means聚类。
芝加哥试验台(18利用两步联合k - means聚类过程。在第一步中,天气模式被确定基于降水类型(雨,雪,清晰)和强度使用k - means算法。在第二步中,k - means算法基于交通数据被用来确定每个天气条件下的子模式。这样做是由于天气的影响是一个试验台的主要焦点。
圣马特奥试验台(19)使用k - means聚类分析基于行程时间,车辆行驶里程,天气和事件频率(由三个时间类别分类)。五个集群代表五个操作条件推荐。
3所示。对聚类方法
如上所示,采用k - means聚类在大多数审查在交通工程中的应用。有几个其他聚类方法;以下方法可分为四个主要方法:基于质心的方法,层次聚类,发布出去是依靠集群,density-based集群,如图1(20.]。图1也显示了四个主要的聚类方法的示例方法。本节提供了一个简短回顾的方法相关的研究,因为他们是重要的审查,以确定他们进行聚类时的表现。
3.1。k - means
k - means算法是一种广泛使用的方法,适用于聚类数据基于定量变量(21]。该方法基于迭代算法的过程是由提供一组固定的重心22]。每个数据点聚集然后分配给最亲密的重心用平方欧式距离测量(23]。指定一个指向一个集群,目标是最小化平均两两距离within-cluster不同的总和。重心然后更新通过计算平均分配给每个集群的所有点。重复这些步骤,直到每个质心的数据点的分配没有显著改变。然而,这个方法是有效分析大型数据集的应用仅限于集群基于定量变量,因为它利用欧式距离作为不同矩阵(1]。
3.2。K-prototypes
对数据集进行聚类分析,包含分类和定量数据,一个方法称为“K-prototypes”提出了1]。K-prototypes算法以类似的方式工作的k - means算法但适用不同措施相结合。对于定量的变量,它使用欧氏距离为分类变量时,它使用一个简单的匹配不同(1]。
3.3。K-medoids
的K-medoids聚类算法非常类似于k - means算法,除了它使用不同的措施,允许集群基于量化和分类变量(2,24- - - - - -26]。此外,据报道,平方欧氏距离测量中使用的k - means缺乏鲁棒性对异常值产生非常大的距离(2]。K-medoids克服这个问题的计算效率,将离群值为单独的集群。
3.4。分层聚类
层次聚类不需要数量的集群最初的规范所要求的k - means K-medoids。然而,它要求用户指定一个不同测量团体之间的观察称为“链接”2]。在这种方法中,集群层次结构的每一层是由合并集群下一级。在最低级别,每个集群包含一个观察在最高水平只有一个集群包含所有的观察。常用的联系是单身,完成,平均和重心。分别考虑两组之间的不同联系这四个不同两点之间最小的组织,最大不同两点之间相反的组,平均不同组相反,质心之间的不同的群体。欧几里得距离通常用作定量不同测量变量,而其他高尔半岛等不同措施指标用于其他变量。
3.5。主成分分析(PCA)与聚类相结合
PCA降维是一种统计方法和压缩,同时保留大部分的数据集的变化(27]。主成分分析的目的是将观测到一个正交系统的欧几里得空间的维数,从而降低只保留那些特征的数据集贡献大部分方差。PCA是有效地减少噪音的数据集,除了通过减少维度降低计算成本。特别是,PCA被发现有效地捕获集群结构数据集一起使用时聚类方法而不是聚类方法本身(28]。丁和他(29日]发现k - means聚类算法在高维数据是受噪声影响的数据集和应用k - means聚类的PCA子空间显著改善结果。然而,主成分分析的适用性是有限的定量变量。PCAmix是一个扩展的PCA方法对混合数据集结合量化和分类变量(30.,31日),将在本研究调查结合使用集群。集群与PCA的维度降低被发现非常有效的识别模式的数据集和广泛使用的方法在其他领域32- - - - - -34]。由于混合量化和分类变量,PCAmix方法而不是基本的PCA方法用于分析。
4所示。利用数据
调查不同的聚类方法确定交通模式的性能,数据检索的走廊约16英里的i - 95高速公路在劳德代尔堡,佛罗里达州。这个设施是一个繁忙的和具有重要战略意义的路线在南方35]。分析地平线是时间从1月1日圣2017年12月31日圣2017不包括假期和周末。交通数据包括体积、速度和平均入住率是收集从五个微波探测器放置在半英里沿着走廊间隔。数据从区域检索数据仓库,这是一个地区综合交通信息系统的一部分(RITIS) [36每隔15分钟)的早晨(AM)高峰期(AM-9:30 7点)在i - 95的往南的方向。
事故数据分析层从事件管理检索数据库管理的佛罗里达交通部(FDOT)区4。事件来自多个数据源的数据,如数据共享与警察,基于微波传感器自动检测和验证基于闭路电视摄像头,和服务巡逻报告。收集事件数据非常详细,包括几个有用的属性,包括开始时间、结束时间、车道堵塞持续时间、总事件间隙时间,阻塞航道,严重性,紧急车辆到达的时间戳,车辆参与事件的数量,等等。国家中心的气象数据收集环境信息国际海洋和大气管理局的网站(37]。的数据收集鲳参鱼沙滩小型民用飞机场气象站,这是十公里范围内研究的走廊。气象站测量降水使用一个8英寸计的标准化设计在世界范围内用于官方降雨测量。数据集包含了每小时降水每15分钟观察(英寸)。所有三种类型的数据(流量、事件和天气)被转换为15分钟的分辨率和组装进行聚类分析。
5。分析方法
本部分提出了本研究中使用的方法。方法包括数据检索、数据准备,应用聚类算法,聚类算法的性能评估,选择和操作场景。图2展示了不同的方法步骤,在随后的章节中详细解释。统计软件包“R-Studio”是用于数据汇编,以及集群和PCAmix分析。
5.1。利用变量
六个变量:体积、速度、入住率、旅游车道堵塞由于事件,事件的严重性,降水估计根据检索到的数据中被选为潜在利用集群由于这些变量被认为是各种影响因素对拥堵。相似的变量被认为是在前面讨论的供料AMS台。没有在研究期间走廊的建设工作。集群最初使用措施计算基于探测器的平均数据为所有位置的走廊。然而,人们发现可以获得更好的结果,如果探测器测量在每个五检测位置是单独使用的集群。分析之前,降水数据分类以同样的方式使用在芝加哥AMS实验分为四组:0(0英寸/小时),1(0 - 0.1英寸/人力资源),2(0.1 - -0.3英寸/人力资源),3(≥0.3英寸/人力资源)。在分析、体积、速度、占用被用作定量变量,而旅游车道堵塞,事件的严重性,降水作为分类变量。因此,使用最广泛的聚类方法(k - means)不能直接使用的混合这两种类型的变量(21]。相反,本研究调查并比较结果的聚类方法。
初始聚类没有标准化在这项研究表示归一化的变量需要普遍的规模,因为没有它,集群主导变量,有更高的体积大小等。几种方法的规范化提出了文学包括Min-Max z分数,小数缩放等。在这项研究中,这些变量被规范化使用Min-Max规范化方程所示(1)方法执行的将所有的数据在一个常见的规模(37]。
在那里,X′=归一化值,
=属性值,
=最低的价值属性,
=最高价值的属性。
5.2。确定集群的数量
一个的集群的挑战是确定一个适当的数量的集群能够识别所有频繁模式。广泛应用如k - means聚类方法和K-medoids需要规范集群的数量。一些如层次聚类的聚类方法可以自动推荐集群的数量。有几个经验方法来确定所需数量的集群基于聚类分析的结果,如肘法、平均轮廓的方法,和差距统计方法,等等。在这项研究中,确定集群的数量的过程始于指定最多20集群和集群的最优数量根据肘部选择方法,下面简要解释。
弯头的方法是实证方法,提供了一个客观的方法来确定最优数量的集群。关于数据集的方法需要最小的先验知识和数据集的属性。弯头的方法决定了集群的数量根据总within-cluster平方之和(WSS)为每个调查数量的集群38]。总WSS之间的图形绘制,集群的数量和弯曲的位置在情节被认为是一个指标的适当数量的集群。在这项研究中,使用这种方法的群集的数量决定,结果是检查确定这种方法是否适当的或额外的集群需要识别所有感兴趣的模式,将讨论当呈现本文聚类的结果。
5.3。进行聚类分析
聚类方法的研究,他们的研究结果进行比较,以确定他们可以集群交通状况如何为不同的模式。检查方法包括K-prototypes、K-medoids和层次聚类与不同连接类型(单一、完整、质心和平均链接)使用最优数量的集群识别基于肘法。
PCAmix方法,结合k - means聚类也被调查。PCA技术减少几何维数的数据投影到低维叫做主成分(pc),它被定义为数据的原始变量的线性组合39]。第一个电脑是被最小化总距离之间的数据和他们的PC上的投影,同时保留的最大方差投影点。同样,所有其他电脑形成基于相同的条件除了不同电脑之间并无相关性。电脑试着保留数据集内的最大变化与少量的电脑能够解释整个数据集。六个变量:体积、速度、入住率、旅游车道堵塞由于事件,事件严重程度,和降水从五个探测器用于这项研究。因此,每个电脑都是六个变量的一个线性组合所有五个探测器用于分析。确定最优数量的个人电脑基于累计方差比例的情节解释的数据利用个人电脑的数量。最后,k - means方法适用于集群。这是可能的,因为由此产生的个人电脑从PCAmix定量变量,允许使用欧氏距离作为不同措施的k - means聚类。个人电脑的子集用于集群是由策划中可解释的变异的累积比例数据集对个人电脑的数量项目案例研究,如图3。数据投射到一共有25个人电脑通过PCAmix算法的应用,而报告解释方差的比例由每个电脑。根据这个数字,十个人电脑的一个子集选择用于分析,因为它可以解释大部分的变化数据,并能够保持数据集的特色。尽管更多的电脑可以考虑分析,个人电脑的数量增加可以消除使用PCA的优势(29日]。除此之外,一个小的电脑数量分析降低计算成本,消除了噪声数据。
5.4。评估聚类方法的性能
研究聚类方法的性能评估利用外部和内部性能的措施。外部措施评估集群的纯度(40]尽管内部措施评估聚类结构的紧凑性,确定如何关闭每个数据点的属性是没有考虑关于数据的附加信息(41]。作为无监督聚类技术,没有地面实况数据与此相关技术比较。因此,基于定量评估外部绩效指标基于地面实况数据是不可能的。然而,集群中的所有数据可视化评估数据的分布在所有的集群。
与上述外部性能测量,轮廓系数和连接两个内部性能措施选择的研究能力评估聚类算法的性能。这些措施不需要地面实况数据并允许简单的解释结果(42]。更高的密度轮廓系数描述了集群和布置得井然有序。较低的连接系数描述了更高程度的连通性的集群43]。
6。聚类结果
6.1。集群的数量选择
集群的数量选择通过弯头的方法,如前所述。为此,总within-cluster平方之和(WSS)策划对集群的数量后的初始运行K-prototypes集群,如图4。图表明七集群是集群基于位置的最优数量的扭结肘部的阴谋。集群的最优数量取决于数据集的属性,它可以不同的位置。如果使用足够的数据,然后可以固定数量的集群分析位置。这样以来案例研究使用的数据在一整年的研究;因此,它会自动认为流量变化的季节,天气,事件,等等。应该是这里提到的发展,本研究关注方法而不是寻找最优数量的集群。七个集群被发现产生好的相对WSS的其他方法。允许公平的比较,相同数量的集群是用于所有方法。
6.2。评价聚类方法基于内部措施
如前所述,这两种利用内部措施性能评估方法的平均轮廓系数和连通性。的轮廓系数的比较研究方法在图5与电脑显示的优越性k - means以来其他聚类方法研究中使用这种方法产生的更高的价值系数。K-medoids性能是最差的在四个测试算法。评估基于连通性测量,如图6,显示了一个类似的结果与最佳性能实现与pc使用k - means,因为这产生的最低价值连接措施。
6.3。评价聚类方法基于外部措施
集群的外部测量评估方法评估每个集群的纯度。分布的平均体积、速度、和占用所有探测器(如10所示th,50th,90th这些变量的百分位数);事件严重程度变化;在每个集群和降水变化检测,以确保该方法能够单独的交通到独特的模式基于聚类变量。这样的分离将允许这些模式的分析和建模。
检查K-medoids的结果表明,该算法是针对无法分辨事件和事件的观察以及降水和non-precipitation观察。作为一个例子,图7表明该算法针对地方事件和事件,观察到相同的集群(集群1,3,4,5,6,7;如图7)。这是可能的因为高尔半岛不同指标用于K-medoids主要是定量变量(体积、速度、和入住率)的分类变量(事件和降水属性)。
当使用层次聚类,发现“完整”链接产生最好的结果在四个调查联系。其余三个分组的联系几乎所有的观测到一个集群不分的差异与不同时期模式相关联的属性。虽然完整的链接进行一点比其他三个链接类型,它仍有分配比例大的问题一个集群模式。完整的链接分组观察在一个集群分布的81%剩余的19%的观察之间的其他六个集群,如图8。根据上面的讨论,可以得出的结论是,分层方法不能产生好结果。
与K-medoids和分层聚类,K-prototypes和k - means电脑产生不同的集群分开不同的拥堵水平和交通拥堵的原因(事件、“复发性条件”和多雨条件)。每个集群的观测显示了这两种方法产生的数据9和10分别。K-prototype产生三个集群与复发性条件观察(集群1、5、6),三个集群(集群2,3,4)与不同级别的事件严重性/车道堵塞,和一个集群(cluster 7)结合事件和降雨事件。相比之下,k - means用个人电脑生产的两个集群(集群3和5)和复发性条件下,两个集群(集群2和4)事件,不同级别的严重性/车道堵塞,和一个集群(cluster 7)事件和降雨条件。电脑产生的两个集群的k - means表示很不寻常的条件。集群6只包含四个三级事件严重程度与所有通道堵塞。其他集群(集群1)包括在特殊条件下观察如天在飓风的准备和黑色星期五。K-prototypes和k - means pc生产好集群交通模式的案例研究调查。这两种方法,观察被集中在三个独特的组:正常(复发性条件)集群,集群事件,降水(雨条件),可能包括事件集群。重要的是分析师更详细地检查集群的结果来确定每个集群到底代表了什么。集群的进一步比较两种方法产生的下面了。
6.4。雨天集群
雨天集群是一种独特的集群由K-prototypes和k - means与pc的方法包括观察增加拥堵在某些情况下由于降水结合事件。虽然不是自动分为两个集群,分析师可能需要单独的降水观测分成两组分析:降水观测与没有事故和降水观测事件;根据研究的目的。
6.5。集群事件
观察与事件集中在三个集群的K-prototypes方法和两个集群的k - means与电脑的方法。确定它是合理的有三个集群和两个集群,这些事件对交通的影响,事件的位置,每个集群内事件的发生时间。框图如图11显示了10th,50th,90th速度和入住率的百分位值为每个事件集群每个确定的两个方法。事件统计每个集群显示一个集群产生的每个方法有很高的事件影响更多的事件发生在中产阶级的设施,这是最拥挤的段,7点半到9点之间,高峰拥堵时间间隔。另两种方法确定集群的事件的影响和减少观测较低峰值间隔。看来,在速度和入住率方面,三个K-prototypes事件中的两个集群非常相似。因此,似乎两个集群被电脑的k - means足以代表事件的影响。
(一)
(b)
6.6。正常的集群
K-prototypes了三个独特的集群代表正常观测。这些观察只分为两个集群的k - means电脑。框图如图12显示了10th,50th,90th速度和入住率的百分位值为每个正常的集群识别的两种方法。K-prototypes似乎更注重量化交通流参数变化和这个原因分裂正常观测到更多集群基于这些参数。如这个图所示,发现的三个集群K-prototypes把正常的天分为三个水平平均入住率为9.5%,11.5%,和15.5%,分别和平均44英里每小时的速度,57英里/小时,65英里/小时。两个集群k - means PC的中位数分别为10%和14%入住率和50英里/小时,64英里/小时。看来这两个集群条件足以支付正常的一天。然而,如果需要进一步的集群正常观测,集群的一个二级只能进行正常观测的基础上,量化交通流参数(体积、速度、和占用)。
(一)占用
(b)速度
6.7。选择操作场景
根据检查结果,五个操作场景识别的包容在建模如下:(1)正常交通模式与高容量、高速度和低的入住率。(2)正常的交通模式,高容量、低速度、和高入住率。(3)小事件交通模式与高容量、中度到高速度,低到中等入住率。(4)重大事件交通模式与低容量、低速度、和高入住率。(5)降水交通模式与高容量、低速度、和高入住率。
7所示。结论和建议
本文调查和演示了使用现有的聚类方法对交通模式识别,考虑上述问题。这些方法包括K-prototypes K-medoids 4分层方法的变化,和主成分分析相结合的混合数据与k - means (PCAmix)。k - means算法本身是决心不适用于集群基于分类变量,因此从进一步比较。
发现K-medoids不能够分辨正常观察和事件和雨观察,显然是因为不同度量使用K-medoids由定量变量(体积、速度、和入住率)的费用分类变量(事件和降水属性)。层次聚类的问题是把大部分的数据点到一个集群。内部测量比较基于轮廓系数和连通性进一步确认下K-medoids和层次聚类的性能。
K-prototypes和k - means电脑产生最好的结果当利用内部和外部措施比较。然而,K-prototypes集群无法区分特殊模式像天飓风的准备期间,黑色星期五,满巷闭包。另一方面,它将事件的观察和正常的观察分为三个模式而不是两个每个当使用的k - means pc。
在所有情况下,分析师应该检查集群的结果来决定是否需要进一步的集群的集群和/或合并。这样的决定必须基于研究的目的。选择的观察每个集群使用AMS还必须小心地做。如果有一个大的变化在一个或多个模式属性,观察可能需要不止一个代表从每个集群。在某些情况下,当有一个大的变化在每个集群属性,建议两级集群更好的交通模式识别。
的利益冲突
作者宣称没有利益冲突。
资金
本文提出了工作是一个研究项目的一部分,由佛罗里达交通部批准号下(BDV29 977 - 38)。中表达的观点、发现和结论出版的作者(年代),不一定的佛罗里达交通部或美国交通部。