文摘

大多数传统的模式选择模型是基于随机效用最大化的原则来自计量经济学理论。此外,模式选择模型可以被认为是一个模式识别问题反映的解释性变量确定备选方案之间的选择。摘要粗糙集理论的知识发现技术适用于模型的交通方式的选择将家庭和个人社会人口和旅游信息,并确定每个属性的重要性。这项研究使用长兴县的详细的旅行日记调查数据包含家庭和个人旅游信息行为模型估计和评价。的知识是容易理解的if - then语句的形式或规则揭示每个属性如何影响模式选择的行为。这些规则是用来预测的交通方式选择从信息前所未有的个人评估和分类性能。粗糙集模型显示高鲁棒性和良好的预测能力。最重要的条件属性识别确定交通方式选择性别、距离、家庭年收入、和职业。比较评价与MNL模型也证明了粗糙集模型提供优越的预测精度和覆盖的交通方式选择模型。

1。介绍

在交通领域存在许多信息和详细的数据,揭示了很多关于家庭和个体的旅游行为。然而,大量的数据和潜在的复杂性使得这些数据都仔细审查。

常用的交通方式选择模型的方法是基于随机效用最大化的原则来自计量经济学理论。由于多项logit MNL模型(1)是在1970年代开发的,参数模型家族包括不同logit模型具有不同的结构和组件已成为使用最广泛的模式选择分析的工具。然而,许多这些模型遭受的财产独立无关的替代品(花絮),这意味着另一种补偿和属性的影响导致偏见的估计和错误的预测情况下违反活动花絮地产(2),虽然显著改善消除花絮”属性。其预定的结构常常会错估或忽略部分解释变量之间的关系和替代选择特定的子组在人群中。效用函数的线性特性和协同效应可能不会充分模型综合和复杂的解释变量和它们之间的相关性和因变量(3]。

另一种方法,本文中采用的方法是开始锻炼称为数据挖掘和知识发现,这使得很少或根本没有假设的统计特性数据。知识发现能表明它所包含的变量之间的关系使用尽可能少的概率假设和线性结构关系。这些信息通常是包含在一系列的规则,当他们评估是真实的表明一个明确的结果。这些规则可以表示形式的if - then语句或在一个树状结构。在这个树结构的内部节点决定测试;分支路径从这些决策和终端节点的结果(4]。其他表示形式之间的关系属性的数据也有可能,包括贝叶斯网络(5)和神经网络(3]。本文中包含的知识是假定的条款的形式。技术总结这些规则来自模糊集理论的领域,特别是这一理论的粗糙集应用(6]。感兴趣的特征选择中的应用这一理论的交通方式选择一个人旅行。

最近的一些研究将粗糙集理论应用于旅游行为建模的7- - - - - -9)展示良好的预测性能好处。然而,现有的研究主要集中在长途城际旅游分析和其中的一些方法与传统MNL模型相比。本文的主要目标包括(a)调查能力和表现模式选择模型的城市旅行日记使用粗糙集理论,(b)找出条件属性的重要性在模式选择,(c)和相对评估粗糙集模型和MNL模型的性能。

2。交通方式选择的决定因素

最一直引用的交通方式选择的决定因素是个人人口统计资料,包括年龄、性别、教育程度、就业状况和可用性的驾照(10- - - - - -14]。年轻人和年长的人更有可能利用活跃的运输方式。女性更喜欢步行活动旅行,而男性更有可能利用一辆自行车。个人教育水平较高的行走更比那些低层次的教育。采用个人更有可能比失业个人单独驾驶。

其他常见的因素是家庭的特点,例如,收入,家庭结构,汽车和自行车所有权(13,15- - - - - -17]。收入越高的家庭更有可能拥有并使用一辆车,有孩子的家庭更有可能使用比单人家庭汽车。如果家庭有汽车,他们宁愿乘汽车旅行。另一方面,自行车的人在他们的家庭参与体力活动倾向更高的追求。

旅游属性也可以影响人的模式选择(18]。当人们去上班或上学,他们更可能选择电动模式。此外,距离是一个重要因素之间的歧视的运输模式与成本上升(公共交通和汽车/摩托车)和更低的成本(步行和骑自行车)。

3所示。数据源和准备

3.1。旅行日记调查

数据收集从activity-travel长兴县的调查中,中国,2013年。长兴是一个县的地市级城市浙江省42公里的面积2和250000居民的人口。整个家庭作为一个单元,采用随机抽样和面对面的采访调查周三,2013年5月29日。随机选择公民所需的调查人员在不同地区的城市为了保证样品的质量。样本涉及一天(工作日)activity-travel日记,记录所有活动涉及旅游细节设计等目的,模式,旅游时间,和起源每个旅行的目的地,六岁以上的所有个人的家庭。它也包括社会人口的家庭和个人。最后,从1809年家庭收集4831个有效形式。

3.2。数据准备

本研究中使用的替代的交通方式选择是脚,自行车(包括三轮车),(包括机动脚踏两用车和摩托车),运输(包括总线和公司的车辆),和汽车(包括私家车和出租车)。在实现粗糙集分析、回归的目的被排除在外,因为模式的选择在很大程度上是与昔日的旅行回来。本研究主要关注的是交通方式选择的预测基于家庭和个人社会人口和旅游属性。这些属性及其相应的分类归纳在表格1

4所示。粗糙集理论

粗糙集理论是处理模糊的数学框架和潜在的冲突的数据和在1980年代初首次制定(6]。理论已被细化和发展成一组强大的知识发现和数据挖掘技术(19,20.),仍然是一个活跃的研究领域,研究人员在理论的扩展(21,22]。实现的理论已在一些定制的软件,如玫瑰(23),罗塞塔(24),而rs (25]。

理论属于自由放养的算法和过程,旨在发现知识中包含的数据集。在一个数据集,可以将一个特定的结果(例如,交通方式的选择)的组合值或水平由其他预测属性为特定个人。在描述的过程中产生和应用粗糙集的分类规则,重要的是要认识到,两个阶段。最初有一个训练阶段有一个试图发现知识,然后测试阶段的表语性能测试这方面的知识。

4.1。理论培训

代表宇宙,一组有限的对象, 表示一组条件属性。为 ,我们说 被看不见的条件属性的设置吗 如果 对于每一个 在哪里 表示函数的信息。一组对象,它所看不见的条件属性的集合 被称为基本集。所有的家庭基本集用吗 。它代表最小的分区对象通过指定的条件属性对象属于不同基本集是明显的和那些属于相同的基本集是看不见的。较低的近似 ( ),用 和上近似 ,用 ,被定义为

下近似包含所有对象,当然属于这一类。上近似包含所有对象可能属于这一类。粗糙集是这样定义的任何子集通过其上下近似。图1是一个图形表示的概念。每一个看不见的设置显示的像素。我们想对象的子集近似画虚线,跨越像素边界,不能清晰地定义。的上下近似则被描绘成粗网格线。

例如,五个模式选择的情况下,有四个属性,描述时代,汽车保有量,目的,和模式选择,在桌子上2

例如,模式选择案例1的特点是以下声明:如果(年龄=年轻)和(汽车保有量= yes)然后(目的=工作)(模式选择=总线)

上面的语句称为粗糙集理论的规则。“然后”部分的属性被称为决策属性的概念问题,和属性在“如果”部分称为条件属性是我们观察到的信息。三个条件属性,年龄、汽车保有量和目的,形成四个基本设置: 。它代表案例1和3是看不见的,而其他情况下具有独特的条件属性。因为例1和3是看不见的,导致不同的模式选择,他们被称为边界线案例代表那些不能被正确分类信息。因此,总线模式选择与下近似集,描述 ,和上近似集, 。同样,汽车的概念模式选择具有较低近似集, ,和上近似集,

显然,概念可以用不同的下近似和上近似描述由交流输入条件属性。有时,一些特定条件属性不能用来区分对象;他们是多余的。剔除冗余属性被称为状况导出在粗糙集理论。导出是至关重要的组成部分的信息表可以辨别所有对象明显由原表。

条件属性指定的性能可以用两个指标:描述精度的近似和质量近似。精度近似代表的比例相关联的对象与指定的条件属性可定义。这是定义如下: cardrefers基数。精度范围从0到1的值。接近1的准确性,更明显的是,条件属性,即旅游模式。这意味着存在明确相关的旅游模式。

另一方面,质量近似代表宇宙是可定义的百分比。让 是一个分类 ;也就是说, , , 被称为类 。的近似分类质量 由一组属性可以定义如下:

质量范围从0到1的值。质量接近1,宇宙的更多的对象显然属于一个类 。这意味着所有旅游模式可以明确确定。

认识到更多细节的模式选择,规则需要提取。使用减少信息表(没有冗余属性),规则可以通过确定发现决策属性值根据条件属性值。因此,规则提出了一个“如果条件(s),那么决定(s)”格式。如果条件(s)的部分匹配给定的事实(s),然后部分的决定(s)将被执行。与数学函数或统计模型在传统的旅游需求预测分析、决策规则诱导从一组原始数据可以捕获和表示数值和非数值变量。此外,决策规则的模块化性质使研究人员更容易插入新的决策规则或修改/删除现有的决策规则,而不会影响整个系统。

一旦一套规则,然后,知识发现完成的训练阶段和规则然后测试。

4.2。测试理论

测试阶段是相对直接和涉及到的应用规则以前看不见的组数据以预测模式选择。幸运的是实际的模式选择是已知所以因此可能评估预测能力。这些信息通常是在混淆矩阵(26)包含实际的模式选择行和预测模式选择列。主对角线显然是正确的预测和非对角的错误预测。

评价模式选择建模性能的粗糙集,定义了两个预测指标:预测精度和预测的报道。它们分别反映了建模性能对个人和聚合级别。

预测的准确性( )或命中率的比例是正确地预测个人观察的数量为一个模式( )的总数实际观察选择这种模式( ),表示为

覆盖的预测( )反映模式总体上的预测精度水平,定义为预测观测的数量的比例(包括正确和不正确预测观测)为一个模式( )实际观测的数量选择这种模式( ),表示为

精度总是小于1,而覆盖可能大于或小于1,准确率是总是不超过覆盖率。上下文中的粗糙集分类,精度本身并不是一个有意义的测量由于覆盖率影响多少分类尝试。因此,在本文中,精度和覆盖率都是利用性能的措施。

5。旅行日记调查应用程序

该软件用于生产在这个研究结果是罗塞塔(27]。在知识发现的应用程序的数据集,重要的是,过度拟合不发生。这意味着数据用于获得的知识在培训阶段不一样被用来测试的知识。有标准程序,以确保这不会发生。哪里有一个有限的数据量, 倍过程采用的数据分成 然后相互排斥的部分 培训和测试程序进行,但在每一个过程的 部分没有使用在训练阶段,但出于测试目的。另一种有足够的数据是数据分割成两个部分,一个为独家培训目的,另一个用于独家测试。自旅行数据在这个研究很大,它是这个分区方法已被采用。数据被随机分成两个部分,1/2为模型估计和另一个1/2为后续的验证测试。实际的模式划分比例的总数据库以及训练集和测试集如表所示3

5.1。近似,导出

近似的精度是用来描述知识的完整性决定属性(旅游模式),可以获得条件属性。如表中所描绘的一样4、脚显示精度最高的91.9%的价值。其他模式也有相对较好的精度。这表明,十二个条件属性(家庭和个人社会人口、旅游属性)可以令人满意地预测交通方式的选择。另一方面,质量分类的比例是正确的分类情况。在这项研究中,91.9%的病例被正确分类,表明well-performed粗糙集模型的鲁棒性。

训练集的权值计算使用罗塞塔的计算有效的遗传算法的选择。遗传算法是一种启发式函数优化和促进“适者”的生存28]。总共3000多权值计算。权值的长度是2 ~ 12属性。它代表的任何属性是完美的近似所必需的类和删除其中的任何一个决定会导致减少的质量近似。

5.2。决策规则归纳

基于不可分辨关系的概念,集近似,分析了训练集和属性约简,和超过40000个规则生成。这意味着大多数规则是由一个或两个对象。事实上,最高支持一个精确的规则在这个数据只有64对象。五大支持规则如表所示5

5.3。验证

混淆矩阵(或误分类)措施的有效性模式选择模型。表6礼物引起的混淆矩阵模型测试集。混淆矩阵,和在每一行或列表示观测的实际或预计的数量为每个模式。主对角线细胞给比赛号码之间的现实和预测和非对角的提供了错误的分类。每个模式的准确性和报道出现在表的索引的预测性能。

总的来说,粗糙集模型具有良好的预测精度,与整体精度(命中率77.3%)。误分类结果反映,它不能区分位和汽车模式在许多观察这两种模式是相互被误诊。这一现象表明,和汽车模式,分享家庭,个人和旅游属性,表现出更多的同质性在解释变量比其他模式。收益率模型预测精度最高的脚率高达91.4%,显示大部分的观察选择脚模式并不像其他分类错误的模式。然而,自行车被低估了。很大一部分的自行车的更进一步的观察模式的位模式,这可能意味着一些难以察觉的旅行者和自行车用户之间相似的偏好。

另一方面,粗糙集模型可以预测模式选择分布的覆盖水平。它提供了一个相对良好的覆盖率,,和汽车模式但低估了自行车的总数量的观察和交通模式。

5.4。条件属性的重要性

在粗糙集模型中,条件属性的重要性是衡量他们的存在派生规则(29日]。当一个条件属性显示更频繁地在规则中,它是更频繁地用于描述旅游模式,因此更重要的区分模式的选择。存在的条件属性表示百分比由加法计算其在每个规则加权关联规则除以总病例的病例。此外,由于条件属性有更多类别往往区分更有效地交通方式的选择,比较了那些拥有相同数量的类别,如图2

总有12本研究选择模型中条件属性模式选择。图2表明所有变量对模型估计作出应有的贡献。性别、距离、家庭年收入、和职业是那些存在较高的比例在所有条件属性与2、3、6、7类。

6。比较有多项Logit MNL模型

MNL模型给出了每个替代的选择概率的函数的系统部分效用的替代品。的一般表达式的概率选择另一个 “从一组 选择如下: 在哪里 决策者选择替代的概率是 系统实用程序的组件替代吗

我们使用相同的训练集估计MNL模型。任意使用汽车模式为基础的选择。从估计的结果,最重要的变量来影响一个旅行者的模式选择的决定包括汽车保有量、许可证所有权,性别,距离,和职业。这些变量近似匹配的重要变量引起的粗糙集模型。引起的混淆矩阵MNL模型使用相同的测试集如表所示7

整体性能比较是基于这两个模型的预测结果进行使用测试集。图3显示了模型的预测精度和覆盖率由每个模式,每个模式的实际数字观测也贴上。

这两个模型显示类似的预测性能。他们两人给一个完美的预测率为每个模式的准确性和覆盖面,特别是对于观测数据集的不足。在预测的准确性,粗糙集模型显示了一个更好的性能在MNL模型预测的自行车,和交通模式。和粗糙集模型的整体性能(77.3%)也比MNL模型(75.2%)。

报道预测,MNL模型显示更好的覆盖的位模式(110.8%),但在其他模式表现较差。粗糙集模型的预测优于脚,自行车,交通,汽车模式。另一个指标,平均绝对百分误差(日军),是利用比较保险。日军表示如下: 在哪里 预测误差百分比的观察吗 th旅游模式, 观测的实际数量吗 th模式, 的预测数量的观察吗 th模式。

粗糙集模型和MNL模型的日军是20.6%和21.7%,分别。因此,粗糙集模型被证明是更好的整体预测报道。

7所示。结论

本文展示了一种相对较新的技术的成功应用领域的知识发现研究问题的理解和预测旅行者的模式选择。方法已经能够揭示家庭特征的信息,个人人口统计,旅游属性与模式选择容易理解的形式(一组“如果-那么”的表达方式),并使用这些信息来预测模式选择以前看不见的人。

粗糙集模型显示了模型结构的高鲁棒性的训练数据集,因为他们的数据归纳属性。没有统计假设(例如,花絮”属性的假设)需要所以之间的兼容性模型结构和模型中的观察增强估算,因此可以提高预测性能。根据派生规则,最重要的条件属性确定的粗糙集模型,确定交通方式选择性别、距离、家庭年收入、和职业。

比较评价与MNL模型表明,粗糙集模型相比,但稍微更好的预测能力的交通方式选择模型。基于单独的测试数据集预测结果显示,在精度和覆盖率,粗糙集模式优于MNL模型。

然而,粗糙集引起太多的细则。尽管单一规则很容易解释,完整的规则集太大声音旅游行为的洞察力。技术,如泛化或缩短的规则已经被应用于解决这个问题(26]。先进的模型如粗糙集结合遗传编程(30.)也可以采用在未来提高规则提取和观察的性能验证。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究是由中国国家自然科学基金(51178109)和国家基础研究973项目(2012 cb725402)和中国博士后基金(2013 m540408)。作者也要感谢研究生研究助理在东南大学交通学院协助数据收集。