文摘
本文根据客户和产品的角度来看,通过聚类分析和关联规则技术,提出了一种基于一种改进的交叉销售模型序列模式挖掘算法,改进算法的美联社(先天所有PrefixSpan)。该算法可以减少构建一个投影数据库的时间成本和增加的影响算法效率的支持。改进的想法是,当第一个分区用于生成投影数据库,在投影数据库中项集的数量从小型到大型排序,当第二个分区使用,直接从生成的序列模式挖掘序列模式,以减少数据库的建设。实验结果表明,该方法可以快速我在复杂的数据集的有效信息,提高数据挖掘的准确性和效率,占用更少的内存消耗,具有良好的理论价值和应用价值。
1。介绍
随着科学的不断发展和进步,技术,经济,全球产业竞争越来越激烈,商业模式,市场环境和竞争模式发生了根本性的变化(1]。这种变化更明显的信息服务行业。向现有客户提供新产品和新服务,即交叉销售,扩大利润起着重要的作用。交叉销售的关键是提供最合适的产品和服务现有客户,这样客户可以接受的服务带来的最大好处,卖方和买方具有重要意义的转换customer-cantered经营理念。这个原因很容易理解。然而,只有当我们找到一个非常准确的模型,我们可以特定类型的产品卖给合适的顾客,使利润从他们(2]。
一般来说,考虑如何利用潜在的交叉销售机会可以从两个方向:一个是与业务客户,另一个是(3]。识别交叉销售机会从客户分析是基于现有客户的消费特点,预测交叉销售的基础上,研究购买不同的客户群体之间的差异,以便推荐特定类型的商品组合。识别交叉销售机会从业务的角度来分析业务特点,找出现有用户满足的特点和推荐他们(4]。
本文提出一种改进的PrefixSpan算法基于先验的算法(IPrefixSpan方案)。算法的思想是生成所需的序列模式直接从挖掘序列模式减少投影数据库的建设。序列已开采,开采速度越快,而且没有特殊要求的数据形式。算法的优点结合先验的算法,减少增加支持效率的影响。
节2介绍了交叉销售相关工作,潜在的特征模型,NPTB模型,市场挖掘模型进行分类,以便更好地描述了交叉销售的背景。部分3介绍了交叉销售的结构模型;此外,一种改进PrefixSpan算法结合先验的方法相结合。部分4是实验的模拟和分析。部分5是结论。
2。相关的工作
近年来,越来越多的国内外学者研究交叉销售,和许多学者都致力于交叉推广鉴定方法的研究。目前,交叉销售机会识别的方法和模型主要包括以下三个模型:潜在的特征模型,NPTB模型和市场挖掘模型。
过去,对交叉销售的研究主要是集中在欧洲,美国和其他发达国家。市场竞争的主要原因是,在欧洲和美国和其他发达国家是激烈,和传统的营销模式已经不能使企业维持一个更大的市场竞争优势。企业需要找到一个新的营销模式来参与市场竞争。在这个时候,交叉销售很快就会进入相关企业和研究。这也带来了前所未有的机遇的研究交叉销售(5]。文献[6)指出,交叉销售是提供正确的产品在正确的时间正确的客户,和客户的原始交易数据可以帮助我们实现上述目标,因为这些数据可以使企业意识到客户的实际需求通过类似客户的购买行为。然而,数据库通常只包含事务数据但不包含相关产品在市场上的数据(7]。此外,从数据库中提取的信息往往依赖于数据挖掘技术,这也使得数据信息都落后于数据收集和存储,使得部分数据缺失,导致不准确的预测(8]。针对这些缺点,文献[9)提出申请一个新的数据增强技术来预测客户的购买新产品,选择混合数据因子分析技术的基础上,现有客户交易预测产品的最有价值的潜在客户,从而进一步实现交叉销售。序列模式挖掘(10是我的频繁序列事件或子序列。序列模式挖掘是广泛使用,因为它不依赖先验知识和能找到未知的规则。
在[11),一把铁锹算法提出了基于垂直数据格式。上面的算法会产生大量的候选集。然而,FreeSpan算法(12)是基于序列模式的发展和不产生候选集。PrefixSpan算法(13)是一个FreeSpan算法的改进,减少了投影数据库的连接次数和子序列,使数据库收敛更快,和算法的效率高于以前的算法。PrefixSpan算法生成相应的投影数据库根据前缀然后扫描投影数据库以避免扫描整个数据库,从而减少扫描时间。算法的主要时间成本是建立投影数据库,和支持的增加,效率会降低。由于改进的支持,减少了投影数据库的收敛性。在[14),数据库的建设是改善,但数据形式太高了。王等人。15)提高了内存存储;支持增加时,效率也会降低。
2.1。潜在的特征模型
江et al。16]提出发现潜在用户适合交叉推广通过分析潜在的特征;潜在的特征模型的原理结构如图1。任何潜在特质理论假定个人行为可以解释为特定的个人特征和预测或解释有关情况的行为或性能通过数值计算这些特征。本文使用特质理论预测业务交叉销售机会,并使用用户的意见或服务特征和其他特征相关业务或服务来预测其使用业务或服务的可能性。潜在特质模型提供了一个交叉销售的后续研究的主流研究方向。然而,潜在特质Chen等人提出的模型。17要求企业了解情况,每个用户消耗自己的企业和竞争对手的业务,这是在现实中难以实现。因此,文献[18]提出了一种综合数据处理扩展数据因子分析模型,根据抽样调查主要数据处理调查样本。在其扩展模型,四个不同类型的权力指数函数分布模型,即伯努利分布是用来表示二进制服务使用物品,二项分布用于表示满意度排名,泊松分布用于表示服务使用频率和使用正态分布表示交易量。浓度系数是用来总结的能力模型来预测交叉销售机会。
2.2。NPTB模型
在文献[19),NPTB(下一个产品购买)模型提出了改进交叉营销的有效性。诺等人的实证研究结果表明,交叉销售预测NPTB模型(图的结果2)更有效的启发式算法相比提高销售的企业。
注意:代表了用户数据,包括用户的当前业务,人口统计变量,和其他相关变量。代表了测量用户对采购业务的需求,和代表了无边无际的抑制购买业务的因素,如用户未能认识到这一需求或因竞争对手的营销努力的因素。
此外,文献[20.建议零售商应该针对不同的客户制定不同的销售计划,补充和完善NPTB模型的基础上优惠购买模型和NPTB模型在不断降低销售成本的前提下为了有效推荐不同的产品,不同的客户在不同的时间。文献[21)提出了随机森林方法,对数多项式,对数和随机多项式在零售家电零售企业分析和分类结果的大型家电零售企业的客户采购数据和研究客户的交叉行为,以更好的帮助企业制定cross-sales策略和增加销量。
2.3。市场挖掘模型改进的序列模式挖掘算法
使用市场细分方法预测的角度提出交叉销售在文献[22]。市场细分变量的选择是互动的心理细分变量,包括消费动机、消费偏好、态度和价值观。基于问卷调查的心理变量的样本用户随机选择从企业数据库,本文将细分用户,分析每个细分群体的人口学特征,然后建立一个评分模型来预测交叉销售机会。
提出了贝叶斯网络分类产品的交叉销售。贝叶斯网络是一组离散的联合概率分布的随机变量,它被认为是一盒概率模型组成部分之间定性条件依赖性一组变量的条件概率的定量变量指定的部分。然后,文献[23)提出了利用动态贝叶斯网络的优势支持金融服务公司的交叉销售的行为。动态贝叶斯网络建立了一个基于贝叶斯网络的动态系统模型,以便开发独立的条件。在此基础上,优化过程中获取信息的有效性,交叉销售,增加交叉销售的成功率。文献[24)提出了一种基于领域知识的个性化推荐模型,应用于企业的交叉销售策略。在这个模型的应用过程中,我们应该首先进行预处理客户领域知识集群(协同过滤方法可以使用),然后提出结合相关产品领域知识和形成一个推荐列表,最后完善推荐列表,找到最优惠的产品交叉销售。此外,文献[25)提出了使用多个信贷方法综合预测销售相关产品的风险,以帮助金融企业选择客户交叉销售产品的利润预期。
3所示。交叉销售模型研究基于改进的序列模式挖掘算法
3.1。交叉销售模型的结构设计
序列模式挖掘模型基于集群营销业务数据由数据采集模块、数据预处理模块、数据存储模块、决策支持模块和用户推荐模型。模型的结构如图3。
用户推荐层(也称为客户层):用户交互界面为用户使用分析CRM系统的功能和服务。它的功能是接受用户请求和处理用户交互的平台。动态页面自动生成的web服务层,并使用web浏览器提交用户的请求和显示页面生成的web层。但它不执行查询数据库的功能和复杂的业务规则。
数据库层:分析型CRM系统的后台数据库服务器,代表企业信息资源,包括事务监视器、关系数据库和各种定制的应用程序。它的功能是每个部分的元数据管理,提供相应的接口,并完成创建、维护和访问的数据源,如数据仓库。在本系统的设计,关系数据库SQL Server用作背景分析CRM的数据库,数据仓库是建立基于它。同时,为了更好地提取所需的基本数据和满足要求的数据备份、数据提取、转换和加载(ETL)服务器添加数据仓库和数据仓库之间的管理服务器。从数据中心服务器提取所需的数据;标准化的名称、代码、数量和形式的数据项;和消除重复数据。
数据预处理层:主要包括数据抽取、数据清洗、数据简化和规范化,识别用户识别和路径。这一层的主要任务是收集结构化数据进行预处理,半结构式数据和不规则的数据和删除重复数据和无效数据。
序列模式发现层:它包括聚类挖掘,挖掘和OLTP模块;决策支持分析和评估结果。这一层的主要工作是深入挖掘用户的需要和潜在需要通过协会、集群和OLTP操作和建议为用户迫切需要的产品或服务。
信息采集层:根据本文的需要,大量的客户基本信息收集的数据和客户行为数据统一客户资源子系统、计费子系统,子系统和综合核算。数据包含详细的业务行为和会计信息的客户;通过对这些数据的统计分析,我们可以得到所需的相关属性的研究。
3.2。数据挖掘算法的基础上改进的序列模式挖掘算法
数据挖掘算法的基础上改进的序列模式挖掘算法在本节说明。这两个算法的融合思想是使用PrefixSpan生成投影和投影使用Apriori-all算法进一步过程。接下来,数据挖掘算法的改进方案在本节说明。
假设的事务数据库DB是一组序列,序列和数据 。 所有物品的集合;项目集 是的一个子集我。一个序列是有序列表的项集,表示 ,在哪里代表itemset。一个项目出现在一个序列的次数称为序列的长度。通常,一个项目可以出现在任何序列的itemset最多一次,但它可以出现在不同的项集的序列。一个序列的长度k被称为k序列。
定义: , 。客户数据库的事务被称为数据序列。如果数据序列是一个序列的子序列 ,然后包含 。的支持序列包含的数量的比例吗在DB数据库序列的总数,表示 。此外,最低的支持的定义是由用户指定的阈值。如果 是满意的,那么被称为顺序模式。序列模式挖掘是找出所有数据库中的序列模式。
本文提出一种改进的序列模式挖掘算法基于Apriori-all算法和PrefixSpan算法。这种方法的想法:如果序列模式集序列模式被称为作为前缀数据库和相应的投影 ,序列模式的序列模式集作为候选集,投影数据库年代|扫描来验证是否每个序列模式的数量大于设置的候选人支持生成序列模式集序列模式<一个|在候选集。据PrefixSpan生成的序列模式的特点,如果一个序列不满足支持度,然后用序列序列前缀不满足支持度。因此,当验证候选集,如果一个序列不符合支持,那么序列与序列前缀不需要验证。
给 ,重量计算如下: 在哪里记录的重量吗 , 记录的使用频率在使用记录年代,使用时间记录吗在使用记录年代,α重量参数,用来权衡使用频率和使用时间。
给定一个序列 和重量 ,然后序列的重量年代计算如下:
整个结构设计的改进的序列模式挖掘算法可以如图4。如图所示,对于序列模式挖掘,让DB代表原始数据库;让DB代表增量数据库,数据库中添加新数据,包括新事务和数据序列。代表更新数据库。客户号在可能已经存在于数据库,或者它可能是一个新客户。此外,从最小的开始挖掘投影数据库,扫描投影数据库获得相应的长度为2的序列模式,然后把它作为前缀长度为2。这时,扫描结果数据集来确定前缀长度为1的序列已被敌军布上了地雷。如果它被开采,使用YZ方法来生成所需的序列模式直接从长度为1的序列集。如果没有PrefixSpan算法。当发现序列模式设置前缀长度为2,长度为2的序列模式设置前缀是包含在序列模式设置前缀长度是1,所以它可以直接从生成YZ长度为1的方法。然后,生成的时间序列的长度是1小于PrefixSpan的算法。
详细的评价指标定义如下:指标1:准确性的比例是正确的数量预测软件预测过程中预测的总数。计算公式如下: 在哪里意味着预测是积极的,事实上预测是正确的,也就是说,作为积极正确的判断;意味着预测是负的,但实际上的预测是正确的,也就是说,正确的判断阴性;意味着积极的预测,假预言,误判率,即消极的预测是积极的;意味着预测是负的,事实上,预测错误,缺失率;也就是说,积极的判断就是消极的。在一般情况下,模型的精度越高,模型的效果越好。指标2:培训时间意味着,在这个实验中,模型训练的运行时间越短,越少的资源占用,减少对用户的影响,更好的算法。
4所示。仿真结果和性能分析
4.1。数据源和仿真设置
实验数据是标准的合成交易数据,并生成过程是一样的,在文献[9]。相关参数的测试数据集|D|客户的数量,设置为10 K;|C|客户交易的平均数量,设置为10;|t|交易的平均数量,设置为2.5;和|n|总数的项目设置为1000。|年代|表示平均长度最长的频繁序列,设置为4;|ns|表示最长的频繁序列的数量,设置为1000;和表示最长的频繁项集的数量,设置为5000。用于生成UD上述参数。
首先,更新数据库UD生成客户的数量。我们设置三个参数来模拟真实交易数据的各种更新情况更符合实际情况。参数1:更新率 , 。生成DB | | nonrepeating随机数的范围1和使用这些随机数作为客户数字出现在DB。使用在DB客户客户号码。参数2:返回率 ,许多老客户 ,从DB | |这是随机选择的。数据序列的这一部分将被进一步分为两部分,即相同的交易客户数据库和事务的新数据库。这个比例是控制参数3、事务额外的比率。参数3:重量参数 。它是用来衡量使用的频率和持续时间。
我们使用vc++ 6.0实现fispm和前缀跨度算法在一台计算机上拥有512内存,866 mhz处理器和Windows 2000操作系统。IPrefixSpan算法相比PrefixSpan算法。
4.2。算法参数的最优选择
重量参数是一个重要的参数在整个算法。在本文中,我们使用实验方法得到的最优参数。首先,初始化 和 ,并使用轮询的方法获得 最高的精度。在这个时候,α是最好的参数使用应用程序使用的频率和持续时间。仿真结果如下。
从图可以看出5精度变化与重量的变化参数α(即。,the measurement variable of usage time and frequency). When it is less than 0.5, the accuracy rate increases with the increase of time. When the parameter is greater than 0.5, the accuracy shows a downward trend. Therefore, when ,准确率最高,这是最好的价值来衡量用户的使用时间和频率的比例。
为了得到最佳的回报率和更新率参数,我们进行了以下实验。一系列不同的参数、回报率和更新率的设计在不同支持度,和通过使用两个控制参数的最优指标的准确性和运行时间。仿真结果如图所示6。
(一)
(b)
(c)
(d)
作为显示在图6,支持度设置为1%,2%,3%,4%,5%,6%,7%,8%,9%;返回率设置为20%,30%,40%,50%;和更新率设置为20%,30%,40%,50%,60%。
作为显示在图6仿真结果表明,与支持的增加,算法的执行时间降低,然后增加。当回报率不变,无论多么大的更新率被选中时,执行时间几乎是相同的,表明上的更新率没有很大的影响执行时间。此外,选择最小执行时间,和更新率和返回率分别为30%和40%,分别。2%的支持。需要特别解释的是数据获得的这组实验室当重量参数是5%。
4.3。序列挖掘的准确性验证
为了进一步验证算法的性能,我们使用vc++ 6.0实现改进的序列挖掘方法512 MB内存的主机,奔腾iii - 733 mhz处理器和Windows 2000名专业操作系统。把上面的数据集作为一个例子,在数据挖掘、数据显示图如下:其中,人物7(一)是原始数据的一部分,图吗7 (b)数据挖掘结果图的改进PrefixSpan,和图吗7 (c)是数据挖掘后热能量图。图7 (d)是用户习惯的概率图。
(一)
(b)
(c)
(d)
从图可以看出,本文结合PrefixSpan方法来设计合适的权重系数。在获得适当的参数,数据挖掘的结果取得了良好的效果。从图可以看出7 (b)该方法可以快速分类从复杂的数据和我的数据。能量图和概率图在图7 (c)和图7 (d)进一步说明算法的精度高。它可以使数据挖掘的结果更准确。
4.4。该方案的优越性验证
实验环境和实验测试数据集是一样的,和支持的测试数据集是3%,4%,5%,6%,7%,8%,9%,10%,和11%,分别。实验结果如图所示8。从图可以看出8改进的前缀跨度算法显然比前缀跨度算法支持时在4%和8%之间。部分4.2表明,增加的支持,使用的时间的比率提高前缀所使用的方法,时间跨度前缀跨度方法正变得越来越小,而图8前缀表明时间差距跨度算法和改进的前缀跨度算法后减少超过8%的支持。主要原因是,支持的增加,序列模式的数量减少,该算法所使用的总时间减少,这两种算法之间的时间差距变得越来越小。实验结果表明,改进的前缀跨度算法比前缀跨度算法。此外,数据挖掘的准确性在不同支持如图9。从图9,可以看出,两个具有相同的趋势,和IPrefixSpan的准确性明显高于PrefixSpan。
(一)
(b)
5。结论
PrefixSpan算法的研究基础上,本文研究的成本PrefixSpan算法主要在于建设subdatabases也研究先验的算法。先验的算法效率验证候选集。基于PrefixSpan算法所产生的序列的特征,验证方法进行了改进,提高了PrefixSpan算法,对算法的效率,减少了影响增加的支持。此外,权重系数可以显著提高算法的效率在更新数据时,它还可以减少算法的运行时间通过调整权重系数。仿真结果表明,该方法可以实现良好的数据挖掘效果营销数据。算法可以减少建筑投影数据库的时间成本增加和减少的影响支持算法的效率。改进的想法是,当第一个分区用于生成投影数据库,在投影数据库中项集的数量从小型到大型排序,当第二个分区使用,直接从生成的序列模式挖掘序列模式,以减少数据库的建设。此外,本文提出了一种时间序列数据挖掘的基本算法,可用于任何时间序列数据集,例如,交通、天气和其他领域。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有利益冲突或人际关系可能出现影响工作报告。