文摘

近年来,数据库技术也发展迅速,变化日新月异。在网络技术的支持下,应用规模、范围和深度不断扩大。数据的爆炸性增长,我们也面临着这样的挑战:首先,作为一个基本的信息存储和管理方法,数据库技术只能执行简单的数据处理,如查询、统计、报告等;缺乏决策;分析;预测;和其他高级功能。其次,面对这些巨大的数据,人们更加关注如何挖掘出隐藏在这些数据的重要信息,而不是数据本身。因此,数据挖掘技术,集统计、人工智能、模式识别、优化,应运而生。面向应用的数据挖掘技术从一开始,在各个行业和它的巨大的成功充分体现了其强大的生命力,特别是在零售行业。 If the data mining technology can be perfectly combined with the retail industry, it can not only bring great convenience to customers but also inject new vitality into enterprises, making them invincible in the fierce competition. This paper proposes a filtering of high-quality customer system framework based on maximum entropy, which expresses customer data as a feature vector for feature selection and feature smoothing. The filtering performance of different feature sets is compared by combining different characteristics of customer data. Experiment and conduct multimedia presentations. Experiments show that the filtration performance of this system is better than the general filtration system.

1。介绍

零售业是一个活动,包括直接向最终消费者出售商品或服务。这个行业的目标是更多的消费者比批发商和制造商(1]。这也决定了零售业主有以下特点:(1)对客户而言,他们来消费,与零售商之间的关系是断断续续的。(2)商品而言,零售商采用营销,寄售,联合营销,等等。供应商与零售商的数量也非常大。(3)利润,零售商的毛利率低于制造商。(4)还有一个重要的特点,零售业是一种销售行为,这不仅受到季节的影响,假期,和其他外部因素也是造成自己的促销,降价,等等。所谓的数据挖掘,在业务应用程序中,是一种分析大量的数据存储在企业通过数学模型,找出不同的客户或市场,分析消费者的偏好和行为。数据挖掘的任务有关联分析(2]、聚类分析、分类、预测、时序模式和偏差分析:(1)关联分析的目的是找出数据之间的关系。一般来说,两个阈值的支持和信誉是用来衡量关联规则的相关性。(2)聚类是将数据分类到几类相似。同一类别中的数据是相似的,在不同的类别和数据从彼此有很大的不同3- - - - - -6]。(3)分类是找到一个类别的概念描述,它代表的整体信息等数据,也就是说,内涵的描述类,并使用这个描述构造一个模型。一般来说,规则或决策树模式是用来表示7]。(4)预测是利用历史数据找出变化的法律,建立一个模型,然后预测未来数据的类型和特点。(5)时间序列模式指的是模式高重复的概率由时间序列搜索。(6)有很多不正常的数据库中的数据。是非常重要的发现异常数据在数据库中。它可能对应于业务异常现象(8- - - - - -10]。

有很多种数据挖掘方法。主要的数据挖掘方法在零售行业的客户关系管理预测分析、相关分析和聚类分析。预测分析一般是基于预测分析模型设计实现的操作。预测分析模型通常假设一些现象(因变量)来自其他现象的出现(独立变量),或改变其他的变化现象。有一个稳定的定量因变量与自变量之间的关系。通过这种方式,可能的情况下可以通过已知的预测数据11- - - - - -13]。在数据挖掘,预测分析模型的建设通常是发现客户的响应特定营销活动和反射的程度。数据挖掘技术可以预测和分析包括逻辑回归、决策树等。逻辑回归是用来构造之间的定量关系目标变量(因变量)和多个预测变量(自变量)[14- - - - - -16]。在形式上,逻辑回归非常类似于线性回归。主要的区别在于,逻辑回归的因变量是连续变量,但离散或分类变量(17]。一般来说,可以使用逻辑回归来预测两个或两个以上水平的结果。但在零售业务,两个级别的结果是常用的,如客户反应或接受一个促销活动18- - - - - -21]。决策树还用于构建目标变量(因变量)之间的定量关系和多个预测变量(自变量),以便检测目标对象的属性(如客户或产品)在一个因变量。决策树的方法就是将目标对象的数据根据独立变量的顺序,和所有目标对象划分为不同的群体。有一个伟大的团体之间的异质性,和有一个伟大的组内同质性22]。然后,我们发现每个因素和目标事件之间的关系,并使用它来预测客户的行为(23- - - - - -25]。例如,为了合理分类客户,客户的会员级别是根据他们的年消费量点决定的。在此基础上,数据挖掘技术的决策树方法用于查找判断规则来衡量价值的成员。规则可以作为判断的基础新客户和潜在客户的价值,并为企业奠定基础有针对性的向客户营销,以实现企业和顾客之间的双赢的基础上提高客户满意度(26- - - - - -28]。

但数据挖掘的过程实际上是确定性的分析数据的过程。不确定性分析方法包括模糊集合理论、粗糙集理论、统计熵,等等。摘要最大熵模型是用于验证的优点最大熵模型,可以用来表达各种功能方便,和没有必要承担独立之间的特性(29日,30.]。多媒体展示功能非常丰富。多媒体显示的主要目的是传播信息,促进产品内容。被提升的内容是显示在一个多媒体演示模式,这样人们可以及时获得信息。本文将展示多媒体平台上的数据挖掘,实现良好的结果。

2。该方法

2.1。最大熵模型

在19世纪,科学家们提出了热力学定律为了研究蒸汽机的效率,不断深入研究的过程中,他们提出了熵的概念。在物理学中,熵是热能比温度,表明热量转化为功的程度。在热力学中,熵可以表示状态的物质和系统中混乱的程度。熵越大,混乱的程度就越大。香农提出的“信息熵”是第一个意识到信息的定量测定。当人们了解更多关于一个随机事件,随机事件的不确定性降低。在概率论中,信息熵是信息的数量的期望。熵越大,事件的不确定性越大,熵值事件的决心是0。

信息熵是衡量随机变量的不确定性。随机变量的不确定性越大,信息熵就越大;如果随机变量退化为一个固定值,信息熵是0。为一个随机变量N可能的结果,从信息的角度来看,获得的信息越多,越不确定性消除。

熵可以分为个人熵、联合熵和条件熵。在单一的熵,顾名思义,熵的大小事件是由一个随机变量。联合熵的熵值是两个随机变量共同决定的XY。条件熵的计算熵值时一些信息Y是已知的。

可以从熵的概念,熵越大,系统越混乱和其概率分布越均匀。因此,根据最大熵原理,概率分布集中满足已知的条件下,我们选择最优概率分布作为最终预测结果与最大熵准则。

1957年,基于信息熵,我们首次提出了最大熵原理。他认为,一个可行的解决方案以最大的程度的混乱(即最大熵)应该选择从所有可行的解决方案。也就是说,处理信息的过程中,只有完全客观、明确的信息补充道,和没有添加人工假设,这样可以获得结果的最大熵和可以包含所有可能的情况。最大熵原理是选择的标准随机变量的统计特征最适合客观条件。爱因斯坦曾经说过,熵理论的第一定律是整个科学。在自然界中,不同的随机现象可能遵循相同的概率分布,以及任何随机现象通常按照概率论中常用的概率分布。这些常见的概率分布应该遵循最大熵原理,所以可以使用最大熵原则作为标准来确定随机变量的概率分布。也就是说,使用最大熵公式作为目标函数,结合不同的约束,我们可以推导出概率理论中常用的概率分布。

最大熵模型的建立首先需要确定系统中可能发生的各种各样的不确定性。然后,数学模型和最大熵作为目标函数和各种状态的发生概率为独立变量推导获得的概率发生的各种不确定性条件下的最大熵。零售业务过滤,资源配置的条件是满足业务需求,首先我们必须确定的概率高质量客户,然后建立数学模型与最大熵作为目标函数,引入引力模型。成立后的模型和相关参数的确定,可以根据检查结论的例子,以确定本文所得的结论具有普遍的适用性。

系统建模的目的是构造一个随机模型最终预测随机过程。因此,模型的建立需要解决两个关键问题。第一个问题是特征选择。所选统计可以对应于目标的随机过程。第二个问题是如何构建一个精确的模型在指定数据。最大熵模型提供了一个统一的方法来解决这两个问题。给定的训练数据集,我们的目标是选择最好的分类模型基于最大熵原理,也就是说,对于任何给定的输入x∈输入,输出y∈输出的概率P(y|x)。图1是一个最大熵模型的一般形式的框架。

在模型的训练过程中,我们首先选择目标的特性根据数据训练集,输出部分的训练样本集,然后利用该模型选择算法训练模型。期间的执行模型,系统选择要处理的特性数据样本,然后计算最终的概率p(yx′)通过模型,最后进行接下来的操作。

熵和最大熵模型在实践中有很丰富的应用程序:(1)在现实生活中应用。信息熵具有重要指导意义在水文序列分析,测站网布局评价、水文预报、水质评价、水资源评价,等等。除了应用信息熵在自然环境中,它也可以提高教学的质量。为了提高教学质量和指导教师提高教学水平,有必要对教师的教学质量进行评估。然而,很难衡量教学质量的。使用信息熵可以全面、合理地分析教学评价的质量,具有非常重要的指导意义。(2)金融经济。安全风险通常以安全回报的方差来衡量,但方差计算复杂度高;高估风险有一个问题,有一个限制假设回报分布是正常的。为了降低投资风险,三种投资组合模型建立了基于信息熵,可以改善投资过程中的风险控制。在一个复杂的投资环境,熵的概念起着非常重要的作用在不同的投资模型的应用,风险评估和合理的决策。

2.2。特征选择算法

特征选择技术是一个重要的数据降维方法。其实质是选择一组最优特征子集,以满足特定的评估标准从原来的特性集的原始数据,以便执行分类或回归。在执行任务时,可以获得更好的模型,可以获得更精确的分析结果。

像变量、属性等,功能也是一个方面的数据,它可以是离散数据,连续数据,或布尔数据。在常见的分类问题,功能可分为三类:相关特性,影响分类结果在很大程度上并不能取代;无关的特性,具有很强的随机值,不会影响分类结果;冗余特性不会影响分类结果或功能与其他功能有关。特征选择的任务是清除无用的或冗余特性从输入数据,并获得最优特征子集组成的相关特性,对分类最有价值的。

特征选择也称为特征子集选择(FSS),或属性的选择。它指的是选择的过程N功能从现有系统的功能优化的具体指标。这是一个过程,从最初的选择一些最有效的功能特性,以减少数据集的维数。这是一个提高学习算法的性能的重要手段,也是模式识别的一个关键数据预处理步骤。学习算法,一个好的学习样本训练模型的关键。此外,特征选择和特征提取需要区分。特征提取是指更抽象的特性集的计算通过使用现有的特性,也指的是算法的计算功能。

根据特征选择框架,一般包括四个步骤:特征选择算法子集,子集评价、停止条件,验证子集。子集的一代是一个持续的搜索过程。基于原始的特性集,选择一个起始特性集,和一个特定的搜索策略是用于生成一个特征子集为下一个评估根据一定的搜索方向。子集评价是评价功能子集生成的子集生成过程中通过一些评估标准来确定是否最优特征子集,如果是这样,替换当前的最优特征子集。停止条件设置为防止搜索过程进入一个无限循环,其通常是一个阈值搜索的数量或数量的特性。验证子集的最后一步是特征选择算法。通常,使用分类器训练和测试的原始特性集和比较选择最优特征子集的优缺点选择最优特征子集。

特征选择过程一般包括四个部分:生成过程,评价函数,停止准则,验证过程。一般来说,特征选择可以被视为一个搜索优化的问题。特性集的大小n的搜索空间是由2n−1可能状态。戴维斯等人证明了最小特性子集的搜索是一个NP问题,也就是说,除了一个穷举搜索,它不能保证找到最优解。然而,在实际应用中,当特征的数量很大,一个详尽的搜索不能被应用,因为过多的计算,所以人们致力于使用启发式搜索算法来找到理想的解决方案。一般特征选择算法必须确定以下四个要素:(1)搜索起点和方向;(2)搜索策略;(3)特性评价功能;(4)停止标准。搜索起点状态点算法开始搜索,搜索方向指的是顺序生成的特征子集评价。搜索的起点和方向有关,和他们一起决定搜索策略。一般来说,根据不同的搜索起点和方向,有四种情况如下:(1)向前搜索起点是一个空集年代。根据一定的评价标准,随着搜索的发展,选择最好的功能特性集不包含在年代不断加入年代。(2)向后搜索起点是全套年代和最不重要的功能不断的删除年代根据一定的评价标准,直到达到一定的停止准则。(3)双向搜索从两个方向开始。当中间的空间一般搜索特征子集,子集需要评估将显著增加。使用单向搜索时,如果搜索穿过空间的子集,它将消耗大量的搜索时间,所以双向搜索是一个更常见的搜索方法。(4)随机搜索从任何起点,具有一定的随机性,添加和删除功能(31日]。

假设原始特性集n功能(也称为输入变量),有2的一个可能的子集n−1非空的特性。搜索策略是为了找到最优特征子集的搜索空间包含2n−1候选解决方案。搜索策略大致可以分为以下三个类别:(1)详尽的搜索可以搜索每个特性子集。缺点是它将带来巨大的计算开销,尤其是功能的数量大,计算时间很长。分支界限法通过修剪(BB)缩短了搜索时间。(2)序列搜索避免简单的穷举搜索,并添加或消除功能当前功能子集在搜索过程中,按照一定的顺序,以获得最优特征子集。典型的顺序搜索算法是向前和向后搜索、浮动搜索、双向搜索、序列向前、向后和序列搜索,等顺序搜索算法容易实现,及其计算复杂度相对较小,但很容易陷入局部最优。(3)随机搜索开始于一个随机子集的候选特征,和接近全局最优的解决方案一步一步按照一定的启发式信息和规则。例如,遗传算法,模拟退火算法、粒子群优化算法和免疫算法。

在特征选择,特性集的一个子集,可以表达随机过程的统计特性被选中。常用的分类特征选择方法包括文档频率、信息增益、互信息,预计叉,等等。特征选择过滤掉一些特性。这种方法的一个可能的问题是,一些有用的信息将被忽略。由于小数量的关键字,并避免在特征选择过滤掉任何有用的信息,本文采用最大熵模型提供的解决方案。

本文主要使用两种增量特征选择(IFS)算法,即基本算法和近似算法,它是基于增量特征选择和伯杰等。提出的条件最大熵方法迭代过程的每一步都是由活动的变化特点年代。当前活动的特性年代决定了最大熵模型 和模型空间C(年代):

之后添加一个新特性 年代、新活动特征 和模型 得到了。

通过添加 ,该模型 可以更好地代表训练集的特征和产生对数似然获得 训练集的数据。

每次迭代过程中选择功能 最大化 候选人的价值特征空间,并将其添加到当前活动特性。

(1)基本增量特征选择算法估计模型在新特性集和迭代算法每一步,并计算出最大的可能性增加。基本的流程描述如下(算法1):

(1) 初始化年代=∅;
(2) 对于每个候选人的特性f执行以下步骤:
(一) 通过IIS算法计算;
(b) 计算获得 当添加f;
(3) 检查算法结束条件,如果条件为真,它结束了;
(4) 特征 以最大增益 选择并添加到吗年代
(5) 由IIS算法去计算步骤2;

算法的关键问题是计算复杂度太大。每个功能都需要调用IIS所有候选算法的特性,和训练集数据的对数似然计算。显然,这个算法是不可行的。

(2)近似增量特征选择算法是基于基本的算法减少计算量。如果添加一个新特性,只有这个新特性参数变化在整个模型中,而其他现有的特征参数保持不变,或模型添加一个新特性之后仅依赖于原始模型和参数 ,那就是:

的公式计算近似获得如下:

这种近似简化了计算对数增益造成的可能性将新特性引入一维优化问题,并且极大地降低了计算复杂度。但与此同时,它可能会导致一个问题:可以选择特征f与最大近似得到 ,而忽略了特征 与最大增益 近似算法是可行的,但它是耗时。在此基础上,提高IFS,选择性增益计算算法。每一步只计算获得的一些特性,获得更多的在过去的特征选择过程,并计算得到当前特征选择的步骤。

目前,特征选择技术是广泛应用于Web文档处理、图像处理、网络安全、和医疗诊断和分析。特征选择算法研究也更加深入,和大量的新算法。算法的选择已经成为一个非常重要的问题。这个问题。一般来说,除了考虑应用程序的特定场景中,特征选择算法的选择还需要注意以下因素:第一,数据的规模。对于小规模数据集,您可以使用过滤方法或接近全搜索包装器方法,如BB算法;当数据集的规模很大,您应该使用更有效的过滤方法,如救济或ReliefF算法,等等。其次,要处理的数据类型。不同的特征选择算法可以处理不同类型的数据。例如,BB算法不能处理离散数据。救灾和ReliefF算法可以处理离散和连续数据。 MIFS and MRMR algorithms are processing for continuous data; it needs to be discretized first. Third, the category of data to be processed. For data samples whose classes are unknown, unsupervised methods should be used. Fourth, the requirements for classifier performance. If the requirements for the output accuracy of the classifier are very high, the Wrapper method based on heuristic search or genetic algorithm can be selected.

2.3。客户特性平滑

平滑分配少量的概率事件,不发生。当有足够多的训练数据,平滑效果不大。特征向量从客户信息是稀疏的。最大熵的最大似然模型,它本质上是一个指数形式,特征向量稀疏时,模型将变得更糟。因此,平滑优化需要减少或克服超适应训练过程的影响。对于那些没有出现在训练集的特性,简单地认为是不合适的概率是零。一般来说,有必要光滑。有相对多的语法研究平滑技术,包括绝对折扣,线性折扣,Good-Turing方法,Katz回归,线性插值,等等。语法的研究通常介绍了平滑技术的最大熵模型的平滑。基于和马丁的绝对折扣方法绝对折扣方法具有更好的平滑作用。 Stanley compares the smoothing algorithm of the maximum entropy method with the traditional N-gram smoothing algorithm, and the performance of the Gaussian prior distribution is better among the alternative smoothing methods.

平滑方法是一种预测方法,重实际不断获得原始数据和预测数据,使预测结果更接近实际情况,也被称为平滑方法或递归修正方法。平滑方法是一个特定的方法或方法趋势时间序列方法。

情况的实际数据接近静止的,平滑的方法可以应用于消除偶然因素的影响。扩大上面的迭代公式,它直接代表的采样值和估计值1,这意味着估计价值在时间t+ 1是实际的采样值的加权平滑过去,和其加权系数和时间之间的关系。它符合指数律,所以这种情况在更早的时间少影响预测。因此,这种平滑方法也称为指数平滑法。平滑参数的值应该选择根据实际应用的经验。越大,影响越大最近的实际采样值。有时,为了获得一个更好的校正效果,可以调整的价值在任何时候时变。

绝对折扣平滑技术指的是贴现模型中观察到的事件,减去一个固定的值d的概率,然后分配折扣不发生的所有事件。也就是说,如果事件出现的次数 r,使用的概率绝对折扣 是:

其中,N是所有事件的数量,B是许多不同的事件, 没有事件的数量。因为客户信息作为特征函数的值,保持概率的问题1是不参与打折的数量特性出现。

3所示。实验

JOLAP (Java在线分析处理)中使用所选的技术架构。Java Community Process JSR 69计划为OLAP服务创建一个简化的、全面统一的API和应用程序。JOLAP规范的目的是要部署或与Java企业交互平台。它充分利用公共仓库元模型(CWM),一个定义逻辑OLAP OMG标准结构独立于供应商的方式。它还利用了Meta Object Facility, XML元数据交换和Java元数据接口。JOLAP模型是一个UML模型组成的一些相关的子。包包含模型的逻辑分组。从这个角度看,JOLAP分为六组:核心元数据是改编自CWM元数据定义,定义OLAP元数据独立于供应商的方式。资源模型定义连接和连接工厂,这是基于Java连接器体系结构的原则共同的客户端接口。JCA资源模型不同于标准的实现,因为它包括olap风格的交互。 The query model defines the concepts of dimension selection, boundary, cube view, and aggregation and manipulation of dimension data. The model also contains asymmetric and transactional features. The cursor model defines how to view the dimension result set returned by the query. The source model and the server-side metadata model are defined as optional packages. The source model provides support for primitive query operations; the server-side metadata model defines other metadata for deployment-oriented classes.

系统软件部署包括数据仓库产品:DB2 8.1;OLAP服务器DB2 OLAP server 8.1;FTL工具:DataStage;中间件:IBM WebSphere;和数据演示工具:FEnet BI。办公室。

4所示。讨论

零售行业为消费者提供需要的产品和相关服务。它是生产和消费之间的联系,最后的渠道流通环节。可以说,谁掌握零售链接将主市场。零售业是一个最大的和最重要的产业在我国的国民经济与大量的员工,大量的企业,和一个大比例的销售国内生产总值。

市场竞争,垄断会导致社会福利的损失,但过度竞争的存在也会使竞争的基本功能合理分配社会资源和改善社会和经济效率没有充分发挥。所谓有效市场集中度是使市场集中度达到这样一个水平,社会的经济效率达到一个稳定和持续的高水平,这是一个区间概念而非点的概念。

数据挖掘可以定义在技术和业务方面。从技术角度来看,数据挖掘的应用一系列技术从数据中提取有趣的信息和知识在大型数据库或数据仓库。提取的知识表达形式的概念、规则、法律、和模式;从商业的角度来看,数据挖掘是一种新型的业务分析和处理技术。是一种新技术的发现和提取隐藏在大型数据库或数据仓库的信息,帮助决策者找到潜在的数据和发现之间的相关性被忽略的因素。这些信息是预测趋势和决策行为的关键因素。

数据挖掘的功能包括:描述和区分数据,数据描述和数据分化。

数据挖掘的常用算法技术包括:集理论的数据挖掘方法,决策树数据挖掘方法,遗传算法,神经网络的数据挖掘方法。集合论方法主要包括基于粗糙集理论,基于概念树的方法,和学习方法,封面正面例子和排除负面例子。

本文收集客户数据集包括4658个客户,其中2322是优质客户和2336是广大客户。2927人(80%)都是随机选择的训练集和731年(20%)作为测试集。本文所有实验进行了在这个数据集。记得,精度, 值和错误选择过滤性能的评价指标。为了方便比较,一个常用的统计滤波方法,贝叶斯方法,介绍了。

在整个测试过程中,贝叶斯虽然之间的独立特性是不正确的在许多情况下,在应用程序中,由于其计算简单的优点,它也有一个更好的过滤性能。所以经常使用这种方法为基础与其他过滤方法的性能比较。

过滤性能的评价通常借相关指标分类和信息检索领域的特性。具体来说,假设有一共有N客户在测试集。为方便描述,定义的变量如表所示1

在哪里N=一个+B+C+D过滤系统的性能,可以测量通过定义以下指标:(1) ,这是“退房”的优质客户,反映了过滤系统的能力找到优质客户。召回率越高,越少的“质量”的客户。(2) ,这是“检查”的优质客户,反映了过滤系统的能力”找到合适的“质量客户。正确的速度越高,就越不可能平均客户评定为质量客户。(3) ,这是所有客户的“检查”。(4)错误率:= 1−精度,这是所有客户的“出错率”。(5)F值: 召回率和准确率可以合成为一个索引F值,因此F值可以充分反映过滤系统的性能。 是加权因子, 通常用于应用程序。

具体的测试过程和分析如下:(1)特性集选择对过滤性能的影响调查客户的结构特点对过滤性能的影响。本节比较了过滤性能的最大熵法和贝叶斯法在三个案例:只使用客户的数量的年度消费,只使用累积的客户消费,并使用所有客户的特点。结果如图23在图中,N_Bayes代表的贝叶斯方法只使用客户的年用量计算的特点,和N_ME代表的最大熵方法只使用年度消费时代的特点。C_贝叶斯表示贝叶斯方法只使用累计消费金额的特点,C_我表示只使用最大熵方法的特点,累计消费金额,A_Bayes表示贝叶斯方法,使用所有客户特点,现代我表示最大熵方法,使用所有客户的特点。通过分析数据中的数据23,我们可以得出以下结论:首先,从召回率的角度看,在同样的特性集,最大熵方法的召回率比贝叶斯方法和最大熵方法有更大的优势。从的角度精度,最大熵方法有可怜的结果除了一年一度的消费特征是单独使用。在其他情况下,最大熵方法的结果没有太大的区别的贝叶斯方法。最后,从F1的角度,最大熵方法使用所有功能的过滤效果最好,而且出错率是最低的。当使用相同的过滤方法,无论是最大熵方法和贝叶斯方法,使用客户的年度消费特征可以有效地提高过滤性能。过滤性能是最好的在使用的特点,客户的年度消费数量和客户的累积消费金额,最糟糕当只使用客户的累积消费金额的特点,这充分说明了高质量的客户筛选和通用分类之间的区别。根据实验的结果,实验在以后的章节中,将收集的所有功能客户客户特性集。(2)特征函数对过滤性能的影响。在本节中,我们将比较不同的定义的过滤性能特性的功能。客户的基本特征和特征函数在消费的过程中二元函数,词频函数,TF-IDF价值, ,我们使用贝叶斯法和最大熵法进行对比实验。结果如图45在图中,BVBaye代表了贝叶斯方法在使用二进制特性的情况下,WFBayes代表了贝叶斯方法在词的情况下频率特性,×2贝叶斯代表了贝叶斯方法在统计,TI-Bayes代表了贝叶斯方法在TF_IDF, BVME代表了最大熵方法使用二进制特性的情况下,WFME代表了最大熵方法在使用词频率特性的情况下,×2我代表了最大熵方法的使用 统计,TI-Bayes代表了使用TF-IDF最大熵方法的情况。

通过对数据的分析45这个词,我们可以看到,当频率特征函数与二元特性函数相比,这个词频率特性函数的滤波性能将得到改善。主要原因是单词频率特性函数可以更真实地反映客户的购买行为,这是更适合客户过滤的实现基于购物流程。最大熵方法的出错率是最低的,当使用这个词的频率特性函数。

当使用最大熵方法,词频的性能是相似的 统计特性函数和TF-IDF功能函数。尽管一些指标 统计特征函数和TF-IDF特征函数可以是比词频率特性函数,它们比词更大频率函数的计算。此外,从综合指数F1,最大熵方法也是最好的。因此,为了降低计算复杂度,频率特性函数可以用来取代 统计特性函数和TF_IDF功能函数。在这种情况下,它不会导致严重的性能下降。上述实验的结果与实验结果相结合(1)。

本文结合实验结果与多媒体,最后显示多媒体平台上的数据。下面的图片显示了多媒体系统的登录页面。

登录系统后,用户可以直接查看零售业务的数据挖掘结果,如图67:

5。结论

的应用和分析数据挖掘技术在零售业的客户关系分析主要包括客户价值预测模型的设计与分析零售业的相关分析客户购买频率,基于OLAP和决策树挖掘模型。基于现有客户数据的分析在零售行业,客户价值预测模型建立的决策树算法,发现不同类型的顾客的不同的值,预测新客户数据,并发现潜在的有利可图的客户,使他们成为价值客户,可以为企业创造利润。根据经典的先天的关联分析算法,客户和商品销售分析之间的关系进行了分析,并将结果应用于交叉销售或组合营销的商品。决策树挖掘模型可以用于维度分析基于OLAP和数据聚合。决策树挖掘模型可以用于维度分析基于OLAP和数据聚合。设计简单的推理引擎基于客户知识。摘要推理引擎是一个简单的推理基于前面分析所获得的知识和信息。本文的规则表示设计、知识库的设计,策略的推理,推理引擎实现的过程。本文取得了一些阶段性成果。OLAP多维分析的结果和显示根据客户数据,客户价值预测模型和相关分析有一定的价值和现实意义。然而,与一些大型软件相比,仍有差距,在未来的研究需要进一步加强。主要以下几个方面需要改进:(1)由于采矿平台的限制,可用的算法类型是有限的。 There are only two kinds of algorithms that can be used in the mining platform selected in this paper. Therefore, in future research and development, we should try to introduce new algorithms and establish new mining models. Through comparing the effects of different models, we can improve them continuously. (2) In this paper, maximum entropy is introduced into customer relationship analysis of retail industry. According to the data, there is no formed system. Because of the short development time, the system in this paper is still in the testing stage and has not been integrated into the intelligent decision support system. In future research, the system should be integrated and perfected to realize intelligent human-computer interaction function and provide decision-makers with an intelligent reasoning engine for decision-making opinions and strategies. At present, the introduction of data mining technology into customer relationship management system research has become a hot topic for insiders. Although we choose different platforms and algorithms, we hope to find a more practical software to really meet the needs of decision-makers. The purpose of this paper was to satisfy the requirement of deep-level analysis for decision-makers, and the results have certain practicability and value.

数据可用性

的数据支持本研究的发现可以从相应的作者在合理的请求。

的利益冲突

作者(年代)宣布任何潜在的利益冲突的研究,本文的author-ship和/或出版物。

确认

这项工作得到了2021年的哲学和社会科学规划云南省科普项目,”责任制和绩效评估机制研究社会科学的普及云南(SKPJ202154)。”