文摘

由于低效率的传统数据分析方法为大型电子商务数据分析、电子商务数据分析和预测方法提出了基于GBDT深学习模型。购买行为分为另一个类别,将电子商务数据分析和预测的问题转换成一个二进制分类问题。与此同时,我们提取107特性,可以反映出用户的行为和构建GBDT模型。特点包括计算类,分类类,时差类,转化率类,等等。上面可以看出,电子商务数据的分析和预测。此外,结果表明,当GBDT模型参数的学习速率为0.05,基本的学习者的数量是200,树的深度是20,阈值是0.5,模型预测效果最好,F1值可以达到0.12。与传统的基于逻辑回归和神经网络预测模型,提出GBDT模型更适合电子商务数据分析和预测。

计算机技术和互联网技术的发展加速了电子商务平台的建设和推广。在经济全球化的时代,电子商务在国民经济和社会发展发挥了积极作用。因此,利用电子商务可以提高业务效率,促进经济持续健康的发展,这是当前经济研究的重点和困难。利用电子商务来提高业务效率的前提是充分了解电子商务平台,这就需要电子商务数据的分析和预测。目前,数据的分析和预测方法主要包括两类基于逻辑回归和神经网络和数据的分析和预测可以实现通过构造相应的最优预测模型使用的训练集。例如,Ozgur和富兰克林分析多个自变量的线性逻辑回归模型应用到实际数据分析情况下(1]。结果表明,逻辑回归模型在数据分析操作方便,可以获得比较全面的预测结果。Cioci等人,瑞卡等人认为,多个逻辑回归(高)用于分析分类变量和连续变量具有积极的影响在单一的二分法评估调整基线差异的统计方法在非随机研究(2,3]。可以看出,根据数据分析可以实现数据格式。(4)意识到印度股市的预测分析印度股市的数据基于机器学习的优点,特别是复发性神经网络,能够更好地提取文本和数据的特点(4,5]。深度学习的基础上,儿子等人,金等人采用了LSTM模型实现时空数据进行预测和可视化分析(6,7]。郭等人,Agafonov意识到microinternal泄漏的预测分析液压缸的数据基于神经网络模型(8,9]。上述方法在数据分析和预测方面取得了一些研究成果。然而,由于大量的电子商务数据,数据结构复杂、数据特征丰富;如果上述方法用于分析电子商务数据,通常有一个低效率的问题的数据分析、预测或预测的准确性。为了解决上述问题,本文的帮助下梯度提高决策树(GBDT)模型,预测精度高的优点,一些参数,和稳定的训练过程中,电子商务数据分析和预测方法提出了基于GBDT深学习模型。

2。介绍GBDT模型

GBDT模型是一个迭代的决策树算法,包括多个决策树为基础的学习者。整个模型的准确性提高了试图减少每个决策树的偏差。回归和分类问题,采用决策树GBDT模型车回归树(9]。购物车回归树是由遍历所有的数据特性和将数据集划分为节点。首先,选择功能根据最小平方误差,然后每个区域分为两个区域,最后,输出电流的平均值地区建立回归树(10]。的步骤如下:(1)假设训练数据集D最小平方误差的特性j,和相应的分区节点年代。解决(1)来获得最优分区功能。 (2)选择最好的(j s)划分区域和输出相应的区域值: (3)重复以上操作的两个分裂地区,直到满足终止条件。(4)将输入空间划分为 条件,是条件的数量,最终生成决策树。

2.1。梯度增加树

GBDT模型通常采用梯度增加树优化模型的学习过程。用损失函数的负梯度下降模式,回归树可以快速建造。梯度增加树的生成方法如下:(1)设置输入训练数据集 和损失函数 然后,初始化 (2)计算样本的pseudo-residual 根据以下公式(11]: (3)进行拟合残差的学习,然后获得一个回归树 , (4)更新: (5)最后,得到梯度增加树:

2.2。损失函数的选择

常见的损失函数包括平方误差、铰链损失,和物流回归的损失。数学表达式所示公式(7)- (9)[12]。其中,平方误差损失函数主要用于回归模型,和铰链损失函数主要用于支持向量机分类器。因此,本文采用物流回归损失函数GBDT损失函数模型。

2.3。GBDT模型的分类方法

最重要的是,使用物流GBDT模型回归的分类计算过程损失函数可以概括如下:(1)让训练数据集 ,和损失函数 ;初始化: (2)计算样本的pseudo-residual : (3)采用回归树适应(12),然后获得叶节点 树。 (4)计算 : 在哪里 (5)更新: (6)最后,得到分类树: (7)使用预测类别概率值之间的差异和真正的概率值符合损失,然后获得不同类别的概率,选择预测类别有高概率(13]。

3所示。电子商务数据分析和基于GBDT预测模型

基于上述GBDT模型分析、电子商务数据分析和预测方法的设计如下:(1)首先,删除缺失值和降低所有选中的电子商务数据。更好的数据分析和预测,总体布局描述的数据来获取用户行为的分布。(2)用户浏览、收藏和额外的购买行为分为一类。购买行为分为另一个类别。此外,问题是转换成二进制分类问题。(3)选择可以反映数据的特点建立GBDT GBDT模型和初始化参数的模型,包括学习速率、基础学习者的数量,阈值等。(4)使用训练集训练GBDT模型和优化模型参数的随机搜索(14]。当模型达到最大迭代次数或最优参数,停止训练,最优模型输出。(5)用最优模型训练得到的预测数据预测,然后输出预测结果。因此,电子商务数据的分析和预测。

4所示。仿真实验

4.1。实验环境的建设

这个实验是进行64位Windows 7操作系统,和Python和TensorFlow GBDT模型框架。中央处理器是英特尔(R) (TM)核心i7 - 7770总部2.8 GHz和8 GB内存。

4.2。数据来源和处理
4.2.1。准备数据源

选择天池线下竞争数据作为实验数据集来预测用户购买数据在12月19日,2014年。这个数据集包括20000用户的电子商务行为历史数据的完整收集货物于11月18日至12月18日,201415]。它的源数据包括用户行为数据集D和产品子集P的完整收集货物。数据集D包含4758484种商品和4行为类型共有9557个商品类别在哪里丢失的商品空间识别(16]。字段描述如表所示1,一些数据如表所示2。数据集P包含422858种商品。在这里,1054年的空间识别商品类别失踪。字段描述如表所示3,一些数据如表所示4

4.2.2。数据描述

为了更好的数据分析和预测,需要理解数据的总体布局。首先,操作购买转化率的数据计算,也就是说,用户的购买行为的比例总行为(17]。通过计算,获得商品的完整的行为分布如图1。从图可以看出,用户的浏览行为的完整集合商品占最大的比例在所有的行为。12月12日除了异常行为用户的行为在其他的日子里是相对稳定的。异常行为的原因分析的12月12日与促进“双12”电子商务平台。

2显示用户的行为分布产品的一个子集。从图可以看出,用户的行为子集的商品主要是浏览。12月12日行为的数量高于其他日期,这是有关“双12”电子商务平台的推广。与用户的行为的完整收藏商品,用户的行为子集的商品千差万别。

因为本文的目的是预测用户的购买行为在电子商务平台上实现准确的产品推荐,本文主要关注用户的购买行为的分布。图3显示用户的购买行为的完整收集货物,和图4显示用户的购买行为子集的商品。从图可以看出5的分配用户的购买行为的完整集合商品相对稳定,稳定在7000左右。购买的人数跃升至30000年12月12日。从图可以看出5用户的购买行为的波动幅度分布的子集商品大于货物的完整集合。用户的购买行为11月22日,11月28日和12月22日是完全不同于通常的采购行为,达到超过4000人。

为了进一步分析用户行为,本文研究了用户行为分布在24小时内从垂直的时间维度。用户的行为分布的完整集合商品如图4和行为子集的分布产品图所示6。从图可以看出,用户行为的数量与用户的日常生活规则(18]。用户行为的数量更少的休息时间(00:00-08:00),更平衡的工作时间(09:00-18:00),晚上到达峰值(19:00-23:00)在休闲时间。

7显示用户的购买行为的分布完整的收集和产品的子集,分别。从图可以看出7期间,用户的购买行为相对较低16:00-18:00,和购买行为的数量通常是平日夜之间。这表明在完整的商品的集合,用户有明确的意图在工作时间,购买商品和购买转化率很高。购买转化率较低,由于长时间在晚上。从图可以看出8子集的商品,用户的购买力低于白天晚上,但它在白天将达到一个最大值点。与完整的商品集合相比,用户的购买行为的分布的子集上货物是不稳定的。

4.2.3。数据处理

更好地预测用户购买12月19日的数据,本文选择购买数据12月18日,这是接近的日期,为基础,构造特征周期的数据分析购买行为之间的相互作用在12月18日和其他日期。有6925项购买数据在12月18日,其中4662项无法与一个月的历史数据,剩下的数据可以与一个月的历史数据。图9显示了历史数据分布与行为交互存在12月18日。从图可以看出,交互数据的数量在12月18日的前一周大幅增加,达到最大值在12月17日。因此,本文采用预测日期前一周的数据来预测。

考虑到用户的购买行为的一部分,12月18日来自于直接购买在那一天,没有与前期的交互。没有积极的影响用户的购买行为预测。之前的浏览、收集、额外的采购,和购买行为产生积极的影响的预测。因此,这部分被选中作为预测本文的主要目标。

总而言之,这个实验将纵向维度数据显示周,周五和水平维度数据为目标构建模型。11月22日至11月28日,11月29日至12月5日和12月6日至12月12日被划分为训练集。与此同时,12月13日至12月18日分成测试集。然后,问题转化为一个二元分类问题通过用户的浏览,收藏,和额外的购买行为作为一个类别和购买行为作为另一个类别。此外,12月12日,因为数据显然是不正常,他们为了避免删除数据对预测结果的影响(19]。

4.2.4。特征提取

很难从现有的矿山信息特征维度,因为数据集包括用户、商品、商品类别,用户行为类型,操作时间,和其他数据20.]。因此,为了更好地挖掘有用的信息从数据,107年的计算类的功能,排序类,时差类,和转化率类的选择方面,如商品、商品类别,user-commodity交互,user-commodity类别互动,和commodity-commodity类别交互,构建模型(21,22]。每个类别的特征及其含义如表所示5。同时,根据采购情况相应的组,最后一天的数据标记如下:0意味着没有购买和1意味着购买。

4.3。评价指标

F1值作为评价指标采用电子商务数据分析和预测模型及其计算方法如下(23]: 在预测集代表预测购买数据和参考集代表真正的购买数据。

4.4。实验结果
4.1.1。参数设置

有很多参数参与GBDT模型的训练过程,以及不同参数对模型训练和预测有影响。为了确定最佳模型参数,采用控制变量法进行实验的积极的和消极的样品比,学习速率,基础的学习者,树的深度,和阈值影响模型的拟合结果。然而,因为是一个极端不平衡电子商务的积极的和消极的样本数据和这个因素模型拟合结果有很大的影响,积极的和消极的样本比例需要首先确定。然后,模型本身的学习速率和基础学习者确定的数量。最后,树的深度和阈值确定。

10显示了F1值改变模型的不同比例下的负样本和正样本。从图可以看出,当负样本阳性样本的比例小于50,F1值逐渐增加。当负样本阳性样本的比例是在50 - 100之间,F1值开始波动。当负样本阳性样本的比例大于100,F1值逐渐降低。原因是当样品正面和负面的不到50,模型的F1值逐渐增加随着迭代次数的增加,模型underfitting降低。正面和负面的样本超过100时,模型过度拟合,从而减少其泛化能力。综合比较后,正面和负面的样本输入模型比本文中选择是60。

11显示了不同的学习速率的影响模型的预测结果。从图我们可以看到,不同的学习速率有不同影响的F1值模型。学习速率为0.05时,最大的F1值模型,和学习速率的增加,模型的F1值逐渐降低。因此,该模型的学习速率是设定在0.05在这个实验中。

学习速率的确定0.05后,模型的基础学习者的数量决定,结果如图所示12。从图可以看出,随着数量的增加基础学习者模型的F1值开始波动,减少后开始上升。当基础学习者的数量是30,模型的F1值开始波动。当基础学习者的数量是400,模型的F1值开始下降。因此,它可以确定基础模型的学习者的数量是30年至400年,200和中位数作为本文模型基础学习者的数量。

13显示不同的树深度模型的影响。从图可以看出,随着树深度的增加,模型的F1值先上升,然后下降。树的深度达到一定值时,模型的F1值最后显示了上升趋势。最后本文选择树深度是20。

14显示了不同阈值对模型的影响。从图可以看出,当阈值小于0.4,模型的F1值上升逐渐随着阈值的增加。当阈值0.4至09年的F1值模型在0.130和0.135之间波动。阈值大于0.9时,模型的F1值迅速减小。最后,确定模型的阈值是0.5。

总之,提出GBDT模型的参数设置如下:学习速率= 0.05,基础学习者数量= 200,树深度= 20,阈值= 0.5。

10/24/11。预测结果的比较

为了进一步验证该模型的有效性,实验比较了该模型的预测效果与传统逻辑回归预测模型和神经网络预测模型。GBDT模型参数根据设置的参数设置。与此同时,基于逻辑回归预测模型参数的比较模型的阈值设置为0.6。基于神经网络的预测模型的参数设置为300年的最大迭代数。单训练样本是64,有两层隐藏层。此外,每层神经节点的数量是65。

GBDT模型和比较模型训练在训练集的比例负样本阳性样本的55岁,和测试集的比例负样本正60是用于测试的样本。结果如表所示6。从表中可以看出,相比之下,比较模型,提出GBDT模型F1最高得分为0.12分,从而增加约50%。因此,提出GBDT模型更适合在电子商务数据分析和预测。

5。结论

总之,电子商务数据分析和预测方法提出了基于GBDT模型。可以看出,电子商务数据预处理与缺失值,脱敏,等等。同时,根据用户行为,浏览,收集、和额外的购买行为分为一类,和购买行为分为另一个类别。电子商务数据分析和预测的问题转化为一个二元分类问题。然后,共有107个计算类的特点,分类类,时差类,转化率类,可以反映出用户的行为特征被提取到构建一个GBDT模型。最后,电子商务数据的有效分析和预测。相比传统的基于逻辑回归预测模型和神经网络的基础上,提出GBDT模型更适合电子商务数据分析和预测。另外,当GBDT模型的学习速率为0.05,基本的学习者的数量是200,树深度是20,和阈值是0.5,该模型的预测效果是最好的。与此同时,F1值可以达到0.12。虽然本文取得了一些研究成果,仍存在一些不足,这是随机搜索方法采用优化GBDT模型参数,其时间成本较高,效率通常需要改善。因此,采用的模型自动调优参数可以在未来提高模型训练的效率,从而实现更高的精度分析和预测电子商务数据24,25]。

数据可用性

使用的实验数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。