文摘
当前的电子商务信用风险评估方法倾向于糟糕的数据平衡精度和较低的评价。一个RB-XGBoost算法提出了电子商务信用风险评估模型的研究。自适应随机平衡(RB)方法用于样品和过程获得的数据来提高数据的平衡度。评估指标体系构建基于数据处理。基于风险评价指标体系和XGBoost算法,本文构造了一个电子商务风险评估模型和评估电子商务信用风险使用这个模型。实验结果表明,该方法具有良好的数据平衡,kappa系数高,接受者操作特征(ROC)曲线和一个大区域,这可以有效地提高电子商务信用风险评估的准确性。
1。介绍
目前,电子商务已经进入了社会,信息化已成为不可避免的趋势,电子商务的核心内容,它有一个显著影响领域的文化、社会和政治(1,2]。在网络经济活动中,这种技术有效地提高了资源配置,提高中国经济的竞争力。因此,电子商务技术的进步具有重要意义在经济增长、产业结构优化和经济运行质量和效率。然而,信贷危机将导致大的问题在电子商务的实际应用和风险严重制约电子商务的稳定发展。因此,有必要分析和研究电子商务的信用风险评估方法,以避免电子商务交易的风险。
吴等人减少电子商务信用评估指标由粗糙集方法来获取重要影响因素的评估(3]。C-XGBoost模型首次建立了预测每个集群的集群基于两步聚类算法,将销售功能纳入C-XGBoost模型预测的影响因素(4]。针对社交网络电子商务的客户特点,壮族构建客户价值模型,集成了社交网络的价值,帮助企业将客户准确(5]。改进和提高消费者购买行为的预测能力在电子商务平台上,预测购买行为的一种新方法在电子商务平台上创建在6]。在支持向量回归方法,介绍了粒子群优化算法优化模型参数,优化模型是用来完成电子商务信用风险的评估。该方法具有良好的效果,但该方法获得的数据不平衡率高,导致糟糕的数据平衡程度。张等人决定了风险评估指标根据实际交易情况和相关文献和构造一个两层的混合模型来评估信用风险的电子商务结合反向传播(BP)神经网络和朴素贝叶斯算法7]。该方法具有相对较高的评估稳定但不处理数据之前设置评估,导致ROC曲线的不满意效果通过这种方法和评估精度低的问题。电子商务信用风险评估模型基于RB-XGBoost算法来解决上述问题的方法。
2。系统和模型描述
2.1。电子商务信用风险评估指标体系
(我)数据平衡处理
电子商务信用风险评估模型基于RB-XGBoost算法通过自适应随机样本和处理电子商务风险数据平衡RB方法来降低数据的不平衡(8- - - - - -10]。具体的过程如图1。(2)灰色关联分析的数据
我们组代表电子商务企业的数量,代表风险评估指标的数量, 是用来描述th电子商务企业样本, 。
一个理想的序列 建立了, 代表了一种积极的指数和 代表一个负折射率。
有相对应的维度差异不同的风险评估指标,所以有必要消除数据维度之前数据比较(11,12]。消极的指数被替换为积极的指数和规范由以下公式: 在哪里和 ,分别代表的最大和最小值风险评估指数和代表的相应值th的指标电子商务企业。
相关系数设置,其计算公式如下: 在哪里代表了分辨率系数。
的关联程度根据相关系数的计算: (3)风险评估指标体系
风险评估指数排序根据其相关性。在评估过程中,评估的指标 选择构建风险评价指标体系13,14),如图2。
2.2。电子商务信用风险评估模型
电子商务信用风险评估模型的建立基于RB-XGBoost算法使用XGBoost算法。
XGBoost模型建立的基本元素是树集。分类回归树的二叉树结构能反映实际的决策树的结果。在决策树的结构,有两个分支的“不”和“是的,”对应于树枝左和右,分别。每个特性变量除以二叉树,和特征空间划分获得几叶节点。
一组 设置,有吗变量和样本。获得的预测模型是基于回归树集成模型功能,是一个输出: 在哪里 代表了回归树的空间,代表了相对应的分数叶,表示树结构中的叶节点的数量,代表树的结构,代表树,代表了相对应的独立变量样本。
树模型的目标函数用于培训: 在哪里是凸损失函数来衡量实际价值之间的差异和预测价值和代表的惩罚项,其表达式如下: 在哪里 描述了正则项和代表叶子节点处罚,主要是用来避免过度拟合问题。
电子商务信用风险评估的过程中,欧洲太空不能直接用于优化目标函数(15,16]。因此,RB-XGBoost算法电子商务信用风险评估模型通过促进学习策略训练模型。具体过程如下: 在哪里代表输出对应于积累模型一轮的培训和代表了新添加的功能一轮培训。
根据上面的过程中,目标函数转化为下面的公式: 常数是一个常数项。
模型的拟合结果和培训评估过程中的数据可以衡量损失函数 ,的逻辑功能损失 平方损失函数 广泛应用于评估过程(17,18]。的RB-XGBoot算法电子商务信用风险评估模型将平方损失函数为目标函数来获得以下公式: 在哪里代表了剩余。
损失函数可以近似的泰勒展开式得到下面的公式:
和 设置;然后,我们得到下面的公式:
目标函数替换成上述损失函数来获取
当损失函数属于平方损失在培训过程中,有以下公式:
的参数和替换成目标函数得到下面的公式:
在哪里描述了模型的输出结果中th轮培训和描述了因变量存在的目标函数。如果因变量是已知的,上述目标函数可以简化得到以下公式:
的公式,和损失函数中存在的参数。上述参数的值是不同的在不同的损失函数,所以参数的值和可以确定损失函数的形式。
每棵树是重新定义由以下公式: 在哪里描述了相对应的重量树中的叶子节点结构,描述了树模型,得到的预测值 代表树的结构。
模型的复杂性包括L2正规化的叶子节点评分和叶节点的总数(19,20.]。模型的复杂性可以通过树的定义:
可以提高叶节点的平滑L2正规化解决过度拟合问题[21,22]。在目标函数,当模型的复杂性增加时,有两种不同类型的积累,其中一个是 ,在哪里叶节点代表样本的集合 。添加复杂目标函数之后,最终的目标函数,即电子商务的信用风险评估模型(23,24]:
基于所选择的风险评估指标,执行风险评估使用电子商务的信用风险评估模型。
3所示。实验和结果
验证的有效性RB-XGBoot算法电子商务信用风险评估模型,有必要进行一个测试。该方法,文献[3)方法,文献[4)方法用于比较实验。不平衡率作为实验指标测试数据平衡程度的不同的方法。不平衡率的计算公式如下: 在哪里和代表的最大和最小值的样本数据集。较大的不平衡率 ,越不平衡数据。不平衡率建议的方法,文献[3)方法,文献[7方法如图3。
基于图的数据3该方法获得的数据不平衡率小于5%时,测试不同的数据集,而不平衡率的方法获得的文献[3]和文献[7波动在10%和15%,分别。可以看出,该方法获得的不平衡率较低,表明由该方法获得的数据平衡。这是由于采样和处理的数据自适应随机平衡RB方法在构建电子商务信用风险评估模型之前,确保数据的平衡。
评估该方法的准确性,文献[3)方法,文献[7]方法验证了kappa系数和ROC曲线。kappa系数可以衡量评估结果和真实结果之间的差异。kappa系数的计算公式如下: 在哪里代表的比例正确评估样品的总数和样品代表了随机性比率。kappa系数越高 ,该方法的评价结果越精确。kappa系数的方法,文献[3)方法,文献[7)方法如表所示1。
从表中的数据1,我们可以看到,该方法在多个迭代的kappa系数高于这些方法获得的文献[3]和文献[7),表明该方法可以准确地完成电子商务信用风险的评估。这是因为这种方法构造一个风险评估指标体系的基础上,平衡和高的数据完成了基于高精度的电子商务信用风险的评估风险评估指数。
中华民国的横坐标是真正的积极率曲线,纵坐标是假阳性的情况。更大的ROC曲线包围的面积和横坐标,更高的方法的评估结果的准确性。该方法,文献[3)方法,文献[7)方法,分别用于不同的电子商务企业的信用风险进行评估,以及获得ROC曲线如图4。
(一)该方法的ROC曲线
(b) ROC曲线的参考方法[3]
(c) ROC曲线的参考[7]的方法
通过分析图4可以看出,ROC曲线包围的面积的方法和横坐标大于封闭ROC曲线的方法,文献[3)或文学(7),横坐标,表明该方法具有较高的评估结果准确性和可以完全准确地在电子商务企业信用风险评估。
4所示。结论
针对问题的数据不平衡率高和低精度的评估结果在当前电子商务信用风险评价方法,电子商务信用风险评价模型基于RB-XGBoost算法。首先建立了风险评估指标体系使用数据平衡率高,然后,建立的风险评估模型是XGBoost算法。该模型实现了电子商务信用风险的评估,解决了当前的方法中存在的问题,确保数据平衡的程度,提高了风险评估的准确性。未来的工作包括改善风险评估模型,进一步增强了风险评估的准确性。
数据可用性
标签数据集用于支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由清局域网项目。