文摘

在通讯技术和电子商务的发展,工业经济消费金融作为金融稳定的来源,提高家庭的经济和社会地位;因此,有必要明显阻止违约的消费金融。个人违约的预测和防止违约在消费金融已成为促进工业经济增长的一个重要因素在金融部门。因此,需要一个有效的和有效的方法促进工业经济。本研究旨在提高个人违约的预测精度,防止违约使用一个优化的光梯度消费金融促进机器(LightGBM)算法。LightGBM原则的探索,关键LightGBM性能的影响因素进行了分析。LightGBM的预测性能提高了平衡训练数据集。LightGBM的性能比较与几个机器学习算法使用阿里巴巴云天池大数据集。LightGBM预测模型的实验结果表明,达到了最高性能的准确性达81%,精度88%,召回72%,曲线下的面积(AUC) 0.76,和F1分数(F1)为0.79。优化LightGBM可以极大地提高个人的预测违约,这有助于消费金融的有效分析的复杂性,减少金融行业的投资风险,促进工业经济在金融领域的发展。

1。介绍

随着“网络+”和“包容性金融”的传统金融行业正迅速结合先进的互联网技术,金融行业也不断改变。其中,基于实际消费情况,互联网消费金融近年来取得了快速发展,具有广阔的市场前景1]。业务的转型互联网,以及越来越多的电子经济交易,使得它可以增加个人违约预测的准确性,防止违约在工业经济和金融消费金融部门。在消费金融系统中,缺乏个人违约和预防违约导致数十亿美元的损失。很难获得一个清晰的评估损失,因为个人违约企业通常不愿意透露这些信息。为许多原因,个人违约检测机器学习被认为是一个挑战(ML),自交付数据随时间不断增长2]。市场经济的推动下,人们的消费观念大大改变,促进互联网的发展贷款金融行业。贷款行业流入市场,促进消费金融的发展3]。消费金融挑战来处理由于广泛的业务规模和复杂的消费者金融条件。关键要解决困难作为一个投资者是企业能否做出正确的判断客户违约和正确管理风险(4]。

许多毫升的方法已经应用于违约预测。一些学者发现,随机森林(RF)可以更好地分类和识别消费者违约信息与支持向量机(SVM)通过讨论消费者的可靠的归因风险社会贷款平台(5,6]。狮子座et al。7)检查,网络金融是一个全新的金融服务模式,这是一种金融活动的背景下存在的通信技术如电子和电脑。Jaroszewski et al。8)提出,网络金融风险控制可以从传统金融机构的风险控制模型和群体成员的及时还款可以发挥积极作用在减少信贷客户的违约率。Carcillo et al。9)使用了一个混合策略来扩大的集合特性的欺诈检测分类器通过使用无监督异常分数。他们的主要贡献是实现和评价不同程度的粒度定义异常值的分数。元等。10)提出了一种新的范例欺诈检测深层神经网络集成与谱图分析。他们用深autoencoder和卷积神经网络构建和测试两个神经网络欺诈检测。他们的实验表明,该方法的结果检测欺诈是成功的。Dhankhad et al。11)使用各种监督机器学习的方法来识别信用卡诈骗案件。基于集成学习的方法,这些算法创建super-classifier相结合。他们的研究结果显示,整体技术取得了最高的性能。作者在12开发两个欺诈检测系统,使用一个整体技术和一个滑动窗口方法。这种技术需要培训两个截然不同的分类器,然后合并结果。该技术有效地提高欺诈预警精度。使用一个有效的光梯度增加机器,Taha et al。13]提出一种智能检测技术在信用卡交易欺诈。光梯度增加机器的参数智能优化使用Bayesian-based hyperparameter优化方法。实验利用两个真实的公共信用卡事务数据集,包括欺诈和有效的交易来说明模型的有效性识别欺诈在信用卡交易。比较的基础上提出技术与其他方法利用两个数据集,提出的策略优于他人,获得最佳的准确性。

在这项研究中,一种新型光梯度提升机(LightGBM)方法,提出了提高预测精度,满足信用评估的要求。训练数据集是优化LightGBM平衡。第一,系统地介绍了几种传统的ML方法及其优缺点进行了分析。其次,阐述了LightGBM的原则,和LightGBM影响性能的关键因素。最后,LightGBM的预测性能进行了优化,通过调整数据并与其他几毫升的方法通过实验。实验结果表明,优化LightGBM大大提高了预测的个人违约,这有利于消费金融的有效分析的复杂性,降低了金融行业的投资风险,促进了工业经济的可持续发展消费金融。

本研究的主要贡献如下:(我)本研究旨在改善个人违约的预测的准确性,防止违约消费金融使用一个优化LightGBM算法。(2)LightGBM原则的探索,关键LightGBM性能的影响因素进行了分析。(3)LightGBM的预测性能提高了平衡训练数据集。(iv)优化方法应用于LightGBM能够极大地提高个人的预测违约,这是有助于消费者金融复杂性的有效分析,减少了投资风险的金融行业在金融部门。

手稿的其余部分组织如下:部分2材料和方法,提供了一个优化算法的详细描述。节3、结果解释和部分4总结了手稿。

2。材料和方法

2.1。传统ML方法

金融行业所面临的风险是不同的(14]。图1显示遇到的一些常见的风险在金融部门。

在金融领域,通常,毫升技术介绍了预测的风险。毫升技术优化模型性能通过训练集和训练模型,然后分析和处理其他数据(15]。在最初ML-based模型发展阶段,系统的研究侧重于执行能力和调整机器参数以适应不同的数据条件。经过不断发展,机器模拟人类学习原则和整合不同的ML策略和方法的研究许多不同科目的知识。通过不同的学习方法的集成,集成学习的概念形成和结合人工智能(AI),吸引了极大关注领域的预测和分类(16]。几个分类算法用来优化消费金融和在线业务。以下部分概述了常用的ML算法来检测信用卡诈骗案件。

2.1.1。逻辑回归(LR)

在ML LR是一个简单的算法,一个直观的经典算法,通常用于二进制分类。在现实生活中,有许多二级分类问题:收到邮件的真实性判断,判断条件是否恶化,以及借款人是否能偿还(17]。的二元分类问题,LR的目标变量是1或0。在线性回归模型中,目标变量通常是连续的。在逻辑回归,最终的目标价值预期的输出是离散的,也就是说,0或1。基于LR的结果,因此,逻辑回归使用激活函数映射0和1之间的连续输出和转换成一个概念,实现二进制分类。LR可用于许多领域由于其简单的形式和强大的可解释性18]。

2.1.2。决策树(DT)

这是一个归纳分类算法基于实例的类别和一个重要的数据分类方法。它可以帮助建立一个基于相关的数据集和决策树模型总结的简单和清晰的分类方法的递归分类从高到低的原则。首先,使用属性分类测量找到根节点,使用相同的原则划分sub-dataset,并建立终端叶子节点。每个叶节点是记录为一个类别。相关的路径传播从根节点到叶子节点的路径和根据分类数据或分类规则。主要任务是判断消费者将违反合同的,这是一个问题的两类。因此,数量的决策任务的基础上介绍了两类。描述算法的原理是根据男性和女性的相关特征。决策过程如图2

2显示一个人的性别是被他的声音和他的发型在接下来的链接。整个过程是一个二叉树结构。在上面的DT,每个nonleaf节点有一个属性和构建DT的关键是选择合适的特征属性和分类在不同的形式根据不同的特性。DT的建设后,决定应该修剪提高模型的泛化能力(19]。

2.1.3。支持向量机(SVM)

这是一个广泛使用的二进制分类模型。它是基于线性分类器的理论最大化数据在特征空间的间隔。它还可以使用内核函数为非线性的输入映射到高维空间分类(20.]。当信息是线性可分的,数据集D是记录为 在哪里XY分类标签。SVM的终极目标是找到最好的线,超平面和减少相关的数据集上的分类错误。在一般情况下,支持向量机使用间隔最大化方法获得最好的线和超平面。一个线性可分的超平面可以表示为 在哪里ω权向量和吗b是抵消。的边界H1定义的间隔超平面H2是计算

落在超平面的训练元组H1H2被称为支持向量。这本质上是一个求解凸二次优化问题,及其目标函数可以表示为

当分类算法的结果评估,混淆矩阵的影响是显著的。这是计算的核心分类算法。其具体过程如图3

3显示了混合矩阵的四个参数。它们的含义如下:真阳性(TP)代表真正的情况下,这意味着该集团的积极元素正确分类的分类器。真阴性(TN)代表真正的消极的情况下,这意味着否定tuple是准确除以分类器。假阳性(FP)代表假阳性的情况下,这意味着负元组不准确地划分为积极的元组的分类器。积极的(P)是积极的元组的数量,和消极的(N)是消极的元组的数量(20.]。假阴性(FN)代表一个假阴性的情况下,这意味着积极的元素组并不是正确划分为消极的元组的分类器。评价指标的分类模型可以推导出的参数。准确性,也称为整体识别率,显示了每个数据集分类模型是否可以正常识别。精确的比例显示每个类别分类模型的分类结果,客观地反映了每个类别判断的准确性。回忆也被称为敏感,它可以显示每个类别分类模型的响应数据集和比例,可以被分类模型的数据。因为精度和召回是负相关的关系,两者的调和平均值被视为另一个指数来反映模型的整体状态。这个指数的值范围在0和1之间。数字越大,总体性能就越好,这是表达的F1得分(F1)。评价指标的四个分类模型表示为

整体学习的特点(EL)是互相学习21]。集成的原理算法合理地整合不同的算法模型。然后,综合分类的数据集模型改进。这里提到的方法包括装袋和提高。最重要的包装策略是融合多个基本分类器的结果,找到最终的分类的总体模型通过投票,可以改善稳定性的分类(22]。基分类器训练,相关数据的样本被发现通过放回抽样形成的战略基分类器的训练数据集。这样做的原因是为了减少基分类器之间的相关性,使基分类器来判断和独立思考的能力。EL如图的原则4

促进战略理论,不断提高无效样本的识别和划分的性能,实现全面的改善模型的分类性能。这种策略训练序列的过程中分类器训练基地。最后的分类器分类不合理的样本,样本数据增加的重量值在以后的分类器训练。无效的部门在此过程中,样本的模型不断减少,和模型的性能改进23]。集成方法简要介绍与此相关算法。

2.2。基于EL分类方法
2.2.1。随机森林(RF)

RF算法的分类过程如图5

RF模型的分类结果与相关的DTs的性能密切相关。如果个人DT的分类性能好,综合分类性能更好。此外,射频相关的性能模型中的两个RFs的关联度。两个RFs之间的关联度越高,更大的错误的可能性是(24]。DT的关联度是相关的特性。当大,它们之间的相关性更强。在RF模型中,引导方法,所以数据不是采取out-of-bag错误率的计算样本射频模式。out-of-bag错误率的计算过程分为三个步骤:第一步是计算out-of-bag错误率和演绎的样本的分类结果R。然后,最相关的项目树中的投票结果被用来获得样本分类的最终结果。换句话说,out-of-bag错误率的比例是指错误的样品总样本的数量。out-of-bag错误率是射频泛化误差的无偏估计(25]。

2.2.2。梯度提高决策树(GBDT)

随着数字技术的发展,集成的算法在金融领域的主要过程。GBDT是最常用的集成算法之一。算法的实现包括极端梯度增加(XGBoost)和LightGBM因为数据处理非常复杂。XGBoost由弗里德曼和用于分类和回归。GBDT的原则是让学习者在梯度增加(GB)回归为基础的决策树分类和回归树(CART)。在模型的迭代,添加子模型,它是必要的,以确保样品损失函数迭代期间不断减少。GBDT可以选择很多的重量损失函数和考虑回归树解决分类问题时,使培训效果更好、更好的泛化能力。因为有一点依赖学习者之间的阶梯提升DT算法,它不能被并行处理和数据特性,但该算法仍然有改进的余地。因此,限制梯度GBDT提升算法改进。树模型集成后,限制梯度与强劲表现提升算法得到一个分类器,使得算法有更强的预测效果和更好的分类精度。 The limit gradient lifting algorithm runs multithreading through the computer central processing unit (CPU) so that GBDT can be implemented efficiently. Compared with GBDT, the gradient limit lifting algorithm uses the first derivative information and Taylor’s second-order expansion to deal with the loss function, which greatly improves the accuracy and efficiency of the model. When XGBoost processes large and complex data, it faces many difficulties and challenges, such as complex calculation and long-time consumption, which restrict the performance of the algorithm [26]。

梯度的提升DT算法和梯度的极限提升算法耗时和困难的分析复杂数据的特点。在这种情况下,LightGBM介绍。的融合梯度单面采样算法和功能结合的算法。这两个算法解决两个重要问题:数据的数量和数据特征的数量。

梯度单面抽样算法认为大梯度的采样点可以提供更多的信息增益,因此梯度单面抽样算法将与大梯度和样本保存数据的采样点按照一定比例小的梯度。它降低了时间复杂度,减少样本的数量,和功能绑定算法减少了通过减少复杂性特征的数量。通常,使用的数据不会同时是0;也就是说,它们是相互排斥的。功能捆绑算法减少互斥特性通过捆绑互斥特性。LightGBM可以识别互斥特性和捆绑成一个单一的功能,降低了复杂性。

2.3。建设金融风险预测算法

LightGBM构建基于DT和直方图算法,使它更容易段数据。与前面的DT模型相比,LightGBM的方向是垂直的;LightGBM生成DT的叶子,和其他DT模型生成树的水平,所以LightGBM的运行速度可以更好、更少。它的主要功能是使浮点连续属性离散变量,和k离散数据构造成一个直方图。的具体宽度直方图k,和离散值的数量聚集在每个直方图。在随后的分类过程,可以获得最优分割点根据直方图的宽度。直方图的概念是将浮点数转换为二进制数据。详细的操作是确定桶的数量在每个特性,划分同样,然后每个桶的更新数据。LightGBM如图的原则6。与其他DT算法相比,LightGBM运行更快,几乎没有记忆,及其精度不受其他因素的影响,所以速度和准确度可以合并在同一时间(27]。

ML模型构建的过程中,需要对数据集分为训练集和测试集(28]。训练集用于训练模型,测试集是用来评估模型的性能。训练集训练的5倍交叉验证方法,随机将数据划分为5部分来确保数据样本的比例没有变化(29日]。四个部分是随机选择的训练集模型,第五部分是用作测试集。重复这个过程直到数据成为模型的测试集。五个周期后,五个训练模型的平均预测结果计算,最后预测模型得到的结果。的采样率特性LightGBM设置为0.375,和学习速率设置为0.02。

2.4。数据集的准备

这项研究的数据来自阿里巴巴云天池大数据集,和它们相关的贷款记录贷款平台。大约有800000个样本数据集。数据集包含了47个客户信息索引,46个解释变量,和1个目标变量。解释变量的类型,如图所示7

获得的数据有很多问题,比如数据不一致,数据冗余和数据不平衡。数据的完整性和合理性产生巨大影响的最终性能模型,所以我们需要对数据进行预处理30.]。数据预处理主要包括几个点,如图8

数据预处理方法详细描述如下:(我)缺失值的处理在数据采集的过程中,人为因素或电脑因素可能不是收集,导致缺失值。一般来说,如果有些数据不存在,它们可以被确认为缺失值。当数据丢失,通常有三种方法:删除缺失值的样本数据;直接建模数据缺失值;和使用统计数据来填补相应的值。通常,模型的准确性进行了优化利用缺失值拟合来弥补差额。(2)异常处理在初始数据集,通常有几个数据分布偏离预期或不同于其他的数据分布。这些数据是离群值。离群值将导致误差方差的增加,和过度拟合模型的能力也会受到影响。因此,异常值的判断和输出数据预处理中很重要。删除等方法,可以使用转换和填充。在消费者金融分析中,异常值可以被视为风险(31日]。(3)数据转换。类型的数据通常可以分为数值类型和非数值的类型。非数值的数据可以转化为数值类型可以处理的数据编码,然后构造模型。在初始数据,要转换的数据包括日期变量,贷款等级,其他变量有一定的顺序。

毫升,如果样品数量的不同分类的训练集的平均目标变量,毫升的可预测性模型平均数据集训练会更好。在现实中,数据集通常不会有这样的一个理想的情况下,通常,有一个巨大的差距在不同类别样本的数量。不平衡数据样本模型的负面影响,导致可怜的分类结果。未加工的数据,样本的数量没有一个默认的是积极的和消极的,样本的分布是4:1,不平衡的数据,所以需要平衡数据。

在处理数据不平衡的问题,更重采样技术被用来优化模型的欠采样和采样过密。欠采样是减少多数类样本的数量来实现样品的平衡。这种方法有其局限性。当样品的类别有大量删除,数据信息将丢失。过采样是实现均衡样本通过添加少量的样本。一般来说,随机采样过密和合成少数过采样技术(打)32]。几个样品是随机选择一个合适的比例。该方法将增加重复数据的数量,导致小程度的数据变化,和模型的预测能力将恶化。在这项研究中,击杀是用来处理数据不平衡。的核心步骤打三个步骤。再在第一步中,邻居再用于获得所有样品在几类的邻居。在第二步中,少数样品被指定为X,相关的样本是随机选择的k最近的邻居y。第三步是研究随机获得最近的邻居y和建立一个新的样本根据以下方程: 在哪里兰德是一个随机的数字。数据平衡后,初始数据量的变化从800000年到12823451,和正负样本的比例平衡是1:1。

2.5。模型评价指标

模型建立之后,需要使用不同的索引来评估模型的性能。的主要评价指标识别模型包括预测精度、精度和召回。其功能如下:预测精度是一个指数来衡量算法的整体性能,精度是一个指数来衡量精确率,和回忆是一个度量来衡量召回率。这些索引计算

在上述三个评价指标,TP是积极的样本的数量正样本预测时,Tn负样本预测的数量为负样本,FP是负样本预测作为正样本的数量,然后呢Fn代表正样本预测为负样本的数量。

3所示。结果

3.1。比较不同的预测算法的索引

设计LightGBM预测模型与平衡的数据集,训练和性能与测试集上的DT和RF算法,比较结果如图9

9表明LightGBM预测模型的准确率为81%,精度为88%,召回率是72%。同样,DT的准确性为68%,精度60%,召回是67%。同样,RF具有类似性能的准确率为73%,精度为73%,召回率是74%。一般来说,性能的影响在贷款分类LightGBM模型比其他传统ML模式。

3.2。不同算法的性能比较

曲线下的面积(AUC)表示程度或测量的可分性。F1的分数(F1)是一个指数来评估二进制分类模型的准确性。AUC和F1越大,将模型的性能越好。LightGBM的AUC和F1值,DT,和射频测试集和图所示10

从不同的AUC值分布算法,LightGBM的AUC值lDT的是0.76,0.69,和射频是0.65。从F1值,LightGBM的F1值是0.79比DT和射频的F1值0.63和0.70,分别。LightGBM的F1值更接近于1,这是最大的。这表明LightGBM更好的性能和LightGBM可以更好的分类和预测一个人是否违约。

4所示。结论

灵感来自于市场经济和互联网的发展贷款金融行业,服务消费金融的话题变得逐渐复杂,已经成为一个重要因素支持工业经济在金融领域的发展。因为经济企业正在经历巨大而持续的经济损失,和针对越来越困难的检测个人违约,具有重要意义发展更有效的方法来检测个人违约所需的新的金融企业。本研究提出了一个新颖的方法预测个人违约和防止违约使用一种改进的消费金融LightGBM算法。我们进行了大量的实验使用阿里巴巴云天池大数据集。首先,一些传统ML方法系统地介绍了他们的优点和缺点是检查,LightGBM被描述的原则,关键LightGBM性能的影响因素进行了探讨。第二,LightGBM的预测性能进行优化。个人违约的优化大大提高了预测精度,可以有效地分析消费金融的复杂性,金融行业,降低投资风险,促进工业经济的进步领域的消费金融。最后,该方法的性能和其他先进的ML算法进行了测试和比较。实验结果表明,LightGBM表现好于其他传统ML的贷款分类模型。然而,仍然有一些缺点如小样本的大小,这可能会对实验结果产生影响。 In future research, we will focus on the listed limitation.

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

”支持的研究是研究广西金融发展促进经济转型升级路径在新经济时代”(北部湾大学项目没有。2016 py-sj19)和“研究金融支持中小民营企业转型升级的广西”(广西壮族自治区的教育部门,项目没有。2018 ky0585)。