文摘

大数据技术的不断发展,网络借贷平台的数据见证爆炸性的发展。如何充分发挥数据的优势,建立信用风险评估模型,实现平台的有效控制信贷风险已经成为网络借贷平台的重点。针对网络贷款数据主要是不平衡的数据,击杀算法有助于优化模型和改进模型的性能评价。相关研究表明,随机森林模型在信用风险评估中具有较高的适用性,和车,安,C4.5和其他算法也被广泛使用。影响因素的信用评估,申请人的重量的企业规模,工作几年,历史记录,信用评分,以及其他指标相对较高,而婚姻的指标权重和住房/汽车生产(贷款)相对较低。

1。介绍

近年来,随着互联网的迅速发展,金融、P2P平台的快速发展在这种背景下,逐渐形成了一个新的金融平台有很大的影响。P2P平台依赖云计算、社交网络和其他渠道收集、组织、和记录数据,大大提高金融风险预防和控制的能力基于数据挖掘技术。通过比较分析用户信息,结合特定的历史数据,它可以有效地改善双方的信息流动效率资本的供给和需求,提供必要的支持,双方建立供给和需求之间的关系,并在此基础上,信息不对称造成的金融风险是保持在最低水平1]。然而,国内的P2P平台的研究时间相对较短,尚未建立完善的信用体系,加上相关的法律制度不完美,很容易引发信用风险,严重威胁用户的资金安全。此外,随着大数据时代的到来,网络借贷平台的数据不断增加,数据类型是多样的,数据更新很快2]。如何充分发挥数据的优势,获取所需信息,提高平台的监控资本的能力成为关键风险因素的发展平台。在这种情况下,平台需要依靠大数据,与数据挖掘技术相结合,构建一个科学合理的信用风险评估模型提供必要的基础平台风险监督和用户投资。因此,本研究是在实用层面上具有重要意义。

相对而言,国外的P2P平台的开发时间相对较长,和相关研究成果的水平高,更有参考价值的概念讨论的方面和风险评估3]。贷款方面的成功率,个人信息和贷款的成功率之间的关系进行了研究,然后讨论的借贷策略全面定量分析工具的帮助。在信用风险方面,国内学者使用实证分析和具体案例来分析信用风险的影响因素,总结了影响因素相关的默认行为(4]。在此基础上,用随机森林分类方法作为核心构造,从而大大提高了信用风险评估的有效性(5]。受到互联网的影响,计算机、信息技术等,建立一个智能城市已经成为社会主义建设的一个关键任务工作(6]。实证分析表明,与FICO或信用证相比,基于随机森林的评价方法有更多的优势在识别高信誉的借款人(7]。近年来研究结果表明,社会网络的作用是不容忽视的网络发展的贷款。丰富的社会资源越高,成本就越低,获得贷款(8]。这两个之间有显著负相关(9]。实证分析表明,通过分析申请人的社交网络,我们可以深入了解与信贷风险相关的软信息,以评估申请人的信用风险更全面。在双通道供应链系统中,通道优化受到通道的态度风险,风险划分为一般风险和中断风险(10]。为个人,P2P平台提供了便利的融资或风险资本问题,但也会产生一系列的问题,如不完善的信用体系,道德风险高,严重的逆向选择(11]。目前,信用风险是风险研究的主要内容,以及研究方向包括违约特征分析、信誉平台(12]。随着选择的行数的增加,目前所有乘客的同样的价格在不同的骑路径可以使汽车产业发展进一步(13]。违约概率的申请者,不完全市场化的利率有更重要的预测作用,但个人公共信息的使用也可以在一定程度上反映了违约风险(14]。以Renrendai为例,其信用认证机制反映信用风险具有一定的优势,但该指数系统有一定的局限性,所以需要补充和改善其评价指标体系。

总体而言,研究的深度对P2P网络贷款需要进一步扩大。与西方发达国家相比,中国的P2P平台发展时间相对较短,主要集中在2012年互联网金融的兴起。实证研究数据不足,主要是指外国提供的数据平台。然而,研究方法和研究结论难以完全满足国内研究的需求。针对这种情况,本文介绍了R语言和python编写网络爬虫程序在数据抓取的网络信贷平台,介绍了击打在不平衡数据处理算法,并构建信用风险评估模型结合六个数据挖掘算法,哪个更符合国内P2P的发展平台。是一种基于大数据的网络信用风险研究的背景,以及新思想发挥积极作用在提高理论研究水平在中国。

2。模型描述

2.1。常用的数据挖掘分类模型

决策树分类领域的技术,介绍了分类过程的形式有向无环树,这是直观和简单,所以它有一个应用程序率高15]。机密数据,使用贪婪算法的核心决策树来确定节点,然后是当地最优决策策略用于构造决策树。在双通道供应链系统中,通道优化受到通道的态度风险,风险划分为一般风险和中断风险(16]。在决策树类型有显著差异与不同的分类标准。例如,以信息理论为标准,可以分为ID3、C4.5,购物车,SLIQ可以从基尼系数和sprint。在上述方法中,只有ID3可用于离散变量。在综合分析的基础上,本文选择购物车和C4.5算法。

学习演算法是一种提升算法本身可以调节训练样本的分布。它具有较高的自适应能力,以确保基础分类器分类样本符合高等困难。通过学习演算法,训练样本的权重可以组合,可以更新参数,然后相应的权重可以完成: 在哪里 是指样品的重量( )圆的 迭代。使用这个重量可以增强错误分类样本的重量在某种程度上,这是不利于突出正确分类样本的重量(17]。因此,对于不平衡的数据集,该算法可以提高少数民族的准确性预测在最大的程度上,和它的缺陷是,拟合问题更加突出。

支持向量机(SVM)是一种基于统计学习理论的实现方法。这种方法依赖于Mercer定理并结合非线性映射方法实现希尔伯特空间中的有效特征空间的映射,实现样品的准确的部门根据线性决策边界(18]。该方法的应用领域包括非线性回归模型、高级数据分析和样本分类。

人工神经网络(ANN)是一个方法来分析事物的法律通过模仿生物神经网络的组织结构。它是基于大量的节点和连接关系,可以实现连续迭代通过连接不同的节点。online-to-offline (O2O)商业模式是新的在线购物模式的在线消费者购买产品或服务,线下实体店的产品或服务(19]。在这个过程中,我们需要确定上一次迭代的重量,然后计算节点的重量,和更新的重量错误值。通过重复上述过程,误差减少到允许的范围内。实践表明,神经网络适用于样本分类和变量回归和具有良好的应用效果。然而,由于这种方法的灵敏度高,噪声,它是容易局部最小值的问题,有一定的负面影响最终结果的准确性。

2.2。随机森林

随机森林是一个组合分类器算法以决策树为核心。在这种方法中,购物车算法构造决策树,使用决策树的metaclassifier样本分类和相应的训练集。一个决策树,建设相应的随机变量可以确定,和节点分裂可以基于向量完成。根据该方法的特点,随机森林具有高鲁棒性噪音,但是对多个再现性敏感度低,所以它可以相对强劲的处理非平衡数据,得到合理的结果。

随机森林的核心是树分类器,它是由各种类型的分类器 其中,nonconstructed购物车使用获得的分类决策树算法metaclassifier。根据单个决策树的简单算术平均和多数表决输出结果,可以实现精确的结果数据,步骤如下。

首先,构造训练样本集。一般来说,自助重采样技术可以用于生成独立样本集;也就是说,基于n样本集,k新的组织样本集是随机获得的回报,然后形成相应的决策树,而没有选择样本构成out-of-bag数据,即OOB。

第二,决策树节点分裂。根据决策树的全局特征变量,假设然后随机确定特征变量从他们将相应的节点。其中,每个节点获得的随机特征变量的数量小于假定特征变量的数量,和相应的分割进行根据节点不洁净的最小化的原则。应该强调,所有决策树没有修剪操作。

第三,决策树完成相应的组合。基于获得的决策树在上面的步骤中,输出结果是由平均所有由多数投票决策树,然后输入错误分析阶段。

nontraining数据的集合,由一个特定的错误分类的可能性分类器泛化误差。理论研究表明,如果决策树的数量达到一定程度时,随机森林泛化误差的上界将收敛根据大数定律。给定样本的前提下,使用随机森林提供的区间函数如下:

分类器集合的力量 可以表示如下:

根据上面的表达式,之间存在着正相关的强度分类器集和区间函数的值,也就是说,分类器组的强度增加而增加的价值区间函数,和预测精度也会相应的提高:

根据上面的表达式,泛化误差的上界和组合分类器的强度负相关,但与决策树呈正相关。因此,通过削弱相关或增强的力量一个决策树,可以提高泛化误差性能。

第一个是OOB估计。装袋方法可用于自助抽样。如果数据被选中在不久的将来,它将被用于预测的分类准确性,即OOB估计分类错误率。平均后,随机森林泛化误差估计。

第二个是重要值特征。应用随机森林方法可以确定特定程度的一个特征值的重要性。同时,每一个决策树的性能可以通过使用数据评估外袋,也就是说,OOB的准确率。通过结合噪声干扰测试,决策树的性能可以被更准确地测试,也就是说,新OOB准确率。最重要的价值功能V在决策树可以表示为新老OOB精度之间的差异,及其重要的价值平均后确定。如果有更多的功能在基本样本,最好的模型可以由排序的重要价值。图1显示了随机森林算法的参数选择。

3所示。数据收集和处理

3.1。数据源

根据相关的数据,有超过1700个国内P2P平台,完成贷款过程借助第三方平台。目前,Renrendai最大和最长的P2P平台建立在中国。因此,本文选择Renrendai贷款为研究对象,结合R语言和python编写网络爬虫程序,获得相关数据,并获得大约50个变量,包括数量和利率。

3.2。数据预处理

步骤1。消除不符合条件的变量。具体来说,它包括具有相同值的变量,这些变量与重复特定内容、变量不相关的研究课题,有严重缺失数据的变量。

步骤2。缺失值的处理。发现一些贷款项目的变量是不完整的,如缺乏行业、企业规模和位置。根据具体情况,行业可以被定义为电子商务;企业规模是表示为0;和位置表示为个体的店主。

步骤3。数据归一化处理。输出变量选择的过期时间,如果超过0,它被标记为0;否则,它被标记为1;0和1来表示二进制变量值;整数用来表示教育水平、主题类型,等等。工作时间中位数代表值;和贷款可以表示为 数据预处理后的基本信息如表所示1

4所示。基于数据挖掘的信用风险评估模型的算法

4.1。不平衡数据处理

在本文获得的数据样本,有30个默认项,占2.935%,而其余的都是默认的项目,即不平衡数据集。传统的数据挖掘算法在处理类分布不平衡,有一些限制,很难有效地集中在几类。因此,其分类性能难以满足要求。

数据可以选择抽样方法,也就是说,向上或向下采样;相反,数据挖掘算法可以优化和改进,例如成本敏感的学习。通过比较分析,可以发现了样本中不完整的数据的可能性很高。因此,向上抽样更广泛的应用。最基本的抽样方法达到的平衡数据集通过随机复制几个样品,但很难避免拟合的问题。

击杀算法使用少量的样本构造人工样本,从而实现数据集的平衡,这有利于避免过拟合的现象。在这个算法中,人工样品被插入到相邻样本在特征空间中增加样本的数量。为 ,k最近邻点搜索、选择和最近邻点通过结合相关系数或欧氏距离等参数。在确定最近邻点,对应的采样点 确定。的基础上确定的区别 相应的特征向量,随机数 确定,然后人工样品吗 决定如下: 在哪里 采样点的数量吗 重复以上步骤,停止毕竟少数样品处理。

击杀算法使用杀函数完成多数类样本的确认和少数民族类n。上下的基础上确定抽样率,最终的多数类样本和少数类样本数量 得到了。

第一个是样品的分类,分为测试集样本和训练集样本随机抽样;第二个训练集数据平衡是少数类 = 15,多数类 = 496, = 500%, = 200%, = 5,并保持的比例3:5,以提高模型的性能。表2显示了数据组成。

4.2。模型的实证分析

本文分类变量是还款,然后进行模型参数的科学选择,以获得不同的数据挖掘模型的分析结果,为后面的实证分析奠定基础。表3列表的结果参数选择和每个模型的重要变量。(1)确定模型参数和输出相应的结果。本文选择随机森林算法来确定决策树的数量和数量的变量节点的分支(mtry)。然后根据新模型是建立训练集,如果决策树的数量小于40岁,出错率波动不超过0.05;如果决策树的数量是40多,预测错误率降低到0;确定所选变量3-13节点实现稳定状态下的最大AUC和准确性。总之,ntree = 800和mtry = 3可以选择完成模型建设,和每个类别可以准确地预测。图2显示了弗里德曼平均排名。总的来说,较高的变量的重要性,成功了,应用程序中,得分,字段,等等,而变量重要性较低的房子和婚姻。一些变量的重要性是0。因此,在信用风险评估的过程中,个人工作信息,信用评级,和历史记录是主要的变量。相对而言,个人生活信息的重要性低于上述变量。以Renrendai为例,平台是基于信用评级机制,结合申请人提供的材料,为投资者和作为参考。在信用风险评估的主要变量,历史贷款信息能反映客户贷款的使用,虽然个人工作信息可以反映申请者的稳定的工作,这是一个重要的参考评估他们的偿还能力。的平台,我们必须进一步加强收集、整理,和存储的数据,提供更强大的信息支持信贷风险评估和资格审查,并帮助投资者获得更多收入的前提下,保证投资者的资金最大程度的安全。表4显示了每个模型的分类结果的总结。(2)比较分析的模型性能完成之前和之后的数据平衡处理。在分类器性能评估方面,精度指数通常选择;然而,对于不平衡数据的分类,只是不合适选择的准确性。因此,原始模型可以优化相结合的具体指标和灵敏度指标。我们可以比较每个模型在图的ROC曲线3第一个是准确性。模型建造的新的训练集可以达到0.963 - -0.982的准确率,其中安,射频,C4.5排名在前三名。虽然购物车的准确性,演算法,支持向量机,射频下降了,它可以更准确地预测几个项目。其中,C4.5和ANN模型大大提高了基于原始训练集模型的预测精度。第二个是ROC曲线和AUC。接近左上角,模型预测的准确性就越高。相对而言,中华民国曲线模型的构建基于新的训练集更集中在左上角,这表明分类器有更好的性能。特别是,原样品后平衡使用杀算法,模型构建基于AUC显著升高,超过0.85。射频、购物车和C4.5排名在前三名,射频,购物车,C4.5排名最好的。随机森林方法的AUC是非常接近1,达到0.987。与其他模型相比,它的优势是非常重要的。一般来说,在信用风险评价的相关研究,具有重要意义,加强研究少量样本的预测,可以提供更多的信息支持相关投资者,帮助投资者选择投资项目更科学,以减少信贷风险,提高资金的安全,具有良好的实用价值。在这种情况下,根据原始训练集的特点,介绍了击杀算法来解决它,从而大大提高了信用风险评估模型的性能,并提高了默认的项目预测的准确性。(3)不同模型的预测性能比较和分析。通过分析表4,它可以发现真实的通胀率随机森林模型的模型构建基于新的训练集,和它的AUC高达0.987,相对较高的精度,具有良好的识别能力相关违约样本。总之,本文初步确定随机森林模型具有较高的预测精度和最佳的性能。

为了验证本文的结论和确定最佳模型,本文选择一个三倍交叉验证方法。根据本文的标准,因变量包括默认变量和默认的变量。为了平衡两类的原始数据,我们可以随机划分成三个部分,也就是三个数据集包括默认变量和默认的变量,并运行测试集。处理数据集通过攻击算法,并建立了相应的模型和分类性能评估进行有针对性的测试。从表可以看出5真阳性的平均值率更大,不同的是更大的。

其中,超过0.85的模型包括射频、购物车,和安在最前线。因此,上述三个模型有很高的识别能力为默认项;真阴性的射频、演算法和C4.5是前三名,以及射频的准确率,C4.5和演算法在前三名。考虑到准确率难以区分少数类的多数类,精度只能作为参考,以确定最好的模型,而不是主要因素。射频的AUC,购物车,安排名前三。总之,最佳的性能是随机森林模型,具有广阔的应用前景的评估网络贷款信用。

5。结论

本文全面、系统地研究P2P网络贷款的信用风险因素和结构风险评估的数据挖掘模型,为后续研究奠定了基础。击杀算法用于处理不平衡数据,然后建立相应的模型,可以减少波动的预测精度,提高风险识别能力,AUC指数和默认项。未来的研究集中在以下几点:第一,加强对用户行为的分析;第二,判断用户行为和信用风险之间的相关性;第三,建立一个用户信用风险评估系统为平台提供实时搜索功能。

数据可用性

所需的原始/处理数据复制这些发现也不能在这个时候作为数据共享一个正在进行的研究的一部分。

的利益冲突

作者宣称没有利益冲突。

确认

研究结果由中国国家社会科学基金(批准号18 cgl015)。