文摘

传统的信用风险控制的基础上,本文提出了一个新的信用风险的需求和方向控制策略基于机器学习和依赖大数据。的基础上,首先,介绍了机器学习的基本算法原理,我们给的理由选择机器学习模型,建立一个基于机器学习互联网消费金融信贷风险控制策略模型,为实证分析提供理论支持。第二,我们的测试数据网络消费金融公司为研究样本,进行实证分析根据基于机器学习的网络消费金融信贷风险控制策略模型。培训结果的比较是基于综合考虑培训时间,验证准确性,TPR评价指标和结果的可解释性;验证机器学习模型的优点在筛选的关键影响因素,导致信贷客户的逾期性能。根据信用风险优化控制策略,提供了相应的策略建议公司信贷风险控制的年代。研究结果表明,该分类模型的预测效果通常低于基于传统的线性回归模型的基础上,基于机器学习的分类算法,这是一个复杂的非线性平台违约及其相关影响因素之间的关系。分类的准确性和预警结果的随机森林算法相对较高,和决策树模型的检出率相对较高,但成本也最高。此外,四种类型的预警模型的准确性是相对稳定,平均达到80%。提出了一种基于机器学习的互联网消费金融信贷风险控制策略模型。 Its system, timeliness, and risk prediction capabilities provide new ideas and suggestions for Internet consumer finance companies to design risk control strategies.

1。介绍

的影响下的概念,如“互联网+”和“包容性金融”的传统金融行业正迅速与当前先进的互联网技术,集成和金融行业也不断被分割。其中,基于实际消费情况,互联网消费金融近年来取得了快速发展,具有广阔的市场前景1]。然而,由于广泛的道德风险、逆向选择,缺点在个人信用调查,和之前的多维数据集合不足贷款在互联网金融行业,互联网消费金融的快速发展会带来各种风险。建立一个强大的风险模型和有一个科学的风险控制战略构成迫切要解决的问题,消费信贷业务发展的背景下的互联网2- - - - - -5]。

互联网金融平台的角色发展的实体经济是不言而喻的,但是网络借贷行业的混乱不仅让投资者苦不堪言,还扰乱了金融市场的稳定和实体经济。有许多因素加剧平台问题的风险,这可能包括一个健全的法律环境等外部因素,缺乏社会信用体系,和宏观经济和工业经济衰退和金融问题等内部因素,风险控制和管理不善,欺诈、资金和自筹经费(6]。如何自主控制合适的传感器移动到适当的位置及时处理动态和不确定的环境将跟踪的一个非常重要的部分。网络借贷平台的恶化问题不仅阻碍了在线贷款行业的良性发展,也扰乱了金融秩序和社会和经济稳定。因此,有必要制定和完善在线贷款法律法规,加强网络借贷行业的监督,规范市场行为,和控制问题的恶化。把握平台风险的主要影响因素,建立一个高效的平台风险预警模型已经成为加强监督(两个重要的任务7- - - - - -9]。

基于互联网信息收集和处理技术,本文首先建立了一个动态网络金融预警系统平台与分类算法为核心,使用不同的分类算法和横向比较他们的学习效率和准确性。分类算法有独特优势结构变化研究风险预警问题。不需要对数据做任何假设。分析是完全基于数据本身,它对数据结构的变化具有良好的适应性。同时,使用履带数据建立系统和基于分类算法的动态预警系统模型是一个重要的补充前面的平台风险研究文献。结合各种指标的模型性能,更有效的逻辑回归模型确定违约风险比决策树模型和朴素贝叶斯模型,而且准确率相对较高时使用测试组进行测试。此外,在实践方面,本文可以为监管机构提供提示警告信号,预测精度高。它还帮助普通投资者避免问题平台和促进网络借贷行业的健康发展。

选择的评价模型的上下文中大数据通常具有大量指标的特点和可怜的区分能力的个人指标变量。然而,现有研究通常表明指标的数量小而强大的分类指标的数量很大。此外,研究大数据的应用更多的大数据背景下的商业模式。大多数研究采用定性描述的方法,讨论大数据的应用在各行各业,很少选择定量分析(10]。

狮子座et al。11互联网金融相关的概念)进行了相关研究。他们认为网络金融是一个全新的金融服务模式,这是一种金融活动的背景下存在的通信技术如电子和电脑。他们认为有一定程度的pre-lending信贷风险。以上来自金融平台的各种维度的把握不足的信贷客户的数据。他们还指出,多维和multidepth数据前应收集贷款来判断贷款客户的信用风险。Jaroszewski et al。12)认为,消费信贷的风险控制的背景下,网络财务可以从传统金融机构的风险控制模型。例如,在道德风险的控制,集团采用连带责任系统,通过成员之间的相互监督,促进小组成员及时还款,扮演一定的角色减少信贷客户的违约率。Brătăşanu [13)认为,网络金融的信用风险可以控制,指出信息不对称是一个重要的来源的信用风险和信用风险的水平可以减少有效地解决这个问题。基于逻辑回归模型的实证分析,在众多影响因素影响客户的逾期行为,利率水平具有重要影响客户是否有迟到的行为,和两个积极的关系。古普塔et al。14)认为,平台之间的信息对称和信贷客户的结果会影响贷款和指出,更充足的信贷客户提供的信息,平台将发放贷款的概率越大。Ghoddusi et al。15]解释的原因主要来自三个方面:个人消费信贷风险信贷客户,银行,和社会制度环境。他们指出,信用评分模型是不够的信贷客户信用风险评估和相信ROC曲线可以借来作为评价分类模型。

研究人员使用二元逻辑回归模型实证分析信贷逾期行为的用户,发现产生重大影响的因素的逾期行为信用客户信用客户的信用评级、历史过期时间,住宅,收入等等。他们认为,网络金融是一个一般术语为各种金融活动进行互联网作为载体。它有别于传统的纸质载体,更有利于突破时间和空间的限制,各方选择多样化,减少交易成本(16]。在应对国家战略目标的“包容性发展金融,”它构建一个包容性的金融体系与民族特色和总结三个基本命题,也就是说,包容,宽容,和包容性的金融学科的多样性。学者总结当前七网络财务的特点,如同伴业务平台,活跃的跨境,广泛联系,和密集的农业,并指出网络金融在未来将会有更多的新功能。一些学者认为,互联网消费金融是一种不淤信贷业务由传统金融机构或共同的金融公司。同时,他们指出,消费金融快速发展在国民经济发展发挥重要作用,并给出一系列的建议关于如何实现快速发展,比如改善系统,创新产品,预防和控制风险(17- - - - - -20.]。

3所示。网络金融风险控制模型建设基于机器学习算法

3.1。机器学习算法架构

在机器学习领域,混淆矩阵是广泛使用的,它也可以被称为可能性矩阵表或错误。这是一个特定的矩阵,这主要是用来评估模型训练性能是否理想。矩阵的行代表实际的类别,列代表类别的预测模型。它的优势在于,它可以直观地反映是否有混淆类别分类模型的预测结果;即一个物体原本属于一个类别划分为另一个类别。图1说明了机器学习算法的架构。

分类模型,为了获得最优的结果,常常需要找到最好的参数设置对应于模型通过多种测试,然后每个参数设置将对应于一个不同的结果,这一结果将它定义为目标函数,我们希望达到最优结果是使目标函数取得最优值。

似乎损失函数是一个指标,可以用来测量模型的质量。然而,如果只使用这一指标,将会有一个问题,有一个风险的过度拟合;模型的鲁棒性降低的过程中训练,所以该模型有一个非常糟糕的性能预测新数据集时。针对这一点,我们可以考虑添加第二个辅助指标,即正则化。

TP是样本的数量模型的预测结果是积极和实际结果也积极;FP是样本数量的模型预测结果是积极的,但实际的结果是消极的;TN代表了样本量,模型的预测结果与实际结果相一致;FN代表了样本容量模型的预测结果与实际结果。显然,FP和FN属于性能模型预测的错误。

其中,真阳性率也称为灵敏度。其计算公式是正面例子的数量正确分类模型预测的实际除以总数量的正面例子,即积极的比例样本正确分类模型预测的所有积极的样本。最终目标是衡量预测水平的正样本的分类模型。特异性是消极的情况下正确的数量计算公式预测的分类模型除以总数量的负面案例;其最终目的是测量预测水平的负样本的分类模型。

3.2。网络融资模式识别

基于互联网的金融模型,动态训练集数据的缺陷在本文几个特性的“时间戳”信息平台相关不能可靠地获得,如披露负面新闻的平台和外部资本增加平台。这些指标只能后宣布负面新闻平台或增资。此外,投资者的印象分数在各种平台上也是不断变化的。我们不能获得这些信息的具体时间,和很难实现这些信息的实现。如果模型简单而粗暴地消除这样的指标,它将影响算法的影响平台。变量测量重要性被证明是一个健壮的统计。本文首先建立了一个随机森林模型基于平台数据,然后评估随机森林模型的分类效果,最后比较了它与线性概率模型和堆叠降噪autoencoders描述。同时,随机森林模型变量重要的测量方法是用来掌握平台的关键影响因素问题,并提供变量筛选模型。图2显示的布局互联网金融模型。

我们可以重复这个过程得到K模型,最后预测可以使用K模型的组合的结果(例如,对于分类问题,分类结果得票最多的可以使用,回归问题,K的平均预测结果可以使用)。与单传感器的感应能力有限相比,k型号多个传感器可以并行执行任务。最后的预测结果取决于K医生的综合判断,因此,随机森林方法相对其他方法有天然优势。随机森林算法的具体过程如下:我们使用样本数据构造一个分类树,随机选择z平台的功能的功能示例生成一个决策树,然后将它们生成K独立决策树。没有必要把决策树。然后,组合成一个随机森林分类树模型是随机生成的,相互独立的,所以当结合他们,你可以假设相同的权重。当随机森林算法模型处理问题类似于分工的网络借贷平台,它通过投票获得预测结果的决策树分类器的模型。

3.3。金融风险控制评价指标

金融风险控制的结果评价模型有一个很好的分析性质。模型的因变量可以是一个二进制变量,而且没有限制的独立变量的测量。它可以是一个分类变量或一个数值变量。这个模型可以用来选择指标影响的解释标量大量样本解释变量的回归,它还可以实现分类样本外预测。逻辑回归方法的优点是模型本身是相对简单的,解释和一定程度的可伸缩性,但是它的假设功能是相互独立的。

然而,资金的具体使用难以控制。纯信用互联网消费金融运作模式转移消费贷款未来应收账款的形式互联网财富管理平台。财富管理平台将它们打包到互联网为投资者提供投资理财产品。信贷平台在这种模式下是一个中介平台。它提供了对消费者和投资者的基金允许他们用分期付款的方式支付。最后,消费者使用有息贷款偿还借款人根据规定的时间。从纯信用互联网消费金融的发展现状,消费信贷的风险主要是由互联网财富管理公司承担。互联网金融公司主要使用大数据、云计算和其他互联网技术创新金融解决方案,最大限度地控制坏账风险。图3显示功能节点的分布指数最佳匹配。

我们把所有的指标根据目标分类的训练集,找到最佳匹配的最优特征,也就是说,根节点(一级指标)。根据“根节点”,训练集分为两类,和最好的匹配第二级节点(二级指标)再次搜索和递归直到数据划分和指定的条件得到满足。测试集的数据样本后进入决策树,在决策树中移动根据样本的每个索引的值,从而达到最后的分类预测。决策树方法的优点是原理简单,计算速度快,而且它可以生成一个分类路径,符合人们的常识和易于理解。缺失值的模型是不敏感;缺点是决策树本身的不稳定,和树的形状可能有一些影响样本的选择。强烈的敏感性,根据不同的抽样样本,可能产生不同的决策树形式。

3.4。重量迭代的风险控制模型

在风控制模型中,多个输入信息输入到“神经元”,和一个值在0和1之间通过一定的加权计算公式。下一层神经元的输入信息直到最后一层,再计算和预测的输入。神经网络可以是单层或多层,可以有多个节点在每一层。随机给出的初始重量,重量不断调整与正确的结果相比结果的误差降到最低。

BP神经网络不需要给特定的函数关系提前输入层和输出层;也就是说,它不需要给提前激活函数的具体数学表达式。BP神经网络主要使用外部输入样本和不断变化的联系网络层的重量减少错误,提高准确性,从而自动学习模型,解释了内部输入层和输出层之间的连接,和获得所需的输出输入值。BP神经网络也克服了一些传统的统计方法的局限性在处理非线性问题,如为变量正态分布特征,和一个清晰的线性函数自变量和因变量之间的关系。这种模式特别适合处理复杂的内部机制。图4显示的重量分配风险控制模型。此外,图中的五个饼形状受益于MSN的分布式传感特性,和MSN的最大比例更大范围的传感范围比其他四个单一传感器节点。

新型的互联网消费金融信贷风险控制是基于机器学习技术的使用在大数据背景下实现风险控制。它需要收集更多的空间和深度数据变量和识别密切相关的危险因素。因为当前的人类的思维方式具有一定的困难在理解非线性关系,机器学习理论可以帮助人类解决这些困难。因此,在当前的实际风险控制情况下,计算机技术可以用来把握这些关系以相对低的成本。这些信息数据能够准确反映消费者的信用水平和风险承担能力,金融机构和消费者金融业务关系之前,也就是说,在pre-lending链接,使用这个作为参考和决策依据。如何实现风险控制依靠机器学习在大数据的情况下需要使用机器学习技术来获取和处理互联网用户行为数据,然后这些超大型的非传统样本变量是信贷风险控制审核。因果关系扩展到变量之间的相关性。

4所示。互联网的应用和分析财务风险控制模型基于机器学习算法

4.1。机器学习算法数据特征提取

自66年有训练集和测试集在本文的动态预警过程中,样本数据是动态变化的,变量指标的数量太大动态描述。AIC数据具有较高的数据冗余和更强的适应性和鲁棒性,也就是说,单个传感器的故障不会影响整个系统的检测任务。当模型参数数量的增加变得越来越复杂(k)增加,似然函数也将增加,计算AIC值可能变得更小。

此时,模型可能会过度拟合和AIC变得更大。AIC信息标准的原则是选择模型与最小的另类投资会议。关注健康的程度时,参数的个数(处罚)应该尽可能减少的可能性减少模型的过度拟合。的样本训练集训练网络金融平台,物流模型最终选择8特性。本文使用vif汽车包()函数R语言测试模型,发现物流模型没有共线性独立的变量。物流模型的预测输出的概率可以记录所属类别。本文进行了多个测试,应用守恒性的原则,并将模型阈值设置为0.2。分类概率大于0.2时,平台分为类别1;否则,它被列为一类0(正常的平台)。图5显示数据功能的机器学习算法。图中的数据行和直方图互动和相互合作完成任务,单个传感器不能做。

可以看出,在200年的测试集,108违约者违约的正确预测,和14人没有违约,但与此同时,75 nondefaulters并被错误地归类为违约者,3违约者并被错误地归类为nondefaulters。对于违约者,模型预测是不满意的。可以看出,每个系数的新模型是非常重要的。同时,新模型L2也通过卡方检验,表明新模型的符合很好,和新的安装模式更容易解释由于减少变量。由于逻辑回归模型的预测结果是一个特定的概率值,我们使用日志概率函数本身的性质转换的概率值大于0.5到1,和概率值小于0.5转换为0,所以二进制的结果可以与测试集分类。从结果可以看出,在200年的测试集,182违约者正确预测不违约,违约和7人。然而,与此同时,10违约者并被错误地归类为nondefaulters, 1默认并被错误地归类为不履行者。误分类缺席者,模型的准确性一个= 94.5%,精确率 ,和召回率R= 99.5%。可以看出,模型的预测效果较好。

4.2。网络金融风险控制模型模拟

客户数据的基础上的商业银行信用卡中心,200000真实用户选定的应用程序数据,银行自身的风险评估模型用于评估和筛选,然后是CreditNet模型用于在这个基础上进一步评估。ROC曲线的水平和垂直轴是假阳性率(玻璃钢)和真阳性率(TPR)上面提到的。至于曲线是怎样制成的,它将在下面详细解释。首先,我们设置分类模型的输出结果属于阳性样本的概率。

计算相应的假阳性率和真阳性率,最后把每个生成的TPR和玻璃钢作为点和连接他们的坐标轴的ROC曲线对应的分类模型。如果隐层单元的数量大于输入层和输出层单元的数量,和激活函数是一个非线性s形的函数,然后SDA可以输入数据映射到一个高维非线性可分空间,更有利于找到最优分类超平面。SDA的非线性函数可以有效地近似非线性数据之间的关系。每个影响因素都有不仅一个线性的影响,而且非线性影响平台的风险问题。SDA可以极好地描述交织变量系统中的非线性关系获得最好的拟合效果。图6显示了网络金融的风险控制因子曲线。三条曲线代表不同的含义。其中,曲线3显示了最大、最小曲线1,曲线2中影响因素。单一目标状态由小写字母表示(如x)。

很容易看到的坐标轴上有3特别点ROC曲线。第一个是当玻璃钢= 0,TPR = 1,和相应的点(0,1);它代表了FN = 0和FP = 0;这个结果表明,分类模型是完美的,因为它将所有样本正确。第二个是假阳性率= 1时,真正的积极率= 0,和相应的点(1,0)。此时分类模型将所有样品不正确,最糟糕的分类效果。第三是玻璃钢= 1时,TPR = 1,和相应的点(1,- 1);将预测所有样本的分类模型。在这个时候,所有样本分类模型预测到负面的类别。因此,当使用ROC曲线评价分类模型的分类效果,你可以判断分类模型的分类效果通过观察距离ROC曲线的点(0,1)在左上角。当不可能视觉确定哪些分类模型具有更好的分类效果通过观察中华民国曲线,您可以使用一个量化指标,AUC,这是一个值在0和1之间,代表中华民国曲线的下方。 The value of AUC is usually between 0.5 and 1, and the corresponding classification model equal to 0.5 belongs to a random classifier. Figure7是一个比较预测量化误差的机器学习模型。

从模型预测误差的比较,可以看出Probit模型的预测误差高达7.6%,随机森林的预测误差为3.12%,预测误差的叠加降噪autoencoder是最低的,仅为3%。模型比较结果表明,堆降噪auto-encoding有最好的数据拟合效果和预测精度最高。与Probit模型相比,堆放降噪autoencoder可以更好地适应各种影响因素由于其较强的学习能力和适应能力,更好的鲁棒性和容错性,和更好的非线性特性的能力。

与增加隐层单元的数量,测试集的误差有上升的趋势,和训练集的误差有减少的趋势。这表明随着隐层单元数量的增加,堆叠降噪autoencoder是过度拟合的危险。最佳隐层单元的数量出现在20。经过多次训练,最优隐层单元数是20,和隐藏层的最优数量是1。所示的文本,stack-type降噪autoencoder不足问题的学习平台由于目标变量的不平衡数据,和拟合问题的平台显然弱于正常的安装平台。然而,总体预测精度,召回率,和模型的F1分数达到97%,模型的整体性能略高于随机森林。

4.3。示例应用程序和分析

这部分的模型算法的实现主要依赖于现有的Python包。我们把预处理成6模型训练样本数据集,也就是说,机器学习模型没有参数调整,机器学习模型与参数调整,逻辑回归模型参数调整,逻辑回归模型与参数调整,支持向量机模型,高斯贝叶斯模型。

在一个固定的目标,唯一需要考虑的不确定性是观测噪声。培训结果的比较分析主要从两个方面进行。一方面,从调整参数,看看机器学习模型执行之前和之后的调整参数。另一方面,从不同的模型,使用其他模型的训练效果。因为预测一个人应该拒绝贷款可贷放的金融机构将造成更大的损失和贷款平台贷款被拒绝的概率应该正确地预测为0。图8曲线显示了回归模型参数训练精度。

统计数据显示,大约有一个倒u形的关系顾客消费信贷行为的数量和他们的年龄。在处理样本数据,信贷客户集中在18到35岁之间。其中,有一个从18至27岁增加的趋势。27岁时,客户的数量达到了13270的峰值;然后,开始呈下降趋势。在35岁的时候,它下降到5289,下降60%相比,27岁时达到顶峰。它可以从两个方面来解释。为什么这些消费者的消费信贷行为主要集中在年轻群体?一方面,年轻的群体更容易接受新事物,尝试新事物有更多的理由;另一方面,年轻群体的消费需求也相对强劲。 Therefore, comprehensively considered, the performance of the sample data is also in line with the actual situation, and young people are more likely to have consumer credit behaviors. Figure9是一个机器学习数据系列的响应分布的比较。

由于机器学习hyperparameter调整的复杂性,本文有必要设置hyperparameter价值合理与实际问题相结合。本文的数量的输入层单元堆叠autoencoder 34,输出层单元的数量是2,学习速率为0.01,稀疏惩罚的重量是0.1,迭代的最大数量是100,选择隐层单元的数量从{20、25、30、35岁,40岁,45岁,50},选择和隐藏层的数量从{1,2,3,4}。在这篇文章中,训练集和测试集划分根据3:1随机分层抽样方法,在训练数据集中样本的数量是642,和样品在测试数据集的数量是213。根据实证分析,如果platform-affiliated公司是上市公司还是国有企业,平台问题的可能性小于一个私有网络金融平台。

然而,在目标运动的情况下,我们不仅需要考虑的物理运动目标,而且目标运动模式的转移。根据收集到的样本数据,私营部门,国有部门和上市公司占94.040%,3.311%,和2.639%,分别。从统计结果的概率问题,一个问题的概率与平台上市公司和国有企业的背景是0,和一个问题的概率与私营公司的平台是0.43。方差分析的结果也解释了这个平台。背景的差异有重大影响的正常的和可持续的操作平台。

5。结论

从互联网金融平台的具体特点和相关因素,本文使用大数据抓取方法爬多个第三方网站的公共数据平台基于公共信息在互联网上。家平台的数据分为训练集和测试集基于平台的七个方面的力量,产品特性,保障措施、风险控制能力、网络服务、信息披露、投资者的印象,和一个动态移动窗口设置。接下来,我们用四个分类算法模型,逻辑模型,决策树,随机森林,和神经网络;创新采用动态训练集和测试集的方法来研究这个问题的动态筛选国家互联网金融平台的风险;水平和比较模型。实验使用Python实现机器学习模型没有优化和机器学习模型训练的基本性能调优和列表模型及其可解释性;然后,它与预先设计。我们比较没有参数调整逻辑回归模型,模型参数调整逻辑回归模型,支持向量机模型,高斯贝叶斯模型,模型的训练时间,验证的准确性,TPR指数和可解释性的培训。结果验证筛选中的机器学习模型的优势的关键影响因素影响信贷客户的逾期性能。最后,我们结合机器学习模型和逻辑回归模型来设计一个初步的信用风险控制策略,验证初步战略进一步优化,然后设计一个新的信用风险控制的策略。然后,我们指出了具体的研究不足,并提出后续研究的重点和方向上的应用机器学习模型在互联网消费金融风险控制策略。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。