文摘

与中国的互联网金融行业的快速发展,近年来交易数量的不断增长,各种金融风险的增加,特别是信用风险在金融行业。同时,信贷风险评价通常是由使用应用卡评分模型,严格的数据假设的缺陷和无法处理复杂的数据。为了克服的限制信用卡信用风险评分模型和评价更好,本文提出一种基于极端梯度增加的信用评估模型树(XGBoost)机器学习(ML)算法来构造一个网络金融机构信贷风险评估模型。同时,互联网在中国贷款公司是作为一个案例研究来比较性能的传统信用卡评分模型和提出的机器学习(ML)算法模型。结果表明,ML算法有一个非常显著的优势领域的互联网金融风险控制,更精确的预测结果,没有特别严格的假设和限制数据,处理数据的过程更方便和可靠。我们应该增加毫升的应用领域的金融风险控制。本文的价值在于丰富的金融技术和相关研究提供一个新的金融风险控制的实践参考。

1。介绍

自1970年代以来,人类社会已经进入了工业3.0时代,电子信息技术的应用,计算机技术和互联网已经广泛应用于各个领域,与传统产业集成,生新的商业模式和格式1]。中国经济的快速发展和网络技术的普及,传统的金融行业和互联网技术集成和派生成一系列基于网络的金融产品2]。然而,由于贸易体系的不完善以及缺乏便利的操作,网络金融才进入公众关注的“保Yu说”是一家金融服务公司推出了2013年,导致了网络金融的蓬勃发展阶段(3]。依赖大数据和云计算技术,网络金融形式功能金融格式和服务开放的互联网平台,包括网络创新和电子商务创新传统的金融机构、应用软件、电子商务企业非金融机构使用互联网技术金融操作,P2P网络信贷平台,集体融资网络投资平台和金融资源融资模式的移动应用程序和第三方支付平台(4]。目前,互联网金融一直在跟踪战略环境的健康发展“绿色金融”和“科技实力”提倡由政府和中国政府5]。

由于后期开始中国的互联网金融监管体系需要改善。互联网金融不仅给金融企业带来活力和社会融资和投资活动,但也会造成各种潜在的风险和挑战。从2016年到2018年,超过200中国互联网金融平台的违约。参与平台的信用风险会导致巨大损失,如运营商的欺诈或损失的钱,由借款人逾期还款,和崩溃的P2P平台(6]。基础上,增加网络金融风险对社会的负面影响,迫在眉睫的是建立一个有效的风险控制体系。在传统的金融行业,信贷评分卡模型通常是建立应对信贷风险。它使用大量的信贷历史数据来描述客户的收入状况、信用记录、支付水平,和其他指标赋予不同的权重。指标分为若干层次和得分根据客户的历史数据来获取相关的信用评级(7]。

然而,由于造型过程的复杂性和有限的精度处理大量的高度复杂的信息,传统的信用评分卡模型容易产生偏见,一些限制在网络金融风险管理8]。摘要毫升模型提出了预测信用风险通过收集和挖掘网络数据,反复计算和验证。通过案例研究和实证研究,得出在相同的数据源,毫升模型具有较高的精度和召回率比传统的信用评分模型,它扮演着一个重要的角色在互联网金融风险控制系统。本文的主要贡献如下。

1.1。在理论上的贡献

本文丰富了ML的理论领域的金融风险控制。毫升的理论研究应用在网络金融风险控制在中国尚未形成一个完美的系统。与此同时,大多数的外国的研究主要集中在金融市场系统风险预警、反洗钱的金融机构,和其他方面,研究专注于网络金融风险控制的内容相对较小。摘要ML算法在信用风险管理中的应用的网络金融是首次提出,拥有强大的创新。

1.2。在实践中贡献

针对严重的信用风险在中国互联网金融行业,提出了一种基于ML的财务风险控制方法的算法。与此同时,案例研究验证该方法的优越性。因此,本研究为风险管理提供了有价值的和有意义的指导实际的互联网金融行业和有助于减少中国的互联网金融行业的风险。

本文提出,大学、科研机构、金融行业和互联网应该合作,相互交流。它促进ML算法的最新研究成果科学研究机构,可以转让其实践的价值,也就是说,为互联网金融行业服务。强调科学技术的应用。它促进工业和学术界之间的密切关系,从而导致战略“科教兴国的理念所倡导的中国。

1.3。为进一步研究贡献

摘要介绍了ML算法在网络金融风险控制中的应用。因为传统的风险评估方法得到了广泛的应用,具有较强的解释能力,理想的情况是,两种方法都有效地结合。然后,该方法为未来的结合提供了一个初步的参考传统的信用评分模型和ML算法模型。与未来的研究的深入,我们将探讨如何有效地结合不同的先进方法。

本文的其余部分组织如下。

部分2给出了背景和相关工作。本节回顾了相关研究国内外金融行业风险控制的结果,指出这些成就的缺点,本文的基本思路。部分3介绍了技术模型。本节描述信用卡评分模型和理论模型和XGBoost毫升方法指出了评价model-related指标。部分4案例研究和实证分析。我们将P2P在中国企业为例,分析该模型的优势。节5,我们得出一个结论。

本节将系统地介绍了研究背景和相关工作。它列出了相关的信用评价方法研究由国际学者和中国学者通过阅读文学。本节中的具体工作分为学术研究信用得分,国际学者的研究领域的ML金融风险控制,和中国学者对金融风险控制研究。

在本节中,指出传统的信用评分模型对金融风险控制有一定的局限性,即数据有严格的假设,它必须是线性的和无法处理大规模的数据。本文的主要研究内容是应用程序领域的ML算法的网络金融风险控制。

2.1。传统的信用评分模型

信用评分在世界的历史可以追溯到1950年代。数学家伯爵以撒和工程师比尔公平首先建立了世界上第一个商业FICO信用评分系统扩展到金融系统(9]。之后,金融机构信贷决策通过信贷歧视方法[5度10]。5度判别分析是由五个评价因素,如银行的角色,资本、抵押,能力,和环境。它全面预测借款人的性能。这种方法的局限性是它在处理大规模数据效率低下。

然而,随着扩张贷款规模的金融机构和借款人的数量的增加,上述信用评估方法不适用,和一种新方法,即信用评分法,已被采用。金融机构构建数据驱动模型基于借款人信用风险管理的量化特征(11]。信用评分是根据借款人的信用历史数据,计算和信用评分模型,信用授予人决定是否发放贷款和信贷额度的信用评分。手,亨利指出,统计技术和定量方法建设的记分卡延长判别分析和线性回归方法广泛应用于早期逻辑回归,概率单位回归,非参数平滑方法、马尔可夫链模型,递归分割、专家系统、遗传算法(12]。

随后,李和其他学者实证研究的有效性,使用多元自适应回归脊柱(火星)和分类回归树(CART)信用评分。这两种方法优于传统的判别分析和逻辑回归方法在信用评分的准确性(13]。根据蜜蜂et al。14),与当前数据挖掘技术的发展,建立信用评分模型的过程更加方便,和各种新技术开发。然而,在金融机构的实际应用中,常用的技术仍然是逻辑回归和决策树,因为这些技术更方便识别重要的输入变量,解释结果,并建立模型。

2.2。毫升在金融风险控制中的应用

随着大数据和数据挖掘技术的发展,国际学者形成了丰富的研究成果在ML信用风险预测和评估。因为金融机构的信贷管理的目标是优化业务性能和最小化风险,决策规则应该建立信贷决策。因此,聚类算法广泛应用于信用评分系统在早期阶段。例如,威廉和黄与监督k -均值聚类算法结合了保险风险识别方法(15]。

此外,杨et al。16),使用层次聚类技术来预测汽车保险行业的风险。不同客户风险水平确定集群技术使运营决策的信用额度。随着数据规模的增加,学者们试图建立更复杂的模型,如Khandani、金等等。他们使用ML算法和统计模型来预测消费者违约风险与大客户交易记录和信用管理机构的数据。他们的研究结果表明,毫升技术相比减少6%到25%的预测误差与传统线性回归模型(17]。Chakrabort约瑟训练一组财务困境预测模型基于ML和提出毫升方法比逻辑回归等统计模型。接受者操作特征的地区歧视,有大约10%显著改善(18]。Ticknor提出使用神经网络算法预测金融市场行为。实证结果表明,该算法构建的模型预测效果一样先进的模型没有数据预处理(19]。Gogas Agrapetidou构建预测模型的基于支持向量机的金融机构破产,分析了财务报表的数据由银行公开披露,并预测美国金融机构的破产企业数量从2007年到2013年。该模型显示,99.2%预测精度(20.]。

Rtayli和Enneya提出加强信用卡风险识别方法基于随机森林分类器和支持向量机的特征选择算法来预测欺诈风险。实验结果表明,算法的分类性能优于当地异常因素,孤立的森林,决策树算法在大型数据集21]。Plawiak等人提出了深基因层次学习者网络(DGHLN)算法,它是一个优秀的学习者训练方法基于遗传层次的培训。德国信贷利率的21%是由交叉验证(验证22]。

2.3。在中国的现状和相关研究的背景

中国的信贷报告系统尚未进入成熟阶段。目前,不到50%的人口在中国可以产生在中国人民银行的信用报告,这限制了传统信用评分卡模型的准确性评估贷款人的信用风险。近年来随着互联网时代的到来,大数据和人工智能技术在国内金融市场风险逐步发展和扩散控制,弥补信贷数据的缺乏。通过分析借款人的互联网信息并将其转换为特征向量,ML算法是用来预测潜在的违约风险。这个模型在网络金融风险控制的成功引起了国内学者的深入研究。例如,侯和刘支持向量机的非线性分类器应用于银行信贷风险评估和分析和比较实验结果与不同的核函数和参数(23]。

随后,侯和雪使用近似支持向量机在ML (PSVM)模型原理进行实证分析商业银行的个人住房贷款数据在西安市场。结果表明,模型预测的准确性对商业银行个人住房贷款的信用风险达到87.5% (24]。胡锦涛等人建立了信用风险评估模型在供应链金融模式下使用支持向量机。通过比较与模型建立了主成分分析和逻辑回归方法,证实,基于支持向量机的信用风险评估体系更有效和优越的25]。

基于数据挖掘的概念,赵和陈使用客户信用消费行为数据和粗糙集理论来减少决策表条件属性,构建了一个基于变量的决策树算法精度加权平均粗糙度和基尼系数,并预测客户的违约还款根据决策属性值。实验结果表明,改进后的信用卡消费信贷风险动态预警模型基于粗糙集和决策树算法通常比基本的统计模型和ML算法的准确性和稳定性(26]。刘和唐使用ROC曲线下的面积AUC值作为二进制分类算法的分类性能指标,构建了一个AUCRF基于随机森林算法特征选择算法,并使澳大利亚信贷数据的实证分析UCI数据库毫升。结果表明,该模型基于AUCRF算法可以获得更高的分类性能和较小的特征子集,AUC = 0.9346 (27]。

2.4。毫升的信贷评分网络金融风险管理

注意,许多方法和技术在金融领域的风险控制提出了现有文献,包括传统互联网金融信用风险管理的方法。然而,本文首先主要介绍了ML算法到互联网金融信用风险管理。我们可以验证本文的创新通过比较现有的信贷风险管理的研究成果和本文的内容。

本研究使用“网络金融信用得分,”“ML信用得分,”和“应用程序毫升和网络金融风险控制”为关键词搜索。搜索范围是评论文章对金融风险管理从2010年到2020年出版。研究选定的同行评议期刊和会议,因为他们的高质量的文章。我们选择了阅读的文章的结论和抽象,有时候我们需要阅读整篇文章。所有未发表的工作和论文不包含在当前的研究中。其他现有的文献包括破产预测系统的研究或使用信用评分模型,以及毫升在传统金融领域的应用。表1列出了文献调查并没有提到ML算法的应用领域的互联网金融风险管理。

通过文献回顾,可以看出关注ML算法应用在传统的信用评分模型的研究领域的互联网金融信贷风险管理的研究是不够的。然而,传统的信用评估方法在多维的局限性和大规模数据分析,和模型方法有严格限制在分布假设和线性。网络信贷数据很难满足要求的传统模式。ML算法基于大数据和人工智能可以作出准确的分析和预测的多源和multitype数据和快速发展。传统的风险度量方法预测未来基于借款人的违约风险的历史数据和个人特点,ML算法具有广泛的扩张在获取信息的维度,可以深入分析这些信息和基于行为的违约风险之间的相关性信息,软信息,和硬信息。在当前的研究中,很少有文献比较传统的信用评估模型和ML模型,并研究集成两种方法来评估信用风险的网络金融是相对罕见。因此,的基础上阅读国内外相关文献,本文使用ML算法构建信用风险模型,验证毫升模型的性能优于传统的信用评分卡模型通过实证验证,进行了深入的如何毫升模型转化为计分卡模型,并提出了风险控制体系的建设建议毫升的互联网金融行业。

3所示。模型和评价指标

在本部分中,信用评分模型的算法和ML模型将讨论。此外,一些评价指标对模型的性能。这部分的功能是奠定基础的案例研究和实证分析在下一节。

3.1。信用评分模型

信用评分是一个监督学习方法,它本质上是一个二进制分类。根据客户的历史数据特征的各种类别,建立一个数学模型来预测违约风险的银行根据借款人“好”和“坏借款人”(36]。因为它的解释能力强,逻辑回归(LR)是最常用的信用评分模型。逻辑回归模型的公式如下: 在哪里 特征向量; 特征向量的概率是借款人x作为默认的客户分类;和 特征向量的概率是借款人x被列为一个违约的客户。 代表模型参数估计是否通过,例如,训练数据集的最大似然估计(37]。一旦模型参数估计,决定特征向量x是记录为

根据上面的计算客户信用评估过程中,信贷决策规则可以概括如下:

3.2。XGBoost集成学习方法

启德等人提出了XGBoost算法(38解决现实世界的分类问题。他们认为XGBoost是一个梯度增加机器的优化版本。主要改进GBDT正常化损失函数来降低模型的差异。这也降低了模型的复杂性,因此模型过度拟合的可能性(39]。与此同时,传统的方法是使用决策树分类的基础。相比之下,XGBoost支持线性分类器,不仅适用于分类也线性回归。传统方法只处理一阶导数在学习但XGBoost提高了损失函数泰勒展开。学习的复杂性增加的树木,正常化防止过度拟合问题[40]。

稀疏数据处理算法具有独特优势,近似树建筑,和并行计算,这使得毫升技术广泛应用于机械工程、轨道交通、自动化技术等领域41]。XGBoost是梯度提升整体算法基于决策树和线性模型。其基本思想是将一些决策树模型结合,形成一个模型精度高。如果我们给数据 , 代表的是自变量, 代表了一个因变量。计算步骤如下: 在哪里 模型的预测值是圆的t和XGBoost模型算法是由连续的迭代,每个迭代训练通过添加一个教训决策树的预测价值 上一轮。一般来说,目标函数的公式如下: 在哪里 是参数估计的, 损失函数, 正则化项。因此,减少 选择的标准是什么

泰勒展开式用于扩大近似目标函数和常数项。最终的目标函数如下:

在XGBoost算法中,将以下改进:决策树分为结构部分树和重量(分数)的部分 叶子节点。

此外,树是重新定义的复杂性 在哪里T代表叶节点的数量。在这些新定义下,新形式的目标函数

如果 ,目标函数可进一步写成

后的目标函数,最优的价值 可以获得通过的倒数吗 ,使其等于零:

用方程(12)为目标函数,我们可以得到

3.3。评价指标

传统的信用评分模型,为了提高计算的速度和准确度,建立模型之前,我们需要选择变量。变量的选择是基于他们的信息价值,缩写为IV。描述了信息价值的贡献的重要性变量模型的预测结果。我们选择第四高的变量值添加到模型中,而变量太小IV值不会被添加到模型中。如果我们想计算四世,首先需要计算有祸了,也就是说,证据的重量。悲哀是一种编码原始自变量。如果你想编写一个变量,您需要第一组变量(也称为离散化、拳击等);分组后,组我悲哀的计算公式如下: 在哪里 是坏的比例在这组所有不良样品,样品 是好样品的比例在这组所有好的样品, 在这群坏样本的数量, 在这组好样品的数量, 是所有好样品的数量样品,然后呢 是所有不良样品的数量的样品。

机器学习模型,评价指标有很多,常用的指标是准确率,真阳性,假阳性率、准确率,F1分数,等,如表所示2。我们也可以构建基于这些指标混淆矩阵,在表所示3。此外,我们还画接受者操作特征(ROC)曲线和Kolmogorov-Smirnov (KS)曲线的受试者更生动地反映了模型的性能。

基于“增大化现实”技术措施的总体预测模型的有效性;然而,这并不是一个可靠的参数,因为它会产生误导的结果,如果数据集是不平衡的。上述参数计算基于混淆矩阵表所示1。真阳性(TP)涉及的违约数量是正确预测违约;假阳性(FP)是指数量的默认错误地预测违约;真阴性(TN)是默认的数量作为默认的正确预测;假阴性(FN)涉及的违约数量作为默认的错误预测。除了这些评价指标,有两个非常重要的ML模型预测性能指标,如AUC和KS曲线。

3.3.1。中华民国和AUC

当模型分类器的输出是连续的,AUC值可以作为评价标准,和它的值范围是AUC∈[0,1]。如果我们使用f代表一个分类器。”x_“代表负样本和“X+“代表积极的样本,输出的结果f是(x_)<f(x+),分类器的ROC曲线穿过点(0,1),和相应的AUC值为1。正常的AUC值分类器是0.5至1;如果分类器的AUC值低于0.5,这意味着它不如随机猜测。

AUC值被定义为整个ROC曲线下面积值(如图1)。ROC曲线可以通过混淆TPR和玻璃钢的矩阵。以玻璃钢为水平轴和TPR为纵轴,我们可以通过给阈值获得相应的敏感性和特异性。敏感性意味着一个主要分类的概率决定作为一个主要的分类,而特异性意味着一个小分类的概率作为一个小决定。假设我们有一个大量的可调阈值,我们可以得到一个sensitivity-specificity相关图。也就是说,ROC曲线的轨迹不同阈值下的敏感性和特异性。越接近ROC曲线的拐点是左上角,曲线下的面积越大,表明该模型具有更好的效果。相反,越接近拐点是右上角的对角线左下方,曲线下的面积越小,表明该模型是不那么有效。

通常,AUC值是一个概率值来判断模型是否好或坏。在本文中,我们将法官二进制分类预测模型的优点和缺点的帮助下AUC评估价值。其评价能力如表所示4

3.3.2。KS曲线

KS曲线(如图2)TPR和玻璃钢曲线下形成不同的阈值水平,主要是用来验证模型的识别能力。在金融风险控制,建立信用评分系统,KS价值常被用来衡量风险控制模型的性能。通过k值,我们可以测量模型的区分能力之间的最大距离之间的累积百分比函数曲线正确预测借款人没有违约和不正确预测借款人逾期。KS的歧视能力值如表所示5

4所示。案例研究

在这项研究中,我们选择一个大的P2P网络借贷平台在中国的研究情况。我们分析数据从2018年8月至12月30225年的短期贷款。根据不同的性能的借款人,他们被分成不同的类别:D0代表借款人不过期,也就是说,贷款期限内偿还本金和利息;D1过期不到一个月;虽然他们没有按时偿还贷款,过期时间不是太长;如果借款人逾期超过一个月,D2。短期贷款的逾期天视为严重逾期因为一旦客户超过这些时间,reperformance的可能性相对较小。上述分类的借款人的原因是为了更好地进行以下分析和模型构建。

为了便于评价模型的建设,24180借款人属于D0, D1(“借款人”)和6045借款人列为D2(“坏借款人”),占样本总数的近80%和20%,分别。样本信息包括六个维度包括借款人的基本信息如教育、收入、年龄、性别,等等;信用卡账单信息和还款信息等交易记录;借记卡支付信息;贷款相关信息;电子商务平台交易信息;和telecomputer操作员信息。根据这六个维度的分类,我们细分变量。然而,并不是所有的变量值满足最小阈值设置的信息,也就是说,IV值大于0.02,所以我们最后选定372年变量为建模做准备。

4.1。信用评分模型
以下4.4.1。变量筛选

对于信用卡计分模型,通常只需要选择10 - 15变量建立模型。然后,你需要提前筛选变量。选择变量的标准是其IV值的大小,用太小IV值和变量不适合选择到模型中。在这项研究中,第四的变量值大于0.05和悲哀的趋势是单调的选择,和变量的相关系数太高移除。例如,如果变量的标签是借款人的银行数量,第四通过计算值是0.056,那么这个变量将被选中要添加信用评分模型。然而,IV值计算的平均数量的每个消费借款人在过去的90天是0.026,那么这个变量的IV值太小,和构建模型时这个变量将被淘汰。此外,计算消耗的事务数目在过去30天内显示IV值是0.082,但是悲哀的趋势是不一致的,所以这个变量也将被消除。

上面的想法后,根据第四价值,悲哀的趋势,相关系数,和业务逻辑原则,16个变量最终选择从不同的维度来考虑建立模型,如表所示6

4.1.2。信用评分模型

我们使用逻辑回归的方法建立模型,因为它很容易监测和部署,这是一个常见的方法构建信用评分模型。首先,我们检查每个变量的系数在逻辑回归方法,它是有效的只有当变量的系数是正与负的系数和变量将被删除。其次,我们设置的门槛 值为0.05,如果 变量的值大于这一显著性水平,它将被删除。最后,使用编程软件,我们得到了信用评分模型和转换测试集样本,然后我们得到分数,如表所示7

在表7代表一个范围的分。GS的缩写好样品的数量,其次是如何代表了比良好的样本。废话是缩写坏样本的数量,其次是坏样本的比例。TS代表所有样本的数量和TR代表所有样本的比例,和BR是坏账率。

我们可以看到从表7随着信用分数的增加,好样品的数量在整个示例显示了一个上升趋势,除了轻微的降低个人的间隔,而坏的样本的数量减少。这表明良好的样本应该得到更高的信用评分,而坏样本信用评分较低。此外,好的样本对应较低的坏账率,而坏的样品高坏账率。从信用评分结果,传统模式有一些功能在借款人的信用风险。

4.1.3。模型性能评估

信用评分模型的评价主要是反映在KS, AUC,基尼系数等指标。KS评估模型区分客户的能力通过计算最大区别的累积百分比坏客户和良好的客户;AUC是判断的标准分类器的优点和缺点;基尼系数是用来评估的风险分化能力模型(表8)。

从表可以看出8,不同类型的数据集的KS分数在0.3和0.4之间的信用评分模型,表明模型的能力来识别客户不满意,AUC值在0.7和0.8之间,表明该分类器比随机猜测,如果模型阈值设置正确,有一定的预测价值;当基尼值约为0.5,表明模型的风险分化能力是可以接受的。

4.2。毫升模型

在本节中,这项工作提出了相关的方法从以下四个方面:数据清洗和特征选择,处理不平衡数据集,ML算法模型,并分析结果提出毫升模型。

步骤1。数据清洗和特征选择。
在数据清理,我们集中在两个问题上:空点的处理和安排的离群值。通常有四种方法来处理空点:删除方法,缺失数据计算方法,机器学习方法,和基于模型的过程42]。在这项研究中,我们主要根据经验处理空值。具体来说,我们将删除功能,超过95%的借款人没有填写。与此同时,我们将添加新特性来描述剩余的特性。如果它是空的,用“1”;否则,使用“0。“此外,这些特性计算的平均值来填补空点。作为局外人而言,已经证明,使用过滤器对异常值可以改善模型性能[43]。通过引用其他研究[8),我们手动检测异常值并保持合理的异常值。同时,盒子上下值的图表是用来取代异常值。此外,特征值标准化和比例下降[0,1]的指定范围内。
接下来的工作是特征选择可以提高操作效率和分类器的预测结果。一般来说,选择子集可以用来改善的性能特征选择过程中,如包装、过滤器、和嵌入方法(44,45]。根据文献[8),本研究采用一种基于树的特征选择方法,这是一个嵌入的方法,即基于随机森林模型的特征选择(46]。随机森林不仅能用于计算不同特性的重要性也删除不相关的功能。

步骤2。不平衡数据的处理。
大部分的互联网金融机构信用风险评估模型的研究都是基于不平衡数据,这意味着默认情况下的数量通常比默认的;如果我们忽略类不平衡问题建立一个分类模型,我们可能会得到一个拥有高精度的模型为非默认的决心,但极低精度违约。为了解决这个问题,本文试图处理算法。
在本研究的数据集,因为借款人违约的样本容量占样本总数的不到10%,它属于不平衡样本。如果误判率作为模型的评价指标,本文中的数据可能有一个相对较大的风险,是不可能得到有价值的模型。击杀算法人工合成新样品基于少量的样本,并添加合成新的样本数据集。击打算法的基本思想是找到小类样本的分布空间的局部特征两种样品在p-dimensional空间,最后生成新的小类样本之间的小类样本和小类样本。指的是(47),该算法流程如下:(我)以欧氏距离为标准,为每个样本×美元在一个小类,它对所有样本的距离少数样本集S_min美元计算,及其再邻居。(2)根据样本采样率设置不平衡比率来确定采样率$ N $。(3)对于每个少数样本×美元,再邻国随机选择,如果选择最近的邻居是美元/帽子{x}$。(iv)对于每一个随机选择的近邻/帽子{x} $美元,建立新的样本的公式 具体的算法如图3
通过使用杀算法,本文中的数据分布趋于平衡。预期违约预期默认的比例是1:1.33,这使得样本类别基本平衡。

步骤3。ML模式设置。
在本节中,我们采用网格搜索设置一系列hyperparameters,这是一个基本的参数优化方法。它会大大把hyperparameter分成长度相同的网格坐标系统的某些响了。坐标系统中的每一个点代表一组hyperparameters,然后我们可以采用在一定区间内每一点到我们的模型来验证该算法的性能。执行最好的点称为hyperparameter最好。换句话说,网格搜索的算法是所有网格遍历相对应的点。
利用网格搜索优化的组合hyperparameters在5交叉验证(47]。由于网格搜索使用穷举搜索的预定义hyperparameter空间,在这里我们提供了这些算法的搜索空间:迭代次数的范围是在100年到500年,树的深度范围内的5到25,和学习速率的数学组(0.001,0.01,0.1,1)。最低的损失函数的梯度下降是设置为0。除此之外,SONNIA(2016)被用来生成索姆在这项工作48]。参数被设置为默认值。

步骤4。结果和分析。
机器学习的数据处理速度计算编程:“开始时间=。穿孔_计数器()=时间结束。Perf_counter (),T= end-start”,我们得到了ML的速度模型处理选定的变量是9毫秒非常快。
毫升的应用模型应考虑组织的实际业务情况。网络金融机构,建立一个严格preloan审批制度,只发放贷款客户信用评分高可以减少信用风险在某种程度上,但它将导致大量的客户无法执行交易由于缺乏资格,这将影响他们的业务结果。基于这种情况,这个实验认为不同的预测结果毫升模型在不同的预设概率,如表所示9
在表9页是一个缩写预设概率值。GS代表累积好的样品,GB代表累积坏样本。表达的通过率是公关,ER代表的错误率。每一项的值保留小数点后四位数。从表可以看出8模型可以实现最高KS与预设值为0.4936的概率0.6∼0.65,这意味着贷款客户可以通过筛选只有当预测好的客户的概率大于0.6。根据这个标准,有59.98%的申请者通过贷款申请。然而,模型的错误率为7.44%,这意味着7.44%的不良样品是错误地判断样品一样好。
因为低通率也会影响财务业绩,互联网运营商从事金融业应该全面衡量和比较KS价值,通过率,遗忘率从实现业务的角度,然后选择一个预设阈值概率最能满足其操作条件。通过比较表89,我们可以看到传统的信用评分模型的区别和ML模型。根据预设的概率为0.6,传统的信用评分模型的k值为0.3269,而0.4936毫升模型的结果。这表明在这种预设概率,毫升模型的预测能力明显优于传统信用卡评分模型。

4.3。本文的验证XGBoost ML-Based模型

为了验证ML算法的有效性在信贷风险管理的互联网金融行业,本文选择一个大型互联网金融贷款平台作为研究案例,在中国比较传统的性能模型和本文提出的模型。为了进一步提高模型的相似性,更多的方法介绍了仿真和实验结果进行比较。我们信用评分模型的比较结果,基于逻辑回归、神经网络方法和支持向量机学习方法对数据分组处理49)与方法提出了研究的结果(50]。指其他研究的想法30.),我们比较不同实验结果的模拟数据。数据45展示中华民国基于训练集和测试集数据,分别和表10显示了分类精度,它来自于0.6的最佳分界点时默认精度相当于默认的基于测试数据的准确性。

从数据我们可以看到45XGBoost的AUC值分类器是最好的基于相同的测试数据。与此同时,表10显示的总体准确率提出网络金融风险评估模型是最好的(90.1%),这比传统的逻辑回归模型(70.1%)、支持向量机(77.4%),和GMDH (75.1%)。在处理相同的数据集和训练集时,该方法的性能优于其他分类器。

5。结论

在本文中,我们提出一种改进的ML-based信用卡评分技术在网络金融风险控制,具有更好的性能比传统的信贷评分现代互联网金融风险控制。因为传统的信用评估模型是复杂和有严格的研究变量的选择,它有一些局限性。这个方法有严格的数据需求,在互联网时代,有一个限制,它不能分析个人信用数据高维度,高复杂性和非线性。然而,随着互联网时代的深度集成和传统金融行业,互联网金融行业的蓬勃发展是社会发展的必然趋势。同时,经营网络金融业务的金融机构将处理大量的客户数据,这是对信用风险的控制更为重要。因此,我们必须考虑使用哪个方法开展互联网金融行业的信用风险,和ML算法已经成为一个不错的选择。本文的主要贡献是提出了ML算法应用到金融风险控制领域的互联网金融,因为它可以显示出更好的性能比传统的信用评分模型和更好地满足大数据的背景。因此,本文具有一定的参考价值网络金融行业的风险管理实践。

拟议的ML模式是中国互联网金融平台上测试。实验结果表明,建立的过程模型和处理数据效率更高。与传统的信用评分模型相比,ML算法可以处理大量的数据在很短的时间内满足网络需求的金融机构来处理大量的客户信息。此外,还有没有严格限制由ML算法处理的数据。为了提高模型的预测性能的结果,我们可以提前设定模型参数,变量添加到模型中,然后消除变量对模型贡献少根据功能的重要性。实验结果表明,只有当贷款申请人的概率预测是一个好的客户大于0.6,贷款申请可以筛选。此时,KS毫升模型获得的价值是0.4936,超过传统的信用评分模型的k值为0.3269。这表明ML模式具有一定的优势在网络金融风险控制中的应用。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关的出版。