文摘
大数据时代的到来提供了一个新的发展方式为互联网金融信用收集。传统的信用风险的识别方法网络金融企业无法获得信贷风险分区的特点,导致大信用风险识别结果中的错误。因此,本文提出了一种新的信用风险识别方法基于大数据的互联网金融企业。根据大数据的角度来看,网络金融企业的信用风险评估的步骤进行了分析和评估指标的权重计算使用改进的层次分析法(AHP)和线性加权合成方法应用于全面评估客户的信用。使用大数据的独特特点的信用风险地区部门,大数据的信用风险是由基于规则的匹配方法。极端的梯度增加(XGBoost)机器学习算法建立的互联网金融企业信用风险识别模型。kappa系数和ROC曲线是用来评估该方法的性能。实验结果表明,该方法能够准确地评估互联网金融企业的信用风险。
1。介绍
网络金融是指一个新的金融形式,基于传统金融、实现功能,如支付、融资和信贷中介机构等一系列互联网技术下大数据技术和云计算技术(1]。网络金融的形式通常是第三方支付,金融电子商务信用评估、网络货币基金,大数据指数基金和其他模型。网络金融是互联网领域和金融领域的同化。然而,它不是简单的集成互联网和金融但金融业务的创新转换使用安全有效的互联网络在特定的市场条件。它是传统金融业务与互联网的融合精神。网络金融是一个新事物,其发展速度和规模远远超过其他行业,和它的发展前景是伟大的;因此,互联网金融行业是一个朝阳产业。互联网的风险金融行业的发展是一个很大的困难。调查在网络金融的风险管理已成为一个热点话题在社会和学术界2]。
江和元3)提出了一种基于决策分析在电子商务交易信用评价方法。商业交易的信用风险影响因素分为几个评价因素引入菅野脱积分评价方法,以及信用风险F-integral构造评价模型将交易信用等级。大宗商品价格的区间分布是用于添加指向成功的交易和各级扣除分失败的事务,解决问题的周期欺骗交易。基于信用评分结果,电子商务交易的风险计算方法的目的是评估当前事务的信用程度。杨et al。4)使用互联网金融平台的企业交易数据为对象,分析逾期贷款违约的传播行为,并提出建立一个模型来识别高风险企业的互联网金融平台通过传播特性。基于建设SIS和爵士模型基于阈值传播和随机传播,模型转化为一个算法,可以在风险评估企业价值,进一步验证并与实际违约数据。然而,上述两种传统方法无法获得信贷风险的区域分工特点,导致大信用风险识别结果中的错误。高和肖5为消费金融研究信用风险的管理使用大数据。他们的风险管理模式表现出良好的预测能力,可以区分正常贷款客户和违约贷款客户,和适合实际的个人信贷风险控制业务。王(6)预处理互联网金融信贷数据和选定的变量活跃信用跟踪使用自适应遗传算法的BP神经网络模型。刘(7研究机器学习的重要性和大数据作为保险风险管理的有效数据勘探方法使用随机森林算法。Fatao et al。8采用供应链金融信用风险指标和建立一个在线评价指标模型对供应链金融信用风险在商业银行。沈(9)建立有效的金融风险预警系统和技术,采取有效的措施来避免风险,保证网上银行的正常运行。基于大数据的财务风险预警系统将迅速扩大金融互联网时代背景下。律和赵10)调查了使用压缩传感网络金融风险评价基于大数据。杨et al。11)开发了一个网络供应链金融风险管理模型通过数据的科学。张(12)建造了一个金融投资风险方法的帮助下一个智能模糊神经网络。同样,电话等。13)提出了信用风险预测模型应用人工神经网络(ANN)和贝叶斯网络模型。徐et al。14)采用反向传播神经网络(摘要)和信息熵识别和分类银行分支机构的风险。神经网络可以解决非线性问题而不取决于函数设置得到更精确的仿真效果,所以它可以衡量风险预警模型的估计效果更精确。在这项研究中,我们提出一个新的互联网金融企业信用风险识别方法基于大数据。XGBoost算法被用来开发一个互联网金融企业信用风险识别模型。模型的性能评估使用kappa系数和ROC曲线。结果表明,该风险识别模型可以准确地测量网络金融企业的信用风险。
论文的其余部分安排如下。节2指标权重的计算方法进行了探讨。部分3说明了提出了信贷风险的识别XGBoost算法。结果给出了部分4,部分5总结了纸。
2。信用风险检测基于大数据的互联网金融企业
在设计企业信用风险评价指标体系时,必须考虑缺陷的传统的企业信用风险评价指标体系15]。发展的信用风险评估指标体系,采用动态数据和静态数据的集成来完成数据挖掘,从大型数据分析和建模。此外,企业身份数据、行为数据和外部数据是用于构建企业信用风险评价指标体系(16]。至关重要的是,企业信用风险评价指标体系设计应主要从收入的角度信息、贷款信息、帐户信息、还款和过期信息,和第三方的信息,比如multi-end贷款信息,黑色和灰色名单,信用信息,等等。企业信用风险评价指标体系基于大数据的特点,丰富评价数据项,结合静态数据和动态数据,广泛的数据源和及时性。虽然传统的企业信用风险评价指标体系在人群中覆盖并不理想,大多是静态的数据,数据真实性无法证实。互联网企业大数据平台的数据大多是使用来自多个渠道,如应用产品数据的公司,中国人民银行信用信息数据,网络信用信息公司的信用信息数据,在线购物电子商务公司的数据,数据的第三方合作企业,公共爬虫抓取的数据,由公安公布的数据和检验法律。在这项研究中使用的数据是麻木的从许多方面来保证数据的安全。
2.1。信用评估指标权重计算
改进的层次分析法(AHP)方法(17)是用于计算评价指标的权重。这种方法使用最优传递矩阵改进层次分析法的概念,让它自然满足一致性要求,直接计算出重量值。的主要步骤如下:(我)信用风险评价指标体系,建立了基于市场交易和评价指标设置根据客户信用评价指标体系。(2)构建判断矩阵。建立矩阵后根据信用风险评价指标体系,每一层的重量指数在客户信用风险评价指标体系由层次分析法决定。通过比较两个元素,每个元素的相对重要性层次相对于一定的系数上的层次结构,并创建一个判断矩阵。比较两个因素对于一个给定的矩阵计算标准如下: 在哪里规模因素的重要性吗和因素相对于标准指数。(3)各级评价指标的权重计算是基于改进的AHP方法。不需要进行一致性检验后改进的层次分析法计算指标的权重。首先,修改判断矩阵来得到最优矩阵 ,其次是平方根方法用于解决特征向量。接下来,判决时刻的元素是乘以线以下表达式: 将产品分成n权力的根,一个方程 获得,根向量 是归一化,即。,the sorting weight vectorP可以计算为
改进的AHP方法在图表示1。
2.2。信用评估基于线性加权综合法
客户信用评价的线性加权综合法是一种全面的方法获取综合评估值加权求和的每个索引值。
的信用风险的评估价值j客户可以计算 的指数价值在哪里我th指数的jth客户是 , 。
静态客户信用风险评级是分为四个级别,1级表示89 - 100分,2级表示75 - 88点,三年级指示59 - 74分,4级表示≤58分。加权信用评分法中使用静态客户信用风险评级。第一步是取得一些信贷调查指标作为一个整体,第二步是均匀加权平均,最后一步是信用风险评分的方法。这可以计算使用以下方程: 客户的信用评分是由X提出的重量我th信用调查指数为代表并设置为 。的评价分数我th评价指标显示 。该方法应用于客户信用的定量分析和研究。金融企业决策的理论基础主要是获得企业的信用状况基于客观数据,而静态客户信用评级方法是一个简单和容易理解和操作的方法。
2.3。信用风险检测基于大数据
根据区域划分信用风险大数据的特点(18),信贷风险是检测到基于规则匹配方法。集中检测过程如图2。
数据分为不同的数据包和匹配。如果匹配过程成功,生成的输出。大数据的信用风险分为五个领域和集中式检测问题转化为目标最大值,和适应度函数读取数据处理步骤之前,是实际的输出数据,代表预期的输出数据,显示数据的总量。
包给图的匹配过程2如下。
2.3.1。高信用风险数据匹配规则
在匹配的过程中从右到左,如果字符的字符串不匹配相应的字符串,它办理如下。
如果数据是在一个字符串 ,字符串可以移动 字符对齐,如图3。
设置为显示字符串的高度吗向上移动,表示字符串的长度,表示字符串出现在的位置最接近正确的数据 ,和表明该位置下方位置不匹配(最左边的长度),如下所示:
2.3.2。低信用风险数据的匹配规则
当不同的字符串是一致的,移动的距离是由低信用风险数据的匹配规则匹配过程中从右到左。具体的匹配过程如下。
的字符串输入初始化和移动的距离。接下来,循环遍历字符串从右到左,遍历的位置分析了如下方程给出:
所有的字符串都对齐和匹配一个接一个从右到左。如果是与最左边的字符串,这意味着匹配成功。根据匹配过程,它可以确保任何距离是一个安全的比赛,则不会出现遗漏。此外,它可以实现大数据集中和精确检测信用风险领域速度最快的匹配。
3所示。互联网金融企业信用风险识别模型
基于XGBoost算法(19),网络金融企业的信用风险识别模型。它是一种常见的和有效的开源实现梯度增加树的算法。XGBoost算法提供了更好的性能,因为它充满活力的处理不同的数据类型,分布,关系和各种hyperparameters可以调整(20.]。XGBoost算法可以用于回归,二进制和多级分类,和排名问题[21]。构建XGBoost模型的基本元素是一个树,二叉树结构的分类和回归树可以反映实际结果的决策树22]。有两个分支在决策树的结构,即“是”和“不,”对应于左、右分支。分区的二叉树,每个特性变量和功能空间分区获得几个叶节点。
假设一组 ,在这有变量和样本。通过函数,输出的预测模型可以获得基于回归树集成模型: 在哪里 代表了回归树空间;显示了分数对应叶;是叶节点的数量在树结构;表明树结构;表示树;和相对应的独立变量吗th样本。
树模型训练的目标函数按照下面公式: 在哪里是凸损失函数来衡量实际价值之间的差异和预测价值和代表惩罚项,其表达式如下: 在哪里代表了正则项和代表叶子节点处罚,主要是用来避免过度拟合问题。
信用风险的识别过程中网络金融企业,欧洲太空不能直接用于优化目标函数。因此,信用风险识别模型是通过促进学习策略训练模型,和具体过程如下: 在哪里代表着一轮新添加的功能 。
基于上述过程,可以转换为目标函数 在哪里是一个常数。
模型的拟合结果,并在识别过程中训练数据可以衡量损失函数 ,的逻辑功能损失 平方损失函数 在识别过程中被广泛使用。互联网金融企业的信用风险识别模型基于RB-XGBoost算法引入目标函数的平方损失函数和下面的方程。 在哪里代表剩余。
损失函数可以通过泰勒展开近似获得以下表达式:
当损失函数平方损失在训练期间,下列方程可以计算。
替换的参数和目标函数的收益率以下表达式: 在哪里代表模型的输出培训和代表的是目标函数的因变量,如果是已知的,上述目标函数(20.)可以简化获得以下表达式: 在哪里和损失函数中的参数。在不同的损失函数,以上参数的值是不同的;因此,的值 是由损失函数。因此,每棵树重新定义由以下方程。 在哪里代表树中的叶子节点的权重结构,表示树模型,得到的预测值 C显示了树结构。模型的复杂性包括两部分:l2正规化的叶节点的分数和一个总数的叶节点。模型的复杂性可以通过树的定义: 可以提高叶节点的平滑l2正规化解决过度拟合的问题。当模型的复杂性增加时,有两种不同类型的积累,其中一个是 ,在哪里叶节点代表样本的集合 。添加复杂目标函数之后,最终的目标函数,也就是说,网络金融企业的信用风险识别模型,得到: 互联网金融企业的信用风险识别模型构造用于以上完整的风险识别。
4所示。实验结果和分析
检查提出的信用风险评估能力的互联网金融企业信用风险识别模型,帮助企业避免电力拖欠的风险,并提供敦促电力费用的支付的基础,五个互联网金融企业在某城市被选为实验对象,和这五个公司的年度报告在最近三年内被选为实验数据样本进行实验分析。
4.1。精度测试的信贷风险评估不同的方法
评估信用风险的五个选择互联网金融企业,该方法给出的方法用于(3,4),而这些方法的结果与实际的信用风险的5家公司。实验结果如图所示4。
可以看出,五个企业信用风险等级分数评估该方法更接近实际的信用风险等级分数的五个企业。这是因为该方法能有效地结合实际和客观数据的五家公司的市场交易数据来获取企业的信用状况。此外,该方法可以准确地获得详细的信息企业的信用风险,建立准确的信用风险评价指标体系,这使得信用风险评价的结果更科学、准确。信用风险评估的比较结果如图的两种方法的准确性5。
通过分析数据4和5,我们可以看到,该方法可以有效地测量和评估所有信用风险指标和获取企业的信用风险。样品的数量达到20000时,信用风险评估准确性的引用(3,4分别是0.50%和0.30%,而该方法的信用风险评估的准确性达到0.92%。
4.2。Kappa系数和ROC曲线测试的不同方法
验证所有的三个方法的识别精度,kappa系数和ROC曲线。kappa系数可以预测结果和实际结果之间的差别。kappa系数可以计算为 在哪里代表正确的比例确定样品的总数和样品是随机性的比率。kappa系数越高,更准确的识别结果的方法。kappa系数的方法,该方法在文献[3在文献[],和方法4)如表所示1。
很明显,该方法更高的kappa系数比文献[3]和文献[4在多个迭代,这表明该方法可以准确地识别互联网金融企业的信用风险。这是因为该方法构造了一个基于数据的风险识别指标体系平衡并完成识别信用风险高的互联网金融企业基于高精度的风险识别指标。
ROC曲线,横坐标是真正的情况下速度和纵是假阳性的情况。环路面积越大,ROC曲线,横坐标是方法的识别精度就越高。该方法和方法给出文献[3]和文献[4)是用于识别不同的互联网金融企业的信用风险,并获得中华民国曲线如图6。
(一)
(b)
(c)
图6表明,ROC曲线的面积和该方法获得的横坐标的面积大于ROC曲线,横坐标中提出的方法获得的(3,4),这表明该方法的准确性较高,信用风险的识别可以准确地完成在互联网金融企业。
5。结论
网络金融的快速发展提供了新的融资渠道发展的小型和微型企业和个人创业。信用风险预测的传统方法的互联网金融企业无法获得信贷风险分区的特点,导致大量信用风险识别结果中的错误。在这项研究中,一种新的信用风险识别方法提出了基于互联网金融企业大数据。互联网金融企业的风险评价的步骤进行了研究,测量和评估的重要性指标使用改进的AHP方法。线性加权综合法是用来系统地评估客户的信用。基于大数据的独特特点的信用风险地区部门,大数据的帮助下信用风险预测基于规则匹配的方法。XGBoost监督机器学习算法用于开发一个互联网金融企业的信用风险预测模型。模型的性能评价与kappa系数和ROC曲线。实验结果表明,该方法可以正确地评估网络金融企业的信用风险。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。