文摘
信用评分是金融机构信贷决策的基础。随着科学技术的发展,大数据技术已经渗透到金融领域,和个人信用调查已进入一个新时代。个人信用评估基于大数据的一个热门研究课题。本文主要完成了三个工作。首先,根据信用评估的应用场景个人信用数据,实验数据集清洗,离散数据是一个炎热的编码和数据标准化。由于高维度的个人信用数据,本文采用pdC-RF算法来优化数据的相关特性和减少145 - 22-dimensional数据维度数据。在此基础上,悲哀的编码进行了数据集,应用随机森林,支持向量机,和逻辑回归模型,性能比较。发现逻辑回归更适合个人信用评价模型基于贷款俱乐部数据集。最后,基于逻辑回归模型的最佳参数,用户样品分级和最后的分数卡是输出。
1。介绍
随着大数据技术的快速发展,信用信息系统已进入一个新时代。从信贷业务信用报告企业赚取利润,但他们也承担一定的信用风险。构建和完善信用信息市场对经济发展具有重要意义和市场经济改革。一方面,作为国家宏观调控的经济手段,个人信用信息系统有关的改善祖国的未来信用信息系统,降低了信贷犯罪的可能性。另一方面,开放一个新的个人信用系统有利于银行等金融机构来提高效率和处理信贷业务对不同组的人更准确。
由于社交媒体数据的巨大和变化量(SMD) [1),传统的数据仓库是不再适用。从分析twitter数据的新框架,研究人员测试了拟议的框架的可伸缩性不同大小的检测数据和有效地处理大量的数据。查询、获取和分析非结构化数据和数据流在特定内存资源。大数据在预测和评估经济信用起着重要的作用。通过贷款机构的检验,证明(2)一个特别的测试在贷款机构是18.4%低于大数据的信用评分预测评估个体是否会拖欠贷款,而且它很有优势在预测的人从未有过贷款记录和纠正财务报告错误。信用评估分数的重要性越来越突出,和任何机构需要避免一些风险通过高性能的信用评分模型(3]。抛开技术研究信用评分技术;采用选择数据源来提高性能的统计和经济模型。通过这种方式,电话网络大数据来源,然后,特征选择增加利润价值和使用数据集来创建用户申请信用卡的分数。大数据在各领域的应用和认可。在保护隐私的前提下,人们希望大数据驱动模型可以更有效地应用在金融信用评分。基于投影梯度记分卡学习方法(FL-LRBC)可以使积极的系数模型的形式(4),它有丰富的数据,特别是统计性能优良,它被应用在一些金融和信贷业务。在金融零售信贷评分,我们需要证明机器学习(ML)模型的性能在面对复杂的ML算法(5]。除了重新分析传统模型的缺陷,我们也必须提出新观点结构选择和敏感性,因此提出了一种模型的批评基于反向生成反事实的例子。信用分数直接影响盈利能力的行业,也是一个关键的研究课题。飙升的信用评分分类极端学习机(SELM)已经被验证在许多欧洲国家6]。这是一个新的能量函数。相比一些传统的神经元模型,如分类精度和曲线下面积(AUC)的准确性和执行速度SELM已经大大提高,信用评分数据集有统计学意义,表明生物飙升的组合功能和榆树可以更好地分类。贷款偿还能力尤为重要,对银行来说,这反映了信用评分的价值,可以评估是否贷款风险。当银行批准贷款,他们会优先贷款信用评分高。除了得分之外,他们还涉及数字验证客户的凭证,它是乏味的。研究人员引入框架和创建一个数字身份,并使用块链计算信用评分(7]。在分布式用户网络,细节是透明的,这提高了信任水平和扮演一个公平的得分。银行业抓好客户认可和为客户提供个性化的服务,和人工智能贯穿从前台向后台(中间的桌子上8]。点对点借贷逐渐出现在最近几年,研究人员讨论和分析了这一现象。研究通过开源数据和信贷记分卡的适用性和有效性检查。计分卡是基于P2P贷款打开数据集,它包含还款记录和贷款功能。为了提高信贷管理和信用评分的稳定性,使用一个方法。首先,获得用户的数据,数据输入到神经网络配置模块进行处理(9),获得信贷概率值和分数。在实际情况下,这种方法显然是稳定的,从而大大提高了用户体验。对金融机构来说是非常必要的预测客户的违约。目前,一个保守的信用评分模型建立了利用克鲁斯卡尔-沃利斯非参数统计(10]。该模型属于低成本和高准确性。它应用于非传统数据源和变化的信用评分根据客户的在线应用程序。
2。简要介绍和实验数据的预处理
本文中的个人信用评价模型使用实验数据从贷款俱乐部。贷款俱乐部在本文采用的数据集,因为数据是公开的,可以评估。数据集可以反映信贷数据的评价标准。通过贷款俱乐部集算法,设计可以显示该算法的优势和更好的性能。
提供的信贷数据公司第一季度的2017年一共有96781个样本和145的特点,主要包括贷款俱乐部公司的财务数据,但不包括信用评级。数据集特征loan_status包含七个类型的借方和贷方的州,如表所示1。
为方便后续研究中,我们把loan_status特性作为目标向量。不学习的数据“还款在进步,”作为“偿还”用户提供良好的信用,和分类的数据用户提供不良信用的其他国家。其中,有23381用户提供良好的个人信用和个人信用差的9088用户,总计32469人。
2.1。数据清理
数据清理是第一步的过程中数据预处理;的主要目的就是填补缺失值和异常值处理。对于缺失的样本数据集,缺失值处理方法在本文中遵循以下原则:(1)如果超过一半的样本数据为空,数据集被丢弃。在大数据的环境,有缺陷的数据集的差异数据集收集。它是合理的大规模数据集NULL值。如果有多个缺失的数据,可以直接删除。如果有大量数据,删除一些不会影响整个数据集的评价。(2)通常,缺失值的样本是由的模式特性。模式填充原则是针对出现的值最高的数字数据,基于最大概率填充方法,可以提高数据集成的效率。因此,整个数据集的偏好是更好的,符合数据填充的效果。(3)如果样本超过95%的丢失的特性,特性将被丢弃。为了确保数据的完整性,本文将离散数据的格式填写缺失的数据之前,和丢失的数据如表所示2。
其中,失踪的比率是缺失数据的数量的比例这一特性数据集的行数,也就是32469。通过数据格式转换和模式填充,数据是完整的。异常值的处理更简单。它只需要判断数据是否在合理的数据范围内,然后,删除离群值的示例数据。贷款俱乐部本文中使用数据集没有发现异常值的数据集。最后,当数据清理完成后,有32469个样本和74特点在本文中使用的数据集。
2.2。标准化的数据
当执行机器学习算法,特征的大小模型过度拟合的主要原因。当计算特性不同的数量级,大规模的特征和小规模的特征变量之间的距离太大,这将导致训练模型的偏差,从而降低性能和未能达到预期的标准。因此,在训练模型之前,我们必须确保每个变量具有相同的测量标准样品,即标准化治疗。标准化的方法是不同的。根据变量的类型,他们可以分为连续变量标准化和离散变量标准化。Min-max正常化和z分数归一化是两个常用的连续变量标准化的方法。
2.2.1。Min-Max标准化
min-max正常化的想法是指定一个最小和最大间隔,将功能映射到给定的时间间隔,或每个特性的绝对值转换为一个单元尺寸(11]。通过原始数据的线性变换,数据归一化到[0,1]的中间。转换函数
min-max标准化的一个缺点是添加新的数据到数据源可能导致最大和最小的变化,每一次数据添加或减去,需要重新定义。
2.2.2。z分数标准化
的想法z分数标准化规模数据是基于原始数据的算术平均值和标准偏差(12]。后z分数标准化,数据显示标准正态分布,也就是说,均值为0,标准差是1,转换函数
针对数据集的连续特性,本文使用min-max标准化方法来解决它。
与连续变量的标准化相比,离散变量的标准化是更复杂的。为了测量样本之间的距离,有必要引入虚拟变量的编码。常见的编码方法是在一个炎热的编码和虚拟编码。
2.2.3。在一个炎热的代码
在一个炎热的基本思想是不同的离散值特性抽象为一个类的状态,和N不同的值对应于N不同的州(13]。假设一个功能有五个州,一个炎热的编码显示在图1。一个炎热的编码确保只有一个比特的每个状态被激活,和所有其他的国家都是0。这个的好处是确保数据之间的距离 。
2.2.4。伪代码
虚拟变量的基本思想类似于一个炎热的编码,除了虚变量选择一个状态在功能和设置所有状态位非活动状态(14]。类似于图的编码方法1,虚变量可使状态向量少一点,及其编码方法如图2。
至于计算样本之间的距离,在一个炎热的编码普遍比哑变量,和样品在不同的州之间的距离是固定的,而假的国家样本虚变量将显示不同的距离计算。在本节中,一个炎热的编码是用于编码类变量。
2.3。基于Pdc-RF实验数据集降维算法
数据预处理的基础上,在前一节中,这部分是基于Python编程,Jupyter笔记本数据分析平台降低了32469个样本的维数和74实验数据集特征。在随机森林算法,test_size = 0.2是选为训练集和测试集的分区;树上的树的数量设置为n_estimators = 500,树的深度设置为max_depth = 10,和其他参数设置为默认值。功能是根据重要性排序,然后,重要性小于0.01的特性被nonimportant特性和消除。最后,第一个41的特性选择特征子集。在本节中,特征选择和筛选结果类别的特性,如表所示3。
然后,基于皮尔逊相关系数和距离相关系数,进一步筛选特征子集的连续特性,和拦截一些特性之间的相关系数,如表所示4。
可以看出,对角矩阵的相关系数都是1.0,和其他系数对应列和列之间的皮尔逊相关系数的特性,安装和loan_amnt之间的相关系数为0.95,远高于其他特征之间的相关系数。而安装代表每月的欠款,loan_amnt代表贷款适用于用户的数量。根据公式,每月欠款=(贷款金额÷数量的贷款时间)+(贷款amount-repaid数量)×利率;不难得出这样的结论:每月的拖欠贷款金额直接相关,这是符合相关系数为0.95。基于降维的想法防止过度拟合,loan_amnt可以消除。最后,21特性从Pdc-RF选择算法的特性如表所示5和6。
在本节中,min-max标准化和一个炎热的编码是用来规范连续变量和离散变量的数据集,分别完成数据预处理阶段的第一步。然后,改进pdc-RF算法应用于标准化的数据,和实验数据提取并减少功能。最后,数据从74尺寸减少到21个维度,和数据预处理的第二步就完成了。
3所示。建设个人信用评价模型
在前面的小节中,基于Pdc-RF特征选择算法,完成数据的降维,并与21特性和32469个样本数据集。在此基础上,本节进一步构建监督个人信用评分模型。一个完整的个人信用评价模型应包括数据处理、模型建立、模型评估和信用评分卡转换。基于数据预处理和降维在前一节中,本文的个人信用评价模型与数据分区开始,进行箱处理数据,并完成数据的离散化。然后,基于机器学习的相关算法,训练样本,然后,每台机器学习算法的性能进行比较以获得最佳性能的培训模式。最后,模型转化为一个计分卡来完成整个建设信用评价模型。
3.1。数据分区
3.1.1。卡方小格子
在建立模型之前,需要连续变量离散化,避免极端值的影响特性,减少风险造成的过度拟合的模型。在本节中,使用卡方box-dividing方法将连续变量划分为盒子。
卡方盒子分裂取决于卡方检验和采用自下而上的数据离散化方法。卡方盒子分裂的想法是合并相邻间隔最小卡方值和来回循环,直到卡方达到阈值条件(15]。卡方盒子的步骤划分如下:步骤1:预设卡方阈值和最大数量的盒子步骤2(初始化):初始化和排序中的值特性,和属于每个实例一个初始区间步骤3(合并间隔):计算卡方值相邻间隔,合并两个间隔的最小卡方值根据 在哪里一个ij代表类的实例的数量j在我th间隔和Eij代表的期望频率一个ij,这是根据计算 在哪里N样品的总数量,N我组样品的数量我,Cj样品组的比例吗J。第四步:重复步骤2和3,直到卡方值大于卡方阈值。
3.1.2。悲哀和IV值
重量的证据称为悲哀,也就是说,重证据,代表了一个分组特性预测作为一个坏样本。悲哀的计算公式见方程(5)。祸哉越大,越大的可能性分组属于坏样本:
在个人信用评估,坏样本代表客户违约,而好的样品代表默认的客户。然后,在方程(5),py我代表的比例坏样本分组坏的样本数据,pn我代表的比例好客户在分组的所有数据样本,#n我代表的数量好样本分组,#y我代表的数量坏样本分组,#yT代表坏的样本数据的总数,和#nT代表了良好的所有数据的样本总数。
四世的全称是信息价值,也就是说,信息价值(信息)。IV值可以测量变量的预测能力,也就是说,比较之间的差异的分布好样品和坏样本的信息价值。进行分组我所示,IV值的计算公式
IV值的变量是每个组的第四笔对应的值:
3.1.3。探索数据分区
基于卡方盒子和悲哀的编码,计算第四信息度的方法用于处理数据。值得注意的是,在计算过程中代码和IV值,如果实例在一个小格子只是一个糟糕的客户或一个好客户,py我或pn我可能是0,悲哀和IV值可能对应于正或inf,这是不允许的。悲哀的值的计算过程在本节中,重量为1.0E−12添加到py我和pn我确保数据不会overfitted。通过验证,悲哀和IV值的变化特性术语前后不超过1.0E−12,这显示了添加权重的鲁棒性。“没有”分类home_owner船最初悲哀正无穷,现在20.23。home_owner IV值,原本正无穷,现在是0.07,证实了增加重量的有效性。一般来说,IV值反映了信息的价值功能,和第四太小不利于模型的预测价值。在本节中,变量选择与IV值大于0.02,然后,悲哀值转换为每个组。一些结果如表所示7。
3.2。机器学习方法和模型的选择
传统的信用评估模型通常基于机器学习算法,如银行和证券公司的风险控制模型。本文是基于逻辑回归,随机森林,支持向量机,三种机器学习方法进行功能训练。
3.2.1之上。逻辑回归算法
逻辑回归是一种有效的分类模型,它被广泛用于解决二元分类和multiclassification的问题。逻辑回归通常是基于线性回归和乙状结肠函数修正输出到指定的时间间隔。所示的乙状结肠函数的表达式
乙状结肠函数映射区间内的输入 (0,1)。使用乙状结肠函数应用线性回归方程 ,在哪里 ,系数 可以获得逻辑回归算法的核心表达吗
因此,输出的代表一个样本的概率预测是积极的,和代表一个样本的概率预测是负的。如何找到一个W这使得所有的预测的概率正确的最大化,可以优化代价函数的梯度下降法和拟牛顿法,估计。
逻辑回归模型在训练的成本函数所示
其中,
逻辑回归算法在处理大规模数据,具有明显的优势,有效地节省计算时间的梯度下降的方法。经过数据训练,表达式可以获得与实际参数,模型直观、可靠。
本文中的机器学习的实验都是基于Jupyter笔记本平台,使用python编程语言。逻辑回归算法调用逻辑回归的简历函数scikit-learn机器学习库中的数据逻辑回归训练。hyperparameters参与模型,随机搜索简历函数是用于随机网格搜索优化参数
3.2.2。随机森林算法
随机森林算法具有某些应用程序之前的特征选择。本文介绍了随机森林分类器scikit-learn及其相关参数。随机森林通常使用CART决策树作为弱的学习者。一般的决策树一步是选择最好的特性在所有n样本特征的节点上把决策树的左、右子树。随机森林的算法思想是随机选择一些功能节点通过将它们并选择最佳特性根据学习者的需求。最好的特性是作为分水岭的左、右子树来回循环直到所有最好的选择功能。随机森林里随机选择节点的概念可以提高模型的泛化能力。二进制分类随机森林算法的步骤如下:第一步:输入:数据集X和采样时间k;输出:数据集的决策结果X后K次抽样和培训步骤2:用来进行引导k圆形取样,米从数据集特征提取X作为训练样本,最后,一个样本集年代形成步骤3:分类和训练样本集的不同样本年代第四步:输出:对于离散变量,基尼系数作为随机森林的评价标准,并根据进行计算 在哪里代表类的比例我样品在当前节点的总样本的决策树,越平均,基尼系数越大。
对于大规模的信贷数据,随机森林算法具有良好的分类效果,因为足够的抽样。通过决策树的划分,anti-overfitting能力模型的改进。算法本身非常稳定,适用于连续变量和离散变量,不容易受到异常值的影响,并具有较高的可靠性。
3.2.3。支持向量机算法
它属于一个经典二进制分类模型。支持向量机的基本模型是一个线性分类器特征空间最大的区间。支持向量机算法的基本思想(16,17)是解决一个超平面可分为正确的训练数据集和数据之间的几何间隔最大化。
的非线性分类问题,输入可以映射到某一特征空间的一个线性分类问题的非线性变换,线性可分支持向量机模型可以解决高维线性空间。考虑到大规模的信贷数据和整个数据的非线性关系,这一节使用非线性支持向量机算法。有两个非常重要的概念计算非线性支持向量机的核函数和惩罚系数c核函数本质上是一种映射关系。假设X是一个低维输入空间H是一个高维特征空间。如果有一个映射 这样, 功能 ,方程(13)满足:
然后, 被称为核函数。核函数的优点是,在高维空间映射到低维空间的分类计算,避免了超高计算复杂度。常用的核函数包括正定核函数、线性核函数,多项式核函数,高斯核函数和乙状结肠内核函数。惩罚系数C是一个superparameter调整分类的准确性,这是有关模型的泛化能力。惩罚系数越高C是,越低公差模型的分类错误,和过度拟合现象很容易发生。如果C太低,很容易underfit。非线性支持向量机(NSVMs)对二元分类问题有很好的作用,但缺点是,即使使用线性核函数,处理大规模数据的效率仍然很低。
3.3。模型性能评估
因为正面和负面的不平衡样本,记分卡模型的评估标准不能简单地判断模型的准确性。在本节中,AUC和钴值是用来评估,ROC曲线是用来区分和比较三种算法的记分卡模型。
在这里,我们首先介绍一个概念:混淆矩阵。混淆矩阵是指统计分类模型的结果和观测值表示为矩阵。混乱可以用来表示模型的分类结果。的二元分类问题,混淆矩阵如表所示8:
真实的通胀率TPR = TP / (TP + FN)代表真正的阳性样本的比例分配给积极的所有积极的样本,样本和假阳性率玻璃钢= FP / (FP + TN)代表的比例负样本错误地分配给正样本总数的负样本;精密= TP / (TP + FP),代表积极样本的分类准确率和召回= TPR = TP / (TP + FN),此句意思同真实的通胀率。
中华民国曲线也称为接受者操作特征曲线。这条曲线用于雷达信号检测领域的早期阶段区分信号和噪声。目前,中华民国曲线常被用来评估模型的预测能力。ROC曲线是基于混淆矩阵。曲线的横坐标是假阳性率(玻璃钢),纵坐标是真实的通胀率(TPR)。
AUC是ROC曲线下的面积。AUC越大,模型的识别能力更强的积极的和消极的样品和更好的分类结果。计算方法的计算值是中华民国曲线。常见的AUC阈值如表所示9。
钴的值由公式计算KS = max (TPR-FPR),也就是说,召回率和假阳性之间的差异率。钴的值代表了正负样本模型的区别。钴的价值越大,模型的预测精度越好。一般来说,KS > 0.2意味着模型具有良好的预测精度。钴的判断阈值如表所示10。
在本节中,将数据集分为训练集和测试集的比例根据7:3。对训练集进行训练,然后,测试集上的预测结果,通过网格搜索和参数调整,本节获得评价结果的逻辑回归随机森林和SVM算法,给出了在桌子上11。
表中的数据11后获得的实验数据superparameter选择通过随机网格搜索。AUC和钴索引是一个合理的范围内,但模型的歧视需要改善。考虑到正面和负面的不平衡样本混淆矩阵,好客户7倍坏客户,这可能会导致预测偏差。重置实验数据后,随机选择样本20%整个样本来填充数据,和实验结果如表所示12一次。
可以看出,这三个模型的AUC和钴值提高,和逻辑回归模型执行最好的。比较清晰,ROC曲线和钴逻辑回归的曲线,随机森林和SVM算法如图3- - - - - -5。
最后,基于上述实验,我们认为模型的稳定性和泛化能力,给信用评分卡的逻辑回归模型。
3.4。信用计分卡基于逻辑回归
在评估之前,我们筛选IV值大于0.02的特性,最后构建了一个基于22728个样本的逻辑回归模型在训练集,称为statsmodels库在python库,当显著性水平为0.05;测试通过的所有意义,系数代表了逻辑回归系数,都是负面的和重要的。
基于上述检验,记分卡可以设置。分数计分卡的规模可以定义默认的对数的线性表达式和默认的概率比(日志(优势): 的偏移量一个=抵消,比例因子B=因素,代表了违约概率;转换过程的日志(优势)得分基本包括三个常用参数:英国石油公司(basepoint),od:概率对应参考分数,阿宝:信用评分的分数增加时,概率翻倍。因素之间的转换公式,抵消,英国石油公司,od,阿宝是
这里,假设相对应的分数1/20的几率是600分,和相应的减少60分当赔率是2od,一个= 481。86年,B= 28。85年,基础分数= 510。0是通过计算获得。基于逻辑回归模型的最优参数和计分卡的设置参数,得到贷款的基本计分卡俱乐部,每个样本对应的分数,如表所示13和14。
基于510年的得分,低于510被视为贫穷的客户样品,和样品超过510被认为是好的客户。据统计基于数据密度,良好的客户主要集中在区间(530、570),而可怜的客户集中在区间[470 - 500],这符合原始数据的分布特征。对称,将数据根据510年基础分数,我们可以获得以下评分等级(表15)。统计用户中,好的客户不良客户的比例接近6:1,只有8%的顾客分数低于450,这表明,很少有客户特别不良信用,和大多数客户仍有良好信用的性能。
4所示。结论
关注的研究目标”提供科学合理的信用评估更广泛的人们在新形势下,“建立一系列完整的信用评估系统包括公式推导,模型建立和仿真分析的个人信用评价模型根据先进的大数据挖掘技术。在研究过程中,首先,离散变量进行编码来解决这个问题,不能被视为均匀离散变量和连续变量。然后,针对高维数据的问题很容易overfit,减少的数据维度。然后,降维后的数据分为数据分区,和连续变量和离散变量分为分区通过变量离散化,和各地的悲哀代码。然后,悲哀的训练数据集进行三种模式,分别。后的性能比较,发现逻辑回归更适合个人信用评价模型基于贷款俱乐部的数据集。最后,基于逻辑回归模型的最佳参数,用户样品得分和最后的记分卡是输出。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。