文摘
由于信用风险评估的难度,当前融资和贷款困难的中小企业(sme)尤其突出,阻碍了企业的经营和发展。基于前面的研究,本文首先屏幕特性采用相关系数法和梯度提高决策树(GBDT)。SE-Block的帮助下,注意机制是添加到特征子集的张量元数据分开。在此基础上,两个模型,XGBoost LightGBM,用于训练四个子集,分别用于岭回归分析和贝叶斯融合的培训结果单一模型在不同的子集。在仿真实验中,NN-ATT-Bayesian-Stacking模型达到0.9675的AUC值和分布的预测结果是理想的。模型显示了良好的鲁棒性,可以使一个可靠的评估中小企业的融资和贷款。
1。介绍
据统计,到2018年底,在中国中小企业的数量已经超过3000万,占国家税收的50%以上(1),在国民经济发展中发挥着日益重要的作用,科学创新。然而,中小企业的融资和贷款困难尤为突出,他们正面临着严重的和复杂的风险和挑战。在这种背景下,建立一个科学有效的信贷和风险评估方法对中小企业的发展具有重要意义和行业监管的银行和金融服务。
信用评估模型和子集选择模型可以分为传统的统计模型和机器学习模型(2- - - - - -5]。最早的信用评估模型通常基于经典统计理论,包括逻辑回归等方法,线性回归,朴素贝叶斯分类。近年来,随着计算能力的提高,算法的快速发展,数据规模的大幅增加,方法在机器学习和深度学习越来越受欢迎在企业信用评估(6- - - - - -8]。代表数据挖掘模型包括支持向量机(SVM), k - means,决策树、人工神经网络和长期和短期记忆人工神经网络(9,10]。同时,集成学习方法也取得了良好的结果在信用评估问题。黄等。11)比较几种常用的神经网络模型的影响中小企业信用评估的数据集。结果表明,概率神经网络(并)最小的错误率和第二种类型的错误和拥有最高的AUC值和强鲁棒性。Cai et al。12构造一个供应链风险评价指标体系和基于BP神经网络的供应链风险评价模型,具有独特优势在解决高度非线性问题,如供应链风险评价和为企业提供了一个很好的参考和其他金融机构扩大供应链融资业务。王等人。13]提出的信用评估方法long-short-term记忆网络和注意力机制(ATT-LSTM)。Event2vec模型将每种类型的事件转化为一个矢量,然后LSTM网络注意力机制是用来预测用户的违约概率。
相比与传统的手工特征提取方法和标准LSTM模型,该方法可以有效地提高识别精度。Zhang et al。14)构建信用风险评估方法基于确定性退火semisupervised支持向量机(DAS3VM),获得好的结果在稀疏和不对称的数据集。罗等。15)提出一种新的无监督kernelless二次曲面支持向量机(QSSVM)模型,避免了内核的选择和相关的内核参数,和黄金分割算法设计来生成适当的平衡和不平衡数据的分类器。
基于单一模型、属性分区和multimodel融合是当前研究的重点。阿多P米et al。16)构造一个二元分类器基于机器和深度学习模型或真实的数据来预测贷款违约的概率。最重要的10个特性进一步从这些模型选择,和稳定的二元分类器是通过比较二元分类器的性能进行了测试。朱et al。17)结合两个古典集成毫升方法:随机子空间(RS)和Multiboosting并提出一个增强的混合集成毫升方法RS-Multiboosting提高中小企业的信用风险预测的准确性。迭戈(18]构造LR模型,安,和三两阶段混合模型的基础上,结合LR和安逻辑回归和安,和两级混合模型的有效性通过仿真实验验证。田(19)提出了一种梯度提高决策树。该算法采用一种新的数据预处理和特征选择方法,在分类泛化表现良好。Arora N [20.),Bolasso算法的基础上,建立了一个BS-RF信贷风险评估模型。Bolasso算法提供了重要的射频特性稳定,BS-RF模型显示良好的识别精度,优于其他方法的AUC和准确性。刘(21)提出了一种新的多目标软子空间聚类算法对信用风险评估。首先,软子空间聚类有效性指数建立了信用风险评估,可以发现潜在的子空间的每个集群整体高维特征空间,从而获得一个完整的数据结构在聚类过程中。其次,提出了一种多目标进化算法优化新聚类的聚类准则效度指数。没有预定义的加权系数,保证了算法的鲁棒性。Lappas [22)使用一个软计算方法与专业知识相结合的策略。通过专家的参与信用评分过程,解释每个特性的预测能力的能力加强信贷数据集,然后基于包装器的特征选择方法。侯(4]少数过采样技术提出了一种改进的合成方法。在此基础上,进行培训与学习结合long-short-term内存网络和自适应学习演算法,可以实现好的结果不平衡问题的信用风险评估。
与单一模型评价方法相比,multimodel集成方法执行更好,但上述模型和方法在属性选择主要是简单地消除冗余特征元数据和一个子集放入一个或多个基础模型进行训练,而不是比较的结果选择基于不同基础模型的子集。在上述研究的基础上,本文结合不同的子集分区方法(相关系数和GBDT)将原始数据集的子集,然后随机森林模型用于划分子集进行模型验证,确保分区数据的有效性和完整性。进一步提高模型的重要特征,本文增加了频道的注意机制特征张量和进一步应用XGBoost LightGBM训练四个子集的注意机制模块,分别基于SE-Block。最后,贝叶斯岭回归用于引信的训练结果单一模型在不同子集和输出最终的评价结果。在仿真实验中,AUC值NN-ATT-Bayesian-Stacking模型的建立本文达到0.9675,和分布的预测结果是比较理想的,它显示了良好的鲁棒性和能可靠的评估中小企业的融资和贷款。本文的主要贡献如下:(1)multimodel融合企业信用评估框架构建了基于注意机制,具有重要的现实意义和理论价值。(2)SE-Block的基础上,该频道的注意机制是添加到特征张量特性获得的工程,可以改善模型的关注。注意机制的有效性验证的仿真实验。(3)本文首先使用相关系数和GBDT把原始数据集分成子集,使用随机森林来验证子集划分的有效性。在此基础上,两个整体学习模型:XGBoost和LightGBM用于火车四个子集,分别。最后,使用贝叶斯岭回归模型融合,极大地提高了信用评估的影响。(4)在仿真实验中,一个或多个子集放入一个或几个基本模型训练,和选择子集的结果进行比较和分析基于不同的基础模型。
2。基本模型模块
2.1。随机森林
装袋一体化的操作是,对于一个给定的数据集包含样品,样本是随机取出和放入采样组,然后样品放回最初的数据集,然后操作重复了几遍。后周期,样品组样本。过程中多个采样,样品多次有机会被选中。
随机森林是装袋的延伸。基于装袋合奏以决策树为基础的学习者,射频进一步在训练过程中引入了随机属性选择决策树。具体来说,传统的决策树选择最优的属性在当前节点在选择属性。然而,尽管射频除基本决策树的每个节点,它首先随机选择,其中包含一个属性子集k从当前节点属性,然后选择一个最优属性从这个子集构造分区节点。
随机森林模型是基于偏差的模型,因此预测结果难以适应。然而,它可以用来测试功能子集划分的有效性。在此基础上,本文应用随机森林测试子集的分区错误是否很大。
2.2。决策树模型
决策树及其先进模型算法,将输入空间划分为不同的地区,每个地区都有独立的重量参数。在机器学习中,决策树是一个预测模型,它代表一个对象属性之间的映射关系和对象的值。树中的每个节点代表一个功能;也就是说,任何节点代表一个小的解空间。每个分支路径代表一个可能的属性值,也就是说,节点重量。每个叶节点表示对象的属性值由从根节点到叶子节点的路径。
让的预测价值th的例子th树,让的大小th树,让是叶子节点对应的重量值训练样本的th树,让是树的目标函数所示
使用泰勒二次扩张 ,我们可以进一步
其中,损失函数的一阶梯度 ,和损失函数的二阶梯度 。由公式,损失函数值的树前th树是已知的,表示近似值;所以,
定义 作为一个映射的th样本的th子节点;然后,
的一阶导数为设置为0,因此我们可以获得
然后,把回到上面的公式:
因此,目标函数可以获得的解决方案。
2.3。基于SE-Block模块通道注意机制
Squeeze-and-Excitation网络的初衷(SE-Block)是解决问题的特性造成的损失不同的每个通道的重要性Conv-Pool CNN的过程。在传统的CNN网络特征提取,特征提取主要依赖于卷积操作结合空间信息和信道信息在当地接受域,并默认情况下每个通道的特征映射在每一层生成同样重要。然而,在实际问题中,渠道的重要性可能显著不同,甚至可能会有一定的不同通道之间的依赖。
的结构SE-Block模块如图1。地图的功能特色频道,的工作SE-Block分为三个部分:(1)第一部分是挤压模块。为了获得全球渠道接受域有不同的功能,该模块首先压缩输入功能地图频道维度,和压缩方法包括全球平均池和全球最大的池。池公式如下公式所示。压缩后,二维特性渠道特性映射转换为一个实数拥有全球接受域通道: 是输入特性图,和是图的宽度和高度特性,分别。(2)第二个模块激模块,它采用一个两层的完全连接神经网络和增加了更多的非线性过程以适应复杂的通道之间的相关性。第一层是一层降维 神经元和激活功能。第二层是神经元的数量 。的用于生成0 - 1实数,和输出维度匹配通道尺寸的数量。模块的映射函数所示 其中, , , 代表激活功能,代表激活函数 ,和代表非线性映射函数。(3)第三个模块是调整模块。这个模块添加重要性权重每个通道尺寸根据励磁的输出。
3所示。特征选择测验可行性通过随机森林
滤波器是一种特征选择方法,根据分歧或相关性分数每个特性,设置阈值和阈值选择的数量,然后选择功能。在本文中,使用过滤器的步骤如下:
步骤1。之间的相关系数方法:计算相关稀疏特性和选择特性具有较大的皮尔森系数根据阈值。
步骤2。直接删除特性不满足阈值的方差或直接删除两个特性在较大的皮尔森的一个系数。
3.1。相关系数法
对于A和B两个属性特征之间的相关性,我们可以计算出相关系数的特性(也称为皮尔逊积矩系数)A和B的获得相关学位这两个特点:
其中,元组的数量,和元组的值吗在 ,分别表示的意思是和 , 表示的标准差 ,和叉积之和吗 (对于每一个元组,使用产品中的元素)。如果皮尔森大于零,表明一个值增加而另一个值的增加,也就是说,一个积极的相关性。如果是负数,这意味着一个值随的增加而减小。越大皮尔森是,相关性越强,越明显的数据冗余。
为了防止高相关性的特点,这将导致数据冗余,数据与相关系数高,训练数据集划分的特性。最初的- - - - - -维数据分为子集,工会的子集- - - - - -维数据。然后,反过来,模型训练的最后模型进行融合来获得最好的数据。将相关系数高的特点分为两个子集,这里的元数据分为子集1和2。
随机森林测试的结果表1。
通过数据比较,虽然子样品集数据的准确性有一定的下降,下降并不大,避免数据冗余。因此,该部门可以被认为是合理的。
3.2。树模型选择方法
树模型选择是基于模型的选择方法,而不是一个基于基本特征选择方法的属性数值。树模型是基于基尼系数划分节点和索引值的特性。
假设类的比例样品在当前样本集是 ,基尼指数被定义为
直观地说,反映了两个样本的概率随机选择来自数据集与不同的类标签。因此,越小是,越高的数据集是提高。在候选属性设置,选择最小的基尼系数的属性作为左右分区属性。
元数据分为3和4个子集,子集,子集3 GBDT模型,是一个重要的特性考虑,4是一个重要的特性考虑GBDT子集模型。使用随机森林来测试子集。
从表中的数据可以看出2精度获得除以两个子集并没有太大的区别,它可以被认为是合理的。基于两种不同的方法,第一个是基于数学关系,第二个是基于模型的选择。由于获得的结果有差异,尚不能够确定这对特征选择方法是最好的。因此,纵向比较了不同的方法和不同的子集来获得更高的分数。与此同时,将进行比较的元数据分为子集。我们只使用相关系数法和GBDT选择法,1子集,子集,子集,subse t4,分别随访。当样本空间划分,划分样本空间更关注当地的样本空间的功能比全球样本空间,所以单一模型的准确性会降低,和整个模型的准确性应确保不会丢失。在接下来的研究中,方法叠加模型融合应用于充分利用每个数据,构建一个模型,可以更好地照顾全球样品。
4所示。中小企业信用评估模型的设计
图2显示了所使用的模型的架构图。处理异常数据和工程特性后,两种方法的相关系数和GBDT用于元数据划分为四个频道。在此基础上,神经网络+ATT用来增加通道注意机制在数据获取的交互特性。作为第一个预测的数据,不同的渠道对应不同的粗略的预测结果。然后,相应的粗预测结果四个频道作为XGB的输入特性和激光预测,分别和12好得到预测结果。最后,模型进行融合得到最终结果。
5。实验结果和分析
5.1。介绍实验环境
模型实验是建立基于TensorFlow和scikit-learn框架,和使用GPU加速计算。实验平台和软件版本如表所示3。
5.2。数据集介绍
在这个实验中使用的数据包含了数据的14366年企业。每个数据项记录274维的特征包括企业类型、登记机关、企业状况、总投资、注册资本、行业代码、行业类别、企业类别,增值税、企业所得税、印花税。
5.3。不同的评估模型的性能比较
在本节中,为了比较不同模型评价的影响,本文首先采用线性回归,逻辑回归,贝叶斯岭回归,CNN, NN,恋,XGB作为信用风险评估的基本模型。然后,在此基础上,NN-ATT NN -恋,NN -XGB, CNN-LGB, CNN-XGB, NN-ATT-LGB, NN-ATT-XGB,和NN-ATT-LGB-XGB评价模型构建,比较,分析。
在本文中,每个优化算法使用5倍交叉验证的方法计算的成功率分类。数据集随机分为五个统一的子集。每次四个子集选择训练模型和剩余的一个是用于验证分类的成功率。平均五个实验模型的成功率在此优化算法。
从表可以看出4在元数据中,最高的评价模型AUC值XGB模型和AUC值达到0.9285,其次是激光制导模型的AUC值达到0.9266。贝叶斯岭回归模型AUC值最低,为0.8921。其中四个子集,前两个AUC值的模型都是XGB恋,谁的AUC值达到0.92 - -0.93。最糟糕的是线性回归,他的AUC值约为0.88。通过培训结果基本模型的元数据集和subdata集,它可以发现,信用评估问题是一个相对复杂的分类问题和普通线性模型很难获得良好的效果。XGB的两种集成学习方法和激光在此类问题非常有效。
表5显示了训练的结果叠加模型的构建本文的元数据集和subdata集。相比之下,XGB和制导炸弹在表的性能4,AUC的提高不是很明显,但它并不意味着神经网络或CNN是无效的。数据的分布变化后添加神经网络或CNN,这对后来的模型融合是非常重要的,稍后将详细讨论。
从表可以看出6在元数据中,最高的评价模型AUC值Logistic-Stacking融合模型和AUC值达到0.9673。第二个是Linear-Stacking融合模型的AUC值达到0.9644,和AUC值融合模型的注意机制是约0.95。subdata组,AUC值是最高的评价模型NN-Logistic-Stacking融合模型,和AUC值达到0.9775。第二个是CNN-Logistic-Stacking融合模型,AUC值达到0.9727。在融合模型的注意机制,NN-ATT-Logistic-Stacking融合模型的AUC值达到0.9711,和其他两个融合的AUC值模型基于注意机制接近0.97。融合模型取得了良好的效果。属性的基础上,选择和子集划分,划分训练模型的性能明显优于训练模型的元数据集。在此基础上,本文将进一步讨论和分析数据的分布。
模型的数据分布到企业信用评估得分图所示3。评价模型由贝叶斯岭回归相对接近的数据分布元数据子集1和3,这是集中在84点附近,但整体覆盖和预测结果的分布在2和4是相对贫穷的子集。评价模型由线性回归在元数据和所有subdata集表现不佳,不能完成评估任务。四个评价模型由逻辑回归,激光模型,神经网络模型,和NN-ATT模型有一个理想的总体布局和所有个子数据集的元数据,但模型的预测结果相对集中约99点和需要改进。评价模型的总体布局由XGB模型相对分散,集中区域的分布是合理的,但在20到40分之间的数据量很小,显示双峰分布。由CNN模型构造评价模型有一个子集3理想分布的预测结果,但预测结果的分布元数据子集1、3和4太集中在96点,这需要改善。
(一)
(b)
(c)
(d)
通过分析数据分布基本模型的预测结果,可以发现,每个模型的性能在不同的数据集亮点的相应特征模型和评价模型在各方面表现良好。
的叠加模型,与XGB模型相比,堆积结构的神经网络模型提高了原始的双峰分布,使预测结果的分布更集中约90点。NN-ATT-XGB和CNN-XGB模型,叠加结构使得最初的预测分布更为集中。NN-ATT-LGB模型,NN-LGB模型,CNN-LGB模型,在一定程度上,解决这个问题通过集权分布的预测基本模型的结果,和分布更为合理。然而,三个叠加模型有自己的优势和差异在不同的数据集,为后续模型融合创造条件。
在融合的分布模型的预测结果,数据的分布大致可以分为两类。一种类型的数据是分布在100点;其他类型的数据分布在80点。它可以认为100点附近的融合模型是一个失败。即使有一个相对较高的AUC值,无法做出合理的预测实际的信用评估。
在此基础上,相对合理的模型是Linear-Stacking模型训练在元数据集和Linear-Stacking模型中,Bayesian-Stacking模型,CNN-Bayesian-Stacking模型,CNN-Linear-Stacking模型,NN-Bayesian-Stacking模型、NN-Linear-Stacking模型和NN-ATT-Bayesian-Stacking模型训练子集。
考虑的AUC值和分布数据,NN-ATT-Bayesian-Stacking模型的AUC值达到0.9675,和的分布预测结果似乎是理想的。因此,这个模型是本文获得的最优信用评估模型。
6。结论
近年来,随着国家政策的大力支持,中小企业蓬勃发展,国民经济的支持作用越来越明显。然而,由于信用风险评估的困难,融资和贷款困难的中小企业尤为突出,阻碍企业的运营和发展。
随着计算机计算能力的提高,算法的快速进步,和数据规模的增加,方法在机器学习领域和深度学习明亮照耀在企业信用评估的问题。基于之前的研究,本文构造了一个双重模型融合算法基于特征选择和渠道关注机制。算法使用相关系数法和GBDT过滤器原始特性,然后添加关注机制的特征张量根据SE-Block分离元数据集的子集。在此基础上,使用XGBoost和LightGBM训练四个子集,分别。最后,贝叶斯岭回归用于引信的训练结果单一模型在不同subdata集。在仿真实验中,AUC值NN-ATT-Bayesian-Stacking模型的构建本文达到0.9675,和分布的预测结果是理想的。因此,该模型可以使一个准确和可靠的评估中小企业的融资和贷款场景,融资具有重要意义,中小企业风险管理和金融服务监督。此外,该模型具有广泛的应用前景,具有现实意义和理论研究价值。
数据可用性
使用的数据来支持这个研究的发现可以从相应的作者。作者的电子邮件地址(电子邮件保护)。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这部分工作由集团在重庆建筑大学科技创新项目(CXQT21021)和重庆市教委科学技术研究项目(KJQN202100712)。