SP 科学的规划 1875 - 919 x 1058 - 9244 Hindawi 10.1155 / 2020/4561834 4561834 研究文章 评价模型的中国研究P2P网络借贷平台基于混合核支持向量机 https://orcid.org/0000 - 0002 - 0228 - 6036 1 建国 1 2 至岑溪 1 经济学院的 武汉科技大学 武汉430070 中国 whut.edu.cn 2 计算机科学与技术学院的 武汉科技大学 武汉430070 中国 whut.edu.cn 2020年 8 5 2020年 2020年 26 2 2020年 30. 3 2020年 8 5 2020年 2020年 版权©2020双锅等。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

准确评估风险水平和操作性能的P2P网络借贷平台不仅有利于更好的信息中介的功能,而且还有效的保护投资者的利益。提出了一种改进遗传算法(GA)混合核支持向量机(SVM)与指标体系构建这样一个评价模型。内核组成混合多项式函数和径向基函数的改进,特别是内核参数和两个内核的重量,通过遗传算法全局优化和快速收敛的方法。实证检验基于横截面数据来自中国P2P借贷市场展示了改进的混合核支持向量机模型的优越性。信用风险水平和运行质量的分类精度高于单一内核支持向量机模型以及混合内核模型与经验参数值。

中国国家自然科学基金 14 bgl185
1。介绍

中国P2P网络借贷行业曾经是五年多没有监督管理大多数平台作为信用中介机构,提供主要担保和第三方担保等信用增强措施( 1, 2]。随着破产事件和消失的平台,投资者越来越敏感特征决策平台。风险管理关注平台应监管的新趋势的P2P网络借贷行业 3, 4]。临时措施管理在线贷款信息中介机构的业务活动由四部委联合发布了2016年8月中国政府澄清内容P2P借贷,监管体系,和业务规则;随后,一系列的详细规则和条例第三方保管,备案和登记,信息披露是颁布标准化P2P网络借贷行业的发展( 5, 6]。准确评估风险水平和操作的平台不仅提供了坚实的基础为实际措施采用监管当局也作为投资者决策的重要参考。因此,构建一个先进的评价模型对P2P网络借贷平台是至关重要的现实意义 7]。

风险等级和操作绩效评估是最近的研究热点问题给出不稳定的市场环境。Tsolas应用一系列新的两阶段DEA方法在评估信用风险的企业( 8]。罗Sirong等人介绍了一个回归spline-based离散时间存活模型来评估信用卡申请人的综合性能 9]。Dahira等人提出了一种特征选取hybrid-bagging算法(FS-HB)改善信贷风险评估 10]。关于中国的P2P平台,现有研究通常采用因子分析等统计方法主成分聚类和层次分析法。王朱Zongyuan和宇执行层次分析法和数据包络分析测量技术、规模、和整体效率的22 P2P网络借贷平台,寻找那些效率普遍偏低( 11]。彭山等人先后将因子分析法应用到综合实力得分和排序和风险水平的样品平台( 12]。燕新等人构建一个复杂的评价指标体系对P2P网络贷款平台和利用两步和Kohonen集群516平台分类模型,为投资者的决策提供参考 13]。刘Ao等人确定最优权重通过教与学的优化算法和排序效率100 P2P网络贷款平台( 14]。

现有的研究主要有两个缺陷。首先,在大多数研究中,平台的排名是根据一定的标准。合适的投资平台的边界是模糊的,而一个直观的支持投资者的决策是失踪。其次,研究采用统计模型,数据建模是过份强调,基于模型预测的准确性会受到影响,而数据维度是扩大。因此,机器学习算法结合遗传算法和混合核支持向量机提出了研究。改进算法设置一个清晰的边界的平台是否可信,投资者可以通过分类交易的风险水平和运行质量。此外,应用GA方法和混合核支持向量机不仅能达到一个更高的分类精度比传统统计和机器学习模型也适合大数据量分析。

本文的其余部分组织如下。部分 2讨论了遗传算法优化的混合支持向量机评价模型的设计。部分 3显示了仿真实验结果,包括标签过程通过主成分方法和平台优化的混合支持向量机方法的评估过程。部分 4总结了论文的总结和未来的研究方向。

2。遗传算法原理和混合核支持向量机集成模型 2.1。建立支持向量机的混合内核

支持向量机作为分类算法的原理是找到最大利润最大化的分离超平面之间的距离 x和超平面( w T x + b = 0 )。松弛变量,即非负参数ξ,引入惩罚因子C为样本误分类描述不可分离性损失和罚款。当训练样本被假定 x , y ( x :输入指数和 y :分类标记值),可以被描述为基本模型 (1) 最小值 1 2 | | w | | 2 + C = 1 ξ , 年代 t y w T x + b = 0 1 ξ , = 1 , ,

内核函数隐式数据映射到高维特征空间,在原始的低维空间线性不可分的问题可以解决,其形式和参数值显著影响支持向量机算法的分类精度。内核函数通常可以划分为两种类型(全球和本地内核);前者具有较强的泛化能力,但学习能力较差,而后者是相反的。全球核函数中常见的内核函数,包括多项式和Sigmod类型和RBF类型属于当地的内核函数。多项式和RBF核函数线性组合在这项研究中获得的混合核函数学习和泛化能力,克服单个核函数的局限性。数学表达式如下:

多项式核函数: k x , x j = 一个 x T x j + c d

RBF核函数: k x , x j = 经验值 x x j 2 / σ 2

Polynomial-RBF混合核函数: k x , x j = 1 λ 一个 x T x j + c d + λ 经验值 x x j 2 / σ 2

2.2。支持向量机参数的优化

混合核函数时申请分类,这些参数是必然包括决定 λ(混合内核权重系数), c, d(多项式内核参数), σ 2 (RBF内核参数)和C(惩罚因子)。

首先,混合内核权重系数是由最小化原理相似的样本之间的距离和最大化不同样本之间的距离,由王提出了幸福和Yu陆( 2]。评价函数L ( λ)被定义为不同间距的两种不同的样品或任意两个相似的样品; ϕ1 ϕ2代表相应的映射RBF和多项式核函数,分别。样品之间的距离 j可以表示为 (2) d λ = 一个 λ 2 + B λ + C , 0 λ 1 , 一个 = 年代 2 k 1 x , x j + 2 , B = 2 年代 , C = 年代 , 年代 = k 2 x , x 2 k 2 x , x j + k 2 x j , x j

然后, (3) 马克斯 l λ = = 1 j = 1 1 d λ y y j = 1 = 1 j = 1 1 d λ y y j = 1 = = 1 j = 1 1 d λ y y j , 在哪里 x 代表样本值和 y 代表样本类型。

将方程( 2在方程() 3), (4) λ = = 1 j = 1 1 年代 y y j = 1 j = 1 1 年代 k 1 x , x j + 2 y y j

其次,具有全局优化能力的遗传算法用于优化内核参数,及其基本原则如下:

初始化内核参数的支持向量机参数和设置搜索空间和GA的处罚的和初始化参数,人口规模,编码长度,交叉和变异概率,和最大迭代次数。

随机选择初始种群的个体数量的编码是基于以下方程:

(5) = x 一个 2 l 1 b 一个 ,

在哪里表示一个二进制代码字符串; x代表了独立的变量,其值的范围是[a, b];和 l代表了编码长度。

计算 f(个人健身)和评分最高的个人健康。

选择、交叉和变异:选择是指从人口选择两个父个体按照原则,适应度越大,被选择的概率就越高;穿越是指后代形成通过随机代码交流两个父个体;突变是指翻转的每一位家长在一定概率下的个人密码。

计算每个个体的健身价值根据适应度函数和解码最高的个人健身和输出最优支持向量机参数。如果不能满足终止条件,(3)步继续直到终止条件(进化一代峰或个人健身( f)收敛于某个值)。

3所示。仿真和测试 3.1。建设综合评价体系和指标进行预处理

这项研究集中在评估月度操作级别的P2P平台参考行业平均水平,考虑到数据可用性和指数稳定性,以及评价指标选择从以下四个方面:

事务级别:这是两个个子维度分解,交易规模和资本成本,3索引(即营业额、平均参考收益率和净资本流入)检查。

平台人气:它主要是检查平台对投资者的吸引力和借款人通过品牌效应,民意沟通,和其他渠道,并直接反映在投资者和借贷者,投资,贷款人均量。

贷款权力下放:爆炸性增加交易量和高浓度的借贷交易导致广泛的支付压力的平台。这项研究集中在借款人的分散程度;因此,两个索引(人均消费金额,和比例的金额,由十大借款人)表示被选中。

流动性水平:它指清算任何资产的能力在一个合理的价格。至于任何资产,其流动性越糟,其交易不活跃。平均贷款期限通常是用来反映了流动性水平,期限越短,该基金流动性越强。

我们的平台和行业数据来源于统计结果的网站2017年10月( http://www.wangdaizhijia.com删除后),而获得的463个有效样本的样本数据是不完整的。软件环境:WINDOWS 7 / Matlab R2016b SPSS 19.0 /。原始指标的统计描述如表所示 1

最初的索引和描述性统计。

评价维度 索引名称 平均 标准偏差 最大 最低
事务级别 X1:营业额(10000元) 31323.84 95231.63 896003.60 50.74
X2:平均参考收益率(%) 10.73 2.49 21.72 4.68
X3:净资本流入(10000元) 379.96 3089.46 18542.88 −46473.09

平台人气 X4:投资者(人) 9202.03 40772.65 688387年 8
X5:借款人(人) 21862.80 161150.30 2986704 1
X6:人均投资额(10000元) 21.73 309.09 6653.67 0.41
X7:人均贷款金额(10000元) 585.02 3408.46 51960年 0.13

贷款分散化 ×8:人均消费金额,(10000元) 5879.13 47507.22 632460年 0.10
X9:比例的金额支付的十大借款人(%) 33.01 33.99 One hundred. 0.01

流动性水平 X10:平均贷款期限(月) 5.80 5.32 35.82 0.55

原始指标在两个步骤:预处理相对性和扭转负面的索引。由于不像中国P2P行业的监管制度,监管当局为平台操作索引绑定帽和地板。本文绝对价值和行业平均水平的比值作为内核的输入指标主成分分析,代表一个相对水平行业的经济意义。由于缺少行业统计数据的索引X9,这里用的是50%的比例,这是命令式地比例上限设置在中国的商业银行。

十个原始指标包括积极的和消极的。后者包括人均消费金额,支付金额的比例排名前十的借款人,和平均贷款期限,其绝对值有负相关性操作水平的一个平台。因此,原版的倒数索引采用统一索引值的依赖性,平台操作水平。

3.2。基于主成分分析的分类评价机制

首先,样本数据是得分和标签使用主成分分析方法来生成输出结果监督学习的支持向量机算法。相应的结果如表所示 2

主成分分析结果。

组件 特征值 方差贡献率(%) 累积方差贡献率(%)
1 2.601 26.464 26.464
2 1.766 17.659 44.123
3 1.170 11.696 55.819
4 1.110 11.100 66.919
5 0.996 9.956 76.875
6 0.891 8.910 85.785
7 0.592 5.916 91.702
8 0.584 5.842 97.543
9 0.136 1.363 98.906
10 0.109 1.094 One hundred.

六大组件的累积方差贡献率是85%提取主成分,即作为F1, F2,……,F6序列。得分矩阵如表所示 3

主成分得分矩阵。

指数 主成分
F1 F2 F3 F4 F5 F6
X1 0.315 0.044 −0.041 −0.045 0.080 −0.127
X2 −0.037 0.014 0.086 0.687 −0.186 0.643
X3 0.110 −0.430 0.345 −0.075 0.191 0.014
X4 −0.050 0.215 0.605 −0.205 0.190 0.236
X5 0.354 −0.081 0.026 −0.019 −0.071 0.109
X6 0.200 0.412 −0.232 0.123 −0.068 −0.139
X7 0.068 0.379 0.346 −0.081 0.142 0.073
的混合体 0.021 −0.010 −0.110 0.390 0.874 −0.141
X9 0.302 −0.113 0.055 0.031 −0.089 0.246
X10 −0.018 0.023 −0.414 −0.452 0.299 0.720

每个组件都是表示为一个线性组合的指数( X)根据以下方程的系数矩阵是主成分的得分矩阵表 3: (6) F = n = 1 10 V n X n , = 1、2 , , 6

综合得分函数建立了如下,这是一个加权和的所有主要组件的分数;重量是对应的方差贡献率为每个主要组件: (7) F = 0.265 F 1 + 0.17659 F 2 + 0.117 F 3 + 0.111 F 4 + 0.099 F 5 + 0.089 F 6。

而X(我)被认为是1,行业平均分数计算 F ¯ = 0.812 。而综合得分 F , F ¯ ,该平台应低于行业平均水平,属于“警戒”类型的平台和与“−1”标签。相比之下,而X(我)被认为是10,其“优秀”类型的分数计算 F = 9.973 。而综合得分 F F , + ,应当标有“1”。虽然分数综合平台 F F ¯ , F ,它属于“一般”类型的平台和应当被贴上“0”。进行主成分分析得到的结果:107年“优秀”类型平台,334“通用”类型平台,22“警戒”类型平台。

此外,为了评估优化评价模型的预警能力,第二个分类标准。二元分类器给一个明确的答复投资者是否可以在平台交易基于其风险水平,这是不同于我们针对之前构建的三元分类器选择最优秀的平台。“优秀”和“一般”平台是统称为“NONALERT”平台,标记“1”和“0”的“警报”平台。因此,将会有22个“警戒”平台和441年“NONALERT”平台。

3.3。评价模型优化混合核支持向量机的 3.3.1。分类评价结果确定支持向量机参数根据经验值

经验值参数首先选定测试单一和混合核支持向量机模型的精度。通过 λ= 0.5, 一个= c= 1, d= 3, σ 2 = 10, C= 1,5倍交叉验证二进制分类和三元分类结果如表所示 4

实证支持向量机分类精度。

核函数 线性内核(%) 多项式的内核(%) RBF内核(%) 乙状结肠内核(%) Polynomial-RBF混合内核(%)
Two-classification准确性 92.704 93.272 92.762 91.248 94.690
Three-classification准确性 75.162 75.594 75.162 72.138 76.890

如表所示 4的分类精度polynomial-RBF混合核支持向量机评价模型与实证参数略优于四种常见的单核二元和三元分类。然而,三元分类结果不满意。介绍了GA优化混合核权重系数和内核参数,以达到更高的分类精度。

3.3.2。基于遗传算法优化支持向量机参数

参数优化LIBSVM工具包, γ = 一个 = 1 / σ 2 应用混合核函数时。支持向量机参数优化的GA算法按照具体步骤如下:

输入:输入463后的样本数据特征提取。

步骤1:参数编码在二进制模式构建人口(流行规模:50;个体的染色体长度:10)。多项式内核参数的范围 c 0100年 d 1、4 , γ 0.01 , 500年 , C 0.01 , One hundred. 。50∗40矩阵是随机生成的初始种群。

步骤2: λ 解决了基于特征距离的方法。

步骤3:支持向量机分类精度基于计算5倍测试方法和定义为遗传算法的适应度函数。

第四步:选择是由轮盘赌选择法,这样健康的个体越大,被选择的概率就越高。代沟是设置为0.9,这意味着90%的人复制到下一代。个体被选中的概率

(8) F x = f x = 1 全国矿工工会 f x

第五步:穿越是由两点交叉方法。两个交叉点随机设置在两个配对的个体编码的字符串,一些基因之间的交换。交叉概率是 个人电脑 = 0.7

第六步:突变是由离散变异方法,突变的概率为 = 0.01

第七步:保持当前最优解和杂交后代再次插入父来生成一个新的人口。如果迭代次数不是最大100,操作应再次执行步骤2;否则,应当执行步骤8。

第八步:解码输出 λ , 一个 , c , d , σ 2 , C 和分类精度。

的预警能力“警戒”平台的优化模型是首先调查。最好的二元分类精度(健身)在进化过程如图 1。当迭代到五十代,精度达到98.9201%,最后收敛于价值,这明显高于使用经验参数表 4。ROC曲线的二元分类器如图 2,我们可以看到,AUC值达到0.9817。这表明混合核支持向量机方法的评价模型优化的遗传算法具有突出预警能力的“警报”平台。二元分类器的最优参数值如表所示 5

健身曲线的二元分类器。

ROC曲线的二元分类器。

二元分类器的最优参数值。

λ 一个 c D σ 2 C
0.497 0.011 4.782 2.775 95.238 34.266

的健康曲线优化的三元分类器如图 3。当它发展到26日代,三元分类精度达到96.7603%,最后收敛于价值。的准确性明显高于单一内核(72.14% - -75.59%)和混合核支持向量机使用经验参数(76.89%)展示在表 4。这表明GA优化混合核支持向量机算法是有效的准确分类的风险水平和运行质量的中国P2P网络借贷平台。三元分类器在进化的参数值如表所示 6

健身曲线的三元分类器。

参数值的GA优化三元分类器。

一代 λ 一个 c d σ 2 C
1 0.539 0.157 2.493 1.875 6.369 13.850
20. 0.687 0.268 1.166 1.925 3.731 29.677
40 0.746 0.078 7.207 2.046 12.821 24.864
60 0.732 0.059 14.282 3.298 16.949 52.191
80年 0.813 0.041 27.085 3.451 24.390 77.367
One hundred. 0.855 0.019 18.173 2.817 52.632 16.783
4所示。结论

P2P平台的运作方式密切相关,投资者的基金安全和他们的投资决策,要求等级和分类平台。提出了一种改进的混合核支持向量机评价模型能够有效地提高传统SVM算法的准确性。介绍了混合核函数的重量由特征距离解决方法和参数值是由GA算法。事务数据测试表明,该改进模型具有较强的学习能力和泛化能力,和预测精度明显高于单一内核支持向量机模型或混合内核与经验值的参数化模型,使评价和中国P2P网络借贷平台的分类更准确、更客观。

尽管如此,GA算法的过早缺陷不是解决了在这个研究。改进的混合内核模式能力有限而探索一个未知的空间以及收敛于局部最优解的倾向。通过这些方面的优化可以进一步发展。

数据可用性

标签数据集用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家社会科学基金(批准号14 bgl185)。

Tsolas 即。 公司信用风险评估:一系列两阶段DEA建模框架 《运筹学 2015年 233年 1 483年 500年 10.1007 / s10479 - 014 - 1566 - x 2 - s2.0 - 84942364925 X。 l 重量在混合核函数求解方法 计算机系统及应用程序 2015年 24 4 129年 133年 Y。 f.t. E。 X。 D。 B。 弹性的角度在水上交通系统:东部的明星 减少灾害风险的国际期刊 2019年 33 343年 354年 10.1016 / j.ijdrr.2018.10.019 2 - s2.0 - 85056248348 Z。 J。 效率的综合测量AHP-DEA的P2P网络贷款平台的方法 华南金融 2016年 4 31日 38 W。 Y。 特别的无线传感器网络的潜在领域的导航信息 传感器 2011年 11 5 4794年 4807年 10.3390 / s110504794 2 - s2.0 - 79957785921 Y。 H。 在中国私人贷款的风险评估和控制从互联网的角度:以P2P平台为例 宏观经济学 2017年 3 146年 157年 W。 风扇 X。 首歌 H。 风扇 X。 J。 基于不完全信息动态stackelberg博弈使用隐马尔科夫对云计算资源分配 IEEE服务计算 2016年 11 1 78年 89年 越南盾 l Q。 W。 演讲全集子集选择基于时间连续的话语功能 杂志的组合优化 2019年 37 4 1237年 1248年 年代。 香港 X。 T。 基于样条生存模型的信用风险建模 欧洲运筹学杂志》上 2016年 253年 3 869年 879年 10.1007 / s10878 - 018 - 0350 - 2 2 - s2.0 - 85053752063 Dahiya 年代。 翰达岛 美国年代。 辛格 n P。 一个特征选择启用混合装袋算法信用风险评估 专家系统 2017年 34 6 10.1111 / exsy.12217 2 - s2.0 - 85019582658 Z。 Y。 C。 B。 理解个性化驾驶状态通过潜在狄利克雷分配模型 IEEE智能交通系统杂志 2019年 11 2 41 53 10.1109 / mits.2019.2903525 2 - s2.0 - 85063385209 P。 Y。 Y。 P2P网络借贷平台的设计和控制的综合实力评级 宏观经济学 2017年 1 115年 127年 杨ydF4y2B一个 X。 太阳 J。 l Inventor-oriented P2P借贷平台选择:应用聚类分析方法 图书馆学研究 2017年 5 38 45 一个。 Z。 X。 K。 一种改进的TOPSIS评价对等贷款操作效率 系统科学与数学科学杂志》上 2017年 7 1620年 1632年