研究文章|开放获取
基于混合核支持向量机的中国P2P网络借贷平台评价模型研究
抽象
准确评估P2P网络借贷平台的风险水平和运营绩效,不仅有利于信息中介机构更好的发挥作用,也能有效保护投资者的利益。提出了一种遗传算法改进的混合核支持向量机及其指标体系来构建评价模型。摘要采用遗传算法对多项式函数和径向基函数组成的混合核进行改进,使其具有良好的全局寻优性和快速收敛性。基于中国P2P借贷市场截面数据的实证检验表明,改进的混合核支持向量机模型具有优越性。信用风险水平和操作质量的分类精度均高于单核支持向量机模型和经验参数值混合核模型。
1.简介
中国P2P在线贷款业曾经是一个无监管为五年以上,使大多数平台作为信用中介机构,提供信用增级措施,如主担保和第三方担保[1,2]。随着平台破产,失踪的事件不断增加,投资者在决策平台特性越来越敏感。风险管理专注于平台,应为P2P网络借贷行业的监管的新趋势[3,4]。对于在线贷款信息中介机构的业务活动的管理暂行办法在2016年8月P2P借贷,监管制度和业务规则的澄清内容联合发布四个部委和中国政府的佣金;随后,一系列详细的规则和第三方存管,备案登记,以及信息公开条例颁布规范P2P的发展网上贷款业[五,6]。的平台风险水平和经营业绩准确的评价不仅提供了切实可行的措施予以通过监管当局的坚实基础,而且还可以作为投资者决策的重要参考。因此,构建了P2P网络借贷平台的先进的评价模型是至关重要的现实意义[7]。
风险水平和经营绩效评价在给定的不稳定的市场环境近期的调查研究热点问题。Tsolas应用了一系列新的两阶段DEA方法在评价企业的信用风险[8]。羅司融等。推出了基于样条回归离散时间生存模型来评估信用卡申请人的综合性能[9]。Dahira等人提出了一种基于特征选择的混合bagging算法(FS-HB),用于改进信用风险评估[10]。对于中国P2P平台,现有研究通常采用因子分析、主成分聚类、层次分析法等统计方法。朱宗元、王敬宇对22家P2P网络借贷平台的技术效率、规模效率和整体效率进行了层次分析法和数据包络分析,发现效率普遍较低[11]。单鹏等依次运用因子分析法对样本平台的综合实力和风险水平进行评分排序[12]。Yan Xin等构建了P2P网络借贷平台的复杂评价指标体系,利用两步和Kohonen模型对516个平台进行聚类分类,为投资者决策提供参考[13]。刘奥等利用教与学优化算法对100个P2P网络借贷平台进行效率排序,确定最优权重[14]。
现有的研究主要存在两个缺陷。首先,在大多数的研究中,平台是按照一定的标准进行排名的。合适的投资平台的边界是模糊的,同时缺乏对投资者决策的直观支持。其次,对于采用统计模型的研究,过分强调数据建模,影响了基于模型的预测的准确性,同时增加了数据维数。因此,本文提出了一种融合遗传算法和混合核支持向量机的机器学习算法。改进后的算法通过对风险水平和操作质量的分类,为投资者交易的平台是否可信设定了清晰的边界。此外,应用遗传算法和混合核支持向量机不仅能达到比统计和传统机器学习模型更高的分类精度,而且适合大数据量分析。
本文的其余部分组织如下。部分2讨论了遗传算法优化混合支持向量机评价模型的设计。部分3给出了仿真实验结果,包括主成分法标注过程和优化混合支持向量机方法的平台评价过程。部分4总结全文并提出未来的研究方向。
2.遗传算法原理与混合核支持向量机集成模型
2.1。SVM混合核的建立
SVM作为分类算法的原理是找到最大裕度单独超平面最大化点之间的距离X和超平面( )。松弛变量,即,非负参数ξ,和惩罚因子C被引入来描述不可分割性损失和惩罚样本错误分类。虽然训练样本被假定为 ( :输入指数和 :分类标签值),基本模型可以描述为
核函数是将数据隐式地映射到所述高维特征空间所以在原始低维空间中的线性分不开问题可以被解决了,其形式和参数值显著影响SVM算法的分类精度。核函数一般可分为两种类型(全局和本地内核);前者具有很强的推广能力,而且学习能力较弱,而后者则是相反的。其中常见的内核函数,全局内核功能包括多项式和SIGMOD类型和RBF类型属于本地内核功能。多项式和RBF核函数在这个研究中,线性组合获得具有既学习和推广能力,以克服的单内核函数限制的混合内核函数。数学表达式如下:多项式核函数: RBF核函数: 多项式RBF混合核函数:
2.2。SVM参数优化
虽然被应用于分类混合核函数,将被一定确定的那些参数包括λ(杂交核权系数),C,d(多项式内核参数),(RBF内核参数),和C(惩罚因子)。
首先,混合内核权重系数是通过最小化类似的样品之间的距离特色和最大化不同的样品,这是由王幸福和愚鲁[提出功能之间距离的原则确定2]。评价函数L(λ)被定义为任何两个不同的样品或任何两个类似的样品的间距之间的差值;φ1和φ2表示RBF和多项式核函数的对应的映射,分别。样品之间的距离一世和Ĵ可以表示为
然后, 哪里表示样本值,且表示示例类型。
其次,GA具有全局优化能力用于优化内核参数,它的基本原则如下:(1)SVM参数初始化和核参数搜索空间的设置,遗传算法参数的惩罚事实和初始化,种群大小,编码长度,交叉和变异概率,最大迭代次数。(2)随机选取编码初始种群的个体数,根据下式: 哪里中号表示二进制代码字符串;X表示自变量,其值的范围是[A,B]。和升表示的编码长度。(3)计算F(个人健身)和标记与适应度最高的个体。(4)选择,交叉和变异:选择是指根据原理从群体中选择两个亲本的个体,所述更大的健身,较高的被选择的概率;交叉指后代通过两个父代个体的随机码的交流成形;突变是指在一定概率下翻转父母的个体代码的每一位。(5)每个个体,根据适应度函数的适应值的计算与具有最高适应度和输出最佳SVM参数进行解码的个人。如果终止条件不被满足,步骤(3)继续,直到终止条件(进化代峰或个人健身(F)收敛到一个特定的值)被满足。
3.仿真和测试
3.1。综合评价体系的构建及指标预处理
这项研究的重点一个P2P平台,参照行业平均水平的月度经营水平的评价采取数据的可用性和稳定性指标考虑在内,并在以下四个方面选择评价指标:(1)交易水平:将其分解为交易规模和资金成本两个子维度,其中考察了周转率、平均参考收益率和资本净流入三个指标。(2)平台知名度:主要通过品牌效应、舆论传播等渠道考察平台对投资者和借款人的吸引力,直接通过投资者和借款人数量、人均投资额、贷款额体现。(3)贷款分权:交易量爆炸性增长,借款交易高度集中,平台支付压力大。这项研究的重点是借款者权力分散的程度;因此,选择两个指数(应支付的人均数额和十大借贷者应支付数额的百分比)作为代表。(4)流动性水平:它是指以合理的价格变现,任何资产的能力。对于任何资产,其流动性越差,不活跃的交易。平均贷款期限通常用来反映流动性水平,并且术语越短,越强基金流动性。
我们的平台和行业数据来源于网站2017年10月的统计结果(http://www.wangdaizhijia.com),和删除的那些样品,其数据是不完整的后获得463个有效样本。软件环境:Windows 7 / SPSS 19.0 / Matlab的R2016b。原始索引的统计描述示于表1。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
原始索引的预处理分为两个步骤:相对化和反向负索引。由于中国P2P行业监管体系不完善,监管部门对平台运营指标没有上限和下限。本文以绝对值与行业平均值之比作为核主成分分析的投入指标,在经济意义上代表行业相对水平。由于指数X9缺乏行业统计,这里使用50%的比例,这是中国商业银行权威设定的上限比例。
十大原创指标包括正面和负面的。后者包括支付的人均拥有量,量的比例由前十大借款人支付,平均贷款期限,其绝对值有一个平台的操作水平呈负相关。因此,原来的负指数的倒数采用统一指标值的依赖性和平台运作水平。
3.2。基于主成分分析的分类评价机制
首先,利用主成分分析法对样本数据进行评分和标注,生成SVM监督学习的输出结果。结果如表所示2。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
提取累积方差贡献率达85%的前6个成分作为主成分,分别为:F1, F2,…,按顺序F6。得分矩阵如表所示3。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
每个分量被表示为指数的线性组合(X),其系数矩阵为表中主成分得分矩阵3:
综合得分函数确定如下,这是所有主成分得分情况的加权和;且权重为用于每个主成分相应的方差贡献率:
虽然X(ⅰ)被取为1的任何一世,行业平均分计算为 。综合得分 ,平台应低于行业平均水平,属于“警戒”型平台,标为“−1”。而X(i)取任意值的10一世,它的“优”类型的分数计算为 。综合得分 ,应当用“1”标记。虽然全面的平台得分 ,属于“通用”型平台,标注为“0”。主成分分析结果为:优型平台107个,一般型平台334个,警戒型平台22个。
此外,为了评价优化后的评价模型的预警能力,构建了第二个分类标准。二值分类器根据平台的风险水平给出了投资者是否可以在平台上交易的明确答案,这不同于我们为了选择最优秀的平台而构建的三元分类器。“优秀”和“一般”平台统称为“非警报”平台,“警报”平台标为“1”和“0”。相应地,将有22个“警报”平台和441个“非警报”平台。
3.3。评价模型通过GA混合核SVM的优化
3.3.1。基于经验值确定支持向量机参数的分类评价结果
首先选取经验值参数来检验单一核支持向量机模型和混合核支持向量机模型的准确性。通过λ= 0.5,一个=C= 1,d= 3,=10,和C= 1,五重交叉验证二值分类和三元分类结果见表4。
|
||||||||||||||||||||||||||||||||||||
如表所示4,具有经验参数的多项式- rbf混合核支持向量机评价模型在二、三元分类中的分类精度都略优于四种常见的单核模型。然而,三元分类法的结果尤其不尽人意。引入遗传算法对混合核权重系数和核参数进行优化,以获得更高的分类精度。
3.3.2。基于遗传算法的SVM参数优化
使用LIBSVM工具包对参数进行优化在应用混合核函数时,取。采用遗传算法对SVM参数进行优化,具体步骤如下:
输入:特征提取后输入463个样本数据。步骤1:参数以二进制方式编码,构造一个种群(pop大小:50;个体染色体长度:10)。多项式核参数的范围为 , ,和 。一个50∗40矩阵随机生成作为初始总体。步骤2:基于特征距离法求解。步骤3:基于所述5倍的测试方法SVM分类精度被计算和定义为遗传算法的适应度函数。步骤4:选择通过使得更大的个体的适应,较高的概率被选择轮盘选择方法进行。代沟被设置为0.9,这意味着90个%的个体被复制到下一代。一个个体的存在的选择的概率是 步骤5:交叉由两点交叉法进行。两个交叉点是在两个成对的个别编码的字符串,在它们之间的一些基因进行交换随机设定。交叉概率是 。步骤6:采用离散变异方法进行变异,其中变异概率为 。第七步:保持当前最优解,再次将子代插入亲本中,生成新的种群。如果迭代次数没有达到最大100次,则从步骤2开始重新操作;否则,执行步骤8。步骤8:解码输出 和分类的准确性。
首先研究了该优化模型对预警平台的预警能力。进化过程中的最佳二值分类精度(适应度)如图所示1。当迭代到第50代时,精度达到98.9201%,最终收敛于该值,显著高于表中经验参数的值4。二元分类器的ROC曲线示于图2,从中我们可以看出,AUC值达到0.9817。这表明,遗传算法优化混合核SVM方法的评价模型对“警戒”平台优秀预警能力。二元分类器的最佳参数值示于表五。
|
||||||||||||||||||||||||||||||
优化三元分类的适应度曲线示于图3。当进化到第26代时,三元分类准确率达到96.7603%,最终收敛于该值。精度显著高于单核的72.14%-75.59%,经验参数混合核支持向量机76.89%见表4。这表明GA优化混合核SVM算法是有效的风险水平和中国的P2P在线贷款平台运行质量的准确分类。在进化过程中的三元分类器的参数值显示在表6。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4.结论
P2P平台的运作方式与投资者的基金安全和投资决策密切相关,这就对平台的评级和分类提出了要求。提出了一种改进的混合核支持向量机评价模型,有效地提高了传统支持向量机算法的精度。引入一种混合核函数,采用特征距离法求解权值,采用遗传算法确定参数值。事务数据测试表明,该改进模型具有较强的学习能力和泛化能力,和预测精度明显高于单一内核支持向量机模型或混合内核与经验值的参数化模型,使评价和中国P2P网络借贷平台的分类更准确、更客观。
然而,该研究并没有解决遗传算法的早熟缺陷。改进的混合核模型在探索未知空间时能力有限,并且有收敛到局部最优解的倾向。通过这些方面可以进一步优化。
数据可用性
用来支持这项研究的结果标记的数据集是请直接从相应的作者。
利益冲突
作者声明不存在利益冲突。
致谢
这项工作是由中国的国家社会科学基金(批准号。14BGL185)的支持。
参考
- I. E. Tsolas,“企业信用风险评估:一系列两阶段DEA模型框架,”运筹学年鉴第233卷,没有。1,第483-500页,2015。视图:出版商网站|谷歌学术
- 十王和L.宇,“体重解决混合核函数法”计算机系统及应用卷。24,没有。4,第129-133,2015。视图:谷歌学术
- Y.王,E.齐奥,X.伟,张D.和B.吴,“水上运输系统的一个弹性角度看:东星的情况下,”国际减少灾害风险杂志卷。33,第343-354,2019。视图:出版商网站|谷歌学术
- 朱中、王杰,“基于AHP-DEA方法的P2P网络借贷平台效率综合测度”,中国南方财经,第4卷,第31-38页,2016。视图:谷歌学术
- W.卫和Y.齐,“无线Ad-hoc无线传感器网络信息的潜在领域导航”传感器第11卷,no。5, 4794-4807页,2011。视图:出版商网站|谷歌学术
- Y. Liu和H.王“的风险评估,并从互联网的角度来看中国的民间借贷的控制:以P2P平台为例,”宏观经济学,第3卷,第146-157页,2017。视图:谷歌学术
- W.伟,范X.,H.宋,范X.和J.杨,“使用云计算隐马尔可夫不完全信息动态斯坦博格基础的游戏资源分配,”IEEE服务计算汇刊第11卷,no。1,第78-89,2016。视图:谷歌学术
- L.董,郭问,和W.吴,“语音语料库子集选择基于时间连续话语的特点,”杂志组合优化卷。37,没有。4,第1237至1248年,2019。视图:谷歌学术
- S.罗,X. Kong,并且T.聂,“信用风险建模样条基于存活模型,”欧洲运筹学杂志第253卷,no。3, 2016年第869-879页。视图:出版商网站|谷歌学术
- S. Dahiya, S. S. Handa和N. P. Singh,“一种特征选择支持的信用风险评估的混合bagging算法,”专家系统卷。34,没有。6,2017年。视图:出版商网站|谷歌学术
- 陈、张、吴、冉,“通过潜在狄利克雷分配模型理解个性化驾驶状态”,IEEE智能交通系统杂志第11卷,no。2,第41-53,2019。视图:出版商网站|谷歌学术
- P.山,Y.王,和Y噔“的设计和P2P网络借贷平台的综合实力等级控制,”宏观经济学,第1卷,第115-127页,2017。视图:谷歌学术
- X.燕,孙J.和L康“发明家为本P2P借贷平台的选择:聚类分析方法的应用,”图书馆学研究卷。5,第38-45,2017年。视图:谷歌学术
- A.刘,Z.童,X.邓和K.柳,“一种改进的对等网络的TOPSIS评价借贷操作效率,”单片机与嵌入式系统科学与数学卷。7,第1620至1632年,2017年。视图:谷歌学术
版权
版权所有©2020泛爽等人。这是下发布的开放式访问文章知识共享署名许可,允许在任何媒体中不受限制地使用、发布和复制原创作品,只要原稿被正确引用。