准确评估风险水平和操作性能的P2P网络借贷平台不仅有利于更好的信息中介的功能,而且还有效的保护投资者的利益。提出了一种改进遗传算法(GA)混合核支持向量机(SVM)与指标体系构建这样一个评价模型。内核组成混合多项式函数和径向基函数的改进,特别是内核参数和两个内核的重量,通过遗传算法全局优化和快速收敛的方法。实证检验基于横截面数据来自中国P2P借贷市场展示了改进的混合核支持向量机模型的优越性。信用风险水平和运行质量的分类精度高于单一内核支持向量机模型以及混合内核模型与经验参数值。
中国P2P网络借贷行业曾经是五年多没有监督管理大多数平台作为信用中介机构,提供主要担保和第三方担保等信用增强措施(
风险等级和操作绩效评估是最近的研究热点问题给出不稳定的市场环境。Tsolas应用一系列新的两阶段DEA方法在评估信用风险的企业(
现有的研究主要有两个缺陷。首先,在大多数研究中,平台的排名是根据一定的标准。合适的投资平台的边界是模糊的,而一个直观的支持投资者的决策是失踪。其次,研究采用统计模型,数据建模是过份强调,基于模型预测的准确性会受到影响,而数据维度是扩大。因此,机器学习算法结合遗传算法和混合核支持向量机提出了研究。改进算法设置一个清晰的边界的平台是否可信,投资者可以通过分类交易的风险水平和运行质量。此外,应用GA方法和混合核支持向量机不仅能达到一个更高的分类精度比传统统计和机器学习模型也适合大数据量分析。
本文的其余部分组织如下。部分
支持向量机作为分类算法的原理是找到最大利润最大化的分离超平面之间的距离
内核函数隐式数据映射到高维特征空间,在原始的低维空间线性不可分的问题可以解决,其形式和参数值显著影响支持向量机算法的分类精度。内核函数通常可以划分为两种类型(全球和本地内核);前者具有较强的泛化能力,但学习能力较差,而后者是相反的。全球核函数中常见的内核函数,包括多项式和Sigmod类型和RBF类型属于当地的内核函数。多项式和RBF核函数线性组合在这项研究中获得的混合核函数学习和泛化能力,克服单个核函数的局限性。数学表达式如下:
多项式核函数:
RBF核函数:
Polynomial-RBF混合核函数:
混合核函数时申请分类,这些参数是必然包括决定
首先,混合内核权重系数是由最小化原理相似的样本之间的距离和最大化不同样本之间的距离,由王提出了幸福和Yu陆(
然后,
将方程(
其次,具有全局优化能力的遗传算法用于优化内核参数,及其基本原则如下:
初始化内核参数的支持向量机参数和设置搜索空间和GA的处罚的和初始化参数,人口规模,编码长度,交叉和变异概率,和最大迭代次数。
随机选择初始种群的个体数量的编码是基于以下方程:
在哪里
计算
选择、交叉和变异:选择是指从人口选择两个父个体按照原则,适应度越大,被选择的概率就越高;穿越是指后代形成通过随机代码交流两个父个体;突变是指翻转的每一位家长在一定概率下的个人密码。
计算每个个体的健身价值根据适应度函数和解码最高的个人健身和输出最优支持向量机参数。如果不能满足终止条件,(3)步继续直到终止条件(进化一代峰或个人健身(
这项研究集中在评估月度操作级别的P2P平台参考行业平均水平,考虑到数据可用性和指数稳定性,以及评价指标选择从以下四个方面:
事务级别:这是两个个子维度分解,交易规模和资本成本,3索引(即营业额、平均参考收益率和净资本流入)检查。
平台人气:它主要是检查平台对投资者的吸引力和借款人通过品牌效应,民意沟通,和其他渠道,并直接反映在投资者和借贷者,投资,贷款人均量。
贷款权力下放:爆炸性增加交易量和高浓度的借贷交易导致广泛的支付压力的平台。这项研究集中在借款人的分散程度;因此,两个索引(人均消费金额,和比例的金额,由十大借款人)表示被选中。
流动性水平:它指清算任何资产的能力在一个合理的价格。至于任何资产,其流动性越糟,其交易不活跃。平均贷款期限通常是用来反映了流动性水平,期限越短,该基金流动性越强。
我们的平台和行业数据来源于统计结果的网站2017年10月(
最初的索引和描述性统计。
| 评价维度 | 索引名称 | 平均 | 标准偏差 | 最大 | 最低 |
|---|---|---|---|---|---|
| 事务级别 | X1:营业额(10000元) | 31323.84 | 95231.63 | 896003.60 | 50.74 |
| X2:平均参考收益率(%) | 10.73 | 2.49 | 21.72 | 4.68 | |
| X3:净资本流入(10000元) | 379.96 | 3089.46 | 18542.88 | −46473.09 | |
|
|
|||||
| 平台人气 | X4:投资者(人) | 9202.03 | 40772.65 | 688387年 | 8 |
| X5:借款人(人) | 21862.80 | 161150.30 | 2986704 | 1 | |
| X6:人均投资额(10000元) | 21.73 | 309.09 | 6653.67 | 0.41 | |
| X7:人均贷款金额(10000元) | 585.02 | 3408.46 | 51960年 | 0.13 | |
|
|
|||||
| 贷款分散化 | ×8:人均消费金额,(10000元) | 5879.13 | 47507.22 | 632460年 | 0.10 |
| X9:比例的金额支付的十大借款人(%) | 33.01 | 33.99 | One hundred. | 0.01 | |
|
|
|||||
| 流动性水平 | X10:平均贷款期限(月) | 5.80 | 5.32 | 35.82 | 0.55 |
原始指标在两个步骤:预处理相对性和扭转负面的索引。由于不像中国P2P行业的监管制度,监管当局为平台操作索引绑定帽和地板。本文绝对价值和行业平均水平的比值作为内核的输入指标主成分分析,代表一个相对水平行业的经济意义。由于缺少行业统计数据的索引X9,这里用的是50%的比例,这是命令式地比例上限设置在中国的商业银行。
十个原始指标包括积极的和消极的。后者包括人均消费金额,支付金额的比例排名前十的借款人,和平均贷款期限,其绝对值有负相关性操作水平的一个平台。因此,原版的倒数索引采用统一索引值的依赖性,平台操作水平。
首先,样本数据是得分和标签使用主成分分析方法来生成输出结果监督学习的支持向量机算法。相应的结果如表所示
主成分分析结果。
| 组件 | 特征值 | 方差贡献率(%) | 累积方差贡献率(%) |
|---|---|---|---|
| 1 | 2.601 | 26.464 | 26.464 |
| 2 | 1.766 | 17.659 | 44.123 |
| 3 | 1.170 | 11.696 | 55.819 |
| 4 | 1.110 | 11.100 | 66.919 |
| 5 | 0.996 | 9.956 | 76.875 |
| 6 | 0.891 | 8.910 | 85.785 |
| 7 | 0.592 | 5.916 | 91.702 |
| 8 | 0.584 | 5.842 | 97.543 |
| 9 | 0.136 | 1.363 | 98.906 |
| 10 | 0.109 | 1.094 | One hundred. |
六大组件的累积方差贡献率是85%提取主成分,即作为F1, F2,……,F6序列。得分矩阵如表所示
主成分得分矩阵。
| 指数 | 主成分 | |||||
|---|---|---|---|---|---|---|
| F1 | F2 | F3 | F4 | F5 | F6 | |
| X1 | 0.315 | 0.044 | −0.041 | −0.045 | 0.080 | −0.127 |
| X2 | −0.037 | 0.014 | 0.086 | 0.687 | −0.186 | 0.643 |
| X3 | 0.110 | −0.430 | 0.345 | −0.075 | 0.191 | 0.014 |
| X4 | −0.050 | 0.215 | 0.605 | −0.205 | 0.190 | 0.236 |
| X5 | 0.354 | −0.081 | 0.026 | −0.019 | −0.071 | 0.109 |
| X6 | 0.200 | 0.412 | −0.232 | 0.123 | −0.068 | −0.139 |
| X7 | 0.068 | 0.379 | 0.346 | −0.081 | 0.142 | 0.073 |
| 的混合体 | 0.021 | −0.010 | −0.110 | 0.390 | 0.874 | −0.141 |
| X9 | 0.302 | −0.113 | 0.055 | 0.031 | −0.089 | 0.246 |
| X10 | −0.018 | 0.023 | −0.414 | −0.452 | 0.299 | 0.720 |
每个组件都是表示为一个线性组合的指数(
综合得分函数建立了如下,这是一个加权和的所有主要组件的分数;重量是对应的方差贡献率为每个主要组件:
而X(我)被认为是1
此外,为了评估优化评价模型的预警能力,第二个分类标准。二元分类器给一个明确的答复投资者是否可以在平台交易基于其风险水平,这是不同于我们针对之前构建的三元分类器选择最优秀的平台。“优秀”和“一般”平台是统称为“NONALERT”平台,标记“1”和“0”的“警报”平台。因此,将会有22个“警戒”平台和441年“NONALERT”平台。
经验值参数首先选定测试单一和混合核支持向量机模型的精度。通过
实证支持向量机分类精度。
| 核函数 | 线性内核(%) | 多项式的内核(%) | RBF内核(%) | 乙状结肠内核(%) | Polynomial-RBF混合内核(%) |
|---|---|---|---|---|---|
| Two-classification准确性 | 92.704 | 93.272 | 92.762 | 91.248 | 94.690 |
| Three-classification准确性 | 75.162 | 75.594 | 75.162 | 72.138 | 76.890 |
如表所示
参数优化LIBSVM工具包,
输入:输入463后的样本数据特征提取。
步骤1:参数编码在二进制模式构建人口(流行规模:50;个体的染色体长度:10)。多项式内核参数的范围
步骤2:
步骤3:支持向量机分类精度基于计算5倍测试方法和定义为遗传算法的适应度函数。
第四步:选择是由轮盘赌选择法,这样健康的个体越大,被选择的概率就越高。代沟是设置为0.9,这意味着90%的人复制到下一代。个体被选中的概率
第五步:穿越是由两点交叉方法。两个交叉点随机设置在两个配对的个体编码的字符串,一些基因之间的交换。交叉概率是
第六步:突变是由离散变异方法,突变的概率为
第七步:保持当前最优解和杂交后代再次插入父来生成一个新的人口。如果迭代次数不是最大100,操作应再次执行步骤2;否则,应当执行步骤8。
第八步:解码输出
的预警能力“警戒”平台的优化模型是首先调查。最好的二元分类精度(健身)在进化过程如图
健身曲线的二元分类器。
ROC曲线的二元分类器。
二元分类器的最优参数值。
|
|
一个 | c | D |
|
C |
|---|---|---|---|---|---|
| 0.497 | 0.011 | 4.782 | 2.775 | 95.238 | 34.266 |
的健康曲线优化的三元分类器如图
健身曲线的三元分类器。
参数值的GA优化三元分类器。
| 一代 |
|
一个 | c | d |
|
C |
|---|---|---|---|---|---|---|
| 1 | 0.539 | 0.157 | 2.493 | 1.875 | 6.369 | 13.850 |
| 20. | 0.687 | 0.268 | 1.166 | 1.925 | 3.731 | 29.677 |
| 40 | 0.746 | 0.078 | 7.207 | 2.046 | 12.821 | 24.864 |
| 60 | 0.732 | 0.059 | 14.282 | 3.298 | 16.949 | 52.191 |
| 80年 | 0.813 | 0.041 | 27.085 | 3.451 | 24.390 | 77.367 |
| One hundred. | 0.855 | 0.019 | 18.173 | 2.817 | 52.632 | 16.783 |
P2P平台的运作方式密切相关,投资者的基金安全和他们的投资决策,要求等级和分类平台。提出了一种改进的混合核支持向量机评价模型能够有效地提高传统SVM算法的准确性。介绍了混合核函数的重量由特征距离解决方法和参数值是由GA算法。事务数据测试表明,该改进模型具有较强的学习能力和泛化能力,和预测精度明显高于单一内核支持向量机模型或混合内核与经验值的参数化模型,使评价和中国P2P网络借贷平台的分类更准确、更客观。
尽管如此,GA算法的过早缺陷不是解决了在这个研究。改进的混合内核模式能力有限而探索一个未知的空间以及收敛于局部最优解的倾向。通过这些方面的优化可以进一步发展。
标签数据集用于支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突。
这项工作得到了国家社会科学基金(批准号14 bgl185)。