文摘

本文探讨了平台使用机器学习方法违约风险的决定因素,包括综合模型,因此比较这些模型的预测能力。测试平台的违约风险,本文构造三种类型的变量,反映平台的操作特点,客户反馈,和遵从性能力。我们发现明显异常返回往往引发违约风险。然而,违约风险可以最小化一个平台是否有积极的建议来自客户和更透明的信息披露或附属的国家中国互联网金融协会成员。实证结果表明,购物车模型优于随机森林模型和Logit回归预测平台违约风险。我们的研究揭示了违约风险预测,从而可以提高政府监管能力。

1。介绍

违约风险一直是重要危险因素测试点对点(P2P)贷款借款人的行为。对借款人的信用风险评估,研究[1)指出,社会将有积极的影响对信用风险贷款成功和负面影响。这项研究在2]也测试用户相关平台之间社会关系的影响来衡量违约风险。拥有更多社会关系的借款人更容易获得贷款,而他们的违约概率也更高。这项研究在3]调查个人保证P2P市场的作用。结果表明,贷款担保和较短的发布和关闭之间的时间间隔是更容易得到。这项研究在4)提出,中国P2P贷款平台的借款人的违约风险Renrendai显著影响借款人的信用评分和信用率分布。

此外,重视测试的P2P平台的违约风险。使用数据从LendingClub机器学习算法从2013年到2015年,(5)概述了P2P借贷平台高预期回报,投资回收期短更有可能通过使用决策树违约风险较低。这项研究在6)进一步检查软信息之间的关系和P2P贷款违约风险两个欧洲P2P贷款平台。他们的实验表明,软信息,如文本的长度,拼写错误,关键字生成的描述文本的情感分析有限对违约概率的影响。先前的研究检查平台违约风险通过使用概率单位回归和基于树的分类器,分别。扩展这个流的研究,我们的研究开发一个全面的模型包括分对数,购物车,和随机森林算法来处理信用评分问题和测试平台的违约风险。因此,该模型是优化获得无偏估计和更高的精度。

信息不对称是一个巨大的挑战在研究P2P违约风险。银行接收信息通过平台较低的透明度。它似乎增加认知偏见,这损害了投资者的信息处理能力,离开他们的投资决策的理性标准(7]。传统金融机构应对这个问题,披露详细信息和引进高质量的抵押品。然而,很难实现这样的工具在P2P借贷市场由于高交易费用(8]。大多数研究在美国获得P2P借贷特征信息的FICO分数。FICO分数被广泛用于投资者区分借款人的信用度,以及一些附加信息,如债务收入比和就业的长度来评估信用风险(9]。这项研究在10)测试的影响外貌的判断基于信用等级和FIFO的可信度得分。使用借款人的图像识别外貌印象P2P贷款市场,一个值得信赖的外表预测不仅预期回报还贷款的概率。根据(11),信用评级,债务收入比,FICO分数,和循环利用所有重要因素导致贷款违约的概率。高信用评级和短时间内还款,有效降低死亡率风险和违约风险。作者在12改进信用评分模型和设计一个利润评分系统。他们选择了内部收益率作为盈利能力测量和发现借款人的预期回报率,债务和贷款的目的是三个主要决定因素。

然而,并没有统一的信用评分系统在中国P2P贷款市场。在中国,平台在P2P借贷市场违约风险甚至更严重,因为缺乏信用信息系统。中国人民银行的信用信息系统是唯一官方披露信用信息的方式,这是无法访问到所有平台。因此,大多数研究人员设法找到一个合适的方法来测试信用信息。这项研究在13)发现,沟通是强大的低信用评级的影响借款人使用数据从贷款市场。这项研究在14)发现相似的结果通过借款人信息分类为贷款特点、借款人信用和个人信息。作者在15)测试强信号影响PaiPaiDai借贷成功的概率。他们发现获取验证和借款人的历史交易在第一重要的借贷模型和重复借贷模型。P2P借贷平台的特点类似信用卡评分模型。

在中国,P2P行业遇到了许多问题,因此积累了严重的违约风险。图1显示了P2P借贷市场的发展从2012年到2019年获取的数据http://www.wdzj.com。自2012年以来P2P贷款激增,平台2014年增长率达到250%。然而,这种不分青红皂白的发展产生相当大的平台违约风险。2015年,近一半的平台撤军问题和崩溃。为了有效地管理违约风险,十监管当局联合出版授权指导方针P2P借贷市场操作标准和遵守规则。随着实施条例,P2P借贷平台显示的数量持续下降,和只有344 P2P平台仍在2019年12月。

增长平台违约风险的急剧下降平台在中国投下了影子的P2P借贷市场的不确定性。尽管一些平台取得了稳步进展和符合标准,大多数平台难以满足监管要求(16]。出于这个原因,中国的互联网金融行政部分2019年11月发布的几个要求。这些需求引导一些合格的P2P贷款机构转变成小额贷款公司降低系统性风险。平台无法满足监管要求,另一方面,将被禁止。因此,平台违约风险测量起着相当大的作用在这两个银行的损失最小化和维护资本市场的稳定在这一转换过程。

尽管许多研究人员集中在违约风险识别,它需要更多的工作来确定边界条件和监管政策的实施。我们的论文有两个贡献。第一个贡献是构建违约风险评估因素,找出哪些因素影响P2P借贷平台的操作状态。我们构建三组变量:操作特点,客户反馈,和遵从性能力。第二个贡献是测试模式最好的预测精度。不均衡模糊近端支持向量机应用到违约风险评估模型,借款人贷款状态,平台和政策环境存在的三个关键因素P2P贷款的违约风险17]。这项研究在1,13]表明Logit回归风险测量。然而,购物车等机器学习算法模型和随机森林模型在特征选择是好的。这些decision-tree-based分类器排除异常值的影响和减少决策过程的模糊性5,18]。因此,我们的论文将比较Logit回归,购物车模型和随机森林模型和找出哪些模型预测。

我们的实证结果表明,平台与客户积极的评论和高信息披露质量有效地减少信息不对称,违约风险。P2P借贷平台与异常返回更可能低估了信用风险和违约。我们发现购物车在分对数回归模型的预测能力最好,随机森林模型。我们的证据是有利于投资者和监管机构的最优投资和监管策略。我们的论文的其余部分构造如下。部分2描述了模型的变量和总结了P2P借贷平台的描述性统计到2019年7月。节3,我们提出的方法用于预测平台违约风险的重要性和实证结果报告。节4,我们简略说明实证结果的经济意义,使一个一般的结论。

2。数据

2.1。变量设置

本文研究P2P借贷平台的一些功能是否能衡量违约风险和预测平台违约的可能性。平台操作状态,因变量是等于零,如果平台保持正常运行,否则(19,20.]。当患有操作平台违规行为,它主要是由于违约事件,如逃跑用金钱或终止业务。在这种情况下,银行无法从平台检索偿还。

信息网络P2P贷款平台的风险分为三类:操作特点,客户反馈和法规遵从性能力。表1提供了所有变量的定义在不同的类别。操作特征揭示基本信息平台。五个功能在客户反馈类别反映消费者的评论平台的不同方面。法规遵从性能力类别选择检查平台是否遵守监管规则和安全措施。这类研究所也证实了该平台是否附属于NIFA(中国国家互联网金融协会)和信息披露声明。

2.2。摘要统计信息

在本节中,我们描述和总结数据集的描述性统计,包括贷款P2P借贷平台在中国的现状和特征。我们收集平台信息Wangdaizhijia出具(http://www.wdzj.com2019年7月)。一些数据在最初的爬行不能直接使用。例如,这个平台持续时间变量,以一年的时间建立的数据收集,需要改变。除了从Wangdaizhijia数据集,有几个媒体,其中包含的信息反映了顾客评论。我们预处理和筛选获得的信息和有效的数据集(21]。此外,我们将破产的平台和新建立的平台的信息没有及时收集和无意义的数据。最终,我们得到的数据集1283贷款平台,860默认平台和423平台与合规操作。

2所有变量的描述总结描述性统计模型。该平台与平台违约风险预期收益呈正相关。平均预期收益率的差异之间的默认平台,平台正常运行近5%。高投资时期似乎减少平台违约概率。平台正常运行的平均投资时间是6.28个月,两次比默认的平台。另外,客户反馈分数范围从0到5都高于3平台操作正常。撤军分数和站岗的分数显示平台的现金流的状态和僵化的救赎。相比之下,撤军的方式得分,服务评分,和经验破产平台的分数低于3,和这些变量的标准差明显高于正常运营的平台。很明显,平台运行正常获得更好的客户反馈。然而,在银行存款没有显著差异,投标保证金,维护模式之间的平台与这两个相反的操作状态。 Most of the platforms operating normally have ICP registration and all of them are members of the National Internet Finance Association of China.

3所示。实证分析和结果

3.1。分对数回归

Logit回归广泛应用于品种的经济领域。例如,在商业信誉评价,确立一个Logit回归精度最高的解决违约问题[22]。Probit模型相比,分对数不要求正态分布的独立变量,它具有较强的数据处理能力来衡量违约的概率在大数据的场景6,23]。此外,在大数据的场景中分对数的广泛应用具有不同特点适用于P2P借贷市场的情况。

我们已经提出了一个分对数回归与信用评分调查所有的独立变量在三个方面。 ,在哪里 是破产的数量的平台。当平台正常运行的价值 = 0;否则 等于1。为了验证模型的拟合效果,20%的数据是随机选择样本的测试数据集。后消除多重共线性问题,无关紧要的独立变量在1%的显著性水平,表3显示分对数回归的结果。从实证结果,平台的预期回报率,投资,撤出得分,消费者推荐,平台附属研究所的成员NIFA的五个因素对平台违约风险产生重大影响。分对数回归方程计算

正如所料,平台预期回报的系数是正的。值得指出的是,平台与预期回报似乎异常产生的违约风险超过他们所能控制的。高的策略来吸引更多的投资者预期回报率也会导致更高的违约风险。值得注意的是,表3说明估计系数的投资时期,平台撤军得分,从客户推荐,ICP登记都是负面的。桌上还表明,违约的概率降低5%从平台没有推荐平台与客户积极审查其他独立变量时保持在平均水平。基于回归的结果,我们得出结论,高戒断得分和积极的消费者推荐有效缓解信息不对称。此外,再平台平均投资时间增加平台违约风险,可能导致未能获取投资者的钱。ICP登记由地方金融监管当局发布的许可。按照财务规定,ICP登记激励P2P贷款平台实现自律的责任,帮助调节他们的市场行为。平台与ICP登记需要降低平台违约风险,防止逆向选择问题的第三方担保。

3.2。车和随机森林模型

决策树学习是一个受欢迎的监督学习算法构建二叉树结构与每个相应的分裂节点的树枝。作为数据挖掘方法,决策树学习产生一组规则来解决分类和回归任务(5]。车和随机森林是最广泛使用的方法来测试的非线性预测因素和违约风险之间的关系。建立决策树的过程是一种“分而治之”的方法。基于特征相关的测试条件,决策树的根节点对应于整个训练数据和每个节点对应于一个分区可用的数据节点。

在决策树学习有两个重要问题:如何选择合适的分割在每个节点,有多少水平在每棵树分支。随机森林模型的上下文中,决策树的集合,分割是根据基尼指数,描述如下。每个决策树分支的数量水平是由一个算法控制参数24]。内部树节点的基尼系数计算如下,样本的概率在kth类别是 :

分类和回归树(CART)模型解决分类和回归问题,避免过度拟合带来的优势。它是一个二进制的递归分割技术,它由一系列的二叉树。购物车中的根节点模型代表输入变量和叶节点表示预测的输出变量。启动过程中构建可以概括为树构建递归分割和树修剪过程和验证集。该算法的主要原理是找到最大的基尼系数在每个分割点二叉树和区分节点分裂时训练数据的纯度。尽管重要性系数越大意味着对因变量的影响越大,值得注意的是,的重要性价值系数代表了独立变量对基尼系数的影响直接而不是因变量。

随机森林(RFs)方法是另一种流行的引导聚合技术的决策树算法。这种方法建立决策树和分解树枝和节点通过随机分裂属性。进一步提高了模型精度,减少方差通过平均有效(24]。在构建这些树时,选择的候选人分裂属性的全套随机选择。分割只允许使用这些属性之一,和一个新的选择的属性在每个分裂。在每棵树,分裂是一直持续到树达到一定深度。由于变量选择的随机性,这算法不敏感的多重共线性25]。随机森林模型还可以避免过度拟合问题,改正缺点的训练数据集。此外,随机森林模型有效地预测每个因素的相对重要性。然而,大量的建设决策树会降低算法的进步,导致模型拟合速度慢。

结果与车有关的重要性系数模型和随机森林模型展示在表4。表4报告的重要性系数在不同类别发散购物车和随机森林模型。对于车模型,法规遵从性能力的重要性系数超过0.7。客户反馈信息的系数是0.2,操作特征的近两倍。更准确地说,五大特点是附属研究所的成员NIFA平台,建议投资者,平台服务评分,操作数据公开,平台平均投资时间。使用购物车模型拟合优度为0.9154;也就是说,模型达到91.54%的预测精度。

重要性系数和随机森林模型的结果是类似于车模型。法规遵从性的重要性系数功能信息,客户反馈的信息,和操作特征信息0.48,0.43,和0.09,分别。降序排列的五大重要系数和随机森林模型是附属研究所的成员NIFA平台,平台经验得分,建议投资者,平台站岗的分数,平台服务评分。交叉验证结果与Python软件显示,模型的拟合优度是0.9203。换句话说,模型中的自变量贡献92.03%的解释力平台违约风险预测。

4所示。模型评估

预测性能测量是一个重要的步骤来评估机器学习的准确性。在二进制模式,错误率被广泛用于衡量预测能力和性能。混淆矩阵是一个性能分析表有四个不同的组合预测和实际值,这有助于更好地理解的错误分类。记录数据集收集在一个矩阵根据真正的类别和分类模型预测类别。这个矩阵的行代表的真正价值,和列表示的预测价值。混淆矩阵的形式显示在图2。然而,混淆矩阵只反映实际和预测数据的数量。评估之间的权衡关系过度拟合和underfitting问题决策树分类器,我们的论文选择几个性能指标测试精度,精度、灵敏度和特异性模型所显示的26]。这些性能指标如表所示5

AUC-ROC曲线是一个最重要的评价指标来测试机器学习模型的性能。ROC曲线描述了图形真阳性和假阳性之间的权衡关系,平衡速度等于错误(错误)。犯错是呈正相关,模型的性能。2 d曲线阴谋下的二元分类器阈值的性能选项,例如错误接受率(远)和错误拒绝率(FRR)。AUC(曲线下的面积)是ROC曲线包围的面积。如上ROC曲线情节功能y=x通常,AUC是超过0.5。如果AUC = 1,分类器的真正价值完美的预测能力和每个样本可以预测正确。如果0.5 < AUC < 1,阈值设置下的分类器有一定的预测能力。如果AUC = 0.5,分类器是完全随机的。我们分对数回归的表现相比,购物车和随机森林模型根据AUC-ROC曲线。结果所有系数数据所示3(一个)- - - - - -3 (d)

操作特征信息与Logit回归的AUC是0.68,0.77比0.75车模型和随机森林模型。分对数回归的AUC的客户反馈信息,购物车模型和随机森林模型是0.85,0.90和0.91。法规遵从性能力的信息,两个决策树方法的AUC是0.97和Logit回归显示最糟糕的表现。车模型整体AUC最高为0.99,居全球第二位,而随机森林模型AUC为0.98。总体AUC Logit回归0.96是最低的。因此,车模型基于ROC-AUC最好的预测性能。

这是常见的做法符合使用训练数据模型,然后评估测试数据集上的性能。机器学习的测试集是一个二级或三级数据集用来评估机器学习程序后训练。每个模型中的数据测试后,我们得到了基于测试集和预测价值比较预测值和真实值。预测结果如图4(一)- - - - - -4 (c)。红线覆盖绿线时,模型的预测性能呈正相关,红线和绿线之间的距离。如下所示,分对数回归的预测评分是0.77。车模型的预测评分为0.99,略优于随机森林模型。因此,我们宣布购物车是最好的分类器相比,Logit回归模型和随机森林模型。

5。结论

在本文中,我们探索的因素预测P2P贷款平台在中国违约风险。我们提出三种机器学习方法,分对数回归,车模型,随机森林模型,获得洞察平台操作状态的预测。我们实证分析选择18特性三组:操作特点,客户反馈和法规遵从性能力。结果表明,平台异常预期回报率是一个关键因素,导致违约风险。当预期收益大于14%时,平台违约的概率高于50%。本文提供了证据,高利率可能会被视为一个信号平台的可怜的偿付能力。结果还暗示大多数平台操作研究所通常加入NIFA和披露操作定期报告。借助第三方监督平台降低道德风险问题和信息不对称。从投资者积极的推荐更有解释力的减少平台违约风险。潜在投资者树立信心的P2P借贷平台基于客户的审查。

此外,该购物车模型显示了更好的预测能力最高的AUC和预测评分,表明平台违约风险预测的有效性。然而,我们的研究有一些局限性。由于缺少重要的信息,我们排除一些平台操作特征模型建设。这可能导致遗漏重要的变量和预测精度降低。另一个限制是,训练集的样本大小是机器学习分类器仍然不足。我们可能会增加训练数据来提高模型的准确性进一步研究。

综上所述,我们可以得出结论,中国的P2P平台的违约风险与机器学习算法可以预测。平台操作状态的程度似乎是最反映平台客户反馈信息。在操作特征方面,本文结果使投资者采取预防措施的平台的预期收益高于正常水平。平台,研究所加入NIFA并定期披露信息有效地减轻信息不对称。还有一些无关紧要的特性,比如平台保障模式和财务审计报告的披露。我们鼓励使用良好的信用评分模型,基于机器学习技术,提高预测能力。遵循平台违约风险的特点,投资者倾向于采取更多的理性判断P2P贷款平台。我们的研究也为管理者提供了坚实的实证支持识别平台,相对在未来违约的概率。

我们的研究结果有一些特殊意义的P2P借贷市场监管合规转换时期。首先,根据实证结果从车模型,研究所的成员NIFA一个平台来展示是一个很好的标准较低的违约概率。因此,监管当局应详细规定指导并鼓励平台满足研究所的要求NIFA,这将提高市场准入门槛,减少信息不对称。其次,消费者的评价是非常重要的,这表明消费者的反馈可以作为一个规则为未来的监管工具。监管当局可能使一些规则,强调消费者的评价作为平台的业务素质。最后,评价P2P贷款平台违约风险在常规时间内将有助于监管部门制定一个健康的生态环境对P2P行业在中国的管理。

数据可用性

支持本研究使用的数据是可用的https://shuju.wdzj.com/

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(71773025,71773025,71850031)和中国国家重点研发项目(2019 yfc0850105和2020 yfb1006104)。