文摘

随着互联网的快速发展,传统的网络金融风险预测方法不再能满足个人和企业的需求,因此,云计算的概念应运而生。云计算已经破坏了传统金融风险预测方法,已被广泛研究和应用的分布式的、动态的和自主的特征。如何高效、合理安排云数据中心的资源,提高财务风险预测的准确性是当前研究的重点。如何量化金融风险和金融风险预警是一个迫切需要解决的问题。云计算的框架下,本文结合了特征提取和数据权重研究用户的基本属性数据和大量的下载应用程序类型。之后,线性回归与惩罚是用于构造预测模型来提高破产。客户违约的判断的准确性可以实现局部优化,以提高客户隐藏的风险的预测和控制商业银行贷款和大大减少银行贷款的违约风险。

1。介绍

云计算是并行计算的基础上发展,分布式计算、网格计算、和其他技术。它是一种高效的资源利用率,能够适应未来大规模计算的需要。并行计算是一种计算技术同时使用多个计算机资源解决相同的计算问题(1]。不同于并行计算,分布式计算任务模块分为独立的模块,和单个模块的故障不影响其他模块。网格计算是一种特殊的计算模型对于复杂的科学计算(2- - - - - -5]。

随着互联网的高速发展,网络数据量的增加,服务器集群的数量,用户软件和计算能力的需求弹性增加,如何管理的有效利用闲置的计算资源和服务资源,在金融领域和研究领域已经成为一个非常流行的话题。云计算的出现不是一蹴而就,但经过几代人的生成技术革命,以适应新的信息时代的要求。总结出现的动力,有两个主要原因(6,7]:(1)各种技术的快速发展,虚拟化技术,分布式计算的基础是云计算的发展,除了自动部署和管理,大数据存储技术,强大的Map / Reduce模式和(2)在该领域成本能耗设备的成本管理和企业的其他方面需要花费大量的人力资源和资本成本,这极其分散的高度封闭的机房建设,成千上万的企业需要面临的主要问题和顽固的疾病(8]。

计算为用户提供一个全新的资源占有方式。用户申请资源的使用可以根据他们的需求。这个服务有很强的灵活性,可以节省用户的费用最大限度地,所以有很强的价格优势。此外,云系统有特殊灾难恢复和multicopy备份机制,确保系统的正常运行,即使某些节点在云中失败。因此,云计算系统更稳定可靠的性能优势企业和个人电脑。根据提供不同类型的服务,云计算的系统模型可分为三层:应用层、平台层、基础设施层,每一层对应于一组subservice [9- - - - - -11软件作为一种服务,SaaS平台即服务(PaaS)和基础设施即服务(IaaS),如图所示1

作为一种新的科学计算机科学和人工智能,云计算是吸引科学关注它的力量和能力来解释的本质隐藏数据规则模板(12]。这项技术的发展深刻影响许多领域在越来越多的领域,取得了成功。其中,金融风险管理是一个重要的应用程序场景。大多数金融机构都使用传统的机器学习算法来预测金融市场的发展,预测借款人的偿付能力或信贷审批决策,从而预测和识别高风险客户(13- - - - - -16]。

随着世界经济环境的变化,金融危机和金融风险的原因也在不断变化。研究人员提高他们对财务风险的理解,发现金融危机产生的原因从不同的方面。近年来,随着金融稳定变得越来越重要对于一个国家的安全,构建财务风险指标体系的方法可以为国家带来好的效果控制金融风险,这使得在这方面的研究不断深化。现在,国内外政府和学者已经丰富了在这个研究。除了政府的热情研究财务风险评价指标,很多学者也在这一领域的重视。特区。哈迪,国际货币基金组织(imf)的高级经济学家,认为财务风险指标是由银行业的指标体系和指标体系的宏观经济部门。的作者(17)建造了一个财务风险预警指标体系主要从34个指标反映实体经济指标,如操作可靠性指标。文献[18]认为财务风险指标体系适合中国是由以下五个方面:国民经济的一般操作,财务、金融、外国经济,泡沫经济。共有24个指标选择。最近,陈等人。19)使用因子分析减少金融风险的维度指标,使用VaR模型来衡量财务风险的基础上公共因子数据,最后研究中国金融风险预警系统通过建立预警灯。除了逾期贷款的回归和分类模型,使用其他一些国内学者的观点来研究逾期风险。郭和沈20.,21)结合博弈论和信息经济学等方法精炼贝叶斯均衡,建立道德风险监督模型测量和控制违约风险,和最优概率推导出利用优化数学方法(4,22]。针对逾期风险的四个主要特征因素(贷款借款人特征、属性特征、特点、和区域特征)影响住房抵押贷款建设,王et al。23采用逻辑回归、因子分析和判别分析分析逾期风险,并成功地应用理论结果的预测财务风险。如今,关于经济问题的研究集中在定性和定量分析,和金融风险的统计测量方法也在不断改进。董et al。24)利用层次分析法构建财务风险指标体系,然后采用支持向量机预测方法建立财务风险预警系统。

从上面的分析,我们知道,上面的方法研究了网络金融的风险预测模型在某种程度上,仍然存在一些问题。另一方面,没有学者云计算应用于这一领域到现在,所以这里的研究仍然是一个空白,具有重要的理论研究和实际应用价值25,26]。

以下是本文的贡献:(1)。该算法提供了一种新的解决方案解决网络财务风险预测的问题,实现特征提取和数据加权根据用户的基本属性数据和大量下载的应用程序类型。(2)。线性回归与惩罚是用于构造预测模型来提高破产。客户违约的判断的准确性可以实现局部优化,以提高客户隐藏的风险的预测和控制商业银行贷款,并大大降低银行贷款的违约风险。

本文由五个部分组成。部分12研究现状和背景。部分3网络金融的风险预测模型是基于云计算。部分4展示了实验结果和分析。介绍了本文的实验结果进行了比较和分析有关比较算法。最后,部分5总结了论文全文。

3所示。风险预测模型基于云计算的互联网金融

3.1。云计算架构

云计算是信息技术的另一个革命性的变化后,从大型计算机转移到客户机/服务器(C / S)模式在1980年代。2006年8月9日,谷歌首席执行官埃里克•施密特(Eric Schmidt)在搜索引擎发布会上讲话(SES San)云计算融合传统的计算机和网络技术,如网格计算、分布式计算、并行计算实用技术、网络存储虚拟化和负载平衡。它的目的是组织和集成共享软件/硬件资源和信息使用电脑和其他系统通过基于网络计算的需求,这可能包括以下层(27]。

显示层:这一层的大多数数据中心云计算架构主要用于当前所需要的内容和服务体验用户友好的方式,利用各种中间件层提供的服务如下。中间层:中间一层顶部和底部之间的联系,提供服务,如缓存服务和其他服务的资源提供的基础设施层下面,它可以用来支持显示层或由用户直接调用。管理层:管理层服务水平三层和为他们提供各种管理和维护技能。有三个水平层云计算架构,即显示层、中间件层和基础设施层。这些三层可以提供非常丰富的云计算功能和友好的用户界面。云计算体系结构也有一个垂直层,称为管理层,为了更好地管理和维护水平三层。硬件基础设施层:硬件抽象层之间的界面层是操作系统内核,和硬件电路,旨在抽象硬件。它藏起了太阳,而硬件接口的特定平台的细节,提供虚拟操作系统的硬件平台,使其拥有独立的硬件,可以在多个平台上移植。从的角度来看硬件和软件测试,软件和硬件的测试工作将,分别基于硬件抽象层,使并行的硬件和软件测试工作。云计算的详细架构如图2

3.2。金融信贷风险分析过程的物联网

如今,物联网(物联网)技术更广泛应用,从健康和越来越多的物联网设备和医疗传感器工厂监控,跟踪系统(智能电网可以创建更多的漏洞28]。现在全世界数十亿的物理设备连接到公共网络。物联网是一个许多数字转换计划的中心组成部分,但就像任何技术创新带来独特的数字风险以及收益。在物联网中,连接的设备经常会产生大量数据,数据将被其他地区组织的IT基础设施用于发送或存储。通过这种方式,它有效地有一个多米诺骨牌效应在整个领域的风险,包括第三方的网络安全风险合规和业务灵活性。因此,网络安全不仅仅是一个设备管理。无论是新端点的发现、识别和分类的额外要求进一步的合规检查,或验证更新,企业可能需要改变他们的安全方法,来有效管理物联网风险(29日]。

基于物联网技术,物联网的金融风险分析过程图3

3.3。网络金融风险预测的实现

线性回归模型是一种统计方法用于研究独立变量和因变量之间的关系。考虑到有p独立变量 ,和相关的变量 满足以下关系: 在哪里 观察和随机误差的吗 是未知参数待定。把它写成矩阵形式:

和相应的线性回归模型

根据观测数据,计算回归系数,利用广义最小二乘方法,它的特点是减少向量长度的平方,如图所示

残差的平方的总和

然后,参数的估计价值,因变量的预测价值,分别为:

期望和方差估计如下:

随机干扰项认为广义最小二乘法具有异方差性:

使用最小二乘估计,并期望和方差

4所示。实验结果和分析

4.1。介绍实验环境和数据集

实验中使用的硬件配置如下:I3四核处理器,8 g DDR内存和500 g硬盘的软件环境。在这个实验中使用的计算机配置为Windows10,和使用的软件版本是Python3.6。

为了更好的说明、验证和分析预测方法来预测贷款银行贷款违约,本文将使用开放源码的真实数据集来验证本文提出的预测方法的有效性(12]。这些数据集是客户脱敏数据从中国商业银行的一个分支4]。其统计特征如表所示1:

在原始数据提供给我们,有很多维度的客户基本属性名称。这个表所示,在原始数据集的维度和样本大小是相对较大的,和这个原始数据集不包含类别的识别符号。这意味着原始数据不能直接应用到银行信用风险分析,因此必须预处理过程,表中可以看到,大部分的属性值缺失的数据,最大的跳转率高达35%,但直接删除这些值丢失的物品会产生重大影响的整体完整性记录。因此,我们必须使用一些适当的为每个属性值缺失数据填充方法。在本文中,我们使用了属性填充平均方法来填充每个属性的平均原始现有值的列来填充缺失的值在每个属性列。

4.2。实验结果分析

实验数据都是银行内部的开源数据,和敏感隐私信息已经麻木了。数据分为两个部分。一部分是贷款的基本属性数据的用户,包括用户号码,用户类型,电话,移动电话的使用时间,每月电话的使用费用。虽然客户的描述是在许多方面,但仍有部分数据字段丢失,丢失的数据字段,丢弃缺失的数据丢失更多的领域,为了不影响后续的预测精度,当数据集不缺失的数据,丢失的数据,互补的基本原理手动完成,以确保数据的完整性。

由于数据需要特征选择和数据的分布极其不平衡,使用L2惩罚系数可以防止过拟合现象的模型。然而,L1正规化可以产生一个矩阵的稀疏的重量,也就是说,稀疏的模型,所以它更关注特征选择。因此,通过综合分析,可以看出,L2惩罚系数是这个实验的最优解决方案,如饼图所示的训练结果和测试结果图4

由于大量的数据,R是缓慢的在计算大型矩阵。在这个实验中,10%的训练集数据和90%的测试集数据使用的样本函数是随机抽样R语言和模型。矩阵函数用于生成虚拟变量通过分类变量类型变量。考虑不同的方法的不一致数据的预测效果,五个方法被认为比较逻辑回归模型,套索点球回归模型,Elastice-Net (α= 0.5)点球回归模型,脊点球回归模型和线性判别分析。当解决回归与处罚条款,考虑到不同的参数值对求解回归系数有很大影响,10倍交叉验证用于确定各自的价值观套索,Elastice-Net和岭回归。的10倍交叉验证误差曲线如图5

从图6物流和套索,比较方法:阈值在0.2和0.25之间时,没有统计套索和物流的区别分类器(α0.05)。当阈值超过0.3时,这两种方法有显著区别。比较Elastice-Net和脊方法:没有显著区别Elastice-Net和脊方法在0.35和0.45的间隔,但剩下的时间间隔有显著差异。比较套索和Elastice-Net方法:阈值接近0.15时,两种方法之间没有显著差异。当阈值超过0.2时,这两种方法有很大区别。

为了更全面的测试正常的风险在不同的维度和整体金融风险,本文5正常测试方法,如Shapiro-Wilk Jarque-Bera, Cramer-von米塞斯、Lilliefors (KS) Shapiro-Francia被选中。在图7,我们可以清楚地看到每个维度的风险和整体金融风险的综合评价得分的五个正常测试。从 - - - - - -每个测试值的价值,我们可以看到 Shapiro-Francia测试值小于0.05的综合评价得分债务的风险维度,和 其他的测试方法是在每一个序列的价值。所有的值都大于0.05,表明风险的综合评价得分系列的每个维度和整体金融风险基本上是非正规的。

实验比较了随机算法和算法的性能在本章在预测精度,如图8。图,从图可以看出,本文提出的方法具有良好的预测精度在不同的样本数据。

从图9,宏观经济层面风险的VaR值在[0,3]之间,表明其波动性相对最小。VaR银行和货币价值维度之间的风险是[0,10],表明其在五维波动很大。气泡尺寸的VaR值(0、7)之间的风险是,表明其波动也较小。外部冲击的VaR值维度之间的风险是[0,8],表明其波动相对较小。之间的债务层面风险的VaR值是(0,20),表明其波动也是最大的。

宏观经济层面风险的VaR值最小为0.185 2003年,并于2010年最大值为2.802。总的来说,宏观经济层面风险的VaR波动从1993年到2010年。具体来说,VaR值逐渐减少从1993年到2005年,而VaR值迅速增加1.922从1995年到1998年三年的VaR值2000年在一个较高的值,表明这一时期的宏观经济环境风险相对较高。在六年VaR值从2001年到2006年是相对较小的。此外,在2003年达到的VaR值最低,表明这一时期的宏观经济环境风险相对较低,而从2007年到2010年VaR值相对较高。虽然拒绝慢慢从2007年到2009年,上升到最高的价值18年2010年,表明这一时期的宏观经济维度相对风险。

如何克服二分变量样本的不平衡吗?多少数据适合训练集和测试集是什么?如果不同的样本集构建模型,随机选择和不同的测试集是用来预测分类水果,做物流的评价指标的计算结果套索Elastic-Net脊和线性判别分析有大的波动?引导方法可以考虑测试,可以使用箱线图绘制指标四分位的位置,如图10。训练集是随机抽取50倍,估计回归系数相对稳定整体四的套索和脊系数比重下采样。

准确率、召回率计算精度等指标。每一个指标在一定范围内代表模型的性能的影响结果。是否有可能建立一个大的指标,包括上述指标的信息吗?例如,以加权平均评价指标,如图10

5。结论

随着网络技术的发展,数据信息的程度在互联网金融行业更丰富。借款人的贷款标准有效地拒绝贷款申请,以避免信息的隐藏的借款人(道德风险)。信用风险的借款人是否过期,贷款风险预警测量结合网络信息数据存在变量维度较高的强和弱变量信息没有明确区分。

实证分析后,宏观经济层面风险的VaR值,银行风险维度,货币维度的风险和外部冲击维度风险仍在较高的区域,这表明中国仍将是在高风险的情况下的三维宏观经济银行货币,和外部冲击未来五年。

财务风险指标体系构建的不良债务比率和股本回报率不是最好的代表。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究得到了国家自然科学基金(批准号。U1636107和61972297),河南省的科技项目(中国)(批准号182102210215和182102210215),和河南省软科学项目(中国)(批准号182400410482)。