文摘
在当前的商业银行的绩效评估工作中,大多数的研究只关注单个特征和性能之间的关系,缺乏综合分析的特点。另一方面,他们把主要精力集中于因果推论,缺乏从预测的角度系统的定量结论。本文首次全面调查多维特征对商业银行绩效的可预测性使用提高回归树。财务相关的维度字段是相对较高的。不仅可以观察到的价格数据,金融基本面数据,等等,而且许多难以察觉的秘密数据和未披露的事件;更多的收入来源不能用现有的模型来解释。针对商业银行数据的特点,本文提出了一种自适应步长梯度下降提高回归树算法对银行绩效评估。在这种方法中,一个随机子样品抽样之前执行培训每个回归树。减少自适应步长减少用于取代原算法的步长设置,它克服了低精度和泛化能力差的缺点现有回归决策树模型。桦树相比现有的数据分类的算法,我们提出了梯度提高回归树算法和自适应步长减少得到更好的分类结果。 This paper empirically uses data from rural banks in 30 provinces in China to classify the different characteristics of rural banks’ performance in order to better evaluate their performance.
1。介绍
传统的Malmquist指数(1)检查金融机构的效率和生产率的变化。例如,Paradi et al。2)估计,加拿大央行将开发一个两阶段DEA同时基准座性能在不同的维度和修改。
机器学习技术具有一定的绩效评估在金融领域的应用。在基金业绩分析和评价模型为例3,4),相关技术的使用可以改善传统模型评价方法中需要风险模型和基金绩效评估方法,调整和优化等个股的风险特征,总结潜在的法律,和基金的短期的预测调整曝光。当前商业银行的绩效评估工作中使用机器学习,大多数的研究只关注单个特征和性能之间的关系,缺乏综合分析的特点;另一方面,他们把主要精力集中于因果推论,缺乏从预测的角度系统的定量结论。
大多数现有的银行绩效评价模型是基于Malmquist指数方法,但是财务相关字段的信息维数是相对较高的5- - - - - -8]。不仅可以观察到的价格数据,金融基本面数据,等等,而且许多难以察觉的秘密数据和未披露的事件;更多的收入来源不能用现有的模型来解释。基于提高回归树技术,本文提出了一种自适应步长减少梯度提高回归树算法对银行绩效评估。针对商业银行数据的特点,本文提出了一种自适应步长梯度下降提高回归树算法对银行绩效评估。在这种方法中,一个随机子样品抽样之前执行培训每个回归树。减少自适应步长减少用于取代原算法的步长设置,它克服了低精度和泛化能力差的缺点现有回归决策树模型。本文实证数据从农村银行在中国30个省农村银行的表现的不同特点进行分类,以便更好地评估他们的表现。在本文中,我们使用机器学习中预测建模和解释建模评估农村银行的性能和预测性能的可能的发展趋势。解释模型对因果关系提前做出假设,然后使用数据来测试它们。 Predictive models can unearth more complex laws in the data. However, the two are not completely opposed.
总之,本文的贡献和创新可以概括如下:(1)本文提出了预测模型的使用评价商业银行首次的性能。在我们看来,与解释性模型相比,预测模型可以在数据集挖掘出更复杂的法律。(2)针对商业银行数据的特点,本文提出了一种自适应步长梯度下降提高回归树算法对银行绩效评估。(3)本研究使用真正的商业银行数据来自30个省份进行实验。实验结果表明,该自适应步长梯度下降提高回归树算法提出了揭示商业银行更客观的性能。(4)本研究不仅使用预测模型方法从更全面的角度来研究银行绩效评估也为商业银行运营和管理提供了有益的启示。
本文的其余部分组织如下:部分2是相关工作的部分。部分3本文提出的方法。部分4实验结果和分析。我们总结出一个结论5。
2。相关工作
拉维等人提出了一种基于软计算的银行业绩预测系统(9]。它是一个整体系统的组成模型是多种神经网络,支持向量机,车,和一个基于规则的模糊分类器。选择有利的特性的一个子集,有利于提高银行业绩预测的准确性。例如,粒子群优化(PSO)获得合适的参数设置用于支持向量机(svm)和决策树(DTs) (10),如神经网络、支持向量机和多准则决策援助也被用于银行故障预测、信用评估、和表现不佳11]。
一系列的建模技术是用来预测银行破产美国金融机构的一个示例。实证结果表明,随机森林方法(RF)样本外和时间预测性能优越,与神经网络也同样执行几乎射频时间样本(12]。样品3000美国银行(1438失败和1562活跃银行)由两个传统统计调查方法(判别分析和逻辑回归)和三种机器学习方法(人工神经网络、支持向量机和再邻居)(13]。实证结果表明,人工神经网络,再是最准确的方法。提出了一个准确的风险评估工具使用独特的什么数据和机器学习技术来克服风险检测方法中存在的问题14]。这项工作提出的银行分支机构是最好的水平来确定违约风险的程度,还可以提供洞察的可疑交易模式。
几个机器学习算法在一个真正的银行信贷数据集用于比较分析和选择算法是最适合学习银行信贷数据。这些算法给出了超过80%的准确性预测(15]。评估银行效率和性能,结合DEA与三种机器学习方法被用于444年加纳银行分支机构,决策单位(研究)。结果表明,决策树(DT)及其C5.0算法提供了最好的预测模型(16]。装袋的潜在使用也一直在调查这是最受欢迎的乐团之一,学习方法,在构建整体模型,并用于预测土耳其之一盈利能力的决定因素(17]。这个实证研究表明,装袋合奏模型优于他们的基础学习和提高个人毫升模型的预测精度。
有大量的实证研究来分析和评估机器学习技术在银行风险管理(18]。区域或风险管理中存在的问题也已经不足为进一步研究探索。这些先前的实证研究表明,机器学习的应用管理银行风险如信用风险、市场风险、操作风险和流动性风险已经被探索。例如,财务指标的结合,可读性,情绪类别,bag-of-words是用于提高预测精度。这表明预测的质量显著增加当使用correlation-based bag-of-words的特征选择19]。监督人工神经网络算法实现的分类目的客户保留和欺诈检测20.]。
我们可以清楚地得出结论,机器学习算法已经广泛应用于各个领域的银行业务,包括性能评估、信用评估、风险管理、客户保留和欺诈检测。然而,当我们仔细回顾上面的工作,很容易看到,机器学习算法在上面的工作大多是解释性模型,用于验证的可观测变量之间的因果关系理论。不同于以前的工作上面所提到的,我们在本文的工作是基于预测分析,也较少出现在金融和银行业的实证研究。本文提出的方法不承担变量之间的因果关系,和最适合的模型变量之间不承担具体的函数形式(如线性关系,u型关系,和指数关系),从而预测模型能够揭示更为复杂的模式的数据集。
3所示。方法
3.1。变量的选择
本文研究中国省级农村银行的表现,也就是说,省级农村银行代表农村银行的区域异质性。福山和韦伯(5)使用两级网络模型包括好的和坏的输出对日本银行的性能进行评估。他们用劳动、物质资本和金融资本生产贷款和证券投资和使用存款作为中间输出。
为了评估不同省份的农村银行的性能,本文选择30个省级农村银行在全国除西藏为研究对象,使用4年的数据来评估生产力增长和分解效率指标在中国省级农村银行。根据这一概念在文献[6- - - - - -8),输入变量是基于成本和资本和员工理想的输出变量是基于收入的利润。此外,本文研究的动态发展和风险控制农村银行在中国和遗留物活动和负外部性加入到研究中,如表所示1。
银行使用资本和人力资源来赚取利润。银行存款是看作一种特殊的资源,因为银行努力吸引存款和使用它们作为一个积极的绩效评估指标。与此同时,他们使用这些存款获得未来利润。在DEA银行业文学,存款是一个有争议的话题。与其他输入输出变量相比,存款有动态的特征变量。因此,农村银行存款被定义为一个遗留变量。从一个更全面的分析,不良贷款)代表坏账风险,还有不可避免的共生坏账风险和利润之间的关系。因此,农村银行的不良贷款被定义为农村银行的不良的输出。
3.2。模型构造和算法
3.2.1之上。Malmqusit指数计算
省农村银行的决策单位被定义为农村银行的绩效评估,它的研究对象是农村银行的绩效评估。时期t、省级农村银行(研究)使用输入X和遗留的活动z产生理想的输出Yd和坏的输出Yu。弘扬活动连接时间t−1t,t+ 1。变量的输入、输出和遗留物活动区域异质性。
在传统的动态DEA模型(Xt,Yt)和(Xt + 1,Yt + 1)分别处理获取追赶效应和frontier-shift效果。然而,语气和Tsutsui(2010)介绍了遗留到动态模型,称为动态座(DSBM)。本文基本遵循座动态思维。的边界函数,估计我们计算nonoriented措施的效率,我们处理n研究(j= 1,…,n)期t(t= 1,…,T)。使用时间t作为一个基准,研究生产年代输出(我= 1,…,年代)使用米输入(我= 1,…,米)。此外,我们定义r链接(我= 1,…,r)遗留连续两个周期之间的活动。然后,我们可以获得喑哑的纯技术效率j时期t如下: 在哪里x它和y它DMU的输入和输出j在期t分别定义z它作为链接。 , , ,和分别是松弛变量表示输入过剩,产出缺口,缺口链接过多,链接。
为每个DMU解决上面的程序,我们可以获得 ,这意味着变量规模收益情况。对于规模收益不变的情况 ,我们只需要删除的限制 在上面的模型中。然后,我们可以(TE)的技术效率分解为规模效率(SE)和纯技术效率(单纯的)
最后,使用上面的公式,我们可以分解追赶效应的来源
根据上述,我们可以分解frontier-shift效应的来源
总之,我们分解动态Malmqusit模型
在集群的部分中,我们使用层次聚类,梯度提高回归树算法,和其他相关算法来进一步集群上述指数的结果。层次聚类采用桦木算法。这个算法时主要使用的数据量大,数据类型是数值。我们使用自适应步长梯度下降提高回归树算法提出了优化,从而使聚类效果更好。
3.2.2。自适应步长梯度下降提高回归树
梯度提高回归树算法广泛应用于聚类在金融领域的研究。现有的梯度增加回归树方法有一定的缺点。首先,现有的方法过于依赖数据质量,这使得我们往往无法达到预期的预测精度在实际建模。其次,现有的方法需要仔细调整参数,和培训时间可能会相对较长。最后,现有方法的改善效果是相对有限。
接下来,我们将介绍自适应步长梯度下降提高回归树算法。在梯度提高回归树算法,减少步长是固定的,它决定开始训练模型时作为参数。我们现在分析模型的损失函数。让的综合学习剩余的树木,让是 弱的学习者,学习步骤 。每个训练样本的概率被选中作为一个随机抽样 ,损失函数可以定义为
鉴于和 ,为了找到相应的还原步骤λ当损失是最小的,让损失函数求导λ并使导数等于0,我们可以得到
然后,我们有
因此,减少步长可以自动更新与当前学习结果适应函数的最小化。
然后,我们可以把改进的梯度提高回归树算法1步骤如下。
|
4所示。结果
4.1。实验方法和过程
本文中的实验数据是30个省级农村银行的四年数据除了西藏,包括存款、资本存量、员工、利润,和不良贷款利率。五个效率指标由SuEC Malmquist指数方法来分解,PuTC,秒,DPC, TPC。以云南省为例,这五个指标如表所示2:
本文的实验流程如图1。
分类是将30个省份的农村银行分成几组,这上面的组可以分为不同的性能分类基于农村银行的效率的特点。
在集群中,我们使用的桦树算法和本文提出的算法。使用原始的分类结果30个省作为参考检查这两个算法的聚类精度。
4.2。农村银行性能的聚类
4.2.1。准备桦木聚类
如图2,当使用BIRCH算法对现有数据进行分类,得到共六组的结果。因为集群功能树的数量有一个限制每个节点的集群特征,聚类的结果可能不同于真正的类别分布。此外,该算法对高维特征数据聚类效果不佳。
4.2.2。梯度提高回归树聚类
如图3,当我们使用梯度增强回归树算法,我们得到了七组省级银行。算法的准确性高,泛化能力强,分类的结果基本上是一致的与原来的参考。
4.2.3。性能类型
根据聚类分析结果和分解效率的特点在中国农村银行,我们合并特殊群体进行分析,如组4组6 TPEI(传统的纯经济改善类型)和组2组5,和组7 SuECI(可持续效率变化改善类型)。这个分组听起来更现实的和良好的实证分析,我们区分中国农村银行分为四个类型的性能如表所示3。
类型(I)和(II)农村银行执行低于类型(III)。而从可持续发展的角度来看,类型(I)和(II)属于潜在的银行和类型(3)存在隐含的危机。我们引用类型(III)现金牛在波士顿矩阵。乡村银行(IV)类型的多样化。然而,统一的可持续利用效率使他们脱颖而出作为可持续发展战略的一部分。从今以后,我们分析四种类型。
4.2.4。农村银行在内陆地区的表现
大多数DPCL银行位于中国内陆地区。农村银行的表现严重落后于其他三种类型的银行。主要特点是DPC是唯一的瓶颈,限制了他们的表现。从纯粹的利润角度来看,PuTC有效边界和TPC提高生产率增长。这表明输入和理想的输出是有效配置和质量生长是积极的。然而,不良的输出和链接是无效的。也就是说,这些银行旨在追求短期利润而忽略长期可持续的利润。
如图4甘肃农村银行保持纯粹的利润指标有效。与此同时,其高度可持续发展效率变化保持其性能在中国排名前七。这表明,在可持续发展的主要时期,将可持续的方法纳入绩效评估使更大的进步。最重要的是,尽管DPCL性能落后于他人,它有遗留的唯一瓶颈活动(存款)。这提出的挑战和机遇。
4.2.5。农村银行在沿海地区的表现
SuTECL银行位于沿海狭长地带的东部地区,其中包括7个省份。除了沿海狭长地带的东部地区,山西农村银行也属于SuTECL。这些农村银行的表演在中国农村银行的下半部分。TPC的主要特征是唯一的好处,并降低PuTC和介质低于SuEC SuTECL类型银行限制这些银行的生产率增长。这表明当地经济发达驱动器性能的提高。然而,输入和理想的输出分配失去了惯常的优势在东部地区。也就是说,这是一个很大的挑战,因为这些银行忽视因素的基本控制效率。
如图5、安徽农村银行是唯一的DPC是有效的。虽然它是无效的从纯粹的利润的角度来看,这家银行关注可持续发展战略。所以,链接和不良的控制输出提高了性能和所说的这种类型的前两名。安徽农村银行低于福建。然而,随着角度的安徽农村银行的可持续效率变化,其性能将超过福建的在不久的将来。
4.2.6。农村银行在中心区域的表现
的银行TPEI位于中国北部和中部地区的狭长地带T夏普,包括在中国北方五省。除此之外,湖北和湖南农村银行也属于TPEI如图6。这些农村银行更高的表演和展示平稳波动。DPC的主要特点是低,PuTC的表演和TPC一起提高。这表明它有优势从纯技术的角度。这些银行的表演在中国农村银行的领先地位。然而,这种类型是一个很大的挑战,因为较低的dpc这些银行的意思是无知的长期存款滚动效果。这种类型的银行很难保持其优势,如果继续追求短期利润。这也将有一系列的缺点。
如图6TPEI,农村银行的数量是30家银行在中国的三分之一。所以对中国农村银行,它仍有很长的路来控制遗留物活动(存款)和输出(NPLR)和不受欢迎的情况严重。农村银行在新疆、辽宁和吉林从可持续发展战略的观点是有效的。有效的情况意味着这些银行已经专注于发展一个可持续发展的动态策略,尤其是存款和NPLR控制。这些类型的银行被称为现金牛在波士顿矩阵。利用利润优势,如果它逐渐转移焦点到可持续发展战略,它将在中国的领先地位。
4.2.7。在直辖市地区农村银行的性能
SuECI银行的优点是新的,这些类型包括河南银行和银行三个直辖市银行在重庆,北京,上海。这些农村银行的表现明显不同。主要特点是SuEC和TPC更高。的特点意味着表演SuECI银行已经受益于当地的经济优势和可持续发展战略。这是一个巨大的性能提升的机会,因为可持续发展的优势。
如图7重庆是中国最年轻的直辖市。可持续动态性能(DSTFP)是在中国农村银行的最低水平。是它的利润效率低的主要原因。滚动存款和控制NPLR优势在中国的农村银行。这提出的挑战和机遇。北京和上海在中国发达地区农村银行。强大的当地经济,改善农村银行的性能。然而,存款的控制是一个缺点,尤其是在北京。缺点意味着可持续发展积累量后需要一个质的飞跃。否则,很难继续性能改进。 The performance in Henan rural bank is the best from the viewpoints of both sustainability and allocation. This proves that Henan rural bank seizes the opportunity even if it does not have a strong economic backdrop. That is to say, at the primary period of sustainable development, incorporating sustainable methods into performance management can improve the productivity growth greatly.
4.3。农村银行性能的对比分析
后四种类型的分析农村银行在我国,模型的结果之前和之后使用机器学习技术进行了比较。这可以更清楚地表达我们对实证分析的贡献。
基于上述模型,我们比较了全要素生产率的中国农村银行业。总的来说,使用机器学习技术有更明显的积极影响对银行绩效评估,尤其是对高效的银行。它指的省份,纯粹是经济高效,忽视可持续发展,强调短期发展。在这些银行中,轧制效率和贷款利率的影响限制了农村银行的可持续发展。作为一个纯经济意义上的效率低下的银行,可持续动态效率对其性能具有积极的影响。例如,新疆农村银行具有良好的性能和可持续的动态效率发挥了积极作用。该地区的发展模式是处于良好状态,需要注意。
总之,这仍然是一个过程将可持续发展战略的经营管理在我国农村银行。从上面的模型,可以看出农村银行的生产率增长是受赶上有效前沿和转移的有效边界。我们已经做了一个比较分析的性能从纯经济的角度和可持续发展。
5。结论
在当前的商业银行的绩效评估工作中,大多数的研究只关注单个特征和性能之间的关系,缺乏综合分析的特点。另一方面,他们把主要精力集中于因果推论,缺乏从预测的角度系统的定量结论。本文首次全面调查多维特征对商业银行绩效的可预测性使用提高回归树。针对商业银行数据的特点,本文提出了一种自适应步长梯度下降提高回归树算法对银行绩效评估。桦树相比现有的数据分类的算法,我们提出了梯度提高回归树算法和自适应步长减少得到更好的分类结果。本文实证数据从农村银行在中国30个省农村银行的表现的不同特点进行分类,以便更好地评估他们的表现。
基于层次聚类分析,银行在中国分为四组:DPCL, SuTECL TPEI, SuECI。本文还总结了一些有趣的发现各种类型的农村银行的生产率增长在中国,如SuECI值得关注;TPEI可能是危险的。原因在于,虽然这种类型的银行利润业绩好,它在评价NPLR表现很差。
后续的研究包括四个方面。首先,我们将对所有输入应用外部权重,链接,和输出(21,22]。第二,我们将动态成本收入和利润效率合并到我们的模型(23]。第三,我们将进行灵敏度分析和因子分析DSMPI [24]。第四,我们将重采样方法,比如引导技术,估计性能。
数据可用性
在这项研究中使用的所有数据可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。