预测村镇银行在加纳使用机器学习的表现手法

抽象

由于农村地区商业银行分行有限，为农村发展调动资源，因此引入了农村银行的理念。人们还认为，农村银行等金融机构是缓解贫困的有力工具。然而，其中一些银行却通过非法活动和对资源的管理不善，增加了人们的负担。对许多研究者和实践者来说，使用一组财务比率来评估银行的业绩是一个有趣而富有挑战性的问题。识别能够准确预测公司业绩的因素对任何决策者都非常重要。本研究以ARB的财务比率作为自变量来评估农村银行的经营绩效，之后使用随机森林算法来识别与模型最相关的变量。从各银行获得了一个数据集。本研究使用三种决策树演算法，即C5.0、C4.5和CART，建立不同的决策树预测模型。研究结果表明，C5.0算法的精度为100%，其次是CART算法，精度为84.6%，最后是C4.5算法，平均精度为83.34。因此，研究建议使用C5.0预测模型预测加纳农村银行的财务绩效。

1.简介

为了快速跟踪加纳农村地区的发展，介绍了村镇银行。村镇银行协会（ARB）中描述的一些如下村镇银行的作用：培养农村居民中储蓄的习惯，调动资源锁定在农村地区进入银行体系，以促进发展，并确定在可行的行业其投资与发展[各自领域1]。据认为，金融机构是强大的工具，以减轻贫穷[2]，但它们中的一些，而通过非法活动和资源的管理不善[越来越多的人负担3]。大部分这些机构的倒闭可以看作是他们不能够评估的结果和未来预测其财务状况的在岁月[4]。因此，该项目的主要目标是制定并提出能够作为一个案例研究区和决策树算法在加纳预测金融机构的财务状况，以及确定影响最大的财务比率，利用村镇银行的预测模型（C5.0，C4.5，和CART）。

本文的其余部分组织如下：下一节（第2）提供了文献综述;部分3介绍的方法开发，随后在这项研究中，并记录其结果;部分4概括和总结全文。

2。文献综述

这是不言而喻的，并根据经验观察，多年来大多数金融机构在加纳未能在他们的操作，因为他们无法预测相对于他们的进步或失败的财务状况。像钻石小额贷款股份有限公司（DKM）公司的机构，于2005年开始运作，有其业务暂停加纳中央银行后，违反银行法。在花旗商业新闻所做的分析，该公司未能持有足够的资产以满足其负债对存款[五]。已经遭遇了类似的崩溃其他金融机构是UT银行和外资银行。在2017年八月，加纳银行吊销他们的执照他们描述为“非常资不抵债” [4]。因为这些情况下，很多人都觉得不愿意投资一些金融机构。大量研究已经进行了通过利用决策树算法和这些机构的财务比率的预测模型，以减少这个问题。

根据 [6]财务比率被证明是分析财务报告最准确的方法，具有较高的准确性，能够有效地处理财务报告的薄弱环节。利用财务比率来评估一个公司的业绩并不是一个新兴的研究领域，而是这个系统已经存在了相当长的时间。从财务报表中得出的财务比率可用于预测新兴市场的股价趋势[7]. 一个简单的文献搜索可以找到成千上万的关于财务比率的出版物。基础研究通常通过开发和使用不同的自变量（财务比率）和/或采用不同的统计或基于机器学习的分析技术（例如决策树、中立网络）来区别于其他研究[8]。

机器学习是在人工智能模式识别和计算学习理论研究的基础上发展起来的计算机科学的一个分支[9]. 机器学习利用了可以从数据中学习和预测的算法的构造[10]。通过[进行的一项研究11]表示，最近几年已经看到在医疗诊断用预测分类在这一领域进行研究的提振，大部分这些论文的重点放在提高精度他们的目标。他们的研究结果，使用年龄，体重，腰围，臀围和身高的指标，解释说，一个成功的实验用四种不同的机器学习算法后，就II型糖尿病的预测，ID3有78.57的准确性，朴素贝叶斯过79.89，AdaBoost的有84.19，以及随机森林具有85％的精确度最高。

[的作者12]，在他们的论文，寻求关于解决深层神经网络 - （DNN-）基于计算机视觉和人类视觉之间的差异图像生成/捕获。它表示，它很容易产生完全无法辨认人类的图像，但国家的最先进的是DNNs认为承认有超过99％的置信对象。考虑到视觉对象分类DNNs的近人的能力，问题出现了，以什么分歧仍然存在计算机与人类视觉之间。通过[进行的一项研究13]揭示了DNN与人类视觉之间的主要区别。更改图像，原本正确分类（例如，为狮子），以潜移默化的方式对人的眼睛，可能会导致DNN标记的图像完全是另一回事。

而且[14]用多元回归估算使用英语，数学，化学，物理和预测其平均成绩学生的表现。他们使用性能的措施，如均方根误差测量他们的模型的效率。在他们的分析结束后，他们有一个0.342均方根误差。另一个AI的研究工作由执行的处理15]利用财务比率与各种流行的机器学习算法，共同预测一些公司在中国的破产可能性。他们的研究结果进行分析后，随机森林和决策树有最准确，分别为95％和94％，是。

企业破产的预测是一项重要而广泛的研究课题，因为它可能会对银行贷款决策和盈利能力显著的影响。Atiya [16]，总的，其由金融和非金融其他比率和使用主成分分析（PCA），以提取合适的变量37倍的比率进行了实证实验。决策树（DT）的分类方法（C5.0，CART和CHAID）和logistic回归（LR）技术来实现财务困境预测模型。最后，实验获得了满意的结果，这证明了他们的提议被用来作为测试对象，上市公司的财务困境预测方法的可能性和有效性。OCAL等。[17]使用C5.0和CHAID决策树算法估计给定制造企业的财务失败和/或成功，并使用35个财务比率作为独立变量，根据2007年至2013年公司年度财务报表和附注计算。结果表明，该模型对训练集和测试集的分类准确率分别为90.97%和87.5%。因此，C5.0算法所做的分类可以被认为是成功的。金和康[18]试图通过合奏与神经网络相结合，加强预测的准确性，但其他研究已经取得很明显的是决策树与财务比率分析相结合，可能会更准确地预测企业的财务困境（金康，2010）。

除了在做预测使用决策树，在预测的情况下，一个有趣的技术是神经网络[19]。但这个研究报告将限制自己使用决策树算法决策树算法是数据挖掘中最重要的分类措施之一[20]。

3.方法

该项目的主要目的是建立一个能够对加纳农村银行的财务状况进行分类的预测框架。如果没有必要的数据采集、数据预处理、特征选择和分类步骤，这是不可能实现的。框架的概述如图所示1。

3.1条。研究区域

本研究采用村镇银行正在村镇银行在加纳协会下注册作为案例研究加纳。根据银行加纳，为2018年8月，这在法律上称为村镇银行的数量是145（145）1]. 本研究计画以加纳农村银行之财务评等为研究对象，经ARB Apex银行整理，以了解各季农村银行之表现。

3.2。数据采集

这些数据是从ARB的Apex银行分行苏尼亚尼收集，这是几个季度之内。（一）第二季度于2014年6月结束。（ⅱ）第四季度截至2014年12月。（ⅲ）第四季度于2015年12月结束。（ⅳ）第三季度于2017年9月结束。（五）第二季度在2018年6月结束。

3.3。因变量

我们的因变量是金融机构在财政季度末的状况，即它是强的、令人满意的、公平的、边缘的还是不令人满意的。如果一个财政期间被标记为强劲、令人满意、公平、边际或不令人满意，它将继续保持这种状态，直到下一个财政期间证明不是这样。在预处理过程结束时，我们只剩下了657个数据处理单元（DMU），其中99个是强大的，330个是令人满意的，164个是公平的，64个是边缘的。桌子1显示每个财务状况的评级范围和解释。


评分范围	评级分析	评级分析解读	决策单元

1.0-1.50	强大	声音所有指标，无需监管响应	99个
1.50至2.50	满意的	从根本上健全与适度修正的弱点;监管反应有限	330
2.50-3.50	博览会（手表类）	如果不解决将成为严重的弱点相结合。关注类	164个
3.50至4.50	边际（失败的风险的迹象）	无节制的弱点：除非妥善解决，可能会影响未来的生存能力。需要密切监督。	64个
4.50至5.0	不满意（严重故障）	在短期内失效的高风险。需要不断的监督。	0

3.4条。自变量

自变量或在研究中使用的预测是正在使用的ARB顶点银行评估其成员村镇银行业绩的各种财务比率或参数。他们在四大类，即资本，资产包括资产质量和资产利用率，收入/盈利能力和流动性。在广泛的主题都经过详细的为16个参数表评估2。


自变量

实收资本	损失/不良率	其他资产与总资产的比例	返回创收资产
资本充足率	生息资产与总资产比	物业，厂房和设备，占总资产的比例	成本收入比
逾期比	液体资产与总资产比	资产回报率	平均一次准备金率的季度
不良贷款率	进展到可贷资金比例	净资产收益率（ROE）	平均二次金率的季度

3.5条。采用的决策树算法

C5.0是由Ross Quinlan于1994年开发的。它的工作原理是基于提供最大信息增益的字段分割样本。由第一个分割定义的每个子样本然后再次分割，通常基于不同的字段。这个过程一直重复，直到子样本不能再分割。该过程重复，直到子样本无法进一步拆分。C5.0 R包版本0.1.2由Max等人开发。[21]。

3.6。分类回归树（CART）

Breiman等人开发了分类回归树。[22]。这是一个二进制决策树，通过分裂节点分成两个子节点反复构造。分类回归树（CART）算法是用于构建基于基尼杂质指数作为分裂准则的决策树分类算法。CART是分裂建二叉树的一个节点分成两个孩子反复节点。它使用将R包“rpart包” 4.1-13版本，通过Therneau等人开发。[23]。

C4.5从一组训练数据构建决策树和训练数据是一组小号 = s1，s2，…已分类样本。选择归一化信息增益最大的属性进行决策。C4.5在树被创建后返回，并试图通过用叶节点替换那些没有帮助的分支来移除它们。它使用了由Hornik等人开发的RWeka软件包，版本0.4-39。[24]，并包含用于执行C4.5机型J48功能。

3.7条。用随机森林算法选择最重要的变量

随机森林算法是由于其基于树的策略的科学数据特征选择是天然的如何好，他们加起来的节点的纯度排名很受欢迎。大大树的纯度贡献节点已知或视为最重要的。参考文献[25]使用平均降低精度（MDA）和随机森林平均降低基尼（MDG）提出的特征选择的技术。这种技术得分变量的MDA和千年发展目标，总结成绩，位居变量的总分按递减顺序，并与前50％的变量再次运行随机森林算法。

在本文中，我们使用了类似的[提出的一个类似的技术25]. 我们把重点放在千年发展目标上，并将我们的阈值设为0.10；也就是说，所有使千年发展目标低于0.10的变量都被消除，并被认为不太相关。在确定了最相关的变量之后，为了进行比较，创建了一个新的数据集。

3.8。该模型

对于分类村镇银行的财务状况提出的DT模型显示在图1。

3.9。讨论和调查结果

（一）最初，所有十六（16）个预测因子被用于建立随机rorest模型，根据模型的总结，观察到十三（13）个预测因子（即带星号的预测因子( ）表3）有一个MDG大于或等于0.10，使得他们最相关的模型，而其他三人表示要少有关。（ⅱ）与所有的预测模型推出了10.1％的错误率和2.11秒的执行时间，同时用十个三个预测模型与11.05％的错误率和1.75秒的执行时间就出来了。（ⅲ）在建设同时使用所有的预测数据集和一个和十所一个预测的C5.0模型，该模型具有相同的结果就出来了。这可以在图中可以看出2因为它们都取得了同样的困惑矩阵和统计。The models showed a 100% accuracy and also showed a 100% accuracy when the test data was used for prediction (i.e., all 53 banks with fair status, all 14 banks with marginal status, all 97 banks with satisfactory status, and all 34 banks with strong status). The confusion matrix can be found in the following.（ⅳ）Upon building the C4.5 model with the training dataset containing all the predictors, the model came out with a 94.12% accuracy and also showed 82.83% when the test data was used for prediction (i.e., only 39 out of 53 banks with fair status, only 10 out of 14 banks with marginal status, only 89 out of 97 banks with satisfactory status, and only 26 out of 34 banks with strong status were predicted correctly). Using 10-fold cross validation, the model gave a Kappa value of 0.6908. More details about the C4.5 models with all sixteen predictors can be seen in Table3。（五）Upon building the C4.5 model with the training dataset, containing the 13 predictors, the model came out with a 93.87% accuracy and also showed an 83.84% accuracy when the test data was used for prediction (i.e., only 40 out of 53 banks with fair status, only 12 out of 14 banks with marginal status, only 81 out of 97 banks with satisfactory status, and only 33 out of 34 banks with strong status were predicted correctly). More details about the C4.5 models with the eleven predictors can be seen in Table3。（六）Upon building the CART model with the training dataset containing all the predictors, the model came out with an 87.87% accuracy and also showed 87.88% when the test data was used for prediction (i.e., only 46 out of 58 banks with fair status, only 15 out of 18 banks with marginal status, only 94 out of 98 banks with satisfactory status, and only 19 out of 24 banks with strong status were predicted correctly). More details about this model can be seen in Table3。交叉验证此模型中，CV模型给出的0最好CP但其精确度小于0.01的初始CP（这可以从曲线图在图的左侧可以看到出来2），所以最终的模型是基于默认的CP。（ⅶ）Upon building the CART model with the training dataset containing the eleven predictors, the model came out with an 81.31% accuracy when the test data was used for prediction (i.e., only 37 out of 58 banks with fair status, only 19 out of 18 banks with marginal status, only 91 out of 98 banks with satisfactory status, and only 14 out of 24 banks with strong status were predicted correctly). Cross-validating this model, the CV model gave the best CP of 0 but came out with an accuracy less than the initial CP of 0.01 (this can be seen from the graph at the right side of Figure2），所以最终的模型是基于默认的CP。（八）与所有的初始预测的随机森林模型比一个有十三预测的疏忽少了一个错误率。然而，第二个模型得到更好的执行时间的权衡的结果。此外，由随机森林模型揭开最相关的财务比率，在加纳村镇银行可以更专注于让那些比更好的效果，从而达到更好的财务状况。（ⅸ）数字3是示出从所有的模型获得的精度的图。


自变量

实收资本	损失/不良率	其他资产与总资产的比例	返回创收资产
资本充足率	生息资产与总资产比	物业，厂房和设备，占总资产的比例	成本收入比
逾期比	液体资产与总资产比	资产回报率	平均一次准备金率的季度
不良贷款率	进展到可贷资金比例	净资产收益率（ROE）	平均二次金率的季度

（一个）

（b）中

结论与建议

4.1。结论

简单地说，机器学习算法使事情变得更容易，因为它们可以从优先级中学习并预测未来的事件。机器学习算法有很多种，但是决策树由于其易于理解的图形表示而很容易被大多数人，特别是数学倾向的人理解。本研究利用DT演算法建立金融机构财务状况预测模型。我们的研究还旨在确定在使用随机森林变量选择方法评估这些金融机构绩效方面最具影响力的财务比率，16个预测因子中有13个与模型最相关。使用我们的数据集，我们的模型显示了很高的精确度。这说明DT算法能够对金融机构的失败做出准确的预测。在我们使用的三种算法中，C5.0算法的精确度最高，其次是CART算法，最后是C4.5算法的平均精确度。关于各种DT模型的其他统计信息见表4. 关于各种DT模型的其他统计信息见表4。


	决策树算法	准确性	值	卡帕	没有信息速率

包含所有初始预测值的数据集	C5.0	1	2.2Ë − 16	1	0.4899个
	C4.5	0.9412	2.2Ë − 16	0.9094	0.5076
	大车	0.8787	2.2Ë − 16	0.8078	0.4949

数据集与13个预测	C5.0	1	2.2Ë − 16	1	0.4646个
	C4.5	0.9387	2.2Ë − 16	0.9038	0.4646个
	大车	0.8131	2.2Ë − 16	0.7048	0.4949

4.2。建议

对于未来的发展方向，我们的目标是提高数据集的含量大于什么在这个项目中使用，因为它可以帮助提高精确度超过在这个项目中获得什么。此外，商业银行的财务数据可以替代使用的农村银行的财务数据，只要它们在构建模型中使用的独立变量一致。此外，在未来，我们希望传统的机器学习，以便有效地解决农村银行在加纳破产相结合，深度学习。

数据可用性

与数据提供给我们的机构作出明确表示，它被限制，不应该被共享。

利益冲突

作者宣称，他们没有利益冲突。

参考

村镇银行，2018年，http://bog.gov.gh网站。
P. Appiahene和Y. M. Missah，“预测银行在信息技术投资存在操作效率，”在国际人工智能与软计算会议录，第6-11，学者世界，慕尼黑，德国，2019。查看在：谷歌学者
一、 Akuamoah Boateng和A.Agyei，“加纳小额信贷：发展、成功因素和挑战”国际期刊学术研究的会计财务和管理科学，第3卷，第4期，第153-160页，2013年。查看在：谷歌学者
美国犹他州Akwa，Capital Bank collapse:对银行业的信心依然强劲–Ofori Atta，2017，http://MyJoyOnline.com。
加纳银行关闭DKM Microfinance-Citifmonline.com，http://citifmonline.com/Ghana，2015年。
A.-R.K. El- Dalabeeh, “The role of financial analysis ratio in evaluating performance (case study : national chlorine industry),”跨学科中国当代研究的业务卷。5，没有。2，第13-29，2013。查看在：谷歌学者
T.阿尔干，“财务比率在预测股票价格趋势的重要性：在新兴市场的案例研究”Zeszyty Naukowe UniwersytetuSzczecińskiegoFinanse Rynki Finansowe Ubezpieczenia卷。1，没有。1，第13-26，2016。查看在：出版商网站|谷歌学者
D. Delen，C. Kuzey和A. Uyar“采用财务比率衡量企业绩效：一个决策树方法”专家系统与应用程序卷。40，没有。10，第3970-3983，2013。查看在：出版商网站|谷歌学者
S. F.迪安吉利斯，人工智能：算法如何让系统智能，有线，旧金山，加利福尼亚州，美国，2014年。
专业系统，什么是机器学习？定义专家系统，2017年，https://www.expertsystem.com/machine-learning-definition/。
W.许，J.张，张问，和X伟，2017年“基于随机森林模型，II型糖尿病的风险预测”。查看在：谷歌学者
J、 Yosinski，J.Clune和A.Nguyen，“深层神经网络很容易被愚弄：对无法识别图像的高信心预测”，2015，https://arxiv.org/abs/1412.1897。查看在：谷歌学者
C. Szegedy，W.萨伦巴，I. Sutskever等人，2013“神经网络，趣的属性”，https://arxiv.org/abs/1312.6199。查看在：谷歌学者
E、 Uchenna，C.Adeyeye和R.Abiobaragha，“使用正向选择程序对学生成绩的多元回归”淘汰落后和逐步程序，第5卷，第12期，第226-232页，2016年。查看在：谷歌学者
Y. Li和Y.王“该机采用占比学习破产预测的方法”开放期刊工商管理，第6卷，第1期，第1-20页，2018年。查看在：出版商网站|谷歌学者
A. F. Atiya，“破产预测基于神经网络的信用风险状况的调查研究，新成果，”IEEE交易神经网络，第12卷，第4期，第929-935页，2001年。查看在：出版商网站|谷歌学者
N. OCAL，M. K.埃尔詹和E. Kadioglu，“利用决策树算法预测财务失败：对制造业在伊斯坦布尔证交所的实证检验，”国际期刊经济与金融，第7卷，第7期，第189-206页，2015年。查看在：出版商网站|谷歌学者
M、 J.Kim和D.K.Kang，“集成神经网络进行破产预测”与应用专家系统卷。37，没有。4，第3373-3379，2010。查看在：出版商网站|谷歌学者
M. D.奥多姆和R. SHARDA，“破产预测的神经网络模型”，在1990年IJCNN神经网络国际联席会议纪要卷。2，第163-168，IEEE，圣地亚哥，CA，USA，1990年。查看在：出版商网站|谷歌学者
Q.-y.戴C.-p.张和H.武“在数据挖掘决策树分类算法的研究，”国际期刊数据库原理及应用的卷。9，没有。5，第1-8页，2016。查看在：出版商网站|谷歌学者
A.最大，S.韦斯顿和M.卡尔普，“包C50，”中多元回归分析：使用调整后的R平方和预测的R平方到包含变量的正确数目，Minitab博客编辑，2018年，http://blog.minitab.com/blog/adventures-in-statistics-2/multiple-regession-analysis-use-adjusted-r-squared-and-predicted-r-squared-to-include-the-correct-数量变量的，。查看在：谷歌学者
L. Breiman，J. H.弗里德曼，R. Olshen，和C. J.石，分类回归树，沃兹沃思和布鲁克斯，蒙特利，加利福尼亚州，美国，1984年。
T、 Therneau，B.Atkinson和B.Ripley，“rpart：分类、回归和生存树的递归划分。R包版本4.1-15，“2019，https://cran.r-project.org/package=rpart。查看在：谷歌学者
K. Hornik，C. Buchta，T. Hothorn，A. Karatzoglou，D.迈耶和A. Zeileis，包“RWeka”，2018。
H、 “基于随机森林的均值递减精度和均值递减基尼的变量选择”，韩，X.郭，和H.余软件工程与服务科学2016年第七届IEEE国际会议（ICSESS）论文集，第219-224，IEEE，北京，中国在2016年八月。查看在：出版商网站|谷歌学者

在模糊系统进展

抽象