AFS 模糊系统的进步 1687 - 711 x 1687 - 7101 Hindawi 10.1155 / 2020/8028019 8028019 研究文章 预测的性能在加纳农村银行使用机器学习的方法 https://orcid.org/0000 - 0002 - 6122 - 9728 Awoin 以马内利 https://orcid.org/0000 - 0002 - 6098 - 4537 Appiahene 彼得 Gyasi 弗兰克 Sabtiwu Abdulai 德沃夏克 安东尼 大学的能源和自然资源 Sunyani 加纳 uenr.edu.gh 2020年 19 2 2020年 2020年 02 09年 2019年 04 01 2020年 13 01 2020年 19 2 2020年 2020年 版权©2020 Emmanuel Awoin et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

农村银行的概念被引入由于有限的农村商业银行分支机构为农村发展动员他们的资源。也相信农村银行等金融机构强大的工具来减轻贫困。然而,一些银行通过非法活动而增加人们的负担和管理不善的资源。评估银行的性能使用一组财务比率一直是一个有趣和具有挑战性的问题,许多研究人员和从业人员。识别因素准确地预测公司业绩是任何决策者极大的兴趣。该研究使用ARB的财务比率作为独立变量来评估性能的农村银行,后来使用随机森林算法找出最相关的变量模型。一个数据集来自不同的银行。本研究使用三个决策树算法,即C5.0, C4.5和购物车,构建各种决策树预测模型。研究的结果表明,C5.0算法给出了精度为100%,其次是CART算法的准确性达84.6%,最后,平均83.34 C4.5算法的准确性。研究中,因此,建议使用C5.0预测模型在预测在加纳农村银行的财务业绩。

1。介绍

为了快速通道在加纳农村的发展,农村银行。农村银行协会(ARB)描述了一些农村银行的角色如下:培养农村居民储蓄的习惯,动员资源锁定在向银行系统,以促进农村地区的发展,并确定可行的行业在各自领域的投资和发展 1]。相信金融机构强大的工具来减轻贫困( 2),但他们中的一些人通过非法活动而增加人们的负担和管理不善的资源( 3]。这些机构的崩溃可以看到由于他们无法评估和预测金融排名在未来几年 4]。因此,这个项目的主要目的是开发和提出一个预测模型能够预测金融机构的财务状况以及识别最影响财务比率,使用在加纳农村银行作为案例研究区域和决策树算法(C5.0、C4.5和购物车)。

本文的其余部分组织如下:第二部分(部分 2)提供了文献综述;部分 3介绍了方法开发和跟踪在这项研究中其结果和文件;部分 4总结并得出结论。

2。回顾文献

不证自明的,基于实证观察,大多数金融机构在加纳多年来经营失败了,因为他们无法预测他们的财务状况与进展或失败。一个机构像钻石小额贷款有限公司(DKM)公司,于2005年开始其业务,其业务已暂停中央银行的加纳后,违反了银行法。由花旗银行商业新闻分析,该公司未能保留足够的资产,以满足其负债储户( 5]。其他金融机构遭受类似的崩溃是UT银行和资本银行。2017年8月,加纳银行撤销他们的许可将他们描述为“深感破产” 4]。因为在这些病例中,许多人不愿投资于一些金融机构。很多研究已经减少这个问题通过使用决策树算法预测模型和这些机构的财务比率。

根据( 6),财务比率已被证明是最准确的方法分析财务报告有一个高精度治疗的弱点,有效和高效。使用财务比率来评价公司业绩并不是一个新兴的研究领域,而是系统中这是很长一段时间。来自财务报表的财务比率可以用来预测股票价格趋势在新兴市场( 7]。一个简单的文献搜索可以找到成千上万的出版物主题相关的财务比率。常常让自己与众不同的基础研究开发和使用不同的独立变量(财务比率)和/或采用不同的统计或基于机器学习分析技术如决策树、神经网络,更别提但几 8]。

机器学习是计算机科学的一个分支,它的发展从模式识别的研究和计算学习理论在人工智能 9]。利用机器学习算法,可以建设的学习和预测数据 10]。进行的一项研究[ 11)表示,近年来增加使用预测分类在医学诊断执行在这个领域的研究中,大多数的这些论文重点目标提高准确性。他们的结果,使用年龄、体重、腰、臀部、和高度作为指标,后解释说,一个成功的实验与四个不同的机器学习算法预测II型糖尿病,ID3的精度78.57,朴素贝叶斯79.89,演算法84.19,随机森林的准确性最高85%。

作者的 12),在他们的论文中,试图解决深层神经网络之间的差异——基于(款)的计算机视觉和人类视觉对图像生产/捕获。它表明,很容易产生对人类完全认不出来的图像,但这最新款相信认清对象超过99%的信心。鉴于款的在人类能力分类视觉对象,问题的分歧之间的计算机和人类的视觉。进行的一项研究[ 13)款和人类视觉显示一个主要区别。改变形象,原来正确分类(例如,像狮子),在某种程度上听不清人类的眼睛,会导致款标签的形象完全不同的东西。

此外,( 14]使用多元回归评估性能的学生使用英语,数学,化学,物理预测他们的平均绩点。他们使用性能的措施如均方根误差在测量模型的效率。最后的分析,均方根误差为0.342。另一个人工智能研究工作由( 15)使用财务比率与各种流行的机器学习算法来预测在中国一些公司破产的可能性。分析的结果后,随机森林和决策树的最准确,分别为95%和94%。

企业破产的预测是一个重要和广泛的研究课题,因为它可以产生重大影响银行贷款决策和盈利能力。Atiya [ 16),进行实证实验共有37个比率由金融和其他非金融比率,并使用主成分分析(PCA)提取合适的变量。(DT)决策树分类方法(C5.0、购物车和CHAID)和逻辑回归(LR)技术被用来实现财务困境预测模型。最后,实验获得了令人满意的结果,证明了提出方法的可能性和有效性的上市公司财务困境预测作为测试对象。Ocal et al。 17]C5.0和CHAID使用决策树算法来估计给定的财务失败和/或成功制造公司,和35个财务比率作为独立变量计算的公司年度财务报表和记录从2007年到2013年。结果显示,模型的分类精度为90.97% 87.5%为训练集和测试集。因此,分类由C5.0算法可以被认为是成功的。金和康 18]试图加强合奏与神经网络相结合的预测准确性,但其他研究已经使它明显,决策树结合财务比率分析可以更准确地预测企业的财务危机(Kim和康,2010)。

除了使用决策树的预测,一个有趣的技术在预测神经网络( 19]。但是这个研究论文将限制自己的使用决策树算法是决策树算法是一个最重要的数据挖掘中分类措施( 20.]。

3所示。方法

这个项目的主要目的是开发一个预测框架能够分类农村银行的财务状况在加纳。这个不可能是没有必要的步骤完成数据采集、数据预处理、特征选择和分类。框架是如图的概述 1

提出了DT模型分类农村银行的财务状况。

3.1。研究区域

本研究使用农村银行在加纳注册协会下的农村银行在加纳作为案例研究。根据加纳银行,截至2018年8月,农村银行的数量是已知的法律是一百四十五(145)( 1]。这个研究项目在加纳农村银行的金融评级使用ARB整理的顶点银行农村银行在各种方面的性能。

3.2。数据收集

ARB的数据收集顶点银行Sunyani分支,在接下来的季度。

2014年6月第二季度结束。

2014年12月第四季度结束。

2015年12月第四季度结束。

2017年9月第三季度结束。

2018年6月第二季度结束。

3.3。因变量

因变量的状态是金融机构的金融时期季度末是否强大,令人满意的,公平的,边际,或者不满意。如果一个金融时期被标记为强,满意,公平,边缘,或不满意,它将继续,直到下一次金融周期的证明。预处理过程的最后,我们只剩下六百五十七(657)数据操作单位(研究),九十九(99)被强,三百三十(330)满意,一百六十四(164)公平,六十四(64)被边缘化。表 1显示了每个财务状况的评级范围和解释。

各种类使用ARB对农村银行的财务状况进行分类(来源:农村银行协会的季度报告,2017)。

评级范围 评级分析 评级分析的解释 研究
1.0 - -1.50 强大的 声音在所有指标,不需要监督的反应 99年
1.50 - -2.50 令人满意的 从根本上与适度矫正缺点声音;监督反应有限 330年
2.50 - -3.50 公平(手表类别) 组合的弱点,如果不能得到解决,将会严重。手表分类 164年
3.50 - -4.50 边际(失败的风险的迹象) 无节制的弱点:除非妥善解决,可能会损害未来的生存能力。需要密切监督。 64年
4.50 - -5.0 不满意(失败的高度明显) 失败在短期内的风险很高。需要持续的监督。 0
3.4。独立变量

独立变量或预测研究中使用的各种财务比率或参数使用ARB顶点银行来评估他们的成员农村银行的性能。他们在四个大类,即资本、资产包括资产质量和资产利用率,收益/盈利能力和流动性。广泛的主题已经详细为16(16)参数评估表 2

独立变量使用ARB(来源:农村银行协会的季度报告,2017)。

独立变量
实收资本 损失/不良贷款率 其他资产对总资产比率 盈利资产回报率
资本充足率(汽车) 盈利资产对总资产比率 房地产、工厂和设备总资产比率 成本收入比
逾期比率 流动资产占总资产比率 资产回报率(ROA) 平均主要准备金率
不良贷款的不良贷款比率 可贷资金的比例 股本回报率(ROE) 平均二次准备金率
3.5。采用决策树算法

C5.0是由罗斯1994年昆兰。它通过分裂示例基于领域提供最大信息增益。每个定义的子样品第一次分裂然后再次分裂,通常基于一个不同的领域。并重复这个过程,直到次级样本不能进一步分裂。重复这个过程,直到次级样本不能进一步分裂。0.1.2 C5.0 R包版本是由马克斯et al。 21]。 (1) H T = E p 1 , p 2 , , p j = = 1 J p 日志 2 p G T , 一个 信息增益 = H T H T 一个 熵的加权和 孩子们 = = 1 J p 日志 2 p 一个 p 一个 = 1 J 公关 一个 日志 2 公关 一个

3.6。分类和回归树(CART)

分类和回归树是由Breiman et al。 22]。这是一个二叉决策树,由反复分裂成两个子节点的节点。分类和回归树(CART)算法是建立决策树的分类算法基于基尼的杂质指数作为分离准则。车是一个二叉树由反复分裂成两个子节点的节点。它使用R包“rpart”4.1版-13,由Therneau et al。 23]。 (2) 搞笑 p = = 1 J p k J p k = = 1 J p = 1 p = = 1 J p p 2 = = 1 J p = 1 J p 2 = 1 = 2 J p 2

C4.5决策树构建从一组训练数据和训练数据是一组 年代= s1, s2,…已经分类的样本。最高的属性规范化信息增益选择做出决定。C4.5回到树一旦创建并试图删除分支,不帮助,取而代之的是叶节点。它使用RWeka包,版本0.4 -39年,由Hornik et al。 24),和包含执行C4.5的J48函数模型。

3.7。选择最重要的变量与随机森林算法

随机森林算法是非常受欢迎的特性选择数据科学,因为它基于树的策略有多好,他们自然排名的节点的纯度。树的节点,大大有助于纯度已知或被视为最重要的。文献[ 25)提出了一个技术特征选择使用平均减少精度(MDA)和平均降低基尼(MDG)在随机森林。这种技术得分的MDA和目标变量,总结成绩,排名总分数降序的变量,并再次运行随机森林算法前50%的变量。

在本文中,我们使用一个类似技术的提出( 25]。我们专注于目标并设置阈值0.10;也就是说,所有的变量给目标低于0.10被淘汰,被认为是不相关的。后确定最相关的变量,创建一个新的数据集,进行对比。

3.8。该模型

提出了DT模型分类农村银行的财务状况如图 1

3.9。讨论和研究

最初,所有16(16)被用来预测因子构建随机ror模型,模型的总结,这是观察到13(13)的预测(即。星号的预测( )表 3)有一个目标大于或等于0.10,使它们最相关的模型,而其他三个都表示不太相关。

模型的预测出来的错误率10.1%的执行时间2.11秒,而十三的模型预测出来的错误率11.05%的执行时间1.75秒。

在构建C5.0模型使用数据集的预测和十一的预测,模型推出了相同的结果。这个图中可以看到 2他们都得出了相同的混淆矩阵和统计数据。模型显示100%的准确率,还显示100%精度测试数据时(即用于预测。,一个ll 53 banks with fair status, all 14 banks with marginal status, all 97 banks with satisfactory status, and all 34 banks with strong status). The confusion matrix can be found in the following.

在构建C4.5与训练数据集包含所有预测模型,该模型出来94.12%的准确性和测试数据时也显示,82.83%用于预测(即。,only 39 out of 53 banks with fair status, only 10 out of 14 banks with marginal status, only 89 out of 97 banks with satisfactory status, and only 26 out of 34 banks with strong status were predicted correctly). Using 10-fold cross validation, the model gave a Kappa value of 0.6908. More details about the C4.5 models with all sixteen predictors can be seen in Table 3

在构建C4.5模型训练数据集,包含13个预测,该模型出来93.87%的准确率和还显示83.84%的精度测试数据用于预测时(即。,only 40 out of 53 banks with fair status, only 12 out of 14 banks with marginal status, only 81 out of 97 banks with satisfactory status, and only 33 out of 34 banks with strong status were predicted correctly). More details about the C4.5 models with the eleven predictors can be seen in Table 3

购物车在建筑模型的训练数据集包含所有的预测,模型还推出了87.87%的准确性和测试数据时显示,87.88%用于预测(即。,only 46 out of 58 banks with fair status, only 15 out of 18 banks with marginal status, only 94 out of 98 banks with satisfactory status, and only 19 out of 24 banks with strong status were predicted correctly). More details about this model can be seen in Table 3。交叉验证图谱模型,CV模型给最好的CP 0但推出了一个精度小于0.01的初始CP(这可以从图在图的左侧 2),所以最后一个模型是基于默认CP。

购物车在建筑模型的训练数据集包含11预测,模型推出了一个81.31%的准确率测试数据用于预测时(即。,only 37 out of 58 banks with fair status, only 19 out of 18 banks with marginal status, only 91 out of 98 banks with satisfactory status, and only 14 out of 24 banks with strong status were predicted correctly). Cross-validating this model, the CV model gave the best CP of 0 but came out with an accuracy less than the initial CP of 0.01 (this can be seen from the graph at the right side of Figure 2),所以最后一个模型是基于默认CP。

随机森林模型的初始预测错误率有过失不到十三的预测。然而,第二个模型获得更好的执行时间权衡的结果。此外,随着最相关的财务比率的随机森林模型拆散,在加纳农村银行可以更关注获得更好的结果在这些比例,以达到更好的财务状况。

3是一个图表显示从所有的模型获得的精度。

相关( )和不相关变量在构建高模型。

独立变量
实收资本 损失/不良贷款率 其他资产对总资产比率 盈利资产回报率
资本充足率(汽车) 盈利资产对总资产比率 房地产、工厂和设备总资产比率 成本收入比
逾期比率 流动资产占总资产比率 资产回报率(ROA) 平均主要准备金率
不良贷款的不良贷款比率 可贷资金的比例 股本回报率(ROE) 平均二次准备金率

交叉验证车模型图。

图形表示的模型精度。

4所示。结论和建议 4.1。结论

简洁地,机器学习算法使事情更容易,因为他们从优先级和预测未来事件。有很多机器学习算法,但是很容易精明的大多数人来说,特别是数学倾向的人来说,是决策树因其易于理解的图形化表示。本研究使用DT算法建立模型,可以预测金融机构的财务状况。也我们的研究旨在确定最具影响的财务比率在评估这些金融机构的性能使用随机森林变量选择方法的13个16预测成为最相关的模型。我们的模型显示精度高使用我们的数据集。这描述了DT算法可以精确预测时,金融机构的失败。C5.0算法精度最高的三个算法我们使用,其次是CART算法,最后但并非最不重要,C4.5平均。其他统计信息中可以看到各种DT模型表 4。其他统计信息中可以看到各种DT模型表 4

在各种适应DT算法的统计信息。

决策树算法 精度 P 价值 卡巴 没有信息率
与所有初始预测数据集 C5.0 1 2.2 e−16 1 0.4899
C4.5 0.9412 2.2 e−16 0.9094 0.5076
0.8787 2.2 e−16 0.8078 0.4949

与13个预测数据集 C5.0 1 2.2 e−16 1 0.4646
C4.5 0.9387 2.2 e−16 0.9038 0.4646
0.8131 2.2 e−16 0.7048 0.4949
4.2。建议

未来的发展方向,我们的目标是增加数据集数量大于用于这个项目,因为它可以帮助改善精度超过获得的这个项目。同时,商业银行的财务数据可以用来代替使用农村银行的财务数据,只要他们符合独立变量用于构建模型。此外,在未来,我们希望把传统机器学习深度学习,以有效地解决农村银行的破产在加纳。

数据可用性

为我们提供了数据的机构明确表示,这是限制和不应该共享。

的利益冲突

作者宣称没有利益冲突。

农村银行,2018, http://bog.gov.gh Appiahene P。 Missah y . M。 预测银行的运营效率的信息技术投资 《人工智能和软计算国际会议(ICAISC) 2019年 Munich-Germany 学者们的世界 6 11 Akuamoah博阿滕 我。 Agyei 一个。 小额信贷在加纳:发展、成功因素和挑战 国际期刊的学术研究在会计财务和管理科学 2013年 3 4 153年 160年 印度木棉,s . N。,UT, Capital Bank collapse: confidence in banking sector still strong–Ofori Atta, 2017, http://MyJoyOnline.com 沼泽关闭DKM Microfinance-Citifmonline.com, http://citifmonline.com/Ghana,2015年 El - Dalabeeh 联合。K。 财务分析的作用比在评估性能(案例研究 :国家氯行业) 跨学科的当代商业研究杂志》上 2013年 5 2 13 29日 Arkan T。 财务比率的重要性在预测股票价格趋势:一个案例研究在新兴市场 Zeszyty Naukowe Uniwersytetu Szczecińskiego Finanse Rynki Finansowe Ubezpieczenia 2016年 1 1 13 26 10.18276 / frfu.2016.79-01 Delen D。 Kuzey C。 Uyar 一个。 使用财务比率测量公司业绩:决策树的方法 专家系统与应用程序 2013年 40 10 3970年 3983年 10.1016 / j.eswa.2013.01.012 2 - s2.0 - 84875369177 Deangelis 美国F。 人工智能:智能算法使系统 2014年 旧金山,加州,美国 《连线》杂志 专家系统 机器学习是什么?一个定义为专家系统 2017年 https://www.expertsystem.com/machine-learning-definition/ W。 J。 Q。 X。 II型糖尿病的风险预测基于随机森林模型 2017年 Yosinski J。 Clune J。 一个。 深层神经网络容易上当 :高信心预测图像面目全非 2015年 https://arxiv.org/abs/1412.1897 Szegedy C。 W。 Sutskever 我。 有趣的神经网络的性质 2013年 https://arxiv.org/abs/1312.6199 Uchenna E。 Adeyeye C。 Abiobaragha R。 多元回归学生的性能使用向前选择过程 落后的消除和逐步过程 2016年 5 12 226年 232年 Y。 Y。 机器学习方法,破产预测使用会计比率 开放的业务和管理杂志》上 2018年 6 1 1 20. 10.4236 / ojbm.2018.61001 Atiya 答:F。 使用神经网络破产预测信用风险:一项调查和新结果 IEEE神经网络 2001年 12 4 929年 935年 10.1109/72.935101 2 - s2.0 - 0035391093 Ocal N。 埃尔詹 m·K。 Kadioglu E。 使用决策树算法预测财务失败:实证测试在伊斯坦布尔证交所的制造业 国际经济和金融杂志》上 2015年 7 7 189年 206年 10.5539 / ijef.v7n7p189 m·J。 d·K。 合奏破产预测神经网络 专家系统与应用程序 2010年 37 4 3373年 3379年 10.1016 / j.eswa.2009.10.012 2 - s2.0 - 71349086364 奥多姆 m D。 Sharda R。 破产预测的神经网络模型 2 《1990年IJCNN国际神经网络联合会议 1990年 圣地亚哥,加州,美国 IEEE 163年 168年 10.1109 / IJCNN.1990.137710 徐瑞秋 C.-p。 H。 数据挖掘中的决策树分类算法的研究 国际期刊数据库理论和应用 2016年 9 5 1 8 10.14257 / ijdta.2016.9.5.01 马克斯 一个。 韦斯顿 年代。 M。 包网 多元回归分析:使用调整后的平方,并预测平方,包括正确的数量的变量 2018年 一款统计软件博客编辑器 http://blog.minitab.com/blog/adventures-in-statistics-2/multiple-regession-analysis-use-adjusted-r-squared-and-predicted-r-squared-to-include-the-correct-number-of-variables Breiman l 弗里德曼 j . H。 Olshen R。 石头 c·J。 分类和回归树 1984年 蒙特雷、钙、美国 沃兹沃思和布鲁克斯 Therneau T。 阿特金森 B。 里普利 B。 rpart:递归分区分类、回归和生存的树木。-15 R包的4.1版本 2019年 https://cran.r-project.org/package=rpart Hornik K。 布克塔 C。 Hothorn T。 Karatzoglou 一个。 迈耶 D。 Zeileis 一个。 包“RWeka” 2018年 H。 X。 H。 变量选择使用平均降低精度,平均减少基尼基于随机森林 学报2016年第七届IEEE软件工程和服务科学国际会议(ICSESS) 2016年8月 中国,北京 IEEE 219年 224年 10.1109 / ICSESS.2016.7883053 2 - s2.0 - 85017014574