文摘

破产企业的诊断为企业主变得极其重要,银行、政府、证券投资者和经济利益相关者优化盈利能力以及减少投资的风险。许多研究已经为破产预测开发利用不同的机器学习方法在各种世界各地的数据集。由于数据集类不平衡问题发生在破产,一些特殊的技术将被用于提高预测的性能。过采样技术和厂商学习框架是两种常见的方法来处理类不平衡问题。厂商利用过采样技术和独立学习框架还可以提高可预测性。然而,对于数据集和非常小的平衡率,结合两个以上技术会产生更好的结果。因此,本研究发展一个混合方法利用过采样技术和降低成本的学习方案,即蛋白质破产预测朝鲜破产数据集。蛋白质的第一个模块是过采样模块和一个最佳的平衡比在第一个实验中发现,会给最好的整体性能验证集。然后,第二个模块使用厂商学习模型,即CBoost破产预测算法。实验结果表明,蛋白质会给破产的最佳性能值预测与现有方法相比。

1。介绍

机器学习和数据挖掘1- - - - - -9),这是学习的过程,以观察或数据中寻找模式和未来做出更好的决策基于训练样本,被广泛用于各个领域,如控制论(10- - - - - -14)、工程(15- - - - - -18,生物信息学19),医学信息(20.)、经济学(21- - - - - -27)等。特别是在经济上,有许多问题优化等业务的利润客户生命周期价值模型(CLVM),生产客户建模(CCM),动态定价、客户细分、推荐系统等。CLVM [23)是最重要的模型之一,电子商务业务。这些模型可以识别、理解和留住最有价值的客户,在您的业务。在这些模型的结果下,业务经理可以更好的商业策略优化盈利能力。CCM (24可以帮助公司确定他们的客户将停止使用他们的服务。这些模型的输出,客户列表,输入一个算法保留策略是重要的,因为它们帮助优化打折销售,营销活动,和其他有针对性的营销活动。动态定价模型(25)等基于几个因素灵活定价产品的目标客户,市场的需求的时候购买,以及客户是否与营销活动。与此同时,客户细分模型(26,27)集团客户角色基于特定变化其中使用几个聚类和分类算法。推荐系统是机器学习的另一个主要的方式证明了它的商业价值。推荐系统筛选大量的数据来预测可能的任何给定的客户是购买一个项目或享受一块内容,然后向用户显示这些东西。结果是一个更好的客户体验,鼓励参与,减少流失。银行贷款和系统性风险(28,29日是另一个问题在经济学领域,吸引了很多的关注。这个模型会发现经验证据反对多元化意味着降低系统性风险。

破产预测领域的业务也是一个热门话题吸引了许多科学家在世界各地的计算机科学和经济学。在计算机科学领域,破产预测,预测机器学习模型,分析公司的财务报表进行预测在未来的命运。基于这个任务的结果,投资者和管理者将为公司制定适当的战略破产。近年来许多研究已经开发使用各种方法来预测该公司破产(30.- - - - - -32]。2015年,金正日et al。30.]介绍了一种有效提高算法,即GMBoost,使用几何平均来处理破产发生在不平衡数据集的问题。该算法计算的误差分别多数类和少数类的错误。然后这些值将确定的几何平均值来计算下一阶段的重量值。接下来,一个新颖的方法31日]利用极端的梯度增加(XGB)合成特性提出了破产的预测。在这项研究中,提出的是自动生成的合成功能随机选择两个现有的特性和随机选择的算术操作有助于改善预测性能。最近,巴博萨et al。32)执行和评估一些现有的分类模型包括SVC(线性和RBF内核),人工神经网络(ANN),逻辑回归,提振,随机森林,和装袋,预测破产的公司。作者使用平衡破产数据集,包括449年破产企业和449年non-bankruptcy公司从1985年到2005年培训上述分类器。训练模型将由破产不均衡数据集收集评估在2006年到2013年之间,由133破产案件和13300 non-bankruptcy病例。本研究的实验结果表明,三种分类器包括增加、装袋、和随机森林为破产预测提供更好的结果。

在许多数据集在各种领域,类分布通常被称为不平衡类不平衡问题。这些数据集的少数类包含少量数据点而大多数类都有一个非常大的数据点的数量。具体来说,破产的数量是非常小的比正常的公司破产数据集。传统的分类模型有一个很大的偏向多数类这样的数据集。这是上面的模型的性能下降的原因。因此,许多方法给出处理类不平衡问题,分为四个类别(后33]。(1)算法水平的方法调整现有分类器对少数阶级偏见的学习(34,35在不改变训练数据。(2)数据级别的方法改变类(通过重采样数据空间分布36,37)提高预测的性能。有三个子类在这组包括欠采样,采样过密,混合动力技术。欠采样技术平衡数据分布的真实数据在多数类样本过采样技术添加合成少数类样本数据。与此同时,混合动力车技术结合欠采样和过采样技术。(3)厂商学习框架是混合方法,结合数据和算法级的方法。这些框架添加成本数据样本(数据层)和修改接受成本的学习过程(算法)38,39]。这个群体的分类器是偏向少数类通过假设这个类并寻求更高的误分类成本最小化总成本两类错误。(4)Ensemble-based方法通常由一个组合的集成学习算法和上面的技术之一,具体来说,数据级别和价格敏感的40]。通过结合数据水平方法集成学习算法,新的混合方法通常预处理数据之前每个分类器训练,而敏感的集合体,而不是修改基分类器,以接受成本的学习过程,通过集成学习算法指导成本最小化。上述四种方法根据数据集用于提高性能。

2018年,勒et al。41)首次引入朝鲜用KRBDS破产数据集。在这项研究中,作者提出了基于过采样(OSB)框架,利用过采样技术,技术水平的方法,属于数据处理类不平衡问题预测破产。这个框架发现SMOTE-ENN KRBDS是最好的过采样技术。然后,Le et al。42)提出了一种基于集群的提高(CBoost)算法来处理类不平衡问题。CBoost方法被认为是一个敏感的学习框架处理类不平衡问题。框架,即RFCI,基于CBoost算法达到最好的AUC(接受者操作特征曲线下的面积)与较短的处理时间与第一个框架和几个破产预测的方法。在这项研究中,我们提出一种混合方法,即蛋白质,结合了过采样技术和降低成本的学习框架一起破产预测方案。我们建议的方法首先使用SMOTE-ENN调整类KRBDS与特定的平衡分配比例。然后,蛋白质将使用CBoost算法预测破产。第一个实验是找到最好的归一化技术进行StandardScaler, MinMaxScaler, RobustScaler KRBDS。第二个实验是找到最优平衡率采样过密阶段。蛋白质与现有方法的比较将第三实验评估。

本手稿的其余部分的结构如下。部分2首先总结了实验数据集,即KRBDS,过采样技术,即SMOTE-ENN, CBoost算法。本研究的主要贡献,部分2介绍了破产预测混合方法,即蛋白质。进行了两个实验找到最佳的平衡率和展示提出了破产预测方法的有效性。最后,结论以及一些未来的研究与破产预测给出了部分有关的问题4

2。材料和方法

本部分首先介绍了实验数据集,即KRBDS。然后,我们总结了过采样技术命名SMOTE-ENN和厂商学习框架命名CBoost算法。最后,建议的方法,即蛋白质,将会介绍。

2.1。实验数据集

KRBDS首次引入了Le et al。41韩国金融公司提供的)。从财务报表发布的韩国企业从2016年到2017年,十九金融功能,经常被使用在前面的破产预测研究包括资产、负债、资本、利润等提取。资产是任何资源拥有的业务如建筑,设备,和股票而责任被定义为任何类型的借用人或银行为提高他们的业务。此外,资本是任何经济资源使用的企业家和企业购买他们需要让他们的产品或提供他们的服务。同时,利润是一个经济利益时意识到的数量从商业活动中获得的收入超过费用,成本,和税收需要维持活动。这些值在金融领域非常重要的考虑公司的业绩,特别是破产预测。这些特性和一些统计信息包括最大值、最小值,和平均和中描述表所示1

有307破产企业和120048家正常公司在KRBDS平衡率为0.0026。这个比例是极端小的正常正确分类器预测破产。因此,我们需要开发一些特定的技术来提高性能。

2.2。过采样技术与MOTE-ENN

重采样技术属于数据水平方法处理类不平衡问题是最常见的方法通过调整类分布。重采样技术包括三个子目录包括过采样技术,欠采样技术,混合动力技术如图1。欠采样技术平衡数据分布的真实数据在多数类样本过采样技术实现这一目的通过添加合成少数类样本数据。与此同时,混合动力车方法结合欠采样和过采样技术。

这些技术的优点是平衡类分布改善预测性能。然而,并没有绝对优势的重采样方法。这些技术的应用依赖于用例适用于和数据集本身。同时,欠采样技术的缺点是,他们可以消除潜在的有用的数据样本,可能是重要的感应过程。当少数类样本的数量太小比多数类样本像KRBDS,欠采样技术成为无效。在这种情况下,许多在多数类样本删除。此外,过采样的主要缺点是,通过精确的拷贝现有的例子,可能过度拟合。过采样的第二个缺点是,它增加了训练的例子。因此,系统增加培训时间和所需的内存以保存训练集。

2018年,勒et al。41)进行过采样框架,介绍了过采样技术的实证评价KRBDS破产预测。几个少数Over-sampling过采样技术,如合成技术(打)36],Borderline-SMOTE [44),自适应合成(ADASYN)抽样方法(45],SMOTE-ENN [46],SMOTE-Tomek [46)被用来提高破产预测性能。在本研究进行的实验发现,SMOTE-ENN KRBDS是最好的过采样技术。这种方法总结如下。

击杀算法首次提出了拉et al。36]2002年,生成合成少数样本基于特征相似性最初的少数样本。首先,将决定了k最近的邻居(NNs)用 为每个少数样本

2(一个)演示了三号发自 连接与 由一条线。生成一个合成数据样本( ) ,将随机选择一个元素 的特征向量 的特征向量的总和吗 和价值,可以通过乘以向量之间的区别 用一个随机值 从0到1 ( ),以下方程: 在哪里 是一个元素 :

根据(1),合成样品沿着线段连接是一个点x和随机选择 2 (b)显示了一个玩具打算法的例子。新样品x在之间的界限x

然后,SMOTE-ENN将附近的清洗规则基于最近邻(新奥集团)[编辑46清理不必要的类之间的重叠,去除样本不同于两个样品的三个最近的邻居。图3显示了新奥集团的例子。一般来说,SMOTE-ENN还使用杀的过采样步骤,然后使用新奥集团把重叠的例子如图4

2.3。基于集群的增强算法

最近,Le et al。42厂商)提出CBoost算法是基于学习框架处理类不平衡问题发生在破产有效数据集。CBoost算法首先集群中的大多数类破产数据集,即。,non-bankruptcy公司应用k均值聚类与k= 45,被认为是最好的k基于实验结果(值42]。然后,对于每一个样本属于多数类算法将决定这个样本的距离最近的中心点。让d马克斯数据样本的距离的最大值在课堂上破产的公司。CBoost算法然后分配每个数据样本的值等于少数类d马克斯。然后,用CBoost算法确定初始权重 如下: 在哪里d(x)指的是数据点之间的距离x和多数类和最近的中心点d(x)=d马克斯对少数类。方程(2),以便在多数类样本中心关闭点和样品相比,少数类会有更高的体重值进一步在多数类样本。CBoost将规范化这些值通过以下方程: 在哪里数据点的总数在训练集,这一步将确保 最初的重量 帮助弱分类器分类更准确地在多数类样本接近中心点以及少数类样本。因此,它将提高总体性能等类不平衡问题破产数据集。

对于每一个迭代,CBoost识别弱学习者用ht(x),生产用最低分类错误 ,这个标识符用计算重量 ,并确定下重量Wt+ 1为下一次迭代如下。 在哪里 是归一化的因素。最后,该算法将结合所有弱学习者做出最终的分类器H如下。 在哪里ht(x)是弱的学习者在迭代tth和 是它的重量。

简而言之,CBoost是一个贪婪算法,发现一个薄弱的学习者在一个迭代中,优化学习者的重量,并更新加权分布为下一次迭代。算法结合了所有薄弱的学习者(5)来创建最终的分类器。CBoost算法的流程图如图5

2.4。KRBDS破产预测混合方法

KRBDS的平衡比例非常小,导致性能降低厂商的过采样和独立学习。因此,本研究提出了一种混合方法,它结合了过采样技术和降低成本的学习方案(蛋白质)破产预测KRBDS提高整体性能。

提出了蛋白质在图的流程图6。KRBDS是第一个规范化使用归一化模块,使用最好的归一化技术在第一个实验中(数据预处理)。接下来,五倍交叉验证模块将用于把KRBDS分成五个部分,在这四个部分被用于训练和剩下的部分是用于测试交替。

训练集将进入模块发现最优平衡的比例。这个模块将训练集划分为两个子集:训练集和验证集。使用这些设置,此模块尝试各种平衡比率SMOTE-ENN KRBDS和会发现最优平衡比率为将在第一个实验中。训练集由SMOTE-ENN平衡最好的平衡比前面步骤中被发现。这一阶段后,重新取样将利用训练集训练CBoost破产预测算法。测试集将被用来评估建议的方法。

3所示。实验结果

3.1。实验设置

实验方法是在Python 2.7中实现环境和在电脑上执行与英特尔酷睿i7 - 2600 CPU (3.40 GHz×2芯),8 GB RAM运行Ubuntu 16.04 LTS。此外,实现了SMOTEENN imbalanced-learn包(47)和装袋,演算法,随机森林,MLP Scikit-learn包(48]。Python imbalanced-learn包是一个开源工具箱由好几种方法来处理问题的类不平衡而Scikit-learn包是一个自由软件机器学习库的Python编程语言。

显示该方法的有效性,我们比较先进的方法和蛋白质之间的性能KRBDS破产预测。前四个方法装袋(BG)演算法(AB),随机森林(RF),多层感知器(MLP)由客观的推荐等。32]。这些方法被用来预测直接破产;即。,there is no resample approach applied to adjust the class distribution. The 基于聚类方法结合欠采样方法技术(43]与BG、AB、射频和MLP分类器。的 - - - - - - 方法使用SMOTE-ENN过采样方法与平衡率=(1)结合BG, AB,射频,MLP分类器预测破产。的 方法是引入RFCI Le et al。42)和 方法该方法(蛋白质)。此外,研究采用5倍交叉验证在不同配置的10倍褶皱为每个运行得到的平均性能。

接下来,我们使用GridSearchCV Scikit-learn包(48把几个参数的装袋,演算法,随机森林,和延时。我们把n_estimators(150)和max_samples装袋(0.2),learning_rate演算法(0.1),max_depth 随机森林max_iter(150),learning_rate_init(0.01)hidden_layer_sizes(5)50延时。

3.2。评价指标

本研究使用了两个评价指标包括AUC (ROC曲线下的面积)和G-mean(几何平均数)比较性能实验方法之一。ROC曲线(接受者操作特征曲线)是一个图形显示一个分类模型的性能分类阈值。这条曲线情节真阳性率(TPR)和假阳性(玻璃钢)计算如下。 在哪里TP,FN,《外交政策》,TN真阳性,假阴性、假阳性,分别和真正的底片。降低了分类阈值分类更项目积极,从而增加假阳性和真正的优点。AUC (ROC曲线下的面积)提供了一个聚合的性能在所有可能的分类阈值。如果一个算法有比另一个更大的AUC算法,这个算法更好。

从中华民国,Youden指数之间的垂直距离是45度的直线和ROC曲线上的点被用来确定最优阈值下限。Youden指数决定如下。 最优截止阈值对应的最大价值 分别从这个门槛,敏感性和特异性,将决定。的根是G-mean classwise敏感性的产物。这种方法试图最大化的准确性在每个类,同时保持这些精度的平衡。对于二进制分类G-mean平方的根产品的敏感性和特异性。类似于AUC, G-mean更大更好的算法。

3.3。数据预处理

在本节中,我们使用一些标准化技术包括StandardScaler MinMaxScaler, RobustScaler原始功能。StandardScaler可实现原始特征创建标准化的特征通过删除单元方差均值和扩展。MinMaxScaler转换功能的扩展每个特性给定范围而RobustScaler尺度特性使用健壮的统计离群值。蛋白质被用来预测破产的归一化特性。表的性能结果2表明KRBDS StandardScaler是最好的归一化技术。因此,我们应用StandardScaler接下来的实验。请注意,StandardScaler被发现只使用训练数据的设置,然后我们这些设置用于训练和测试数据。

3.4。寻找最优平衡率

本节进行寻找KRBDS蛋白质的最佳平衡率。使用不同的平衡率从0.003到1过采样模块,我们获得的auc估值集如图所示7在五倍。根据结果,我们发现,平衡率在0.08给最好的平均AUC验证集。因此,我们使用这个值在最后一个实验我们建议的方法。

3.5。性能结果

8显示的箱线图AUC KRBDS实验方法的五倍。CUS_AB,我们可以很容易地看到发现CUS_BG CUS_RF, CUS_MLP, OSE_MLP没有达到良好的结果。其余的方法获得更多的积极的结果。

9介绍了箱线图的G-mean AB的所有实验方法表明,射频,NLP, OSE_RF, RFCI,蛋白质G-mean而言是最好的方法。

3介绍了这些方法的平均auc和G-mean标准差。根据这些结果,装袋没有重新取样方法给可怜的结果在78.8 AUC,分别。同时,演算法、随机森林和延时显示接受的结果为84.9,86.2和86.7的AUC。此外,基于聚类技术的欠采样方法(UCS) [43)负责减少分类算法的性能包括装袋,延时,射频,AB。因此,UCS不适合KRBDS当它平衡比例非常小。的 方法、OSE-BG OSE-AB、OSE-RF OSE-MLP,给整个AUC为83.9,85.4,86.6,和72.8,分别。与此同时,RFCI [42)使用厂商的学习算法,即在AUC CBoost,达到86.6。我们提出的方法优于其他方法,实现整体的AUC为87.1。此外,表3也报道G-mean的实验方法。根据这些结果,蛋白质达到最好的价值G-mean而OSE-RF获得第二个值。此外,RFCI, MLP、射频和OSE-RF也有好的结果。一般来说,该方法有最佳值为KRBDS AUC和G-mean之间的平衡。

此外,我们采用多重态包(49)进行多个涉及所有可能的两两对比的实验方法,其结果也呈现在表3。该方法的平均等级是1.3,是最好的AUC的排名。同时,它可以指出我们的建议的结果没有统计学差异对结果的随机森林,延时,OSE-RF, RFCI当p值都大于0.05。此外,p值(≤0.05)表明,差异蛋白质对剩下的测试分类器的结果具有统计学意义。

最后,图10介绍了在KRBDS功能蛋白质的方法的重要性。我们可以很容易地看到,F3(总资产),F4(流动负债在一年内),F6(总负债)、F7(资本),F8(已获盈余),和F16(营业外收入)是最重要的特性。相反,F1(流动资产),F2(固定资产、或者固定资本财产),F9(总资本),F10(后总资本负债),F13(净利润),F14(销售和管理费用),和F19(净收入)是不重要的特征,因此他们在该模型可以删除。

4所示。结论

本研究提出了一个混合方法利用过采样技术和降低成本的学习框架方案破产预测朝鲜破产数据集。在第一阶段,将平衡训练集的过采样模块,利用SMOTE-ENN算法最优平衡率。然后,第二个模块使用厂商学习框架,即CBoost,破产预测。在本研究进行了两个实验表明该方法的有效性。第一个实验是找到最优的平衡比例会给最好的整体性能破产预测训练集,使用最优平衡率被发现在第一个实验中,我们评估性能的AUC与G-mean我们建议的方法与现有的方法。结果表明,蛋白质在KRBDS破产预测优于现有方法。

在未来,我们将关注如何找到最优特征选择方法使用进化算法。此外,一些先进的方法来预测来自多个信息源的破产将研究以提高性能。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究得到了MSIP(科技部、信息通讯技术和未来的规划),韩国,在全国卓越计划IITP SW(2015-0-00938)监督的信息与通信技术研究所(计划和评估)。