复杂性

在这一页上

文摘介绍材料和方法实验结果结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

应用机器学习方法在复杂经济和金融网络

把这个特殊的问题

研究文章|开放获取

体积2019年| 文章的ID8460934| https://doi.org/10.1155/2019/8460934

一个混合方法利用过采样技术和降低成本的破产预测学习方案

盯上了勒 ,¹ 明Thanh签证官,² 湾签证官 ,³ Mi年轻的李 ,¹ 和唱钟旭Baik ¹

客座编辑: 蒂亚戈。席尔瓦

收到了 2019年4月30日

接受 2019年7月11日

发表 05年8月2019年

文摘

破产企业的诊断为企业主变得极其重要,银行、政府、证券投资者和经济利益相关者优化盈利能力以及减少投资的风险。许多研究已经为破产预测开发利用不同的机器学习方法在各种世界各地的数据集。由于数据集类不平衡问题发生在破产,一些特殊的技术将被用于提高预测的性能。过采样技术和厂商学习框架是两种常见的方法来处理类不平衡问题。厂商利用过采样技术和独立学习框架还可以提高可预测性。然而,对于数据集和非常小的平衡率,结合两个以上技术会产生更好的结果。因此,本研究发展一个混合方法利用过采样技术和降低成本的学习方案,即蛋白质破产预测朝鲜破产数据集。蛋白质的第一个模块是过采样模块和一个最佳的平衡比在第一个实验中发现,会给最好的整体性能验证集。然后,第二个模块使用厂商学习模型,即CBoost破产预测算法。实验结果表明,蛋白质会给破产的最佳性能值预测与现有方法相比。

1。介绍

机器学习和数据挖掘1- - - - - -9),这是学习的过程,以观察或数据中寻找模式和未来做出更好的决策基于训练样本,被广泛用于各个领域,如控制论(10- - - - - -14)、工程(15- - - - - -18,生物信息学19),医学信息(20.)、经济学(21- - - - - -27)等。特别是在经济上,有许多问题优化等业务的利润客户生命周期价值模型(CLVM),生产客户建模(CCM),动态定价、客户细分、推荐系统等。CLVM [23)是最重要的模型之一,电子商务业务。这些模型可以识别、理解和留住最有价值的客户,在您的业务。在这些模型的结果下,业务经理可以更好的商业策略优化盈利能力。CCM (24可以帮助公司确定他们的客户将停止使用他们的服务。这些模型的输出,客户列表,输入一个算法保留策略是重要的,因为它们帮助优化打折销售,营销活动,和其他有针对性的营销活动。动态定价模型(25)等基于几个因素灵活定价产品的目标客户,市场的需求的时候购买,以及客户是否与营销活动。与此同时,客户细分模型(26,27)集团客户角色基于特定变化其中使用几个聚类和分类算法。推荐系统是机器学习的另一个主要的方式证明了它的商业价值。推荐系统筛选大量的数据来预测可能的任何给定的客户是购买一个项目或享受一块内容,然后向用户显示这些东西。结果是一个更好的客户体验,鼓励参与,减少流失。银行贷款和系统性风险(28,29日是另一个问题在经济学领域,吸引了很多的关注。这个模型会发现经验证据反对多元化意味着降低系统性风险。

破产预测领域的业务也是一个热门话题吸引了许多科学家在世界各地的计算机科学和经济学。在计算机科学领域,破产预测,预测机器学习模型,分析公司的财务报表进行预测在未来的命运。基于这个任务的结果,投资者和管理者将为公司制定适当的战略破产。近年来许多研究已经开发使用各种方法来预测该公司破产(30.- - - - - -32]。2015年,金正日et al。30.]介绍了一种有效提高算法,即GMBoost,使用几何平均来处理破产发生在不平衡数据集的问题。该算法计算的误差分别多数类和少数类的错误。然后这些值将确定的几何平均值来计算下一阶段的重量值。接下来,一个新颖的方法31日]利用极端的梯度增加(XGB)合成特性提出了破产的预测。在这项研究中,提出的是自动生成的合成功能随机选择两个现有的特性和随机选择的算术操作有助于改善预测性能。最近,巴博萨et al。32)执行和评估一些现有的分类模型包括SVC(线性和RBF内核),人工神经网络(ANN),逻辑回归,提振,随机森林,和装袋,预测破产的公司。作者使用平衡破产数据集,包括449年破产企业和449年non-bankruptcy公司从1985年到2005年培训上述分类器。训练模型将由破产不均衡数据集收集评估在2006年到2013年之间,由133破产案件和13300 non-bankruptcy病例。本研究的实验结果表明,三种分类器包括增加、装袋、和随机森林为破产预测提供更好的结果。

在许多数据集在各种领域,类分布通常被称为不平衡类不平衡问题。这些数据集的少数类包含少量数据点而大多数类都有一个非常大的数据点的数量。具体来说,破产的数量是非常小的比正常的公司破产数据集。传统的分类模型有一个很大的偏向多数类这样的数据集。这是上面的模型的性能下降的原因。因此,许多方法给出处理类不平衡问题,分为四个类别(后33]。(1)算法水平的方法调整现有分类器对少数阶级偏见的学习(34,35在不改变训练数据。(2)数据级别的方法改变类(通过重采样数据空间分布36,37)提高预测的性能。有三个子类在这组包括欠采样,采样过密,混合动力技术。欠采样技术平衡数据分布的真实数据在多数类样本过采样技术添加合成少数类样本数据。与此同时,混合动力车技术结合欠采样和过采样技术。(3)厂商学习框架是混合方法,结合数据和算法级的方法。这些框架添加成本数据样本(数据层)和修改接受成本的学习过程(算法)38,39]。这个群体的分类器是偏向少数类通过假设这个类并寻求更高的误分类成本最小化总成本两类错误。(4)Ensemble-based方法通常由一个组合的集成学习算法和上面的技术之一,具体来说,数据级别和价格敏感的40]。通过结合数据水平方法集成学习算法,新的混合方法通常预处理数据之前每个分类器训练,而敏感的集合体,而不是修改基分类器,以接受成本的学习过程,通过集成学习算法指导成本最小化。上述四种方法根据数据集用于提高性能。

2018年,勒et al。41)首次引入朝鲜用KRBDS破产数据集。在这项研究中,作者提出了基于过采样(OSB)框架,利用过采样技术,技术水平的方法,属于数据处理类不平衡问题预测破产。这个框架发现SMOTE-ENN KRBDS是最好的过采样技术。然后,Le et al。42)提出了一种基于集群的提高(CBoost)算法来处理类不平衡问题。CBoost方法被认为是一个敏感的学习框架处理类不平衡问题。框架,即RFCI,基于CBoost算法达到最好的AUC(接受者操作特征曲线下的面积)与较短的处理时间与第一个框架和几个破产预测的方法。在这项研究中,我们提出一种混合方法,即蛋白质,结合了过采样技术和降低成本的学习框架一起破产预测方案。我们建议的方法首先使用SMOTE-ENN调整类KRBDS与特定的平衡分配比例。然后,蛋白质将使用CBoost算法预测破产。第一个实验是找到最好的归一化技术进行StandardScaler, MinMaxScaler, RobustScaler KRBDS。第二个实验是找到最优平衡率采样过密阶段。蛋白质与现有方法的比较将第三实验评估。

本手稿的其余部分的结构如下。部分2首先总结了实验数据集,即KRBDS,过采样技术,即SMOTE-ENN, CBoost算法。本研究的主要贡献,部分2介绍了破产预测混合方法,即蛋白质。进行了两个实验找到最佳的平衡率和展示提出了破产预测方法的有效性。最后,结论以及一些未来的研究与破产预测给出了部分有关的问题4。

2。材料和方法

本部分首先介绍了实验数据集,即KRBDS。然后,我们总结了过采样技术命名SMOTE-ENN和厂商学习框架命名CBoost算法。最后,建议的方法,即蛋白质,将会介绍。

2.1。实验数据集

KRBDS首次引入了Le et al。41韩国金融公司提供的)。从财务报表发布的韩国企业从2016年到2017年,十九金融功能,经常被使用在前面的破产预测研究包括资产、负债、资本、利润等提取。资产是任何资源拥有的业务如建筑,设备,和股票而责任被定义为任何类型的借用人或银行为提高他们的业务。此外,资本是任何经济资源使用的企业家和企业购买他们需要让他们的产品或提供他们的服务。同时,利润是一个经济利益时意识到的数量从商业活动中获得的收入超过费用,成本,和税收需要维持活动。这些值在金融领域非常重要的考虑公司的业绩,特别是破产预测。这些特性和一些统计信息包括最大值、最小值,和平均和中描述表所示1。

有307破产企业和120048家正常公司在KRBDS平衡率为0.0026。这个比例是极端小的正常正确分类器预测破产。因此,我们需要开发一些特定的技术来提高性能。

2.2。过采样技术与MOTE-ENN

重采样技术属于数据水平方法处理类不平衡问题是最常见的方法通过调整类分布。重采样技术包括三个子目录包括过采样技术,欠采样技术,混合动力技术如图1。欠采样技术平衡数据分布的真实数据在多数类样本过采样技术实现这一目的通过添加合成少数类样本数据。与此同时,混合动力车方法结合欠采样和过采样技术。

这些技术的优点是平衡类分布改善预测性能。然而,并没有绝对优势的重采样方法。这些技术的应用依赖于用例适用于和数据集本身。同时,欠采样技术的缺点是,他们可以消除潜在的有用的数据样本,可能是重要的感应过程。当少数类样本的数量太小比多数类样本像KRBDS,欠采样技术成为无效。在这种情况下,许多在多数类样本删除。此外,过采样的主要缺点是,通过精确的拷贝现有的例子,可能过度拟合。过采样的第二个缺点是,它增加了训练的例子。因此,系统增加培训时间和所需的内存以保存训练集。

2018年,勒et al。41)进行过采样框架,介绍了过采样技术的实证评价KRBDS破产预测。几个少数Over-sampling过采样技术,如合成技术(打)36],Borderline-SMOTE [44),自适应合成(ADASYN)抽样方法(45],SMOTE-ENN [46],SMOTE-Tomek [46)被用来提高破产预测性能。在本研究进行的实验发现,SMOTE-ENN KRBDS是最好的过采样技术。这种方法总结如下。

击杀算法首次提出了拉et al。36]2002年,生成合成少数样本基于特征相似性最初的少数样本。首先,将决定了k最近的邻居(NNs)用为每个少数样本。

图2(一个)演示了三号发自连接与由一条线。生成一个合成数据样本( )为 ,将随机选择一个元素_我在和_我在。的特征向量的特征向量的总和吗和价值,可以通过乘以向量之间的区别和用一个随机值从0到1 ( ),以下方程: 在哪里是一个元素 : 。

(一)

(b)

根据(1),合成样品沿着线段连接是一个点x_我和随机选择_我∈ 。图2 (b)显示了一个玩具打算法的例子。新样品x_新在之间的界限x_我和_我。

然后,SMOTE-ENN将附近的清洗规则基于最近邻(新奥集团)[编辑46清理不必要的类之间的重叠,去除样本不同于两个样品的三个最近的邻居。图3显示了新奥集团的例子。一般来说,SMOTE-ENN还使用杀的过采样步骤,然后使用新奥集团把重叠的例子如图4。

2.3。基于集群的增强算法

最近,Le et al。42厂商)提出CBoost算法是基于学习框架处理类不平衡问题发生在破产有效数据集。CBoost算法首先集群中的大多数类破产数据集,即。,non-bankruptcy公司应用k均值聚类与k= 45,被认为是最好的k基于实验结果(值42]。然后,对于每一个样本属于多数类算法将决定这个样本的距离最近的中心点。让d_马克斯数据样本的距离的最大值在课堂上破产的公司。CBoost算法然后分配每个数据样本的值等于少数类d_马克斯。然后,用CBoost算法确定初始权重如下: 在哪里d(x_我)指的是数据点之间的距离x_我和多数类和最近的中心点d(x_我)=d_马克斯对少数类。方程(2),以便在多数类样本中心关闭点和样品相比,少数类会有更高的体重值进一步在多数类样本。CBoost将规范化这些值通过以下方程: 在哪里米数据点的总数在训练集,这一步将确保最初的重量帮助弱分类器分类更准确地在多数类样本接近中心点以及少数类样本。因此,它将提高总体性能等类不平衡问题破产数据集。

对于每一个迭代,CBoost识别弱学习者用h_t(x),生产用最低分类错误 ,这个标识符用计算重量 ,并确定下重量W_{t+ 1}为下一次迭代如下。在哪里是归一化的因素。最后,该算法将结合所有弱学习者做出最终的分类器H如下。在哪里h_t(x)是弱的学习者在迭代tth和是它的重量。

简而言之,CBoost是一个贪婪算法,发现一个薄弱的学习者在一个迭代中,优化学习者的重量,并更新加权分布为下一次迭代。算法结合了所有薄弱的学习者(5)来创建最终的分类器。CBoost算法的流程图如图5。

2.4。KRBDS破产预测混合方法

KRBDS的平衡比例非常小,导致性能降低厂商的过采样和独立学习。因此,本研究提出了一种混合方法,它结合了过采样技术和降低成本的学习方案(蛋白质)破产预测KRBDS提高整体性能。

提出了蛋白质在图的流程图6。KRBDS是第一个规范化使用归一化模块,使用最好的归一化技术在第一个实验中(数据预处理)。接下来,五倍交叉验证模块将用于把KRBDS分成五个部分,在这四个部分被用于训练和剩下的部分是用于测试交替。

训练集将进入模块发现最优平衡的比例。这个模块将训练集划分为两个子集:训练集和验证集。使用这些设置,此模块尝试各种平衡比率SMOTE-ENN KRBDS和会发现最优平衡比率为将在第一个实验中。训练集由SMOTE-ENN平衡最好的平衡比前面步骤中被发现。这一阶段后,重新取样将利用训练集训练CBoost破产预测算法。测试集将被用来评估建议的方法。

3所示。实验结果

3.1。实验设置

实验方法是在Python 2.7中实现环境和在电脑上执行与英特尔酷睿i7 - 2600 CPU (3.40 GHz×2芯),8 GB RAM运行Ubuntu 16.04 LTS。此外,实现了SMOTEENN imbalanced-learn包(47)和装袋,演算法,随机森林,MLP Scikit-learn包(48]。Python imbalanced-learn包是一个开源工具箱由好几种方法来处理问题的类不平衡而Scikit-learn包是一个自由软件机器学习库的Python编程语言。

显示该方法的有效性,我们比较先进的方法和蛋白质之间的性能KRBDS破产预测。前四个方法装袋(BG)演算法(AB),随机森林(RF),多层感知器(MLP)由客观的推荐等。32]。这些方法被用来预测直接破产;即。,there is no resample approach applied to adjust the class distribution. The来基于聚类方法结合欠采样方法技术(43]与BG、AB、射频和MLP分类器。的 - - - - - - 方法使用SMOTE-ENN过采样方法与平衡率=(1)结合BG, AB,射频,MLP分类器预测破产。的方法是引入RFCI Le et al。42)和方法该方法(蛋白质)。此外,研究采用5倍交叉验证在不同配置的10倍褶皱为每个运行得到的平均性能。

接下来,我们使用GridSearchCV Scikit-learn包(48把几个参数的装袋,演算法,随机森林,和延时。我们把n_estimators(150)和max_samples装袋(0.2),learning_rate演算法(0.1),max_depth 随机森林max_iter(150),learning_rate_init(0.01)hidden_layer_sizes(5)50延时。

3.2。评价指标

本研究使用了两个评价指标包括AUC (ROC曲线下的面积)和G-mean(几何平均数)比较性能实验方法之一。ROC曲线(接受者操作特征曲线)是一个图形显示一个分类模型的性能分类阈值。这条曲线情节真阳性率(TPR)和假阳性(玻璃钢)计算如下。在哪里TP,FN,《外交政策》,TN真阳性,假阴性、假阳性,分别和真正的底片。降低了分类阈值分类更项目积极,从而增加假阳性和真正的优点。AUC (ROC曲线下的面积)提供了一个聚合的性能在所有可能的分类阈值。如果一个算法有比另一个更大的AUC算法,这个算法更好。

从中华民国,Youden指数之间的垂直距离是45度的直线和ROC曲线上的点被用来确定最优阈值下限。Youden指数决定如下。最优截止阈值对应的最大价值。分别从这个门槛,敏感性和特异性,将决定。的根是G-mean classwise敏感性的产物。这种方法试图最大化的准确性在每个类,同时保持这些精度的平衡。对于二进制分类G-mean平方的根产品的敏感性和特异性。类似于AUC, G-mean更大更好的算法。

3.3。数据预处理

在本节中,我们使用一些标准化技术包括StandardScaler MinMaxScaler, RobustScaler原始功能。StandardScaler可实现原始特征创建标准化的特征通过删除单元方差均值和扩展。MinMaxScaler转换功能的扩展每个特性给定范围而RobustScaler尺度特性使用健壮的统计离群值。蛋白质被用来预测破产的归一化特性。表的性能结果2表明KRBDS StandardScaler是最好的归一化技术。因此,我们应用StandardScaler接下来的实验。请注意,StandardScaler被发现只使用训练数据的设置,然后我们这些设置用于训练和测试数据。

3.4。寻找最优平衡率

本节进行寻找KRBDS蛋白质的最佳平衡率。使用不同的平衡率从0.003到1过采样模块,我们获得的auc估值集如图所示7在五倍。根据结果,我们发现,平衡率在0.08给最好的平均AUC验证集。因此,我们使用这个值在最后一个实验我们建议的方法。

3.5。性能结果

图8显示的箱线图AUC KRBDS实验方法的五倍。CUS_AB,我们可以很容易地看到发现CUS_BG CUS_RF, CUS_MLP, OSE_MLP没有达到良好的结果。其余的方法获得更多的积极的结果。

图9介绍了箱线图的G-mean AB的所有实验方法表明,射频,NLP, OSE_RF, RFCI,蛋白质G-mean而言是最好的方法。

表3介绍了这些方法的平均auc和G-mean标准差。根据这些结果,装袋没有重新取样方法给可怜的结果在78.8 AUC,分别。同时,演算法、随机森林和延时显示接受的结果为84.9,86.2和86.7的AUC。此外,基于聚类技术的欠采样方法(UCS) [43)负责减少分类算法的性能包括装袋,延时,射频,AB。因此,UCS不适合KRBDS当它平衡比例非常小。的方法、OSE-BG OSE-AB、OSE-RF OSE-MLP,给整个AUC为83.9,85.4,86.6,和72.8,分别。与此同时,RFCI [42)使用厂商的学习算法,即在AUC CBoost,达到86.6。我们提出的方法优于其他方法,实现整体的AUC为87.1。此外,表3也报道G-mean的实验方法。根据这些结果,蛋白质达到最好的价值G-mean而OSE-RF获得第二个值。此外,RFCI, MLP、射频和OSE-RF也有好的结果。一般来说,该方法有最佳值为KRBDS AUC和G-mean之间的平衡。

此外,我们采用多重态包(49)进行多个涉及所有可能的两两对比的实验方法,其结果也呈现在表3。该方法的平均等级是1.3,是最好的AUC的排名。同时,它可以指出我们的建议的结果没有统计学差异对结果的随机森林,延时,OSE-RF, RFCI当p值都大于0.05。此外,p值(≤0.05)表明,差异蛋白质对剩下的测试分类器的结果具有统计学意义。

最后,图10介绍了在KRBDS功能蛋白质的方法的重要性。我们可以很容易地看到,F3(总资产),F4(流动负债在一年内),F6(总负债)、F7(资本),F8(已获盈余),和F16(营业外收入)是最重要的特性。相反,F1(流动资产),F2(固定资产、或者固定资本财产),F9(总资本),F10(后总资本负债),F13(净利润),F14(销售和管理费用),和F19(净收入)是不重要的特征,因此他们在该模型可以删除。

4所示。结论

本研究提出了一个混合方法利用过采样技术和降低成本的学习框架方案破产预测朝鲜破产数据集。在第一阶段,将平衡训练集的过采样模块,利用SMOTE-ENN算法最优平衡率。然后,第二个模块使用厂商学习框架,即CBoost,破产预测。在本研究进行了两个实验表明该方法的有效性。第一个实验是找到最优的平衡比例会给最好的整体性能破产预测训练集,使用最优平衡率被发现在第一个实验中,我们评估性能的AUC与G-mean我们建议的方法与现有的方法。结果表明,蛋白质在KRBDS破产预测优于现有方法。

在未来,我们将关注如何找到最优特征选择方法使用进化算法。此外,一些先进的方法来预测来自多个信息源的破产将研究以提高性能。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究得到了MSIP(科技部、信息通讯技术和未来的规划),韩国,在全国卓越计划IITP SW(2015-0-00938)监督的信息与通信技术研究所(计划和评估)。

引用

t·h·库比蒂诺,m . Guimaraes Carneiro郑,j . Zhang和l .赵”方案高度数据分类使用随机游走和网络措施,”专家系统与应用程序卷,92年,第303 - 289页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
t·c·席尔瓦和l .赵机器学习在复杂网络施普林格,2016年。
视图: MathSciNet
t·勒b .签证官,p . Fournier-Viger m . y . Lee和s . w . Baik”SPPC:一个新的树结构挖掘数据流,可擦模式”应用智能卷,49号2、478 - 495年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
t·勒b签证官,s . w . Baik”高效的算法挖掘第一流的- k可擦使用修剪策略和包含的概念模式,”人工智能技术的工程应用卷,68 - 2018页。
视图: 出版商的网站 | 谷歌学术搜索
t·勒阮,黄齐,签证官,和w·Pedrycz“采矿限制inter-sequence模式:一个新颖的方法来应对项目限制,”应用智能,48卷,不。5,1327 - 1343年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
t . Kieu b .签证官,t·勒z邓,和b·勒“矿业top-k同现项目顺序模式。”专家系统与应用程序卷,85年,第133 - 123页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
签证官,t·勒f . Coenen,陈宗柏。香港”,挖掘频繁项集使用n-list和包含的概念,“国际期刊的机器学习和控制论,7卷,不。2、253 - 265年,2016页。
视图: 谷歌学术搜索
签证官,t·勒·g·阮,t .香港“高效的算法挖掘可擦写封闭模式从产品数据集,“IEEE访问5卷,第3120 - 3111页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
g .阮t·勒b签证官,b . Le“EIFDD:一个有效的方法对可擦itemset矿业非常密集的数据集,”应用智能,43卷,不。1,第94 - 85页,2015。
视图: 出版商的网站 | 谷歌学术搜索
b . l . r . Stojkoska和k . v . Trivodaliev”的物联网智能家居:挑战和解决方案,“《清洁生产卷,140年,第1464 - 1454页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
m . Wollschlaeger t·萨德,j . Jasperneite”未来的工业通信:自动化网络在物联网时代和行业4.0,“IEEE工业电子杂志,11卷,不。1,17-27,2017页。
视图: 出版商的网站 | 谷歌学术搜索
n . p .阮和s . k .香港滑模肖观察者四轴飞行器执行器故障诊断的无人机,“应用科学,8卷,不。10日,第1893条,2018年。
视图: 谷歌学术搜索
n . p .阮和s . k .香港”容错控制四轴飞行器的无人机使用鲁棒自适应滑模方法,”能量,12卷,不。1,第95条,2019。
视图: 谷歌学术搜索
n阮和s .香港”故障诊断和容错控制方案四轴飞行器无人机总损失的致动器,”能量,12卷,不。6日,第1139条,2019年。
视图: 出版商的网站 | 谷歌学术搜索
t . n .阮h . Nguyen-Xuan s . Lee和j·李,“小说分析基础的方法使用组的数据处理方法,几何非线性问题”计算机应用力学和工程方法卷,354年,第526 - 506页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
t . n .阮c . h .泰国灾区,h . Nguyen-Xuan和j·李,“NURBS-based碳nanotube-reinforced功能梯度复合壳后屈曲分析,“计算机应用力学和工程方法卷,347年,第1003 - 983页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
t . n .阮c . h .泰国h . Nguyen-Xuan和j·李,“NURBS-based分析碳nanotube-reinforced功能梯度复合壳,”复合结构卷,203年,第360 - 349页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
t . n .阮c . h .泰国h . Nguyen-Xuan和j·李,“功能梯度材料板的几何非线性分析使用一种改进的移动克里格meshfree方法基于一种精制塔板理论,“复合结构卷,193年,第280 - 268页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
d . Le和诉Pham HGPEC: Cytoscape应用预测新的疾病基因和disease-disease协会和证据收集基于异构网络的随机游走,“BMC系统生物学,11卷,不。1,第61条,2017。
视图: 出版商的网站 | 谷歌学术搜索
d . j . Hemanth j . Anitha和l . h的儿子“大脑信号由圆形反向传播人类情感分析和深度kohonen神经网络,”电脑和电子工程卷,68年,第180 - 170页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
d·m·法齐奥·t·c·席尔瓦b . m . Tabak和d . o . Cajueiro“通胀目标制和金融稳定:机构的质量有关系吗?”经济模型卷,71年,页1 - 15,2018。
视图: 出版商的网站 | 谷歌学术搜索
t·勒b .签证官,h . Fujita n .阮和s . w . Baik”一个快速和准确的方法对破产预测使用方物流损失了基于gpu的极端的梯度增加,”信息科学卷,494年,第310 - 294页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
a . Vanderveld Pandey, a .汉,r·帕尔克”一个engagement-based电子商务、客户生命周期价值系统”美国22 ACM SIGKDD国际会议302年,页293 - 2016年8月旧金山,加州,美国。
视图: 出版商的网站 | 谷歌学术搜索
朱b, b . Baesens和s . k . vanden Broucke”技术的实证比较类不平衡问题在客户流失预测,“信息科学卷,408年,第99 - 84页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
d . a . Chekired l . Khoukhi和h t . Mouftah“分散cloud-SDN在智能电网架构:一个动态定价模型,”IEEE工业信息,14卷,不。3、1220 - 1231年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
陈x, y, m .杨聂,z赵,黄和j·z”PurTreeClust:聚类算法从大量的客户交易数据,客户细分”IEEE工程知识和数据,30卷,不。3、559 - 572年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
h . v .长,l . h .儿子m . Khari et al .,“建设geodemographic分割模型的一种新方法和预测分析,“计算智能和神经科学卷,2019篇文章ID 9252837, 10页,2019。
视图: 出版商的网站 | 谷歌学术搜索
m d s亚历山大·t·c·席尔瓦,b . m . Tabak“银行贷款和系统性风险:financial-real部门网络和反馈的方法,”《金融稳定,38卷,第118 - 98页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
b . m . Tabak t·c·席尔瓦,a . Sensoy”金融网络。”复杂性卷,2018篇文章ID 7802590, 2页,2018。
视图: 出版商的网站 | 谷歌学术搜索
m·金·d·康,h·b·金”基于几何平均数与over-sampling提高算法解决破产预测数据不平衡问题,“专家系统与应用程序,42卷,不。3、1074 - 1082年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
m . Zięba s . k . Tomczak, j . m . Tomczak”合奏了树木与合成特性生成应用程序破产预测,“专家系统与应用程序58卷,第101 - 93页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
f·巴博萨,h .木村和e·奥特曼“机器学习模型和破产的预测,”专家系统与应用程序卷,83年,第417 - 405页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
答:费尔南德斯,加西亚,m . Galar r . c . Prati f . Herrera, b。杰哈卡胡奇学习不平衡数据集施普林格,2018年。
y, y . Lee, g·“支持向量机分类在非标准情况下,”机器学习,46卷,不。1 - 3、191 - 202年,2002页。
视图: 出版商的网站 | 谷歌学术搜索
b .刘、马y和c . Wong“提高关联规则分类器,”PKDD,第317 - 293页,2000年。
视图: 谷歌学术搜索
n . v .拉k·w·鲍耶l . o .大厅,和w·p·Kegelmeyer“击杀:少数over-sampling合成技术,”人工智能研究杂志》上》16卷,第357 - 321页,2002年。
视图: 出版商的网站 | 谷歌学术搜索
t·勒和s . w . Baik”,一个健壮的框架,自我保健问题识别与残疾儿童,”对称,11卷,不。1,第89条,2019。
视图: 谷歌学术搜索
n v·乔,d . a . Cieslak l . o .大厅,和a . Joshi”自动制衡失衡及其经验与成本的关系,“数据挖掘和知识发现,17卷,不。2、225 - 252年,2008页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
c .凌诉盛,杨问:“测试厂商策略决策树,”IEEE工程知识和数据,18卷,不。8,1055 - 1067年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
m . Galar A·费尔南德斯e . Barrenechea h . Bustince f . Herrera,“回顾集合体的类不平衡问题:装袋,提振,和混合型方法,”IEEE系统,人,控制论,C部分:应用程序和评论,42卷,不。4、463 - 484年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
t·勒·m·y·李,j . r .公园和s . w . Baik“过采样技术破产预测:小说的特性从一个事务数据集,“对称,10卷,不。4、第79条,2018年。
视图: 谷歌学术搜索
t·勒·l·h·儿子,m . t .签证官m . y . Lee和s . w . Baik”破产预测基于集群提高算法在一个高度不平衡的数据集,”对称,10卷,不。7日,第250条,2018年。
视图: 谷歌学术搜索
w·林,c .蔡、胡y和j . Jhang“class-imbalanced Clustering-based欠采样的数据,”信息科学卷,409 - 410年17-26,2017页。
视图: 出版商的网站 | 谷歌学术搜索
h·汉W.-Y。王,B.-H。毛,“Borderline-SMOTE:一种新的over-sampling方法在不平衡数据集学习,”智能计算国际会议的程序(ICIC 05)卷,3644在计算机科学的课堂讲稿2005年8月,页878 - 887。
视图: 谷歌学术搜索
h .他y呗,e·a·加西亚和美国,“ADASYN:自适应抽样方法合成不平衡学习,”程序的国际联合会议上神经网络(IJCNN 08年)2008年6月,页1322 - 1328。
视图: 出版商的网站 | 谷歌学术搜索
g·e·A·p·A·巴蒂斯塔r . c . Prati和m . c . Monard”研究平衡机的几种方法的行为学习训练数据,”ACM SIGKDD探索通讯》第六卷,没有。1页,2004页。
视图: 出版商的网站 | 谷歌学术搜索
g . Lemaitre f . Nogueira, c . k . Aridas”Imbalanced-learn: python工具箱解决不平衡数据集的诅咒在机器学习中,“机器学习研究杂志》上,18卷,不。17日,1 - 5,2017页。
视图: 谷歌学术搜索
f . Pedregosa g . Varoquaux a Gramfort et al .,“Scikit-learn:机器学习在Python中,”机器学习研究杂志》上》12卷,第2830 - 2825页,2011年。
视图: 谷歌学术搜索 | MathSciNet
加西亚和f . Herrera”,一个扩展的统计比较分类器在多个数据集所有成对比较,”机器学习研究杂志》上9卷,第2694 - 2677页,2008年。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

5342年

下载

2152年

引用