文摘

针对不平衡数据的分类在金融数据挖掘,提出了一种两级分类算法基于支持向量机和资讯对不平衡数据进行分类。在第一阶段,两个看到下面成了一个支持向量机分类器构造,和样品分为四种类型:多数类(MC),少数类(MC),介绍了边界,离群值,然而算法分类边界和离群样本在第二阶段。此外,验证算法的有效性,在金融领域的一些不平衡的数据集。结果表明,该算法在金融主导执行精确营销分析,并与其他算法相比,该算法实现更好的性能在G-mean和AUC和F1索引。这项研究提供了一个有效的方法在金融领域不平衡数据的分类。

1。介绍

在网络金融的发展,数据的特点和技术的依赖是非常明显的。大量有价值的用户数据和事务数据的各部门之间的互动不断银行、保险、电子商务、电信和互联网金融企业(1,2]。这些大量的数据对数据处理和统计工作提出了更高的要求。因此,数据挖掘技术已经逐步取代了传统的统计方法和在金融领域得到了广泛的应用。

数据挖掘技术的应用可以快速计算出企业的经营状况,成本控制的效果,和其他财务指标。根据不同产品销售的市场发展,产业发展环境,和其他数据分析,建立财务预警数据系统。大数据挖掘和分析的技术,该公司自动获得公司的相关历史信息,分析了相关数据的相关性从多个层面和角度,准确地计算出下一阶段的销售情况,和随后的推广奠定了良好的基础,公司产品的销售和生产。

目前,金融数据挖掘的一个主要问题是数据的类不平衡。很大一部分的数据参与金融行业是不平衡数据,与不平衡数据集分类;也就是说,某些类别的样本数量多或多或少比另一个类别去了。例如,在欺诈检测的相关数据,在信用卡欺诈交易属于少数情况下,在成千上万的交易,可能会有只有一个欺诈交易。贷款违约数据,大部分的客户可以正常偿还贷款,其中只有少数违约贷款;客户信用评级数据,信誉良好的客户的数量比这更糟糕的信贷。电信客户流失数据,丢失的客户通常只占客户总数的一小部分。此外,不平衡数据广泛应用在金融市场极端风险预测、企业破产风险预测,和其他实际应用(3,4]。面对不平衡数据在金融领域,传统的数据挖掘算法旨在最大化总体分类精度可能有一个明显的倾向于多数类样本,从而忽略了学习的几个样品。然而,大多数的样品比类数据更有价值,和少量的样本的误分类可能会导致更多的损失。传统的数据挖掘算法无法满足的需求不平衡数据分类(IDC)在金融领域。如何有效地分类不平衡数据在金融数据挖掘已经成为一个研究热点。

为了解决IDC的问题,许多学者提出了不同的方法。其中,看到下面成了一个支持向量机(SVM)是广泛用于不平衡数据的分类(5]。看到下面成了分类算法只需要一个类的数据作为训练样本,可以有效地降低计算成本的分类。然而,仍然有一些缺点在现有看到下面成了分类算法不能有效处理类分布的重叠问题,可怜的噪声免疫力,参数灵敏度。

因此,本文将研究不平衡数据的分类提出了一个两级分类的角度看到下面成了一个基于支持向量机的分类算法,然而对不平衡数据进行分类。验证了算法的有效性,由多个金融领域的不平衡数据集。针对现有看到下面成了分类算法的缺点,提出了一种改进的IDC算法,选择几个具有代表性的数据集从金融欺诈检测、金融精确营销分析,和信用违约预测,该算法应用于这些数据集,分别以有效解决IDC在金融领域的问题。

2.1。在金融领域不平衡数据集

不平衡数据在金融领域的广泛存在。领域的金融欺诈检测、金融精确营销分析,和信用违约预测,数据往往类别不平衡的问题。例如(6),一个数据集提供的数据科学竞赛平台Kaggle是不平衡的,其中包含欧洲信用卡持卡人的交易记录。董et al。7)使用费舍尔方法筛选出重要的属性特征的数据集,并根据这些特性,结合支持向量机算法,实现欺诈检测。雪(8)创新提出了基于用户标签的功能集,包括用户ID、电子邮件地址、IP、和其他特性,实验表明,基于用户标签的分类特性集具有良好的歧视和泛化。领域等。9)提出了一个基于厂商的决策树分类算法学习和应用金融欺诈检测。除了类别不平衡的问题,从金融领域的数据也有问题,如复杂的来源,高功能维度、大样本大小,复杂的样本分布,和敏感的特性信息,尤其是属性类型的多样性的问题;即数据不仅包括数字而且类别属性。由于连续性和简单的计算数值属性,IDC的深入研究。

然而,很少有研究类别不平衡数据的分类和混合不平衡数据。在许多领域的金融实践中,混合数值和不平衡数据分类属性是常见的。例如,在常用的人口特征,“性别”、“教育程度”属性进行分类,而“年龄”数值属性;在信贷风险评估数据,“工作类型”和“财产状况”是所有类别属性,而“信用金额”和“当前的所有帐户”数值属性。因此,混合不平衡数据的分类不仅需要考虑类别不平衡的问题,还需要考虑的连续性数值属性和类别属性的离散性,这是更具挑战性。

2.2。分类算法

近年来,看到下面成了分类算法已被广泛用于解决国际数据公司(IDC)的问题。看到下面成了分类算法最初用于解决此类问题故障检测、目标检测、异常值采矿、图像识别、疾病检测、入侵检测和其他异常数据丢失的问题。解决他们的想法基本上是相同的。他们既不瞄准区分不同类别也不做一个预期的输出为每个样本但建立相应的数据描述边界仅使用一个类的样本。因此,训练样本集的描述,和未知样本的分类是测试样品是否符合描述(10]。

看到下面成了传统分类算法通常只使用多数类样本在应用过程中,但是,在实际问题中,有大量的数据集没有类标签。为了解决这个问题,布卢姆和米切尔(11)提出了一种基于协作学习的文字识别算法对几类样本或大量的未标记样本。Manevitz和尤瑟夫12看到下面成了一个支持向量机算法)提出了不同的实现方法,构建分离超平面时,假定的起源和样品在一定距离原点属于目标类而不是异常类。Yu et al。13)认为,由于没有使用负类样本,看到下面成了一个支持向量机需要大量的积极类训练样本产生一个精确的分类边界和基于支持向量机的分类算法提出了一个看到下面成了。因为看到下面成了分类算法只需要一个类的数据作为训练样本,它不需要平衡不平衡数据,缩短分类器的训练时间,所以它在许多领域有巨大的应用前景。特别是,它通常在IDC的解决问题有很好的效果。

3所示。基于SVM-KNN IDC算法

3.1。问题描述

看到下面成了SVM算法只需要一个类的样本作为训练集,它可以避免学习不足的问题几类IDC的任务,可以有效地降低计算成本,因此它被广泛用于国际数据公司(IDC)的任务。然而,它并不考虑类分布重叠的问题在不平衡数据集和噪音。金融等领域的实际应用,可能会有重叠的不同数据集的分布。重叠的类分布mC - mC问题样品将带来巨大困难看到下面成了SVM算法。此外,噪声的数据集可以看到下面成了一个支持向量机分类器的性能产生严重影响。如图1,如果看到下面成了传统SVM算法处理的数据集,它将面临巨大的困难。

如果看到下面成了一个标识符用于分类未知样本,图中蓝色区域1样品面积预测MC。显然,少数样本在该地区的分布MC和MC样本一致将被错误地归类为MC。看到下面成了SVM算法只学习一种样本信息,尽管它避免了不足的问题学习几类IDC任务,无法正确地分类重叠区域的边界样本类分布。同时,可能存在异常值(或噪声)在上面的数据集。看到下面成了SVM算法很容易受到噪声的影响,及其鲁棒性很差。此外,看到下面成了SVM算法对训练集的异常值很敏感,和离群值也会减少它的分类性能。

针对传统看到下面成了一个支持向量机算法的缺点,提出了一种两级IDC SVM算法基于看到下面成了和资讯。

2显示了边界样本和离群值的样本数据集,在红色区域样地预测mC,蓝色区域是样本区域预测mC,和绿色区域的区域边界样本。SVM-KNN算法使用majority-class探测器和minor-class检测器来检测上述数据集和分类结果结合在一起。

离群样本通常的一小部分样本偏离大部分样本,而边界样本通常是分布式的决策边界重叠区域的大多数类探测器和mC探测器,在特征空间是线性不可分的。它不仅继承了看到下面成了一个支持向量机算法的良好的性能在处理不平衡数据,也可以避免边界样本和异常值的影响样品的性能看到下面成了SVM算法,它提供了一种更为合理的机制来处理不平衡数据。

3.2。算法流程

SVM-KNN算法支持向量机算法不能有效解决问题,传统的看到下面成了处理边界样本和离群值样本通过两个阶段的分类。算法流程如图3

看到下面成了SVM算法对第一阶段进行分类。MC探测器和MC探测器是由看到下面成了学习的MC样本和MC样本训练集,和测试样本预测两个探测器。如果没有背离MC探测器和MC探测器在预测一个特定的示例中,第一阶段的分类结果直接被视为最后的样本的分类结果;否则,样品被认为是一个不确定的样本(即。,boundary sample or outlier sample), and the next stage is classified; Second, for boundary samples and outlier samples generated in the first stage, classification in the second stage is continued, where KNN is used to refine the classification of boundary samples and outlier samples, and the refined classification results are the final classification results of boundary samples and outlier samples. Thus, the divergence between the majority detector and the minority detector can be eliminated by the result of refining classification. In the first stage, the single-class SVM algorithm is used to fit the majority class samples and minority class samples in the training set. At the same time, only when there are outliers or boundary samples, the classification will enter the second stage, so as to resolve the disagreement between the majority detectors and minority detectors in the first stage.

3.3。第一阶段分类

自从看到下面成了SVM算法一次只能处理一个类,在第一阶段的SVM-KNN算法,看到下面成了一个支持向量机算法用于适应MC样品和MC样本,分别在训练集,也就是说,两次培训,构建两个分类器。具体定义如下。

定义1。给定一个不平衡的数据集 , 代表多数,少数类样本的子集 ,分别在哪里 , 分类器 由股份,支持向量机训练算法的一个子集 叫做majority-class探测器,分类器 由股份,支持向量机训练算法子集 被称为minor-class探测器。
MC探测器和MC探测器建造在不平衡数据集,可以将测试样本在第一阶段。对于一个样本tSVM-KNN算法进行测试,采用MC探测器和MC探测器探测,结合这两个探测器的分类结果。如果MC探测器的分类结果和MC检测器相结合在一起,四个组合可以形成如图4

定义2。给定一个不平衡的数据集 , 代表majority-class探测器和minor-class探测器由股份,支持向量机算法,分别。对于任何样品T要测试,如果两个 预测t−1(即 认为T不是一个大多数样本, 认为T不是少数样本)T据说是一个异类样本。如果两个 预测t为1(即 认为T多数样本 认为T少数样本)t是一个边界样本。
剔除离群值样本MC探测器和MC探测器,而边界样本接受MC探测器和MC探测器。他们通常的一小部分样本偏离大部分样本,而边界样本往往分布在MC之间的重叠区域的决策边界探测器和MC检测器,它提出了一种线性特征空间中的不可分割的状态。

3.4。阶段的分类

为样例t是否被测试t是一个异类样本或边界样本可以由结合MC探测器的预测结果和MC探测器。如果t不是一个异类样本或边界样本,最终预测结果的t可以直接获得在第一阶段根据分类结果。然而,如果t是个例外或边界样本,第二阶段的SVM-KNN算法需要进一步分类,即解决分歧MC检测器和MC探测器在第一阶段通过第二阶段的分类结果。

由于不平衡MC样本和MC样本的数量在整个数据集,第一阶段形成的边界样本和离群值样本分类也可能类别不平衡的问题。当在几类样品的绝对数量太小,传统的分类算法很难形成一个有效的学习分类边界。然而算法可能比其他复杂的分类器更健壮的重叠的类分布和噪声数据。类分布符合程度的增加,然而,分类器较低K执行比资讯分类器与一个更大的价值K价值;等异常样本噪音,稍微更大的价值K可以带来更好的鲁棒性。因此,然而算法提炼和分类边界样本和离群值生成样本在第一阶段。细化分类结果作为最终分类结果SVM-KNN算法的边界样本和离群值的样本。

4所示。实验

4.1。数据集

为了验证的有效性提出SVM-KNN在不平衡数据的分类算法在金融领域,我们选择了四个代表不平衡数据集从金融欺诈检测、金融精确营销分析,和信用违约预测,分别为:final_CreditCard Final_PaySim、个人贷款、银行营销。具体信息如表所示1

对于每个实验数据集t,10倍交叉验证方法是用于生成训练集和测试集。

4.2。评价指标

SVM-KNN相比有以下五个具有代表性的分类算法:资讯;支持向量机与mc;支持向量机与mc;边缘型SMOTE-KNN算法;EasyEnsemble-SVM算法。的G意味着价值,AUC值,F1是用作这些算法的性能评价指标。

5。结果与讨论

5.1。G的意思是

5显示的G-mean值SVM-KNN算法和其他五个不平衡数据集的分类算法四个金融领域。

从上面的实验结果,可以看出,除了Final_PaySim,GSVM-KNN低于Borderline-SMOTE-KNN意味着,银行营销G意思是低于EasyEnsemble-SVM,其他四个数据集,G意味着SVM-KNN算法更高的价值比其他算法。在个人贷款的数据集G意味着价值SVM-KNN算法0.048,0.156,0.155,0.003,和0.140高于其他五个分类算法,分别。因此,从的角度G意思是,SVM-KNN算法有更好的分类性能不平衡数据集从金融领域。数据清洗技术是用来消除噪声数据,重叠的样品,和边界数据采样过量的正负样本数据集样本,以提高合成样品的质量。

5.2。AUC

6显示的AUC值SVM-KNN算法和其他五个不平衡数据集的分类算法四个金融领域。

从以上实验结果,我们可以看到,AUC的变化趋势是相似的G的意思是。在个人贷款数据集,SVM-KNN算法的AUC值是0.113,0.081,0.205,0.102,和0.087高于其他五个分类算法,分别。这可能是由于这一事实的五分类算法对参数非常敏感在第一阶段,很难适应MC探测器和MC探测器在第一阶段,分别到最合适的状态,导致穷人不平衡数据的分类。

5.3。F1

7显示了F1的值SVM-KNN算法和其他五个分类算法在四个金融不平衡的数据集。

从图可以看出,SVM-KNN算法具有良好的分类性能在多个不同领域不平衡数据集。尤其是对传统的一类支持向量机算法,在Final_CreditCard数据集,其F1值是0.6低于SVM-KNN算法。此外,在个人贷款数据集,easyEnsembles SVM的性能是好的,但仍不如本文中的算法。看到下面成了传统SVM算法不考虑类分布重叠的问题在不平衡数据集和噪音。金融等领域的实际应用,可能会有重叠的分配不同类型的不平衡数据集,和类的问题分布之间的巧合mC样品和mC样品将带来巨大困难看到下面成了SVM算法。

从上面的实验结果,可以看出,与现有的具有代表性的分类算法相比,提出的SVM-KNN算法具有更好的性能在解决金融欺诈检测的问题,金融精确营销分析、信用违约预测,等等,这对IDC提供了一个有效的方法在金融领域。

6。结论

针对数据挖掘面临的不平衡数据分类研究在金融领域,本文的研究从单一类别的角度分类。支持向量机算法来解决这个问题,传统的看到下面成了不能有效处理重叠类分布和噪声免疫力差的问题,本文提出一种基于SVM-KNN IDC两阶段算法。的比较结果G-mean, AUC,F1的值不同的算法表明,它可以有效地解决IDC在金融领域的问题,实现金融欺诈检测更准确的结果,金融精确营销分析和信用违约预测。然而,本文没有选择特定的企业为载体来验证算法,以及后续的研究将集中在模型的具体应用,和所获得的经济效益。

数据可用性

数据集可以在访问请求。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由以下项目:(1)“研究广西金融发展促进经济转型升级路径在新经济时代”,项目号码是2016 py-sj19,(2)“研究金融支持中小民营企业转型升级的广西”,项目号码是2018 ky0585,和(3)“大学双语模式Courses-International金融”,北部湾大学的项目号码是QY16SY02。