文摘

一个有效的机器学习的实现意味着人工智能有着巨大的潜力为商业金融威胁评估和自动化公司和信用评级机构。本研究的范围是建立一个帮助商业资信咨询机构的预测框架造型/评估信用卡犯罪风险。机器学习可以使风险评估预测欺骗大不平衡数据的分类事务正常或骗子。在欺诈交易的情况下,可以将警报发送到相关的金融组织,可以暂停支付的释放特定的事务。RUSBoost等所有的机器学习模型,决策树,逻辑回归,多层感知器,K最近的邻居,随机森林,和支持向量机的整体预测性能定制RUSBoost是最令人印象深刻的。实验中所使用的评价指标敏感性,特异性,精度,F分数,接受者操作特征和精密召回曲线下的面积。数据集用于模型的训练和测试已从kaggle.com。

1。介绍

在这项研究中,“信用”这一术语指的是一种电子商务没有资金的方法。信用卡是一个薄,矩形金属或塑料块提供的金融机构,允许卡用户借现金支付产品和服务。信用卡持卡人执行偿还财务杠杆,利息支付,其他费用决定的时候。信用卡发行商通常提供其客户的信用额度(LOC),允许他们借现金取款。发行人通常预设贷款阈值取决于特定的信誉(1,2]。信用卡的使用是至关重要的,它在电子商务和网上资金转移中起着重要作用[3,4]。越来越多地利用信用卡带来许多威胁用户和公司发行的卡片。骗子继续寻找新的方式来实施作弊,这可能会导致相当大的损失的信用卡用户和这些公司(5,6]。

1.1。信用卡支付处理步骤

1说明支付转移到供应商的银行账户,当客户通过信用卡购物(7]:(一)通过网络客户端发送信用卡购买的东西——(物联网)启用刷卡设备/ POS /在线网站。(b)支付网关收集和传输安全事务细节商人的银行计算机系统控制器(c)银行处理器转发验证(即。,processing, clearing, and settlement) process to the Credit Card Interchange (CCI)(d)CCI转让交易客户的信用卡提供者(e)信用卡提供者接受或拒绝购买基于当前基金客户的账户,通过CCI的事务信息(f)CCI传输交易信息到供应商的银行计算机系统控制器(g)控制器系统的供应商的银行事务细节进一步传递到支付网关(h)支付网关保存,并将事务细节供应商和/或客户端(我)CCI转移所需的供应商的银行资金,进一步转移资金到商人的帐户(7]

1.2。在信用卡欺诈交易

欺诈和违法行为有不同的观点。协会认证的欺诈审查员(ACFE)是一家专业欺诈检查组织。其活动包括生产信息,形成工具和传授培训避免欺诈行为。ACFE称为“欺诈”作为自身效益的使用一个人的职业通过故意误用或滥用资产的组织3]。欺诈承诺与首席意图通过非法手段获得访问。它的经济增长造成不利影响,治理,甚至基本的社会价值观。任何涉及金钱和资源的技术基础设施可以被不道德的做法,违反了例如,拍卖网站系统,医疗保险,汽车保险,信用卡和银行。作弊在这些应用程序被认为是网络犯罪,可能导致重大经济损失(3,8]。

欺诈的信任可以降低工业、扰乱经济体系,并显著影响总体生活成本(9,10]。IoT-enabled系统保持跟踪他们的经营活动,可以有利于分析一些具体的模式。前面的方法基于手工处理如审计繁琐且效率低下是由于大型数据或属性。数据挖掘技术在大型数据集被认为是有效的评估小离群值(9,11,12]。欺诈导致巨大的商业损失。信用卡欺诈贡献每年数亿美元的收入损失,和一些估计显示,我们累计年度成本可能会超过4000亿美元(9]。

1.3。类型的信贷处理与纸牌相关的欺诈行为

科技的进步如互联网和移动设备增加了欺诈活动在最近一段时间(13]。骗子继续寻找新技术,因此,监测系统需要相应的发展。欺诈相关的信用卡可以大致分为离线和在线欺诈行为(14]:(我)离线信用卡欺诈发生当骗子偷了信用卡和使用它作为媒体的合法所有者。这是不寻常的金融公司会及时阻止失踪卡只要持卡人怀疑偷窃[3]。(2)在线信用卡欺诈行为更常见和严重的与离线信用卡信息的欺诈行为被骗子通过网络钓鱼,克隆网站,浏览和使用数字交易(3,15]。

全球连接通过新的和先进技术指数增加了信用卡欺诈。因此,这个问题已经获得了惊人的维度在目前的情况下,和一个合适的系统需要开发检测和避免这样的骗子。

1.3.1。欺诈防范系统(FPS)

FPS是第一种形式的国防技术系统对伪造的。这个阶段的目的是抑制第一欺诈。的技术在这个阶段禁止、摧毁和应对网络攻击的计算机服务器(软件和硬件),网络,或数据,例如,加密算法和防火墙来解读数据和阻止内部专用网络,分别是(3,16]。

1.3.2。欺诈检测系统(FDS)

FDS成为下一个安全措施发现和识别欺诈行为当他们到达网络并通知网络管理员(17]。早些时候,手工审计发现抽样法等方法用于检测任何此类欺诈(18]。这个方法来应对不同的环境、政治、法律和商业实践。提高检测效率,计算机和自动fds发达。FDS能力受限,识别主要是基于预定义的规则制定的专家。不同的数据挖掘方法正在开发有效地检测欺诈行为。在FDS古怪或离群值识别取决于行为分析方法,模型为每个实体行为的模式和评估的任何背离正常(19]。许多作者采用anomaly-based fds在不同领域的欺诈检测(20.- - - - - -23]。

1.4。分布式部署的安全相关的方面

金融公司确实承认独立控制系统的部署独奏交付渠道显然不再实现必要的警惕程度对非法账户操作。一个额外的安全层。,“Fraud Management,” is enhancing the robustness by combining with security protocols at the level of standard channel [24]。欺诈检测策略可以实现分布式的主动和被动,这取决于实现的数据分析在不同的交易订单。欺诈识别方法来源于数据处理,神经网络,和/或各种深度学习算法进行复杂的模型通过收集处理数据集活性欺诈管理确定嫌疑人转移。

新来的业务评估“动态”积极的欺诈管理适当的授权和终结之前,允许检测不寻常的事件之前,任何金融价值运动。积极的欺诈检测是通过迁移固有的安全,允许实时扫描前完成交易。统计分析和数据矿业相关方法实现共同特征被posttransactional数据来获得相关可疑欺诈战略管理的出现。

1.5。数据不平衡是一个重要的问题

偏态分布被视为FDS(首席敏感问题之一3]。通常,倾斜的数据问题是场景,有比以往更少的诈骗案例的实例(25),使学习者很难发现少数类数据的趋势(26]。此外,类不平衡有显著影响分类的效率模型,通常是由多数类标签。不平衡数据集对分类性能产生不利影响,倾向于多数类被蒙上阴影,从而忽略了少数类。如图2、数据平衡方法可以分为两个子分类,即,数据级方法和算法级方法(27]。

1.5.1。数据级方法

预处理等方法被重新定位应用之前收集到的数据分类算法。许多调查人员使用了平衡方法,即,欠采样和采样过密,FDS-related研究[3]。在欠采样,数据集的一部分的统治阶级是消除28]。广泛的FDS使用欠采样技术来平衡训练样本。过采样方法重复少数类样本数据。过采样技术并不是经常使用,因为它导致过度拟合的模型,特别是对噪声数据29日]。合成少数过采样技术(打)30.)被用于欺诈检测和视为优越补充目前的同行。击杀综合报道区新的少数实例。调查人员,在他们的研究31日),进行了许多使用各种数据级模拟方法(击杀和EasyEnsemble)来确定最合适的信用卡FDS (3]。

1.5.2。算法级方法

在这个类别,分类器被用来检测可疑类样本数据集。算法级方法使用厂商学习(CSL)来对抗不平等类分布。CSL地方成本变量误解的各种类认定成本矩阵存在的各种错误。成本与这些观测矩阵结构显著相关:假消极/积极的和真正的消极/积极(32]。另一个算法遵循FDS文学是使用学习者管理不平衡分布。这样学习者是免疫类不平等由学习者的内在特征与重复增量减少修剪产生错误(开膛手)33)或学习者加强对这个问题的内在变化(3]。

伪造交易有一个狭窄的比例在整个数据集,可能会阻碍FDS的效率。在信用卡系统中,分类合法事务导致顾客不满,这本身被认为比欺诈本身有害。如上所述,两种方法,即算法和数据的水平,被用来修复类失衡。研究人员在他们的工作34- - - - - -38),使用欠采样技术在处理信用卡FDS类偏态的关注。然而,斯多夫et al。26)已经使用过采样方法在信用卡FDS的预处理阶段。

相反,一个算法的水平方法之后使用厂商学习技术或使用学习者本身管理不均匀分布。领域等。39]使用降低成本的分类器解决方案类不平衡。Dorronsoro et al。21)利用非线性判别分析(NLDA)神经模型解决类失衡。居和陆40)使用了一个增强的不平衡类加权支持向量机(ICW-SVM)处理数据集的偏态。宾利et al。41)给定一个欺诈密度地图来提高检测精度。在一项由Pozzolo et al。42),作者建议竞赛模型选择正确的方法对不平衡数据集。陈(28)使用二进制支持向量系统(BSVS)和遗传算法(GA)从输入不平衡达到较高的预测精度。象美吉诗和酒井敦(43]建议建立一个非常快的决策树(VFDT)学习者,这可能为极其不平衡的数据集。Seeja和Zareapoor44)提出了管理类FraudMiner失衡通过显式输入不平衡数据分类模型。G.C. de Sa等人定制的贝叶斯网络分类器(BNC)信用卡欺诈检测算法45]。Husejinovic引入了一种方法来检测信用卡欺诈使用朴素贝叶斯和C4.5决策树分类器(46]。Arya等人提出了整体学习深度识别欺诈案件在实时数据流。该模型能够适应数据不平衡以及健壮的天生的交易模式等购买行为(4]。

2。研究的范围

这手稿探讨了问题的不平衡数据分类合并数据级和算法级技术检测使用的日志文件生成的信用卡诈骗犯在IoT-enabled终端。此外,一个适当的警报消息可以发送到的信用卡持有人或发行人恢复/阻塞事务。这里,随机采样(俄文)方法已经部署在数据层面和提高算法的水平。合并这两个组件RUSBoost [47]。这里,罗斯是一个数据采样技术,旨在减轻类不平等通过修改训练数据集的类分布。罗斯能消除大多数的实例类之前完全随机一个合理的类分布达到[48,49]。提高方法有助于改善弱分类器的分类精度通过结合弱的假设。最初,所有训练数据集的例子给出权重相等。基础学习者形成弱的假设在每个迭代的自适应增强(演)。据说提高自适应支持贫困学生随后调整以来的情况下不是由前分类器分类。矛盾与假设决定,每个实例的重量以这样一种方式修改,错误分类情况下提高权重,而正确分类样本减少重量。因此,连续刺激措施将产生假设它能够正确分类之前的错误标记的实例。毕竟重复,加权投票将用于分配一个类的样本数据集(48]。RUSBoost比过采样成本更低,装袋时用于分类(如SMOTEBagging)。

3所示。方法

3强调了不同阶段,信用卡事务日志(不平衡数据集)作为输入,并给一个警告银行或信用卡持有人有关事务的状态表现在一些IoT-based终端。

3显示信用卡事务日志,定制的RUSBoost (CtRUSBoost)得到应用,结果显示事务的状态。这里,构成了随机采样的方法提高按正常RUSBoost使用决策树算法的进一步扩展/定制使用SVM在装袋过程。CtRUSBoost可以部署在舞台/一步信用卡交换或信用卡提供者计算机控制器系统(如图1),从这些控制系统、警报信息可以升级为暂停或停止金融事务。该算法中使用的各种象征符号CtRUSBoost已经在表中定义1

(我) 输入: , , (与 )
(2) 输出:[(最大的最大的 值),(最多 值))
开始
(1) 初始化的 对所有
(2)
(一) 创建临时训练数据集 与重量分布 通过使用随机采样
(b) 决策树,考虑到样本集 和分配的重量
(c) 计算一个假设
(d) 把支持向量机考虑的样本集 和重量分布
(e) 计算一个假设
(f) 计算出伪凹陷和损失
(g) 计算参数更新的考虑因素:
(h) 更新
(我) 正常化 :
(3) 找到的值
(一) 为每个值 ,发现的最大价值
(b) 为每个值 ,应用装袋通过执行投票或平均在所有假设的值
(4) 计算最终的假说 之间的最大价值
结束

塞弗特的RUSBoost et al。48,49)已经被作者修改在这个研究工作。圆角矩形在步骤2 d, e, 3 a、3 b和4显示了作者提出的定制,这导致了相对更好的结果。在步骤1中,每个样品的重量是初始化 ,在哪里x在训练数据集的实例。疲软的假说,即DT和支持向量机,在步骤2 a-2i反复训练。在步骤2中,随机采样实现抑制类标签,直到达到所需的少数类比例在当前(临时)训练数据集 例如,如果所需的类比例为50:50,然后大多数类实例都可以排除,直到多数党和少数党类实例具有可比性。因此, 将有一个新的分销的重量吗 步骤2 b移动 决策树,生成弱的假设 (步骤2 c)。在步骤2 d中,支持向量机已经被用来计算弱的假设 在步骤2中e。伪损失 (基于凹陷 )已经决定在步骤2 f。

在步骤2中,假设值的元组被认为是哪里有错误。在这里,子表达式 , 的原始标签/类 行/元组数据集和 后获得的标签/类使用/部署弱学习者决策树。子表达式 数字信心值在吗 迭代的实例 ,标签在哪里 ,和子表达式 数字信心值是一样的吗 迭代的实例 早些时候,标签不匹配和获得 而不是 步骤2 g,参数 是计算 它象征着重量更新。在步骤2 h,重量分布得到更新 步骤2我在前一步规范值的计算。完成后 迭代,在步骤3中,最大的价值 已经计算在给定的决策树在增加,在之前的数据集的知识/学习段已被用于下一个数据段的假设值,但在最后一步,所有的结果尚未合并获得最后一个。相反,假设的最终价值已经从去年获得数据集。在步骤3 b,假设值通过使用支持向量机对每个数据段 通过执行投票或平均迭代已经完成的所有值 在步骤4中,最后的假设 已经计算以获得最大的价值

4所示。结果和实验

获得的结果在使用三种不同的数据集,即,(我)抽象数据集信用卡欺诈检测(50),(2)默认的信用卡客户数据集(51),(3)信用卡欺诈数据集(52本节所示。定制使用RUSBoost RUSBoost结果相比,决策树(DT),逻辑回归(LR),多层感知器(MLP),K最近的邻居(资讯),随机森林(RF),演算法和支持向量机(SVM)。

三个独立的数据集的基于元组的数量被当前的工作。数据集的不到五千元组被认为是小;元组的范围超过五千,不到一万人视为媒介;和那些有超过一万项被视为大范围。所有的数据集都分为两个分区,即。,80% and 20% of the full dataset, where the bigger portion has been taken for training and the smaller one for testing of the machine learning models.

4.1。小数据集

信用卡欺诈检测的数据集称为抽象数据集(dataset) (50)已经被从kaggle.com数据库。作者把这种习惯归类为小数据集,不到5000元组。数据集包括3075个客户的使用和11个属性。的3075个样本,2627代表nonfraudulent交易和448是欺诈性交易(约6:1)。11个变量在这个数据集描述表2

4.2。介质的数据集

信用卡客户端数据集的数据集称为默认数据集(B) (51)也被来自kaggle.com数据库。这包括违约支付细节,人口因素,信贷数据,支付历史,和信用卡公司账单在台湾从2005年4月到2005年9月。在30000年的观察,23364持卡人违约付款没有和6636年与地位,是的(大约4:1)。默认支付债务的金融领域被称为nonrepayment向信贷利息或本金或房地产等。违约时可能会导致买家无法提供支付时间,减缓支出、下降或下降[付款53]。

这个数据集使用二进制变量默认付款答案变量。表3解释了24个变量数据集B了。

4.3。大型数据集

数据集称为信用卡欺诈检测数据集(C) (52)被再次从kaggle.com数据库。这个数据集包括购买欧洲持卡人在2013年9月。这个示例数据集提出了为期两天的活动,与492年284807交易欺诈。数据集是高度不平衡,积极类(欺诈)构成0.172%的所有事务。的细节数据集的特性给出了表4和包括所有数值。

它只包括PCA变换产生的数值变量。Kaggle没有提供任何原始特性以及其他细节由于隐私问题。特性 是关键PCA组件untransformed属性为“时间”和“数量”。

4.4。评价指标

评估措施用来计算统计或机器学习模型的效率。混淆矩阵给出了输出矩阵,特征模型的完整的效率。在该模型中,安全上下文是健壮的,如果模型能够准确找到/分类诈骗犯事务。用于比较的度量毫升模型的准确性混淆矩阵的敏感性和特异性,精度,F1分,接受者操作特征(ROC)和面积精度召回(AUPR)。

4.1.1。混淆矩阵

混淆矩阵的表示是一个机器学习算法的性能在该领域相关。“混乱”一词出现的事实,如果机器学习模型会导致混淆两类,很容易看到的。图4描绘了一个混淆矩阵提供敏感性,特异性,回忆,和影响的信息。这个矩阵的列代表实际的类实例,虽然每一行代表一个预期的类实例。

灵敏度是一个估计的真正的正面实例将是积极的。更大的灵敏度值会有一个真正的积极价值,减少假阴性价值高。健康和财务所需模型与高灵敏度的目的。特异性被定义为实际底片的比例,将是负的。这个比例也可以称为假阳性率。特异性越高价值将意味着更高的真阴性和假阳性率低。

10/24/11。精度和F1分

精度和F -测量被认为是更适合估计的性能分类算法不平衡数据集时,在精度特点是阳性预测值。F混淆矩阵的测量灵敏度和精度的加权调和平均数54]:

精确的比例是真阳性阳性。为我们的问题陈述,诈骗犯事务的精度是衡量我们正确地认定为欺诈的所有事务,这实际上是欺诈。召回是指整体的比例预测算法的准确分类。此外,的价值F1给出了一个分数,平衡召回和精度。

这里,决策树,逻辑回归,多层感知器(MLP),K最近的邻居(资讯),随机森林(RF),演算法,和支持向量机(SVM)模型相比w.r.t.敏感性,特异性,精密,F1分。决策树是一种非参数,监督学习系统分类和回归的任务。决策树的目的是使用一个算法的方法,该方法基于不同条件下识别分割数据的方法。逻辑回归是一种机器学习算法,基于概率的原则。它是分类的算法用于类观测到一个特定的属性设置。使用物流乙状结肠功能、逻辑回归变换输出返回一个概率值。多层感知器神经网络是链接不同的层在一个有向图,即信号路径节点只走一个方向。在中长期规划,每个节点有一个非线性激活函数,除了输入节点。K最近的邻居是一个单一的算法保存所有现有案例相似度度量(例如,距离函数)和分类新病例。随机森林算法生成的决策树对数据样本,然后从每个最后获得的预测,通过投票选择最好的选择。演算法、序列弱学习者有关,这样每个弱分类器试图提高观测的分类不正确标签的前弱分类器。支持向量机使用一个内核技巧转换数据,然后确定一个最优边界之间潜在的输出。结果显示定制的RUSBoost之间比较,决策树,逻辑回归,多层感知器(MLP),K最近的邻居(资讯),随机森林(RF),演算法,支持向量机(SVM)模型提出了表5- - - - - -7

在表7,精度和所观察到的值F1分是南在SVM因为零除以零定义实数,在计算系统,它可以表示为南。

4.4.3。接受者操作特征(中华民国)

在机器学习中,测量效率是不可或缺的活动。中华民国被认为是最重要的测量测试任何分类模型的效率。它告诉多少模型可以区分类。AUC越高,这将是更好地预测0 1 0和1。ROC曲线的绘制与TP率与FP率、TP和FP利率y设在和x分别设在(55]。数据5- - - - - -7描绘中华民国定制RUSBoost及其同行技术,即。,simple RUSBoost, DT, LR, MLP, KNN, RF AdaBoost, and SVM, indicating the optimality of the proposed customization in RUSBoost on the benchmark datasets A, B, and C, respectively.

除了中华民国,精密召回(PR)曲线还被认为是更好的评估算法效率样本集时高度偏见。当前工作的结果也提出了通过一个AUPR曲线获得各种机器学习模型。

4.4.4。面积精度召回(AUPR)

中华民国曲线有一些缺点,包括类斜解耦。这就是为什么精度召回(PR)曲线,描述了精度与回忆,相当于错误发现率曲线,近年来引起了人们的关注。这个输出指标已广泛应用于各个领域,如计算机视觉计算生物学,数据分析,医学和自然语言处理。作为一个分数,AUPR总结了精度召回曲线,可以轻松地比较不同二进制分类模型。完美的分类器的AUPR′s值是1。高精度和召回系统将提供正确的标签结果(55]。数据8- - - - - -10描述定制的AUPR RUSBoost及其同行技术,即。,simple RUSBoost, DT, LR, MLP, KNN, RF, AdaBoost, and SVM, indicating the optimality of the algorithm on the benchmark datasets A, B, and C, respectively.

5。结论

在本研究工作,现有RUSBoost算法被使用定制的装袋和提高。定制RUSBoost后获得的结果提出的方法更可靠和真实与简单的/正常RUSBoost相比,DT,射频,演算法,支持向量机,LR,资讯和延时。因CtRUSBoost算法所得的分数,在三个基准数据集A, B和C从kaggle.com 96.30, 99.60,到100年,分别为敏感性;85.60、98.70和99.80,分别特异性;94.20、95.70和99.30,分别为精度;和88.60、97.60和99.60,分别F1分。获得的结果从CtRUSBoost表现在这项研究中使用的所有同行的方法以绝对优势取胜,这意味着它可以检测诈骗犯事务更加智能化。将来,这里提出的工作都可以通过添加进一步定制弱分类器的过程等K最近的邻居,线性回归,多层感知器。

数据可用性

在当前的研究中使用的数据是可用的kaggle.com和web链接数据集如下:kaggle小型数据集,https://www.kaggle.com/shubhamjoshi2130of/abstract-data-set-for-credit-card-fraud-detectionkaggle中等规模的数据集,https://www.kaggle.com/uciml/default-of-credit-card-clients-datasetkaggle大型数据集,https://www.kaggle.com/mlg-ulb/creditcardfraud。本研究的数据集用于支持这些发现都包含在本文参考数字(50- - - - - -52]。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由韩国国家研究基金会(NRF)授予由韩国政府资助(MSIT)(没有。2018 r1a4a1025632)。