目前,有越来越多的金融领域的欺诈行为。金融欺诈行为的检测和预防具有重要意义的调节和维持一个合理的金融秩序。深入学习算法被广泛使用,因为他们的识别率高,鲁棒性好,强烈的实现。因此,在电子商务的背景下,大数据,提出了一种定量检测算法基于深度学习的金融欺诈。首先,编码器用于提取的特征行为。同时,为了降低计算复杂度,特征提取是局限于时空的体积密度轨迹。第二,神经网络模型用于特性转换成行为视觉词表示,使用加权关联方法和功能进行融合来提高特征分类的能力。最后,使用稀疏重建错误判断和检测金融欺诈。该方法构建一个深有多个隐藏层的神经网络模型,学习特征的表达数据,并充分描绘了丰富的内部信息的数据,从而提高金融欺诈检测的准确性。实验结果表明,该方法可以有效地学习数据的基本特征,并显著提高欺诈检测算法的检测率。
随着经济的发展,越来越多的金融领域的欺诈行为。检测和预防具有重要意义的金融欺诈调节和维持一个合理的金融秩序
金融欺诈的研究中,神经网络算法已广泛应用由于其识别率高,鲁棒性好,和强大的实现(
通过分析上述文献,大多数现有的异常行为检测采用人工特性,但人工特性具有很高的计算复杂性,很难选择和设计一个有效的行为特性复杂的场景。因此,本文提出一种基于深度的定量欺诈检测算法学习电子商务的大数据。通过建立电子商务大数据特性的模型学习,挖掘电子商务大的金融欺诈行为特征数据,并输入到异常行为检测模型的特性,它可以有效地迅速和准确地识别金融欺诈行为,欺诈量化风险水平,并提前做好相关预防工作,以避免不必要的金融欺诈造成的损失。
欺诈是一个在当前社会普遍关注的话题。金融欺诈的定义是不同的(
面对成千上万的金融产品及其衍生产品在金融市场上,金融诈骗的方式是多样化的。根据所涉及的金融产品,有贷款欺诈,存款欺诈,比尔欺诈、银行卡欺诈、证券欺诈、和保险欺诈。从欺诈的来源,它可以分为内部欺诈、外部欺诈。根据欺诈,它可分为以下三种类型:
使用银行交易系统进行非法侵入或非法操作,寻求正当利益。银行卡欺诈、身份盗窃和大量的内部违规银行都是这种类型的。典型业务流程欺诈;这是欺诈行为,使用业务流程中的漏洞来获得利润,如图
提供虚假的承诺或欺诈虚假信用担保信息。大多数投资和融资欺诈属于这一类。骗子经常使用高利润投资作为诱饵获得输入金融欺诈投资者的一种手段。
欺诈隐瞒重要信息,造成信息不对称。在证券市场上,大量的内幕交易,故意隐藏它的风险在衍生产品的推广,并使用各种手段操纵证券市场,套利是所有类型的欺诈行为。
欺诈在金融业务流程。
不管具体的表达方式,有两种类型的金融骗子欺诈常用的:一个是“做些什么,这是假的,”,另一个是“下一个好,鱼是复杂的。”如图所示的细节
金融欺诈的主要方法。
去噪编码器DAE是一个三层神经网络用于重建原始数据
译码器的目的是重建原始数据
给定一组训练样本
其中,第一项代表了重建误差,第二项是重量惩罚项,第三项是稀疏约束。变量
使用梯度下降法来求解方程(
多个拓扑是一层一层地堆放SDAE形式,在较低的输出层DAE作为上层DAE的输入。SDAE训练,DAE在每一层都是训练有素的从底层到更高的层。训练有素的SDAE可以用来学习数据从输入一个有效的特征表示。
我们使用两个sda提取行为特性的三维体积轨迹上慢跑。3 d体积的大小
图
堆叠去噪编码器的结构。
轨迹,可以获得一个1440维的特征向量。随着目标的数量是不同的,感兴趣的点的数量和相应的轨迹是不同的,和行为特征的维度是不同的。因此,这个词包方法是用来表达行为特征的视觉单词,统一的维度的行为。
首先,提取的深度特性/深度轨迹。然后,集群的所有轨迹/深度获取深度特性
经过多次实验,外观视觉单词和运动视觉单词的数量是370年和430年,分别。因此,370维和430 -维视觉词向量代表外表深度特性和深度运动特性,分别。
为了提高分类能力的特征,基于加权关联特征融合方法用于相貌深度深度特性和运动特征结合,形成800维的特征向量。为方便演示,外表深度特性和运动特性是用深度
组内的一致性:通常所需的样品在同一类别在特征空间中尽可能。然而,通常情况下,同一类别的样本特性将有更大的方差。因此,没有必要要求所有样品在同一类别接近对方。一个权衡是确保样品在相同的邻居是尽可能在同一类。让
公式的变量
类之间的可分性:要求有良好的分辨率的特性;也就是说,两个不同类别的样本在特征空间尽可能远。然而,有许多这样的样本对。为了减少计算量,只有特征空间的样本对界面附近。因此,类之间的分离性定义如下:
公式的变量
公式的变量
公式的变量
后获得的特征行为,稀疏重建是用于检测欺诈行为。基本的想法是,任何行为都可以由一个稀疏表示正常训练样本的线性组合。对于正常行为,稀疏重建误差很小,而稀疏重建误差相对较大的异常行为。因此,我们可以根据重建检测欺诈行为错误。
有类
的变量
给定一个字典
一次最优稀疏编码
正常行为,稀疏重建的成本较小,而异常行为是更昂贵的。因此,如果
然后
如图
检测过程基于特征的金融欺诈的学习。(一)模型训练阶段。(b)异常检测阶段。
第二阶段是金融诈骗的检测阶段,如图
在欺诈检测算法,找到一个好的分类器是非常重要的评价指标。一方面,一个好的评价指标充分表明分类器解决问题的能力,可以显示用户更全面的影响。另一方面,选择分类器评价指标也有利于开发人员优化分类器模型。本文的主要评估标准准确率、召回率,和调频。表
混淆矩阵应用于检测模型。
| 实验分类标签 | |||
|---|---|---|---|
| 0 | 1 | ||
| 预测欺诈类别 |
|
TP:正确和积极的。 | 外交政策:错误是正的。 |
| 样品正常行为预测是正常的行为。 | 样品正常行为预测欺诈。 | ||
|
|
FN:假阴性。 | TN:正确地否认。 | |
| 欺诈行为的样本预测正常行为。 | 欺诈行为的样本预测欺诈。 | ||
基于上述四个分类,以下两个概念可以进一步扩展到评估分类器的性能:
精确反映了准确性。召回事件反映了召回率。一般来说,准确率是确定如何准确检测分类,和召回率表明多少项正确的分类检测。精度和召回指标有时是相反的。模型性能的测量精度和召回相结合成一个单一的值
当参数
因为
为了权衡模型的质量,本文还添加了ROC曲线和AUC指数来衡量的整体可信度分类器。中华民国代表TPR和玻璃钢之间的关系分类混淆矩阵。因此,ROC曲线的横坐标代表消极的概率被视为一个积极的实例,实例和纵坐标代表积极的概率实例被视为积极的实例。在中华民国图,TPR随玻璃钢的增加,增加越快,更加突出曲线,更好的响应模型的分类性能。AUC的价值是ROC曲线下的面积的大小。AUC是越大,分类器性能就越好。
总之,本文使用四个指标:准确率、召回率,调频,民国图表来衡量本文的实验结果的质量。
本文基于每个样本组的训练集和预测集,实际欺诈率和每组的预测欺诈率计算来评估模型的预测能力。实际欺诈率和预测欺诈率值和每组的折线图如表所示
比较实际的欺诈率和预测欺诈率在训练集。
| 样本数量 | 数量的样品 | 包含欺诈的数量 | 实际欺诈率 | 预测欺诈率 |
|
|
||||
| 1 | 300年 | 122年 | 39.665% | 39.495% |
| 2 | 300年 | 50 | 15.258% | 15.021% |
| 3 | 300年 | 35 | 10.178% | 9.885% |
| 4 | 300年 | 32 | 9.156% | 8.882% |
| 5 | 300年 | 26 | 7.125% | 6.647% |
| 6 | 300年 | 20. | 5.085% | 5.472% |
| 7 | 300年 | 20. | 5.731% | 5.658% |
| 8 | 300年 | 16 | 3.731% | 3.115% |
| 9 | 300年 | 14 | 3.058% | 3.102% |
| 10 | 300年 | 12 | 2.389% | 2.178% |
比较实际的欺诈率和预测欺诈率的测试集。
| 样本数量 | 数量的样品 | 包含欺诈的数量 | 实际欺诈率 | 预测欺诈率 |
|
|
||||
| 1 | 300年 | 116年 | 37.632% | 35.946% |
| 2 | 300年 | 47 | 14.246% | 14.268% |
| 3 | 300年 | 45 | 13.596% | 12.587% |
| 4 | 300年 | 35 | 10.175% | 10.158% |
| 5 | 300年 | 30. | 8.457% | 8.328% |
| 6 | 300年 | 20. | 5.082% | 4.389% |
| 7 | 300年 | 23 | 6.125% | 5.821% |
| 8 | 300年 | 14 | 3.059% | 2.985% |
| 9 | 300年 | 12 | 2.379% | 3.109% |
| 10 | 300年 | 10 | 1.695% | 1.479% |
对训练集和测试集分类预测。(一)培训。(b)测试。
通过上面的图表数据的分析,我们可以发现,本文提出的算法具有良好的预测能力无论平衡分布的数据或极端的不平衡。
为了验证该方法的有效性,本文的算法相比,以下四个方法:
林等。
瑞安et al。
刘等人。
彭et al。
在实验中,我们首先提取密集的轨迹。其次,随机选择500万轨迹训练SDA和使用k - means聚类方法得到370外观视觉单词和430个运动视觉单词。然后,我们随机选择800正常行为学习功能融合参数获取参数
测试结果不同的算法。
| 算法 | 精度 | 回忆 | 调频 | AUC |
|
|
||||
| 文献[ |
82.853% | 72.581% | 70.831% | 91.021% |
| 文献[ |
93.581% | 89.367% | 88.213% | 96.123% |
| 文献[ |
91.952% | 85.987% | 75.902% | 95.368% |
| 文献[ |
93.598% | 90.002% | 89.291% | 96.225% |
| 这篇论文 | 97.582% | 93.691% | 90.781% | 99.687% |
从表
集群图测试结果的不同的算法。
图
ROC曲线不同的算法。
为了验证算法的欺诈检测模型的优势提出,本文主要进行了两个实验。第一个实验是比较本文算法的时间效率和其他四个比较算法。第二个实验是分析集群的加速比,也就是说,要比较不同分类器检测的时间效率与不同数量的节点。
在这个实验中,我们选择不同数量的数据。其中,系统选择了四个节点对并行计算。实验结果如图所示
不同的算法的时间性能比较。
我们继续增加节点的数量检测的时间效率不同数量的节点完成欺诈检测任务。节点的数量,选择2个节点,4个节点,6节点,8节点,10个节点,12个节点,14个节点,16个节点,18节点,和20节点统计数据。实验结果如图所示
不同算法在不同节点的性能比较数字。
欺诈是很常见的在金融服务领域。大型数据库管理系统的基本系统软件由金融机构广泛应用。使用数据挖掘大型数据库系统是一种先进的技术手段检测金融欺诈。它是一种有效的方法来检测金融欺诈通过挖掘和分析大量的数据处理业务数据,找到相应的规则,规则和结论,然后结合人工分析。本文首先用于提取编码器的外观和运动特征的行为,为了降低计算复杂度,特征提取是约束的时空体积密度轨迹。其次,深度学习模型用于将功能转换为行为视觉词表示,使用加权关联并进行特征融合方法来提高分类能力的特征。最后,使用稀疏重建误差判断异常的欺诈。结果表明,本文提出的算法可以有效地学习数据的基本特征,具有更高的检测率和较低的计算复杂度。尽管本文取得了良好的实验结果,结果仍在实验阶段。我们的下一个研究计划是将该算法应用到实际的环境。 By obtaining data in the actual environment, we can further optimize our algorithm.
使用的数据来支持本研究的发现可以从相应的作者。
作者宣称他们没有利益冲突或人际关系可能出现影响工作报告。
这项工作是支持的创新火花四川大学的项目:研究进化和价值实现机制在知识链(项目没有知识的优势。:2019 hhs-18);研究形成、维护和转换的知识优势知识链的竞争优势(项目号:71971146);成都软科学研究项目“发挥成都科技创新”的作用,促进合作创新的“五区”(项目号:2019 - rk00 - 00182 zf)。