文摘
近年来,上市公司的财务欺诈事件不断发生。金融欺诈给资本市场和投资者带来了巨大损失,阻碍资本市场的投资分配机制。当前的金融欺诈预测模型可以判断该公司可能提前进行金融诈骗。所以,这可以减少经济损失。构建金融欺诈预测模型的关键因素是如何选择评价指标。本文分析了现有指标选择方法,发现预测精度低的问题。预测模型的一个关键指标选择方法,提出了基于机器学习的混合模式。首先,选择的算法和模型的贡献程度排名根据特性。支持向量机的分类效果好和异质性与其他模型用作中间评价模型。多种选择的指标从机器学习测试的AUC中间模式。 Well-performing machine learning models are selected and combined into multiple hybrid modes. These hybrid models are tested for AUC again. Experiments demonstrate that the hybrid mode of Lasso method and random forest performed best in the AUC test. The repetition indicators of the hybrid model are then selected as important indicators of the prediction model. Finally, the correlation of the indicators is tested, and the indicators beyond the threshold are removed. The selected key indicators effectively improve the accuracy of financial fraud prediction.
1。介绍
高社会经济的发展,人们需要更准确的数据和信息进行经济决策时。提供的财务指标是上市公司财务报告基础来衡量企业的发展现状。如果更多的上市公司发布虚假的财务报告。一方面,它将严重误导投资者,影响投资者的投资决策,降低投资的兴趣。另一方面,它将大大减少的自然资源分配效率资本市场,危害整个资本市场的发展,甚至危及社会经济的良性发展和国家经济。
因此,上市公司的财务数据进行了分析,和金融欺诈与高精度构造预测模型。是非常必要的有效预测上市公司的欺诈行为。上市公司的财务欺诈预测可以帮助真正准确地反映企业的经营状况,提高资本市场的效率,促进资本市场的健康稳定发展。
当前金融欺诈预测模型主要研究报道。作者比较了传统BP网络的应用效果,决策树和其他模型在财务报表舞弊识别模型。通过比较模型的预测精度,结果表明,贝叶斯网络的预测精度高(1]。本文结合机器学习算法首先选择假特征值通过人工神经网络和支持向量机,然后构建金融欺诈识别模型使用四种类型的决策树(2]。Nurul Herawati使用M-Score模型领域的金融和财务分析,结合数据挖掘技术,可以更有效地识别金融欺诈行为(3]。本文使用文本挖掘方法分析财务报告的内容,并发现欺诈信息在语言结构的文本内容(4]。作者用决策树和分类回归树的机器学习模型来预测上市公司的财务欺诈行为在美国(5]。实验结果表明,该方法如随机森林、支持向量机和神经网络应用于上市公司的财务舞弊识别模型,其中随机森林执行最好的测试集(6]。
作者首先使用Mann-Whitney测试和相关分析和主成分分析来识别财务指标构建模型(7]。作者进行了一项金融欺诈研究上市公司在马来西亚,总共涉及65份虚假样本和65年non-fraudulent样本。研究的目的是找到合适的财务指标预测金融欺诈(8]。本文构建基于数据挖掘技术的不同的金融欺诈识别模型,并结合样本进行财务舞弊识别测试。实验结果表明,组合模型的识别效率指标的随机森林算法和救援是最高的9]。作者使用多种统计方法提取特征,采用三种神经网络融合模型的方法,并使用AUC值作为评价指标来预测上市公司的财务欺诈(10]。
简而言之,构建金融欺诈预测模型的关键因素是如何选择评价指标。然后,现有方法在指标预测精度低的问题。本文提出了一种新颖的关键指标选择方法的金融欺诈预测模型基于机器学习的混合模式。首先,选择的算法和模型的贡献程度排名根据特性。我们选择这些模型作为皮尔森系数,套索法、多元线性回归模型,随机森林模型,XGBoost,决策树。一些参数的支持向量机和良好的分类效果作为中间评价模型。多种选择的指标从机器学习测试的AUC中间模式。良好的机器学习模型是根据实验结果选择并组合成多个混合模式。这些混合模型是AUC再次测试。最后确定最优混合模式,这种混合模式的重复指标作为预测模型的一个重要指标。 After correlation test of indicators, the indicators beyond the threshold are removed, and the key indicators of financial fraud prediction model are finally obtained. The selected key indicators are more accurate when making fraud predictions.
2。数据预处理
本文中的数据集收集来自2660家制造业上市公司11310年财务数据在第一个五年。防止数据涉及敏感内容,数据屏蔽了。有91欺诈在这些财务数据,样本和样本的比例为金融欺诈是否1:124年,类似于实际情况,相关的指标是361。最后,使用国旗列表明是否欺诈(0:正常,1:假)。收集到的数据是第一次读通过使用Excel获得多个数据表。这些表删除重复的属性合并,然后删除执行适度无关的特性,防止过度造成过度拟合特性,以及防止噪音问题。具体操作如下:(1)认为每年的数据相对独立,不管时间序列问题,所以“ACT_PUBTIME”的三个特点“END_DATE_REP,”和“PUBLISH_DATE”可以删除(2)金融欺诈预测主要考虑财务数据,删除非财务指标的六个特征“REPORT_TYPE”,“FISCAL_PERIOD”,“ACCOUTING_STANDARDS”,“FISCAL_PERIOD,”和“CURRENCY_CD, MERGED_FLAG。“附加功能使用方差与方差为0被过滤。最后,我们得到了财务数据示例表,如表所示1
2.1。处理缺失值
缺失的数据值在数据分析中常遇到的一个问题。缺失值的表1、模型和算法可能不是用于数据没有处理。同时,方法和手段不当处理缺失值可能会失去大量的信息,这在数据分析可能会得到错误的结论。缺失的数据分为三类:MCAR(失踪完全随机),3月(随机缺失),MNAR(失踪不是随机)。如何填充缺失的值是一个关键问题的研究。
2.1.1。填写缺失的值的两种方法
(1)删除缺失值。主要有简单的删除方法和体重的方法。简单的删除方法是直接删除样本用缺失值,这是最直接的方式来删除数据。这种方法适用于大样本大小,而是小缺失比例(如5%);加权法意味着MNAR缺失值的类型时,可以减少偏差加权的完整数据。标志着不完整的数据后,给出了完整的数据情况下不同的重量,重量的情况下可以通过物流或概率单位回归。加权法不适合多个失踪的属性。
(2)可能值插入缺失值。主要的思想是用最可能的值插入缺失值比造成信息损失全部删除不完整的样品。有几种常见的方法:(1)意味着插值。数据的属性分为数值和非数值方法。如果缺失值是数值类型,缺失值插值的平均特征的值;如果缺失值非数值类型,缺失值是补充模式(最高频率的值)(2)意味着同样的插值。意味着插值的使用有一个缺点:所有缺失的值属性含有缺失值满属性的平均值,这可能会导致精度降低时,随后执行分类算法。类似的想法意味着插值是首先分类样本,然后插入缺失值类的样本的均值
已知数据集 ,在哪里 。假设属性包含缺失值,将数据集划分为 和 ,在哪里包含有效值和缺失值 。
首先,使用集群的层次聚类算法 。让聚类的结果集群,计算平均值 这些集群上 。
为 , 。
为 ,第一个集群,假设它属于集群 ,然后 。(3)毫升(最大似然)。与随机缺失条件下,假设模型是正确完整的样例,未知参数的极大似然估计可以执行的边际分布的观测数据。通常的计算方法最大似然参数估计的EM(采用)。该方法适用于大样本。但是这种方法可以分为局部极值,融合不是很快,而且计算复杂
2.1.2。处理缺失值
小姐由于不平衡数据集的行和列,假样本和正常样本的数量大大不同。更重要的是,损失率的原因行不同于损失率的列,所以我们用不同的方法对行和列。(1)对列数据失踪在图所示1。本文认为,没有严重的金融特性表明,这个特性在判断金融欺诈中扮演小角色在金融分析,因此消除了指标的缺失率大于70%(2)行损失率如图2。样本的平均值的属性是否它是假的可能会有很大不同。和分类算法。为了防止判别边界模糊的缺失值的填充,我们使用一个类似的意思是插入缺失值,当损失率太大,使用类似的意思是插值引起过度的错误。首先本文的实践样本分为两组的正常数据和假数据组根据样本是否是假的,填充用于样本均值与正常数据缺失率在70%以内;样本删除缺失率超过70%;没有假数据,因为几个假数据,删除会导致建筑模型的泛化能力差,所以我们把所有假样本,缺失值是满的意思
2.2。数据标准化
样本选择的数值指标,本文主要包括不同类别的数值指标,以及不同因素之间有巨大差异值的范围和单位的测量,这样我们无法比较,体重,和其他后续操作在不同的指标,所以我们需要标准化指标数据。
常见的数据标准化方法是Min-Max、z分数、小数缩放、定量特性二值化,等等。由于数据选择本文可能极端,我们使用z分数归一化法。z分数归一化是一种归一化法将数据转换成标准正态分布。具体的计算公式是: 在哪里代表了价值和意义代表标准偏差。
考虑到以下情况可能发生在现实环境:①数据将不断输入到模型中,无法获得均值和方差;②训练集是模拟数据在实际环境中,不能直接使用,它的均值和方差;③在现实环境中,单独的数据不能正常化。解决这三个问题,我们首先获得参数(均值、方差)训练集;整个数据集然后使用z分数标准化规范化方法。具体流程如图3。
在图3,适合代表根据训练数据集获得的均值和方差,返回一个标量对象;改变意味着根据获得的均值和方差,z分数的方法用于规范训练集和测试集的数据在同一时间。最终结果。
最后,数据集处理缺失值规范化使用上面的z分数归一化法在实验中,和数据结果如表所示2。
3所示。基于多个机器学习模型的特征选择方法
最合适的金融欺诈特征选择方法预测模型是基于多种机器学习算法和特征选择模型,比如皮尔森,LR,射频,DT。这些机器学习模型本身的评分机制的特性,很容易应用于特征选择的任务。我们首先介绍了特征选择基于机器学习模型。最后,这些算法和模型是用来获取相关的特性。
3.1。基于机器学习的特征选择方法模型
3.1.1。特征选择根据皮尔逊的相关性
皮尔逊相关系数的措施一定程度的线性相关性的大小,和相关系数的绝对值越大,越强的线性相关程度。之间的相关系数存在的范围[1]。假设两个变量,和 ,还有:(我)的和变量不相关时,相关系数为0(2)时的值和值增加或减少的同时,两个变量呈正相关,相关系数在0和1之间(3)时的值增加和值降低,或值降低而值增加;两个变量有负相关,相关系数介于1和0
其公式是:
在公式(2),和分别两个变量。和表示的平均值和 ,分别。
相关系数定义只有当这两个变量的标准差不为零。皮尔逊相关系数的应用范围:(1)有两个变量之间的线性关系,与连续数据(2)两个变量的总体正态分布,或接近于正常的单峰分布(3)这两个变量都是成对的,每对相互独立的
3.1.2。特征选择基于套索
套索(至少绝对收缩和选择操作符)是一种回归方法适用于多重共线性问题,可以实现特征选择,参数估计。套索压缩方法是一种估算方法,减少变量的集合。它构造罚函数可以压缩变量的系数和改变一些回归系数为0,从而实现变量选择的目的(11]。
套索回归是由施加一个惩罚项的系数模型,因此,一些基于最小二乘估计系数趋于0,实现变量选择的目的,同时避免过度拟合,确保模型的可解释性和简单性。
考虑下面的线性模型:
的向量 , 的矩阵 ,和的向量 。 变量的回归系数 。它的套索估计:
其中,是惩罚项, 调节参数,用于控制的惩罚强度模型,进而控制解释变量的数量。当很小,第一部分的重量比上面的公式将会增加,以减少整个剩余方块的总和,这多个解释变量将被添加到模型;当的重量比大,上面的公式的第二部分的增加,许多解释变量的回归系数压缩和往往是0。
3.1.3。多元线性回归特征选择
多元线性回归模型是一个模型来解释因变量通过使用两个或两个以上的解释变量。让是因变量, 是不同的变量称为解释变量。在哪里X1总是等于1,进行多元线性回归模型的方程(5): 在哪里 是一个随机扰动项;的参数 被称为回归系数。假设,
一个或多个自变量之间的关系是通过最小二乘函数进行建模。数理统计中的回归分析是一种统计分析方法用于确定量化两个或两个以上变量之间相互依赖的关系。根据最小二乘法的原理,估算的( ),的价值( ),应该让
根据最小二乘法的定义,在线性回归模型中,回归系数的估计,最小化残差平方和叫做least-squares-estimation。相当于最小的这使得 ,在,的转置 。最小化 , 可以被视为一个函数呢 ,然后的一阶偏导数必须是0,即 。因此,我们得到了方程 ,所以 。
3.1.4。基于随机森林模型的特征选择
在机器学习中,随机森林(RF)是一个包含多个决策树分类器,和其输出的类别是由类别模式的输出由个人树,和底层分类器构成的随机森林被称为“决策树”。随机森林具有精度高、鲁棒性,且易于使用,使其成为最受欢迎的机器学习算法。有两种方法来计算特征随机森林的重要性:一个方法是基于OOB错误,叫MDA(意味着减少精度);另一种方法是基于基尼杂质,称为目标(意味着降低基尼)。两种方法数值越减少,更重要的是表现特征(12]。
MDA是具体描述如下:(1)随机森林模型训练测试OOB错误使用out-of-bag每棵树的模型示例数据(2)变量的值v out-of-bag示例数据中随机打乱重新测试每棵树的OOB错误(3)OOB误差的均值差异的两个测试是一棵树的重要性的衡量变量v
计算公式是:
下面描述的目标是:Gini-based变量重要性的程度的基尼纯度由于减少了变量的使用 。在分类节点 ,基尼系数杂质是: 在哪里代表类别的总数为目标变量, 代表了目标变量是类条件概率在节点 。每棵树的基尼nonpurity下降值的计算公式,然后结果是平均所有树木。
3.1.5。XGBoost特征选择
极端的梯度提升算法(XGBoost)是一种基于树的增强算法(13]。与传统的梯度改进决策树算法相比,XGBoost算法创新使用损失函数的二阶导数信息,以便XGBoost算法收敛更快,确保解决方案效率高,也增加了可伸缩性。因为一个函数满足二阶可诱导的条件下,该函数可以用作自定义代价函数在适当的时候。XGBoost算法的另一个优点是,它借用了列抽样法随机森林算法,进一步减少了计算和过度拟合。
XGBoost计算特征选择作为分割点基于结构的获得分数,和一个特性的重要性是它发生在所有树的总和。次数越多,属性是用于构建决策树模型,相对重要性。XGBoost算法可以表示为: 在哪里表示树的数量, 代表模型的函数空间,代表的分类结果样品的树。从表达式XGBoost算法,该模型是一组迭代剩余树,树被添加到每个迭代,每棵树最终形式的线性组合树通过学习前的残差树。
3.1.6。基于决策树的特征选择
树的结构相似,由面向边缘和节点。有三个主要类型的节点,包括根节点、中间节点和叶子节点。高层的决策树的根节点,其中包含最有益的属性;底部的决策树的叶节点,表示分类的结果;根和叶节点之间的中间节点用于特征属性的测试(14]。
当使用决策树时,原来的样本分为训练集和测试集,第一次培训与泛化能力最强的一个决策树,然后使用测试集预测计算泛化误差。培训决策树时,特征选择是决定是否使用一个指标作为划分依据(作为一个中间节点),以帮助分类。一般的决策树算法依赖于三个标准,即信息增益,信息增益率,基尼指数。
信息熵是一个指标用于衡量样本集的不确定性,和更多的不确定性,信息熵就越大。假设类的比例样品,样本集是 ,样本集的信息熵被定义为:
对于数据集 ,假设功能选为判断决策树节点,那么行动后的信息熵的特性被定义为:
发现决策树会更倾向于选择那些功能属性值时,采用信息增益特征选择的标准。决策树来减少可能的不利影响的偏好,C4.5决策树算法改善了原来的决策树算法。它使用信息增益率作为标准选择最优分区属性。信息增益率被定义为:
在方程(13),被称为固定价值的特性 :
基尼系数也是一个标准决策树来选择最优分区属性,代表的概率随机选择样本的误分类的样本集。对样本集 ,假设类别,属于样本的概率类别设置为 。然后,这个概率分布的基尼指数是:
的数据集 ,基尼指数是: 在哪里代表的数量样本所属的类别在样本集 。
我们有一个测试在每个内部节点表示在一个属性,利用决策树的树结构基于所选择的特性,和测试输出树的树枝上。子节点生成递归地从上到下根据所选功能评估标准,直到决策树数据集不是分离时停止增长。执行必要的修剪缩小树结构和缓解过度拟合。
3.2。实验的重要的特征选择
训练集和测试集除以使用机器学习sklearn train_test_split model_selection方法;训练集与测试集的比例确定,7:3。为了防止样品部门影响预测结果,随机种子集当划分训练集和测试集。“国旗”作为一个标签列,列和其他指标作为特征。使用的数据训练集,皮尔逊相关系数方法,所有相关指标和标签列找到进口的前20名的特性与标签列相关性;套索方法,共发现nonzero16指标与权重系数;排名在前20名特性模型使用所有相关指标来寻找高级特性,分别。功能使用功能重要性排名LR,射频,XGBoost,和DT模型,分别发现排名前20的特性。主要目的是获得使用sklearn feature_importances_的排名中排名前20位的属性的属性值。DT的内在机制是区分特性对纯度的影响增加的节点根据实际判别标准如基尼、信息熵和信息熵增益。 The parameters used on LR, RF, XGBoost, DT models for indicators selection are shown in Table3。这两个算法的皮尔森和套索不使用参数。表3显示这些参数的名称和值。
最后,通过实验,选择金融欺诈相关的重要指标,每个算法和模型,如表所示4。
4所示。关键指标选择方法的金融欺诈预测模型基于机器学习的混合模式
4.1。中间评价指标
本文分类模型的性能措施采用混淆矩阵和真阳性,假阳性率,AUC。在二元分类问题,混淆矩阵是一个二阶矩阵。其中,本文使用正常样本作为积极的(0)和假样本-(1),使用显示四个病例数据集上的分类器预测或是否正确。
TP:真阳性,预测积极类是积极的;
FP:假阳性,预测消极类是积极的;
TN:真正的负面,预测消极类为负;
FN:假阴性,预测积极类为负;
混淆矩阵的表示如表所示5。
TPR(真阳性)所代表的真正的类样本的比例预计将是积极的。计算公式是:
玻璃钢(假阳性)的比例代表真正的预测是负类样本。计算公式是:
AUC ROC曲线下的面积,给分类器的平均表现价值。AUC值可以用来评估二元分类问题的影响。越接近AUC是1.0,检测方法的真实性就越高。计算公式是:
4.2。基于机器学习的关键指标选择方法混合模式
功能使用功能重要性排名皮尔森,套索,LR,射频,XGBoost,和DT模型,分别找到前20名的特性。为了防止齐次模型限制的选择指标,选择的中间模型应与上述六个模型异构。用更少的参数的支持向量机(SVM)和良好的效果作为中间模型进行AUC测试指标选择的各种模型。具体来说,对于每个模型选择的特性,相应的训练集的特征列中的数据,分别选择作为新的训练集的特征列,并导入到培训的支持向量机模型。选择相应测试集的数据作为预测的新的测试集特性列。
我们第一次测试的AUC值选择的特性的支持向量机皮尔逊套索,射频,XGBoost, DT, LR。实验结果如图所示4:
本文中使用的模型和算法分为三类,包括树模型(DT,射频,XGBoost)算法(套索,皮尔森),基本模型(物流)。模型与第一AUC排名选择从这三个类别,和最终的模型选择射频,套索,物流。然后,这三个混合模型具有良好的性能。摘要网络搜索机制用于详尽列出所有模型相结合,所以最优混合模型可以比较容易。最后,所有的混合模型是由射频+套索,套索+物流,射频+物流,射频+套索+物流。选择这些混合模型的重复特性,最后这些混合模型再次测试的支持向量机AUC值。实验结果如图所示5。
实验结果图5表明,套索共同选择的特性和支持向量机的射频表现最好。因此,相应的选择指标如表所示6。
4.3。相关分析的关键指标
由于财务报表数据本身的内在逻辑,也有某种程度的自相关关键特性之间的选择,这将影响模型估计的准确性。因此,在替换到模型之前,我们首先要分析多重共线性和删除高偏自相关的特性。我们使用自相关特性的解释力进行实验表上面描述和分析这些特性的多重共线性问题。自相关分析后,我们删除与自相关大于阈值特性。
相关系数的研究变量之间的线性相关程度,通常用字母表示 。由于不同学科,相关系数被定义在许多方面,包括皮尔森相关系数。被认为是存在着强烈的关联,如果相关系数的绝对值为和高于0.7;相关系数在0.3和0.7之间,相关性较弱;相关系数低于0.3,没有相关性。摘要皮尔森系数法用于计算两个特征之间的线性相关系数。相应的计算公式是:
执行相关实验中所选的8个指标表6,指标之间的相关性计算公式(20.)。实验结果如图所示6。
作为显示在图6,这两个特性的自相关值“INTAN_ASSETS”和“C_PAID_TO_FOR_EMPL”为0.76,大于设定阈值为0.7。因此,这两个特性属于强大的相关特性,并考虑到相关的特性,“C_PAID_TO_FOR_EMPL”功能是删除。最后的关键指标的预测模型如表所示7。
5。结论
本文主要分析了关键指标的选择方法在金融欺诈预测模型,并提出了关键指标选择方法基于机器学习的混合模型,因为现有的特征选择方法预测精度较低。首先对数据集,预处理包括缺失值处理和数据的标准化。特征选择方法在多个机器学习模型是描述和每个模型的选择排名前20位的功能。支持向量机作为中间AUC测试模型,模型相结合,和混合模型的重复特性选择作为预选功能。测试选择的预先确定的特性,和模型结合最高的AUC值被选中。最后,通过相关实验指标,得到了最终的关键指标。小说关键指标选择方法提出了基于机器学习的混合模型在本文并有效地提高了预测精度。这部小说关键指标方法提供了重要的基础建设的金融欺诈预测模型。然而,特征选择的数量和类型的模型实验很大,和所有参数的优化将会导致一个大的时间复杂度,从而影响实验效果。因此,本文中使用的默认参数。 Future work will focus on parameter optimization of the models and building a financial fraud prediction model by using the selected key indicators.
数据可用性
没有数据被用来支持本研究。
的利益冲突
作者宣称没有利益冲突有关这篇文章的出版。
确认
这项工作是由中国国家自然科学基金(61272015)和2022年河南省科学技术研究项目:“建设和智能本体在物联网中的应用基于语义概念模型”(222102210316)。