文摘

金融监管在市场经济建设中发挥着重要作用,但财务数据的非平稳、非线性信号的特点和低信噪比,因此一个有效的金融检测方法是必要的。在本文中,两个机器学习算法,决策树和随机森林,用于检测公司的财务数据。首先,基于100家样本上市公司的财务数据,本文实证研究上市公司财务报表舞弊的利用机器学习技术。通过逻辑回归的实证分析,梯度提升决策树,和随机森林模型,得出初步结果,然后随机森林模型用于二次判断。本文构造一个高效、准确、简单的综合应用程序的机器学习模型。实证结果表明,本文综合应用程序模型构造的准确性96.58%判断上市公司的财务数据异常。提出一个准确和实用的方法对资本市场参与者识别上市公司财务报表的舞弊,对投资者具有一定的现实意义和证券研究机构应对财务报表的舞弊。

1。介绍

数据被认为是知识的源泉。大量的数据常常包含大量有价值的信息(1),就像沃尔玛发现,购买婴儿纸尿布后,男人通常买啤酒来奖励自己,所以他们包这两种产品。随着销量的增加,可以看出合理的数据分析将从数据获得很有价值的信息。大量增加的数据,数据的维数也被大大提高(2]。大规模、高维数据已经远远超出了人类的能力来处理和分析数据。为了更准确地我的各种有价值的知识和信息中包含大量的数据,问题是如何完成这些任务的帮助下机器的力量(3]。它已成为科研人员最重要的任务之一。与人类相比,计算机强大的计算能力(4]。借助计算机处理数据的能力,数据挖掘可以快速活跃,它已经成为21世纪最尖端的研究领域(5]。数据挖掘的任务是提取隐含的和潜在的有价值的信息和知识从大量的实际数据通过数据分析6]。常见的数据挖掘方向包括数据分类、回归、聚类。作为一个最重要的方法在数据挖掘领域,数据分类应用于许多领域,包括客户关系分类,垃圾邮件识别和面部表情识别。数据挖掘通常需要数据统计和机器学习算法的帮助(7]。算法包括最近邻算法、决策树、朴素贝叶斯、逻辑回归和人工神经网络(8]。在许多机器学习算法,随机森林是一个组合分类器,于2001年提出的狮子座Breiman和在随机森林作为一个注册商标9]。随后,许多科学家做出了很多贡献的优化和发展随机森林。随机森林包含多个决策树分类器(10]。每个生成的决策树分类器是一个弱分类器生成的随机抽样从所有训练数据集和训练模型和特性集11]。随机森林数据分类的结果是由全部或部分的综合投票决定的决策树。作为一个组合分类器,随机森林可以进行分布式并行操作和其他分类算法无法比拟有许多优点,但仍有一些缺点在算法设计。例如,没有一个合理的方法来指定大小的随机森林时,生成决策树(12]。模型的规模太大或太小会影响模型的最终决定结果。此外,由于使用的数据集和特性集的生成每个选择决策树从训练数据集和特性集随机放回法(13),每一个决策树的质量不能保证,和最终的投票结果是由全部或部分的决定结果的决策树,带来巨大的不确定性模型分类的准确性(14]。可怜的决策树不仅降低了模型的泛化能力和预测精度,还会增加数据预测的时间(15]。

财务数据是不正常的。简而言之,这意味着我们得到的统计数据与实际数据不一致(16]。数据异常的发生受主观和客观因素的影响和许多其他方面。客观因素主要来自技术问题的出现,如统计方法落后、不科学的调查方法,很难获得某些数据(17]。涉及到方方面面的利益的主观原因。为了谋取私人利益,一些公司和个人主观伪造统计数据通过非法手段隐蔽等虚假报告,和篡改,这造成了很大的障碍顺利发展的统计,评论,和其他工作。简而言之,主观原因造假的上市公司的财务数据是企业承担风险和操作违反规定为他们自己的经济利益。如何判断上市公司的运营水平和能力,确保合规的上市公司公开的财务报表已经吸引了投资者的关注,这也直接影响了少数股东的切身利益。在企业经营的过程中,自己的操作造成的系统性风险和风险可能带来许多问题。为了保持自己的股票价格,上市公司有一定的动机隐藏风险,需要研究,发现通过证监会的监督18]。随着人工智能技术的一个重要研究方向,机器学习自然已经成为一个非常重要的预测手段和候选人计划在金融违规行为的预测19]。机器学习和深度学习包括许多学习模型,如监督学习、无监督学习,semisupervised学习。这些不同的研究类别有不同的标识度的数据样本。监督学习需要做出提前判断样品(如是否有良好的学业成绩)。无监督学习自动法官通过数据的分类和处理,而semisupervised学习是两国,需要一定程度的数据标签。本文使用决策树模型和随机森林模型(RF)监督学习检测公司的财务违规行为。原因是决策树和随机森林算法在处理财务数据有一定的优势。决策树,准备的数据往往是简单的和不必要的,它可以同时处理数据和常规属性,可以使大型数据源可行的和有效的结果在一个相对短的时间。随机森林算法的优点是,它可以在内部产生无偏估计的广义误差在构建森林。计算每种情况的亲密关系,这是非常有用的对于数据挖掘,检测异常值,和可视化数据。

作为一个组合分类器算法,随机森林分类器包含了许多树。每棵树分类器是一个弱分类器(决策树),和每一个决策树的训练和决策不影响对方,从而大大提高了训练的速度和决策的总体模型和并行操作非常方便和多核操作20.]。随机森林算法可以在财务数据起着重要的作用。例如,我们可以建立多个决策树通过使用随机森林算法,以便每个决策树有自己的重点,并注意不同财务数据的分析和判断,因此,每个都有自己的优势。最后,所有单个模块的输出结果总结了利用投影的方法,和一个完全的判断结果。Comert et al。21)利用随机森林模型预测射频在大型数据集的预测能力。结果表明,随机森林模型的预测能力基于装袋算法更好;小君(22等人研究了支持向量机的预测能力,物流模型,随机森林模型。结论是,随机森林模型的预测能力总是比支持向量机的模型,而支持向量机模型的预测能力参数选择器优于物流模式23]。由于其较高的预测精度和艰难的过度拟合的特点,随机森林理论和应用迅速发展(24]。随机森林模型预测算法用于各行各业。领域等。25]利用随机森林模型预测高维蛋白质域结构,精度79.78%,这比最好的其他模型所预测的准确性;一个(26)使用了随机森林模型来预测基因序列和使用DLDA(直接线性判别分析),资讯(距离算法),和支持向量机模型预测相同。发现随机森林预测效果有明显的优势,它是说,随机森林在基因预测也起着重要的作用。Demestichas [27]预测遥感位置通过使用随机森林模型和其他常用的预测算法模型,发现随机森林模型的预测精度是最高的。Kurniawan [28)简化了财务指标指标的相关性和重要性的基础上,构建了财务预警模型,并建立了可变精度加权平均粗糙度决策树,大大改善了噪声的预防能力和预警模型的分类精度。燕(29日)建议,在先前的研究中,比较模型的财务预警模型的影响,更多的是考虑比较模型结果的准确性,和错误的概率模型的误差没有讨论。Tosiri [30.)认为,随机森林模型具有更好的可解释性。介绍了随机森林模型的贡献研究企业债券的信用风险,以及每个索引的重要性对企业违约率的测定通过索引贡献率。陈(31日)认为,机器学习算法集成多个分类器的预测精度和稳定性高于单个分类模型。根据上市企业连续两年的数据,预测结果与物流模型相比,这证明了随机森林的预测效果更好。Sakiyani [32)构建信用风险评估模型与随机森林方法通过财务指标的组合和非金融指标和比较了评估模型的预测精度和模型性能,分别证实,随机森林的预测能力比决策树。俄南et al。33)使用三种神经语言模型,两个无监督项权重函数,和八个监督项权重函数讽刺识别任务。模型的分类精度为95.30%,结果令人满意。Korukoğlu et al。34)发现一致的集群和精英基于帕累托的多目标进化算法可以有效地应用于集成修剪。通过实验分析传统集成方法和修剪算法,证明了该方案的有效性和效率。Toaar et al。35,36)提出了一个集成的特征选择方法,该聚合多个独立功能列表通过不同的特征选择方法,以获得一个更健壮和高效的特征子集。

3所示。决策树算法和随机森林模型建设

3.1。决策树算法

决策树是一个树分类器,属于监督学习方法。它是由根节点,内部节点和叶子节点。每个决策树只有一个根节点,数据预测和培训扩展级别,级别从根节点。每个nonleaf节点上的数据将被分成两个或两个以上sub-data-sets根据当前节点的特征属性和移交给下一层的节点进行处理。到达叶节点的数据之后,它不再需要继续分裂。叶节点数据的位置是分类的结果的预测。决策树的预测数据的过程本质上是一个自上而下的过程。每一层nonleaf节点执行数据分析并完成数据分类根据自己的特点属性分类规则。决策树大致可以根据不同的标准分为两类数据集除以nonleaf节点:一个是基于信息熵决策树,如ID3决策树算法,另一种是基于基尼系数的决策树,如CART决策树算法。

有许多算法建立决策树,但他们基本上使用自上而下的贪婪算法来形成一个树模型,包括多个子节点。有两种类型的子节点:nonleaf节点和叶节点。每个nonleaf节点选择最佳分类效果的特征元素从当前功能设置为当前节点的功能属性划分数据集,数据集被分成两个或两个以上的sub-data-sets。根据这种方法,sub-data-sets反复迭代,直到达到停止条件决策树的增长;叶子节点是分类的结果。数据集不再分裂的叶子节点,并且完成了数据分类的叶节点。图1显示了一个二叉决策树算法模型。

在上面的算法模型图,显示了二叉决策树。决策树从根节点向下延伸。每个nonleaf节点属性将有不同的特性t,制定不同的二进制分类条件根据不同功能属性对输入数据进行分类。决策树终于将预测数据划分为一个叶节点通过数据属性。叶子节点的分类属性标签1,代表当前数据的分类结果。根据不同节点属性划分标准,主要包括决策树算法ID3决策树算法C4.5决策树算法,CART决策树算法。

3.1.1。ID3决策树算法

ID3算法的标准来衡量数据集的分类能力的特征属性信息增益。从信息理论,我们知道信息增益越大后数据集,数据集的熵减少,和数据集的纯度越高。ID3算法使用信息增益作为nonleaf节点的分类标准的功能属性。在当前的特性集,选择信息增益最大的属性特征数据集划分后的特征属性nonleaf节点创建nonleaf节点。根据这种方法,构造子节点进行递归操作,满足的条件创建叶节点,停止持续增长的决策树,并完成决策树模型的建设。

信息增益定义为数据集的熵的差异之前和之后的数据集划分根据某些特征属性T,这被称为信息增益。现在设置t作为功能元素的特性集t,将样本数据集D子样品组D1,D2……Dm根据功能t。然后,数据集的信息增益d后根据功能划分t可以表示为 在哪里Dj样品的数量吗j数据集和th子样品D是数据集的样本总数。信息增益描述了总样本熵的差异之前和之后的数据集划分根据某些特征属性和加权熵之和后的每个子数据集获得部门(预期的所有次级样本熵)。ID3决策树算法需要特征属性的信息增益作为标准选择,递归地计算信息增益后的数据集划分根据当前特性集元素为每个样本数据集,选择信息增益最大的属性特征为节点的创建、并完成建设的决策树ID3决策树,直到条件停止增长。

3.1.2。C4.5决策树算法

不同于ID3算法C4.5算法使用信息增益率作为判断标准的特征属性的选择nonleaf节点。信息增益率中使用C4.5介绍信息。数据集D根据功能划分t获得sub-data-sets。分割后信息数据集被定义为

D的数据量th sub-data-set部门后,D之前的数据总量数据集的数据集,并分割信息可以被看作是每个子样品的加权和可能的熵与信息增益的定义数据集。分割信息,信息增益率数据集划分后根据特性t可以得到:

施工过程中的决策树C4.5决策树算法ID3是一样的,除了选择最优特征属性的判断标准从当前特性集每次信息增益率。在每次迭代的过程中,选择信息增益率最大的特性从当前特性集的属性节点创建,直到条件,达到决策树停止增长,和整个决策树的建设完成。

3.1.3。CART决策树算法

CART决策树算法是分类回归树。CART决策树可以用来预测分类问题的离散值和连续数据的回归问题。与ID3算法和C4.5算法不同,CART算法总是将数据集划分为两个部分每个nonleaf节点上划分数据集时,不管有多少类型的当前功能属性的数据集,所以CART算法构造的决策树是二叉树模型。此外,车的标准算法选择最优特征属性是基尼系数。对样本数据集D根据特征属性,它是分裂的t。分裂的子样品数据集包含的样本k类别;然后对子样本数据集的基尼系数是表示如下:

数据集D根据特征属性划分t获得sub-data-sets。分类后获得的基尼系数

3.2。随机森林算法

在构建一个决策树模型时,很容易受影响的训练数据集。为了避免过度拟合,决策树需要修剪,修剪过度将减少决策树的预测能力。此外,由于当地贪婪迭代中使用的方法是特征属性的选择在构建决策树,每一次最优特征选择从当前特性集创建一个新的节点,模型不会出尔反尔,这很容易导致局部最优解,这最后的预测模型收敛于局部最优解。图2显示了随机森林模型的流程图。

随机森林(RF)是一个组合分类器。使用的metaclassifier CART决策树。CART决策树算法属于不稳定的学习算法。因此,装袋算法引入训练样本集进行多个独立随机抽样来训练一个决策树分类器,建立组合模型。这可以有效地提高整体模型的泛化能力,提高模型预测的准确性。随机森林算法的描述随机森林是一组包含多个树分类器等 在哪里H(x,e)是metaclassifier构成模型。在这里,分类回归树算法由车没有修剪操作使用。X代表了训练数据集由随机森林,这是一个多维向量集。总的来说,回归问题,随机森林计算每个决策树的预测结果,然后得到的平均值由平均所有决策树的预测结果。输出这个平均值作为最终的预测结果。预测的分类问题,投票方式方法是最常用的投票方法在随机森林,也就是说,每一分类决策树得到的选票计数标签和输出分类标签与最多的选票最终的预测结果。例如,标签在面部表情识别预测的总数是6。未知的面部表情数据输入。每个决策树模型在随机森林是一个独立的表达数据预测,给出了预测结果。面部表情标签与输出最多的选票最终的预测结果。同时给予最终的预测结果,随机森林预测结果的概率也可以给一个特定的表达式通过计算每个表达式的投票。

n随机森林模型的预测分类标签{h−(x),h:(x),…嗯(x)},所以算法的数据流随机森林模型的预测如下(图3)。首先,分类不同的数据并添加分类标签,然后计算出相应的模式和平均分类问题和回归问题,最后输出结果。

随机森林模型可以描述为一个组合分类器:

这是一组分类器组成k(k> 1)subclassifiers。预测得到的输出结果输入预测向量XY。样本数据集(x,y),边界函数被定义为

边界函数计算分类器预测样本向量相结合,预测正确的平均数量的选票和投票的最大数量的错误预测,并计算两者的区别索引。显然,边界函数的值越大,预测能力更强的分类器集和越高的信心。组合分类器的泛化误差被定义为

我们希望更大的价值的边界函数分类器相结合,更好了。这表明分类器集具有较强的泛化能力和预测能力。然而,还会出现一个情况的数量与错误的预测metaclassifiers组合分类器的数量大于metaclassifiers与正确的预测,也就是说,保证金(x,y)< 0。在这种情况下,组合分类器将错误的预测结果。泛化误差的概率表示保证金(x,y)< 0组合分类器获得的数据预测,也就是说,组合分类器的错误率为数据预测。

4所示。财务数据检测基于决策树和随机森林算法

4.1。单一的机器学习模型的分析结果

首先,本文运用梯度提高决策树模型来分析和判断100家样本公司的财务指标数据。整个样本分为训练集和测试集的比例75:25。梯度的概念提升决策树算法使其有天然优势。能找到各种各样的区分财务指标的特性和功能组合,以超越逻辑回归判断财务报表的舞弊。具体来说,梯度提升决策树算法的精度86.28%,精度为84.66%,53.28%的回忆,和一个F1得分0.603测试集。AUC是0.738,如图4

然后,本文利用随机森林研究样本公司的财务指标数据。测试集,随机森林算法的准确性为74.14%,精度为100%,召回率为26.18%,F1得分是0.4186,AUC = 0.865。虽然随机森林的准确性有所下降,但其精度较高,如图5

4.2。实证分析的结果综合应用程序模型

本文的目的是综合使用适当的机器学习算法来识别上市公司的财务数据异常简单,准确,一般。摘要决策树和随机森林算法用于独立判断的结果,和最终的结果。综合应用程序模型在测试集上的表现也不错。特别是,方法的准确性测试设置显示正确的预测结果占96.58%的测试集样本,精度为100%,召回率为91.91%,F1得分是0.9414,AUC = 0.96。这个结果完全消除过度拟合问题的综合应用程序模型,如图6

4.3。机器学习模型的结果进行比较分析

根据每台机器学习模型的实证检验结果,总结和分析了每台机器学习模型的分析结果如下(图为了得到有价值的建议7)。

本文评估模型的优缺点,从三个方面:简单,准确性、普遍性。机器学习的综合应用模型构建本文远远超过单一机器学习技术在精度,精确,回忆,F1分。在单一的机器学习技术,随机森林的召回率远低于决策树,但随机森林的精度高于决策树。

5。结论

本文回顾和总结了常见财务数据异常检测方法和识别模型。通过使用随机森林算法来判断独立决策树和随机森林算法的结果再次得到最终结果,本文构造了一个机器学习模型,可以有效识别上市公司财务报表的舞弊,准确和简单。它为投资者提供了一个新工具的资本市场上市公司财务报表的舞弊。综合应用程序模型居第一位在四个机器学习技术的精度,精度,记得,F1分,AUC。这是因为模型是基于三个单独的机器学习技术来判断样本公司的财务指标,然后随机森林模型是用来判断的结果三个算法,以提高模型的准确性的判断。由于很多原因,如样本数据的数量,时间限制,和有限的应用机器学习技术,本文综合应用模型构建与其他模型几乎没有差距在判断非金融声明中欺诈的公司。的主要区别体现在判断公司虚假财务报表的准确性。全面的应用程序模型的准确性测试集是96.58%,远高于其他三个机器学习模型。综合应用模型可以减少错误的基础上确保II型误差维持在一定的水平。

决策树的树状机器学习模型可以广泛应用于图像识别,文字处理,等等。通过这个实验,我们证实,它还可以在金融领域发挥作用。通过财务分析的治疗,我们可以更好的监督上市公司的行为和操作和更好地保护中小股东的利益。在使用条款,决策树模型可以适应高维参数和具有相当程度的拟合效果。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有竞争的经济利益或个人关系可能出现影响工作报告。