文摘

快速发展的计算机网络不仅给人们带来了方便,也给人们带来了安全问题由于出现各种异常流动。然而,各种网络异常流动电流检测系统或多或少的缺陷,例如最常见的入侵检测系统(IDS)。由于缺少自主学习能力以市场为导向的id,开发人员和维护人员必须实时更新的病毒数据库系统,使系统正常工作。随着机器学习和数据挖掘的出现,近年来,出现了新的思想和方法检测网络异常流动。本文介绍了随机森林算法的检测异常样本,和异常点尺度的概念提出了测量样品的异常程度基于样本的相似性,并筛选出和异常样本根据这个规模。仿真实验表明,相比之下,其他两个基于距离的异常样本检测技术,随机与森林有关的异常样本检测具有更大的优势比其他两种方法而言,提高模型的精度,减少了计算时间。

1。介绍

清单的科技创新委员会注册的上市公司制度使中国的金融和经济体系更加开放和多元化。投资者正密切关注如何判断上市公司的运营水平和能力,确保合规的公开上市公司的财务报表,也直接影响到中小股东的切身利益。在业务操作过程中,自己的操作条件造成的系统性风险和风险可能带来许多问题。为了维护自己的公司的股票价格,上市公司有一定的隐藏风险的动机。通过中国证券监督管理委员会的监督,这是研究和发现。随着人工智能技术的一个重要研究方向,机器学习自然已经成为一个非常重要的候选预测方法预测金融违规的问题。机器学习和深度学习包括多种学习模式,如监督学习、无监督学习,semisupervised学习,等等。这些不同的研究范畴不同程度的标记数据样本。监督学习需要做出提前判断样本(如学习成绩是否好),自动判断通过无监督学习分类的数据,和semisupervised学习两者之间,需要一定程度的数据标签。本文使用决策树模型和随机森林模型在监督学习预测和判断上市公司的金融违规行为。 The reason is that decision trees and random forest algorithms have certain advantages in the processing of financial data [1- - - - - -10]。

如何识别异常样本数据集已经成为近年来数据挖掘研究的一个热门话题,例如,采矿异常大量的银行企业信贷数据,去除噪声,当建立一个信用评估模型,提高模型的精度。此外,数据挖掘技术也可以检测可能的异常信用欺诈。介绍了一种新的学习算法,可以更好地容忍noise-random森林,介绍了一种方法来测量样本的相似性,结合样品的相似度,并提出了异常点的概念扩展到量化样本的异常和过滤异常样本基于这种规模。

已经商业化的技术入侵检测网络流量异常检测方法。最早提出了入侵检测技术在1980年由詹姆斯·p·安德森。这个想法是为了检测计算机攻击通过记录和审计。入侵检测的一般模型于1987年提出的多萝西丹宁。早期的基于主机的入侵检测模型。直到1990年,l . t . Heberlein提出了一个基于网络的入侵检测模型。之后,更多的商业入侵检测系统继续出现,如思科NetRanger, ISS的RealSecure Snort,但由于技术发展的限制,产品不成熟11- - - - - -15]。

经过几十年的发展,入侵检测技术取得了快速发展。目前,最受欢迎的网络入侵检测模型是基于模式匹配的入侵检测。这个模型有一个特征规则库的攻击流量。当截获数据流规则在规则库中定义的特点,数据流被认为是攻击流量。该检测方法的准确性非常高,但不能自动发现新的攻击流,所以假阴性率相对较高,系统的功能需要不断更新规则库正常工作。

近年来,有许多其他研究网络异常流量识别的研究中,可以概括为以下三种类型:基于特征或行为异常流量检测方法,基于统计理论的异常流量检测方法,机器学习和数据挖掘的异常流量监测方法16- - - - - -20.]。

在基于特征或行为异常流量检测方法,检测系统需要存储的信息特征或行为异常流动的特征。信息特征包括消息的负载特性和封装特性,和行为特征包括传输特点和连接机构的特点。检测系统比较这些特征属性的签名数据库的网络流量检测网络异常流量。这种类型的异常流量检测方法可分为模糊匹配和根据不同的匹配规则完全匹配。模糊匹配可以识别网络流的类型,通过匹配的特点,网络的一部分流过正则匹配方法,而完整的匹配需要网络流量数据的特点。流的异常类型可以确定只有当它完全匹配特征库中的特征。一些文件已经实现异常流量检测方法基于流量特征的提取有效载荷特征数据的异常交通和测试系统通过DDoS攻击流量和网络蠕虫。也有文档,实现网络蠕虫检测算法通过自动提取网络蠕虫流动特性和流程流的行为特征和加快蠕虫的检测速度和改善缓慢蠕虫的检测能力评级主机的数据包(21- - - - - -25]。

不同于基于特征或行为异常流量检测方法,基于统计理论的异常流量检测方法不需要知道提前异常流的特征属性。方法首先获得流量数据网络上的流量时间序列,对流动数据执行统计分析获得统计结果,并完成检测异常流根据统计结果。已经有许多研究异常流量检测方法基于国内外统计理论。例如,有人介绍了一种自适应滤波理论到异常流量检测,提出一种自适应AR异常流量检测模型;这个模型使用时间序列分析技术,通过模型分析和模型收集到的历史数据,并找到一个阈值,可以区分异常流从正常流。有些人把网络流量时间序列的频域和小波域,然后实现异常检测流根据转换后的空间特征。此外,Lakhinaa等人的高纬度地区结构空间数据流分解利用主成分分析法(PCA)源主机和目标主机之间获得3主成分和重建网络流过3复合变量的特征(26- - - - - -29日]。

异常流量检测方法基于机器学习和数据挖掘研究深度与机器学习和数据挖掘的发展,如图1。这种方法可分为异常流量检测基于分类算法和异常流量检测基于聚合算法。异常流量检测基于分类算法的典型代表包括异常流量检测基于朴素贝叶斯分类算法,基于神经网络异常流量检测,异常流量检测基于决策树分类算法。异常流量检测的主要代表基于聚类算法的异常流量检测基于k - means算法。异常流量检测基于分类算法需要预先使用样本数据训练算法,然后使用训练模式来检测网络流量,而聚合算法和我属性特性集的网络流量分类和聚合网络流量。这样,聚合流的异常特征模式,和网络流量的异常行为检测根据聚合流型的特征。有人用决策树分类算法来检测异常流,利用交叉熵来表示异常网络流量。还有些人使用支持向量机的分类能力异常流分类问题转化为一个支持向量机分类决策问题,然后判断网络流量的异常情况根据属性的不同分布熵值。有些人也提出了一个基于贝叶斯阴阳的入侵检测分类方法学习和k - means聚类算法。文献首先使用贝叶斯模型选择能力确定集群的数量的样本集,然后使用贝叶斯网络的竞争。 A large amount of original sample data is mapped to a small number of data nodes, and the output unit is used as the input of the K-means algorithm for cluster analysis, and finally the intrusion traffic is detected according to the cluster analysis result [30.- - - - - -33]。

随机森林算法是一种基于决策树算法的集成和改进,是集成学习的结果的决策树算法。本文使用两个机器学习算法、决策树和随机森林,构建财务报表分析系统判断金融违规的上市公司,可以预测和分析金融违规行为,从而帮助发现更多潜在的未知的金融违规行为和侵犯的风险,促进金融体系的稳定发展。

2。决策树算法

判断一个公司是否披露违规时,不同的数据内容也有不同程度的重要性。当判断是否违反发生,政府机构如中国证券监督管理委员会还将分析他们的数据基于一定的优先条件。这样的判断有一定的程度与业务逻辑的决策树。因此,我们决定使用决策树的机器学习模型来判断和分析企业财务数据。决策树是一个典型的机器学习算法,它的作用是监督学习来解决分类问题。

决策树分类算法是一种机器学习算法,它是一个自动的过程挖掘一组常规模式从训练样本,也有效的训练样本以外的数据。除了决策树分类算法、机器学习算法还包括朴素贝叶斯分类算法,基于支持向量机的分类算法、神经网络算法、k - means聚类算法和模糊分类的方法。

由决策树分类算法构造的决策树分类模型。模型中的每个分支代表一个属性之间的映射关系的对象和一个特定值或值类型的属性。在决策树中,每个非叶节点代表一个判断条件,每一个判断条件对应于一个对象属性,和每个分支路径代表一个属性值,满足判断条件。每个叶子节点l树代表一组值,每个值在设置满足每一个判断条件从根节点到叶子节点的路径l构造决策树的根节点。首先,选择合适的属性将样本集划分为若干子集,每个子集形成一个分支节点,然后将每个分支节点到节点中的所有样本的类型是相同的或者满足一定的条件结束。决策树模型是一个树结构算法模型。其想法是模拟一个结构化的思维方式在日常生活中,人们认为。当我们有一个公司的财务数据,我们首先要注意是否有任何报告期利润。

决策树结构一般包括以下两个步骤:(1)决策树生成,也就是说,使用训练样本集的过程来生成一个决策树;(2)决策树修剪:决策树生成后,需要验证,修正和修改。本文提出的算法使用multidecision树集成的方法。每个决策树是一个软弱的决策树,将没有过度拟合现象,所以不涉及决策树剪枝的问题。输入样本集的决策树构造算法如下: 在哪里一个ij代表的价值jth的属性在设置和th样本T类型的标志吗th样本。决策树构造的结果是一个二叉树或multibranch树。二叉树通常用于收集数据的属性都是布尔逻辑判断。决策树构造的一般过程如图2。可以看到,决策树的结构类似于一个真正的树(图2(一)),因此得名。

不同的决策树分类算法使用不同的判断条件选择分裂属性。最重要的两个判断条件是信息增益和信息增益率。分裂属性选择基于信息增益。假设训练样本集年代属性集

然后,属于样品的比例jth类别的样本数据集

在这个时候,样本数据集的信息熵年代

假设在样本数据集,对应属性值范围p ,年代( )代表样本的属性的子集π值 然后,样本集的信息增益的属性p

信息增益后的样本集年代计算的分割信息吗年代在属性计算π

然后,样本数据集的信息增益率年代相对于属性p

3所示。随机森林算法

如果一个公司已经盈利稳步经营,多年来,我们可以初步分类和属性的候选人数据库优秀的公司。如果公司经营不善,过去的损失,我们应该更加警惕,继续关注其他情况的报告,并继续加强我们公司的全面了解。在构造一个随机森林模型,它是特别重要的决策树建立多个独立和分化。很难实现多元化决策树模型,如果你简单地使用原始数据来判断数据。很难反映综合学习的优点。因此,在构建随机森林模型,我们需要样本数据按照一定的规则。每个决策树使用的总样本训练的一部分。这可以减少重复的训练数据,使每个数据基础的个人决策树不同,从而增加个人决策树的多样性。

随机森林是一个组合分类器的方法,基本构成了随机森林是决策树分类器,如图3,这也显示了随机森林和决策树的组合。决策树是一种层次结构组成的节点和边。树包含三种类型的节点:根节点,内部节点和结束节点。决策树只有一个根节点,这是整个训练数据集。树中的每个内部节点是一个分裂的问题,这将样品到达该节点划分为块根据特定的属性。每一个结束点(也称为一个叶节点)是一个数据收集,分类标签。一条路径从决策树的根节点到叶节点形成一个判别规则。决策树算法使用一个自上而下的贪婪算法。每个内部节点选择最好的属性分类结果将到达该节点的数据划分为2个或更多的区块,并继续这个过程,直到树可以准确地分类。决策树算法的核心问题是选择一个更好的分裂属性。 There are many criteria for selecting split attributes, such as information gain, information gain ratio, Gini index, and so on. The decision tree algorithms corresponding to different attribute selection methods include ID3, C4.5, CART, and so on.

集成学习是一种学习方法,它结合了多个模块独立判断。在我们的模型中,如果一个决策树相比,是一个经验丰富的专业分析师,然后随机森林是一个大型的和专业的分析师团队能做出更准确的判断决定的结果。本文中的决策树算法类似于CART算法,和选择分裂属性是基于基尼指数。基尼系数是一个杂质分离方法。它可以应用于领域的范畴,二进制,连续价值,等。具体的算法思想如下:假设数据样本集r在一个特定的节点t包含的记录k类别,然后基尼指标 在哪里p从类别的概率是j的节点t。当最低基尼是0,所有样品在这个节点属于同一类别,这意味着最高可以获得有用的信息;当类别字段是均匀分布,基尼(t)是最大的,有用的信息是最小的。如果一组分为l部分,那么这个部门是基尼指数

了解盈利能力后,我们可以继续分析和判断该公司的其他方面,如主营业务,资产和负债,存货周转速度,和毛利率,进一步了解公司的操作。在哪里l子节点的数量,n子节点是样品的数量吗,n父节点是样本的数量。基尼指数的基本思想如下:对于每个属性,必须遍历所有可能的分割方法。如果可以提供最小值,它将在这个节点选为分裂的标准;这个时候,它会根据相应的属性值,分割并创建分支机构根据每个属性值;进一步把样品直到满足停止条件,例如,原叶节点属于同一类型或纯度的叶节点(即节点的频率包含某种类型的样本)满足一定的阈值范围。提前设置阈值,该部门停止当叶子节点的纯度超过阈值。这个过程相当于修剪树的列。预测的值显示在图4

随机森林重复上面的树构建过程建立多个决策树的组合。首先,假设树在森林里,有决策树分类器,所有训练数据的样本总数N。装袋方法用于形成一个决策树的训练集随机抽样N所有训练样本与样本替换。重复这个抽样过程次获得学习样本决策树。除了学习样本的一个随机生成的决策树,随机森林还增加了随机性,每棵树的生成过程。假设样本属性,和<通常是事先给定的(通常的平方根)。当每个节点的分裂属性选择,并不是所有的属性进行比较,但是随机选择从所有属性的属性进行比较,以及对更好的分类结果选择分裂属性。这可以增加之间的差异程度,每棵树,从而增加森林的泛化误差。没有修剪在建设一个决策树。森林形成后,新样本,每棵树做了一个相应的分类的结论,最后所有的树通过简单多数投票来确定分类结果。与其他分类技术相结合,当树木的数量相当大,随机森林并不容易过度拟合。它可以证明其泛化误差的上界小于 在哪里ρ是树木之间的平均相关系数(代表之间的相关程度,分类树)和年代是一个树的分类效率。

第四为训练集样本的数量,首先生成一个N×N零元素矩阵Prox。每次使用生成树歧视所有样本,每个样本将达到一定的树的叶子节点;对于任何两个样品nk如果样品n和样本k出现在相同的树的叶子节点,对应的n行和加1kth Prox矩阵的列;重复这个过程,直到所有的肼树构建,并得到相应的矩阵。矩阵中的每个元素除以树木的数量。规范化处理得到最终的Prox矩阵,这是一个对称矩阵的对角元素和元素Prox (n,k在第n行和kth列可以被定义为样本的样本n和样本k。随机森林是建立时,Prox矩阵也获得。不难看到,如果有大量的在某一类别样本数据集,行对应于这个类别中的样本通常包含更多的元素接近1,和对应的行包含更多的元素接近于零。我们更有理由相信,他们更类似于其他样本。因此,自然导致的异常程度的测量的取样规模异常点。

为样本n,原来的异常点尺度定义为

在同一个类中,如果p(n)值的样本较低,其rawom价值将是巨大的。每个类的样本,计算原离群值的均值和方差的这个类的所有样本,每个样本的最后异常规模标准化后:

随机森林是一个组合的多个决策树。两个样本的频率在同一节点的每棵树可以用来衡量两个样本之间的相似性或概率两个样本属于同一类。上述变换避免了数值差异大造成的差异数量的各种类型的样本,以便促进异常点尺度的比较各种类型的样品。随机森林是建立后,我们得到了异常点的所有样本的规模根据上面的计算过程。如果异常的样本点的规模比较大,这个样品和其他样品之间的相似性很小,而且可能有异常。如果置信区间预测,异常点的样本规模超过一定的阈值可以被视为异常点。例如,每个模拟实验中使用的数据集在本文中含有5%的异常样本。因此,它是可能的所有样本的异常点尺度和认为最大的前5%样品异常样本。预测图所示5

4所示。模拟

涉及到更大的数值计算任务,该算法需要尽可能简单和快速。然而,基于距离检测方法的计算时间长、内存消耗高的问题。加州大学(加州大学欧文分校)机器学习数据库是一个著名的机器学习数据库验证,这是广泛用于学习算法的建模和验证。本文使用6常用标准数据集的仿真实验比较,,众所周知,这6个数据集的异常样本数量占样本总数的5%。比较异常样本检测方法基于随机森林技术提出了本文的两个基于距离检测方法(伦琴数和健壮的Mahalanobis距离)前面介绍并比较建立的预测模型在去除异常样本的三种方法。此外,比较三种方法的鲁棒性通过使用支持向量机(SVM)技术构建的模型。评估值比较图6

首先,三种方法用于删除5%的“非正常样本”在每个数据集,然后删除数据集被用来建立一个随机森林模型。根据样品的总数的6集,随机森林的规模500 - 1000棵树,和候选人分裂属性的数量在每个节点问将根号的总数中的属性数据集,分别执行和5倍交叉检查。

为了进一步比较三种不同的检测方法的鲁棒性,我们还进行了以下实验:每个数据集是跨越五次获得(训练集]、[测试集)(= 1,2,…,5)。使用训练集构建支持向量机模型,然后用测试集测试,平均5测试结果得到5倍交叉的准确性;接下来,使用3方法来消除异常为每个(训练集样本),可以使用删除(训练集一),建立支持向量机模型,然后使用[测试集]unremoved异常样品的测试和5倍交叉的准确性。支持向量机建模使用IibSVM工具箱,使用高斯核函数,并使用网格法选择最优惩罚系数C

后三种方法删除异常样本数据集,模型的准确性已经不同程度的改善,表明这三个异常样本检测方法都是有效的。比较发现,RF-based异常样本检测方法具有更大的优势比其他两种方法,从而大大提高了模型的精度,同时具有较强的鲁棒性。

4.1。模型精度和计算时间的比较3删除异常点在整个数据集的方法

建模的声纳、葡萄酒和动物园的数据集,所有的三个方法提高模型的准确性。其中,射频方法提高了模型的精度最重要的是,分别增加2%至6%。在乳腺癌、心脏和中批量数据集,射频方法突出了它的优越性。它花费更少的时间比其他两种方法,可以更准确地定位异常样本。模型的精度是增长了8%,明显优于其他两种方法,表明射频方法已经确定大部分的异常样本数据集。在图所示的融合7,可以看出,该方法表现出更好的性能比传统的方法。

由于存在异常样本,计算均值和协方差矩阵的大型数据集需要更多的迭代。例如,在强劲的Mahalanobis距离方法,为了获得一个健壮的均值和协方差矩阵,迭代算法的操作的数量超过150。需要很长时间来计算。此外,Mahalanobis距离的计算需要一个长时间的计算周期,和它的巨大的矩阵计算占用大量的内存空间。在仿真实验中,发现使用的时间伦琴数算法的运行程序达到102倍RF算法,和内存占用RF算法的比这要大得多。如果数据集有更多的属性值,这个问题变得更加突出。的主要运行时间射频方法建模的过程,这个过程通常需要更少的时间。例如,只需要超过十秒来构造一个随机森林的1000棵树的规模与容量5000人的样本数据集。一旦建立了随机森林模型,每个样本的异常点尺度可以迅速获得。涉及的计算简单的计数和标准化计算建模和后与属性值的大小的矩阵。 Therefore, the RF algorithm can significantly reduce the calculation running time than the other two methods in processing large datasets.

4.2。3方法的鲁棒性比较删除异常样本

建模和测试执行通过删除只有异常样本训练集而不是异常样品在测试设置中,有更高的需求模型的泛化能力。伦琴数法和健壮的Mahalanobis距离方法需要计算协方差的倒数。然而,如果协方差矩阵是奇异的,需要伪逆,这损害了算法的鲁棒性。正如之前所讨论的,射频方法的鲁棒性优于伦琴数和健壮的距离的方法。射频保证模型的泛化能力在所有六个数据集。其他两种方法不一样健壮的RF算法精度下降,甚至心脏数据集。类似于(1),成为一个大型数据集的内存职业和耗时的瓶颈问题影响的检测异常样本,和RF算法没有这样的问题。这种优势使随机的广泛应用与森林有关的异常样本检测方法成为可能。图8比较了预测价值。

5。结论

本文介绍了随机森林算法的检测异常样本;结合样本的相似性,提出了异常点尺度的概念来衡量的程度异常的样本,根据这种规模和异常样本筛选。

除了用于孤立点检测的样本相似度也可以用来建立数据集的原型,描述数据集的坐标,在训练集和测试集和补充缺失值。随机森林提供的样本相似性有更多和更广泛的潜力挖掘数据集本身的特点。然而,规模阈值选择的异常样本仅涉及实验结果,没有定量的判断标准,值得进一步的研究。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由杭州职业技术学院。