一种方法基于改进支持向量机算法在网络流量识别恶意软件

文摘

由于互联网的发展和普及,网络安全,并将继续是一个重要的问题。有许多网络流量分类方法或恶意软件识别方法,提出了解决这一问题。然而,现有的方法并不是适合帮助安全专家有效解决这一挑战由于其精度低,假阳性率高。为此,我们采用基于机器学习分类方法来识别恶意软件。从网络流量和提取特征的方法降低了维数的特性,可以有效地提高识别的准确性。此外,我们提出一种改进的支持向量机分类算法的网络流量被优化的支持向量机(OFSVM)。OFSVM算法解决了问题,原来的SVM算法是不令人满意的分类从两个方面,即:、参数优化和核函数的选择。因此,在本文中,我们提出一个方法来识别恶意软件在网络流量、网络流量恶意软件识别(NTMI)。评估的有效性NTMI方法提出了,我们收集四个真实网络流量数据集和使用公开数据集CAIDA的实验。评价结果表明,NTMI方法可以导致更高的精度,同时实现低误判率相对于其他识别方法。 On average, the NTMI approach achieves an accuracy of 92.5% and a false positive rate of 5.527%.

1。介绍

随着互联网的发展,网络攻击越来越频繁,网络安全已经成为一个安全专家迫切需要解决的问题。因为我们不能防止网络攻击的一代,另一种方法是在网络流量自动识别恶意软件。有很多的网络流量分类方法在网络流量识别恶意软件。然而,这些方法有两个主要缺点。,在curring low accuracy and leading to high false positive rate. For this purpose, we propose an identification approach for malware in network traffic.

基于机器学习的分类器,第一步是提取数据的特征。然而,并不是每一个功能都有相同的对分类的影响。这意味着一些功能分类更容易使用,而另一些最小的作用。此外,对于大规模数据,我们提取大量的功能,不利于分类。因此,我们需要对数据进行预处理。在本文中,我们应用分层抽样技术,从原始数据集样本数据作为实验样本。样品提取,这种技术将恢复数据集的特性最大限度地,不会产生太多的冗余功能。我们首先运用ReliefF算法(1)提取网络流量的特性。为进一步提高分类的准确性,我们执行一个降维提取操作功能。这相当于将一个高维度的复杂问题转化为简单问题维数较低,这有助于在分类。

每个基于机器学习分类器都有自己的合适的应用程序场景。在[2],沙菲克等人验证决策树给了网络流量的最佳分类结果。然而,曹et al。3)提高了支持向量机算法比决策树来获得更高的精度。在本文中,我们提高了支持向量机分类算法方面的网络流量参数优化和核函数的选择。在我们的独立实验,平均径向基函数内核可以达到88.3%的精度。因此,我们最终选择内核径向基函数作为核函数的支持向量机算法。这导致了一种改进的支持向量机算法的设计和实现,称为OFSVM。乙状结肠内核的准确性与径向基函数的内核。然而,总的结果是不如径向基函数内核,即。,with the average results, 85.92% for the sigmoid kernel vs. 88.3% for the radial basis function kernel.

本文提出的方法对于识别恶意软件在网络流量通过预处理原始数据集和应用特征提取以及特征降维提取的主要特性和最终分类使用OFSVM算法提出了在网络流量识别恶意软件。显示NTMI方法的有效性,我们把它应用到四个网络流量数据集收集和公众共同的数据集。此外,我们比较了方法与现有的识别方法(即支持向量机(4],LA-SVM [5],朴素贝叶斯[6),和决策树7])。实验结果表明,该NTMI方法可以达到较高的精度和较低的假阳性。考虑四个数据集,平均而言,NTMI玻璃钢准确率能达到92.5%和5.527%。

在本文中,我们提出一个恶意软件识别的方法,使三个贡献。

首先,我们提出一种改进的支持向量机算法更精确的网络流量分类两个方面:参数优化和核函数的选择。此外,我们比较了SVM算法使用其他内核函数。考虑到一起,可以得出结论,本文提出的算法实现最高精度。

第二,我们样品原始数据集和使用特征降维方法处理数据。所有这些操作的目的是提取数据的主要功能来减少冗余和次要特征对分类结果的影响。然后使用OFSVM算法进行分类。评价结果表明,NTMI方法会导致最高的识别性能相比其他方法。

第三,显示NTMI方法的有效性,我们获取的真实网络流量在不同的时间,选择在公共数据集CAIDA 10%的数据作为实验数据。

剩下的纸是组织如下。节2,我们现在一些先前相关的网络流量分类方法,并在部分3的设计和实现,我们描述NTMI方法提出了。部分4介绍了实验装置,并讨论了实验结果。总结了结论部分5。

许多学者已经研究网络流量分类或恶意软件在网络流量的识别。每种方法都有其优点和值得后来学者。在本节中,我们提出一些相关的初步工作。

沙菲克et al。2]讨论了网络流量分类技术和捕获实时网络数据集。此外,他们应用特征提取工具来提取特征和分类网络流量使用四种机器学习方法:支持向量机,C4.5决策树,朴素贝叶斯和贝叶斯网络。实验结果表明,C4.5决策树可以获得更准确的分类结果相比其他分类器。在[8),杨等人发现参数通过应用程序层根据不同协议和提出了基于分区的最小距离利用决策树进行分类。实验表明,拦截第一4或6包可以缩短时间和分类有更高的精度,从而证明了该方法的有效性。党的和施密特(9)利用三个监督机器学习算法,即贝叶斯网络、决策树、多层感知器,基于流的网络流量分类的。此外,他们调查的影响和作文的训练数据流量分类的性能。实验表明,贝叶斯网络和决策树等ML算法适用于高速网络流量分类和强调正确分类训练的重要性的例子。

刘等人。10)使用K——聚类算法使用统计信息来构建分类器作为输入向量。在不同的数据集实验结果表明,该方法可以获得高达80%的整体精度,从而增加对数变换后超过90%。实验证明的K则表现良好交通分类。Shrivastav和女子11)提出了一个semisupervised网络流量分类的方法,从而设计分类器训练数据只有少数标签组成的交通和许多标记流。该方法使用的K——聚类算法对训练数据集分割成不相交的集群和执行分类。实验表明,测试错误率的数量取决于集群随机使用的训练阶段。此外,分类器的准确性为各种数据集的范围从70%到96%。

Teufl et al。12)提出了一个框架来简化经验模型选择和特征提取,称为智能特点分类工具(感染)。感染分析网络流量检查中的数据流量是否违反某些规则和提取的最佳设置特性的数据来构建一个流量分类模型对网络流量进行分类。Bekerman et al。13)提出了一个端到端的surveillance-based系统来检测未知恶意软件使用网络流量分类。分类方法提取行为特征和特征选择方法应用于确定最有意义的特性,同时降低数据维数。该方法的准确性被实验证明是有效的在沙箱和真正的网络,和方法可以检测大多数现代恶意软件以及新的和未知的恶意软件。在[14),μ和吴提出了一个并行网络流量分类方法基于隐马尔科夫模型的网络流量使用包级别属性。实验结果表明,该分类方法可以获得较高的精度,为超过90%的准确率上收集到的数据集。最常见的用于网络流量分类技术是机器学习的方法。

Sethi和Behera15]提出使用深层数据包检测网络流量分类算法。网络流量的方法实现分类分析和处理数据基于参数等数据搜索,搜索的时候,可用带宽,访问用户的数量,和网络系统的架构,使用聚类方法在机器学习和签名技术。雷和刘16)提出了一个通用深上优于流量分类框架,介绍了常见的深度学习方法以及它们的应用流量分类的任务。Lim et al。17]提出使用卷积神经网络和残余网络网络流量分类。实验结果表明,使用深度学习模型的网络流量分类是有效的和剩余网络优于卷积神经网络分类。

3所示。研究方法

本文的目的是在网络流量识别恶意软件。为此,我们提出一个恶意软件识别方法被称为恶意软件网络流量识别(NTMI)。该方法包括三个步骤。NTMI首先从网络流量中提取特征,然后降低维数的提取特征,最后利用改进的支持向量机算法在网络流量分类识别恶意软件。

3.1。特征提取

网络流量分类的第一步是使用机器学习技术来提取网络流量的特性。在本节中,我们首先描述了如何收集、样本,规范化数据。

3.1.1。数据收集

在网络流量识别恶意软件,我们首先从收集到的网络流量数据提取特征。我们使用NetFlow工具(18收集的网络流量数据。它是一个轻量级的工具,监控所有流量通过一个端口在指定的时期,然后包版本,号码,缓冲区大小和其他信息。

3.1.2。数据采集

此外,而不是直接从收集到的网络流量的特征提取,我们第一次执行数据抽样选择更好的子集。数据采集的目的是选择一些数据作为整个数据集的子集和样本的观测,因为继承了原始数据集的特征子集,从而使整个数据集的评价。数据采集分为三类:系统抽样,随机抽样和分层抽样。系统抽样的抽样样本总数的一部分根据一定的采样距离。随机抽样是指随机选择从整个样本数据的一些示例数据。分层抽样意味着整个数据样本集第一分层根据指定的规则,然后一些数据是随机选择从每层根据指定的比例。在本文中,我们采取分层抽样,选择示例数据。

3.1.3。数据归一化

如果所选择的数据集是反常,它最终会影响到恶意软件识别的有效性。因此,我们需要规范化的数据集。通过指定的特征属性数据范围,规范化数据可以减少培训时间和提高分类性能。如果他们的指定的区间范围,数据将被排除在外,从而帮助网络流量进行分类,识别模型建立在此基础上提高识别恶意软件的效率。

3.1.4。交通特征提取

实现网络流量的识别恶意软件,它是必不可少的提取的特征属性数据传输网络,构建一个恶意软件识别模型。通过研究网络攻击的行为,我们发现恶意软件有一些共同的特征,帮助我们识别它们。攻击者会攻击多个常用端口或端口,在很短的时间内被关闭,例如,异常数据包只发送SYN或鳍数据包,大量的虚假的连接或球员包,和大量的网络流量包。如果共同特征的网络流量数据包可以提取,它将提高恶意软件识别的准确性。

常用的特征提取方法是SNMP协议技术(19)和探测技术(20.]。SNMP协议技术监视网络链接,但这项技术获得的特性分类太少。探针技术可以应用于网络流量的链接获得快速的交通特性。但是,它不适合大规模的交通特征提取和太耗费时间了。此外,该技术主要集中在提取协议功能,不能准确地解析数据包消息的信息。本文应用ReliefF算法(1特征提取),优于上述常见的特征提取方法。这项技术比较样本类型和特性的相关属性数据集处理。重量将增加随着相关性变得更高,并设置一个阈值。如果重量对应特征属性之间的相关性和样本类型超过设定的阈值,我们保持功能属性;否则,我们丢弃的属性。此外,如果一个以上的功能属性出现在一个包,出现最频繁的特征属性被选中。具体特征选择过程如下:(我)选择一些样品随机的数据集分层抽样的方式(2)选择样品相同类型的最近的样品(3)选择样品从不同类型的(iv)计算样本之间的距离和样本作为和样品之间的距离和样本作为

如果 ,这意味着功能属性是有问题的,不能用于分类,我们设置一个较小的重量值;否则,这个功能属性有利于分类,我们设置一个更大的重量值。所示的特征权值计算公式方程(1),是相应的重量, 代表样本的欧氏距离 ,样本 ,和特性 ,D_j是jth样本数据的数据集是指重量大小的计算特征提取的数据。通过上述过程循环,最后计算权重设置的阈值进行比较。如果需求得到满足,功能属性保留;否则,它就会被丢弃。最后,我们可以得到一组提取的特征属性。

通过ReliefF算法(1),表1记录一些提取的网络流量特性的属性。


功能名称	功能描述

origin_ip	源IP地址
destination_ip	目的IP地址
port_number进行	端口号
持续时间	连接持续时间
protocol_type	协议类型
服务	类型的目的地主机的网络服务
国旗	连接正常或错误状态,这个领域是离散型
src_bytes	的字节数的数据从源主机到目的主机
dst_bytes	的字节数的数据从源主机的目的地主机
wrong_fragment	错误的碎片,这一领域是连续的类型
紧急的	紧急方案,这个领域是连续的类型
dst_host_srv_error_rate	的比例与SYN错误
热	数量对敏感系统上的文件和目录的访问
mark_status	马克的地位
packet_rate	数据包发送速率
max_pktLens	最大消息长度
min_pktLens	最低消息长度
num_compromised	妥协条件出现的次数
num_access_files	访问控制文件的数量
same_srv_rate	比例的连接与当前连接相同的服务
dst_host_srv_count	连接数量与当前连接相同的目的地主机服务

3.2。特征降维

对网络流量进行特征提取后,一定流量数据包包含各种功能属性,构成复杂的高维特征空间的网络流量分类问题。一些冗余的特性不仅导致学习分类算法的复杂性也导致过度拟合和局部优化问题。当恶意软件识别关键特性的比例很小,最终识别结果将是贫穷。解决上述问题,本研究选择关键特性的组合来实现降维的交通特性来帮助建立相应的恶意软件识别模型。

提取的特征属性是第一个添加到集合中年代。我们建议利用过滤特征降维方法的帮助下信息增益技术(21),即。该算法是一个评估的信息增益集年代的特征属性。通过评估每个特征属性的影响在随后的分类,它决定是否更新的价值E_搞笑和特征属性集 ,信息增益值在哪里计算候选特征子集。当 ,评估价值和特征子集将被更新;否则,他们将不会被更新。然后,启发式搜索策略(22)用于排序功能属性来获得特征属性集。重复这个过程直到到达指定的次数。在此基础上,我们采用包装器方法(23二次特征选择),启发式序列向前搜索方法用于获得特征属性集。特征降维后,它不仅减少了计算复杂度和时间,也提高了分类效果。

当使用包装器方法时,方程(2)计算交通特性的相关属性进行二次选择的功能属性,在哪里代表所有最初的选项功能属性的数量,代表特征属性系数,代表的交通特征属性的平均值我- - - - - -包,相应的方差,代表交通特性的平均属性。

进行特征降维后使用上面的方法,以前提取的特性集可以进一步简化,消除冗余的功能。此外,选择这样的一些特性几乎是不相关的,哪个更有利于分类。最终的特征降维集提出了表2。


功能名称	功能描述

origin_ip	源IP地址
destination_ip	目的IP地址
持续时间	连接持续时间
国旗	连接正常或错误状态,这个领域是离散型
src_bytes	的字节数的数据从源主机到目的主机
dst_bytes	的字节数的数据从源主机的目的地主机
wrong_fragment	错误的碎片,这一领域是连续的类型
mark_status	马克的地位
packet_rate	数据包发送速率
max_pktLens	最大消息长度
min_pktLens	最低消息长度
same_srv_rate	比例的连接与当前连接相同的服务
dst_host_srv_count	连接数量与当前连接相同的目的地主机服务

我们获得一个子集的特征降维后的特征属性。然而,这些特征属性用不同的单位和计量标准并不相关。因此,本研究提出了规范化特征属性的子集。

具体的正常化过程如下。我们利用min-max标准化处理数据。线性变换在获得特征子集执行目标数据集转换成0和1之间(11使用转换函数,如下:

在这个公式,指的是样本数据的最小值,和是指样本数据的最大值。然而,这种方法的缺点,继续添加数据在目标转换会导致和被改变,从而影响规范化标准。因此,正常化过程之前,需要确保数据集将保持不变。

3.3。OFSVM算法

本研究将提高现有支持向量机(SVM)分类方法23),最终实现提高网络流量的分类程序。第一部分介绍了目前网络流量分类的支持向量机算法的缺陷,和第二部分提出了改进的算法。

3.3.1。现有SVM算法和其缺点

支持向量机是一种二进制分类模型,主要用于发现特征空间的最大时间间隔。支持向量机的目标是找到一个超平面在所有样本数据,以便双方之间的距离最近的数据,飞机是最大的。支持向量机算法在训练集的数据可分为分离超平面,其中可能有无限多,但是选择的最大时间间隔。

在网络流量,我们认为当前的网络流量集 ,及其相应的功能集。然后,SVM算法构造的网络流量分类模型和实现网络流量的分类,即:,恶意软件或nonmalware。SVM分类方法可以选择一个相对最优分类面分类和建立一个模型可以完成一个相对稳定的分类条件下的未知样本的分类。有很多噪音在真实的网络环境和大量的未经处理的示例数据的冗余特性,这两种导致低的分类结果的精度。在本文中,我们提出优化支持向量机算法的参数优化和合适的核函数。该方法利用网格搜索参数优化(24),以防止过度拟合,以找到最优的解决方案。此外,我们引入了模糊因素来提高分类的准确性(25]。本研究使用样本的分类超平面的距离设计的模糊因素,因为这种方法去除噪声的影响,同时减少分类平面形状精度的影响。然后,我们使用功能的有效性26消除冗余特征的影响。最后,考虑到核函数参数对分类性能的重要性,本文选择径向基核函数(27)优化支持向量机算法。

3.3.2。参数优化

一些研究人员已经改善了SVM算法的分类能力,例如,遗传算法(28),粒子群算法(29日],鱼和人工蜂群算法[30.]。然而,这些分类算法仍然有一些缺陷的稳定性和准确性。因此,我们提出一个新算法改进支持向量机算法,称为OFSVM算法。本研究将充分考虑实际网络流量的复杂性和识别精度下降的原因。

支持向量机的参数优化主要是找到一个收敛的最优解在有限数量的搜索空间中使用一些搜索策略的参数。在这一步中,我们考虑两个重要参数:内核函数参数和惩罚参数。其中,惩罚参数将发挥决定性的作用在支持向量机的泛化能力超平面,主要用来表示构建超平面时的容错。和核函数参数将决定行动的范围,这也将影响支持向量机的泛化能力。因此,目的是找到最优参数组合在一个有限的搜索,我们建议采用网格搜索优化参数,提高支持向量机算法。

本文中使用的网格搜索原理如下,包括四个主要步骤,我们简要总结:(我)描述的 - - - - - -维参数空间,网格节点是用来代表候选人的参数(2)抽样在指定的步骤并生成相应的设置 (3)设置参数的范围与不同的方向来生成网格(iv)评估每个网格节点根据指定的评价方法,输出最终的近似最优解

在这个过程中,首先将增量*默认步长 ,也就是说, 。这一步是减少搜索时间和生成的网格的密度。然后,所有样本数据迭代搜索来获取参数的最佳组合。表示样本数据的容错性构建分类平面时,一个点球参数介绍并与过度拟合阈值。当小于 ,缩小搜索空间和搜索的步长设置为初始步骤的一半大小,并再次搜索。减少步长是扩大网格的密度,从而实现更精确的搜索。如果超过 ,扩大搜索空间,调整搜索方向为另一个。这一步的目的是优化参数,防止过度拟合。遍历示例数据,直到点球参数临界范围内,值是输出最优参数组合。算法有一个很大的搜索空间,节点是不相关的,所以它更一般化。

为了进一步提高分类精度,首次引入模糊因素。在这项研究中,样本的分类超平面的距离将被用于设计的模糊因素,这将减少分类平面形状的影响分类精度。在此基础上,首先建立了相应的分类超平面。然后,从每个样本节点到超平面的距离计算,这样模糊因素可以用来消除多余的噪音的影响。因此,拟构建功能有效性来消除冗余特征对分类精度的影响。

为每一个样本点 ,有一个相应的模糊因素 ,代表样本分布的不确定性,在哪里。和代表的意思是点正负样本,和法向量可以表示。根据方法(31日),可以表示为相应的超平面。通过这种方式,样本点到超平面的距离中描述方程(4),然后最大距离从积极的样本点到超平面可获得当且仅当是。同样,当是 , 是最大的负样本点到超平面的距离。然后,监管因素被用于制造。所示的模糊因素是方程(5),其中的价值是和 ,分别在不同的积极的和消极的样本。因此,过量噪音对分类精度的影响是通过使用不同的模糊因素消除。因为不同特征对分类的影响没有考虑,本文提出引入功能有效性消除弱相关特征对分类精度的影响。

在[26),为每个功能相应的样本数据,它有一个功能的有效性 ,它可以显示一定的程度的影响特征用于分类。更大的分类能力的特征 ,它的功能有效性越大。在特性集 ,每个特性的分类效果是评价通过计算每个特性的增强学习能力。如果训练样本集有数量吗还有特征属性的一个示例,该功能有效性可以表示为方程(6)。当增强学习一定的价值功能效度是相对较大的,其特性是相对较大的,也就是说,它对分类的贡献将会相对较高。最后,考虑到核函数参数对分类性能的重要性,本研究优化支持向量机算法通过选择合适的核函数。

3.3.3。适当的内核函数

内核函数主要用于原非线性样本数据映射到特征空间,然后将非线性样本转化为一个线性可分类的问题通过构建最优分类面,这样就避免了大量的高维特征空间的计算。假设输入空间 ,和相应的功能空间。当有一个映射函数和任何和属于满足 ,有一个核函数。核函数需要满足Mercer定理(32),也就是说,任何向量的输入空间,相应的内核矩阵应该是半正定矩阵。选择合适的核函数后,线性分类可以不增加复杂性完成。因此,支持向量机的分类效果大大相关内核函数。在本文中,我们选择径向基核函数作为核函数。这个函数在当地范围内具有良好的性能,它可以实现分类效率高的采样点数据集。此外,它不受制于样本的数量和特征维度。少,径向基核函数参数,这使得内核函数较低复杂性。算法1描述了改进算法OFSVM。

	输入:executedDataM/ /处理功能属性的集合
	输出:generatedClassifier/ /生成的分类器进行了优化
(1)	构造fuzzyFactor=零;/ /计算每个样本与类之间的距离模糊因素提高分类精度
(2)	构造executedDefaultStep=问,executedSearchStep=零;/ /控制搜索时间和网格密度
(3)	构造executedPenaltyParameter;/ /表达样本数据的容错当构造SVM的分类面
(4)	构造executedOverfittingThreshold=f;/ /判断惩罚参数是关键的范围内
(5)	representCandidateParameters();/ /使用网格节点代表候选人参数
(6)	设置参数的范围在不同的方向来生成网格;
(7)	为每一个样本我在executedDataM做
(8)	构造executedSearchStep=q.t;/ /增量步是t乘以默认一步问
(9)	constructTraverseSearch();/ /执行遍历搜索在所有样本
(10)	分为我维参数空间中我参数;
(11)	如果(executedPenaltyParameter(我)<executedOverfittingThreshold)然后
(12)	executedSearchStep= 2 /问,/ /减少步长增加网格密度更精确的搜索
(13)	constructTraverseSearch();/ /执行遍历搜索在所有样本
(14)	其他的
(15)	扩大搜索空间,调整搜索方向;
(16)	constructTraverseSearch();/ /执行遍历搜索在所有样本
(17)	如果
(18)	面板=createClassificationHyperplane();/ /构造相应的分类超平面
(19)	calculateDistance(米(我),面板);/ /计算每个样本节点和超平面之间的距离是一个模糊的因素
(20)	computeFeatureValidity(我);/ /计算功能我每个样本数据,有一个功能有效性,并确定每个特性的分类效果
(21)	useRadialBasisKernel();/ /内核函数有较低的复杂度和较高的分类效率
(22)	结束了
(23)	generateClassification();/ /生成优化的分类器
(24)	返回generatedClassifier;

通过改进支持向量机算法在上面的方式,误差相对较小,识别网络流量的恶意软件进一步改善。算法的输入是一组功能属性来训练支持向量。该算法适用于网格搜索相关搜索,扩大搜索空间和搜索密度,然后完成精确的搜索。每个样本和类之间的距离作为模糊因素,和有效性提出的功能是用来消除冗余特征对分类精度的影响。它还依赖于径向基核函数验证了实验和阐述4.3节。核函数有更高的精度和更稳定,最后生成一个分类器模型。它的时间复杂度是 ,在哪里是输入样本的数量特征属性和是核函数操作的数量。

3.4。NTMI方法

在前面的部分中,我们介绍了如何提取功能的网络流量和减少提取的特征的维数,分别,然后网络流量识别恶意软件解决方案进行综述。此外,为了解决传统的支持向量机分类的不准确,我们现在OFSVM网络流量分类算法的参数优化和适当的内核函数。在本节中,我们详细识别模型建立过程,提出恶意软件在网络流量的识别方法,即。,NTMI。

识别恶意软件,第一步是解决网络流量的准确分类的问题。我们首先应用NetFlow工具(18)收集真实的网络流量。第二,收集到的网络流量数据采样和规范化获得更有价值的数据集的实验,而处理过的数据更便于特征提取。第三,我们利用ReliefF算法(1)提取数据包在网络流量的特性。与此同时,提取的特征还包含一些冗余的功能属性。这些特征属性将大大减少网络流量分类的准确性。因此,我们建议减少上述提取的特性集的维数。特征降维由一共有4个步骤:(我)计算和评估每个特性使用信息增益技术(2)排序功能设置(3)使用包装器方法选择辅助功能(iv)计算相关的功能序列采用启发式搜索方法

接下来,获得特征子集需要规范化,和所有功能属性转换成数值,然后放入一个矩阵数组计算最小欧氏距离。然后,OFSVM算法用于训练更好的分类器处理过的网络流量测试集作为输入。这个分类器可以正常程序和恶意软件网络流量进行分类,最后在网络流量识别恶意软件。算法2描述了具体NTMI方法。

	输入:executedOriginalData/ /收集交通数据的集合包
	输出:identifyMaliciousData/ /识别恶意软件的集合
(1)	构建executedOriginalFeatureSet =零l / /存储功能属性提取网络流量包
(2)	构造identifyMaliciousData=零,/ /识别恶意软件的集合
(3)	构造executedNormalizationData=零/ /存储规范化数据
(4)	executedOriginalData=collectNetworkFlow();/ /使用NetFlow收集数据包任务
(5)	为每一个数据包p在executedOriginalData_火车做
(6)	executedNormalizationData=dataNormalization();/ /完成数据采样和规范化
(7)	结束了
(8)	为每一个数据包p在executedNormalizationData做
(9)	executedOriginalFeatureSet=useReliefFCompleteFeatureExtracted(executedNormalizationData_p);
(10)	为每一个功能kexecutedOriginalFeatureSet做
(11)	临时=比较(executedOriginalFeatureSet_k,∂);/ /比较每个提取的特征属性k用一个阈值∂临时并返回值
(12)	如果(临时= = 1)然后
(13)	deleteFeature(executedOriginalFeatureSet_k);/ /删除此功能属性
(14)	如果
(15)	结束了
(16)	executedFirstFeatureSet=outputFeatureExtraction();/ /保留从每个数据包中提取特征属性
(17)	结束了
(18)	为每一个功能j在executedFirstFeatureSet
(19)	使用信息增益技术计算和评估每个特性;
(20)	normalizedFeature=sencondExtraction(executedFirstFeatureSet_j);/ /排序为第二特征提取功能属性和使用包装器
(21)	结束了
(22)	realizeUnit();/ /转换为无单位值并保持数据在同一数量级
(23)	classifyModel=useOFSVMAlgorim(normalizedFeature);/ /生成分类模型
(24)	identifyMalware(classifyModel,executedOriginalData_测试);
(25)	返回identifyMaliciousData;

算法的输入是一组收集到的流量包,和最终的输出是恶意软件的数据集在网络流量。这个过程的时间复杂度特征提取和特征降维大于功能正常化的时间,所以最后一个算法的时间复杂度 ,在哪里数据包规范化和吗提取的特征属性的数量,可以近似为。NTMI方法相比,成本更低的其他分类方法在实验部分。

4所示。实验和讨论

验证的有效性NTMI方法识别恶意软件在网络流量,我们比较它与现有的识别方法,即。支持向量机(4],LA-SVM [5),朴素贝叶斯模型(非)(6),和决策树模型(DTM) [7]。我们选择每个五个数据集上进行实验。为了避免错误引起的一个实验中,我们分别对每个方法执行100次实验,计算平均方法的准确性和假阳性平均作为最终的实验结果。

4.1。实验数据集

我们捕获网络流量数据的四组在一周内不同时期,称为NTDS1 NTDS2, NTDS3和NTDS4分别。这四个数据集有一个相对较大的随机性,因此该方法的性能可以更好的判断。与此同时,我们采用公共数据集CAIDA [33训练和测试上面的方法。由于大量的数据在这个数据集,我们随机选择10%的实验数据。表3总结了网络流量数据集的特定信息。


数据集	训练集		测试组
数据集	Nonmalware	恶意软件	Nonmalware	恶意软件

NTDS1	17296年	5690年	7435年	4709年
NTDS2	15735年	3972年	8395年	3674年
NTDS3	12947年	4468年	7083年	4238年
NTDS4	19392年	4938年	8974年	3950年
CAIDA	170874年	9763年	29047年	11933年

4.2。实验指标

我们使用的准确性和假阳性率(玻璃钢)作为实验的实验指标。方程(7)和(8)的计算准确性和玻璃钢。在方程(7)和(8),TP代表样本的数量,正确认定为恶意流量。FP表明样品的数量并被错误地归类为正常流量,指异常交通但是错误地认为是正常的。FN表示样品的数量被扭曲,即。,正常交通误认为异常交通。TN意味着分类结果与预期一致,即。,nonmalicious交通分为正常交通。

4.3。实验结果

本文使用以上五feature-processed数据集进行实验检测不同核函数对分类的影响提出OFSVM算法的有效性。根据表4,因为我们收集的数据和公开数据集CAIDA,内核和多项式线性内核精度差比乙状结肠内核和径向基函数(RBF)的内核,这主要是由于非线性特性和高维特性。此外,它可以从表4乙状结肠内核函数是相对稳定的,只是稍微比RBF内核。内核函数要求相对高的参数。平均值的五个数据集的分类精度,线性核函数的分类效果是最差的(即。,平均精度为65.92%)和RBF内核执行最好的(即。,88.3% for average accuracy), which is more stable and more suitable for nonlinear high-dimensional feature space with a lower complexity. Therefore, this study selects the RBF kernel as the kernel function of classification.


数据集	精度(%)
数据集	多项式	乙状结肠	线性	RBF

NTDS1	75.4	87.9	67.4	90.3
NTDS2	86.3	89.3	55.3	88.4
NTDS3	53.8	82.4	64.2	89.3
NTDS4	91.4	87.3	77.3	87.1
CAIDA	72.3	82.7	65.4	86.4
平均	75.84	85.92	65.92	88.3

4.4。实验讨论

表5记录的准确性和玻璃钢NTMI方法和其他识别方法。从准确性的角度,NTMI方法的算法精度最高,其次是DTM、现化,LA-SVM和支持向量机。平均的结果,我们可以观察到NTMI方法8.93%相比,支持向量机算法是最优的;NTMI 7.75%相比LA-SVM算法是最优的;相比NTMI方法是优化7.56%现化算法;和NTMI 5.7%相比,DTM算法进行了优化。从表可以看出5,NTMI方法比另一个更精确的四种方法在网络流量识别恶意软件。


数据集	指标(%)	支持向量机	LA-SVM	现	DTM	NTMI

NTDS1	精度	82.6	84.2	83.2	87.2	92.4
NTDS1	玻璃钢	12.45	11.90	9.56	9.47	5.78
NTDS2	精度	82.8	84.8	84.3	87.5	92.5
NTDS2	玻璃钢	11.34	10.58	9.73	9.36	5.74
NTDS3	精度	84.3	84.4	86.2	85.9	92.0
NTDS3	玻璃钢	10.87	9.94	9.46	10.18	5.41
NTDS4	精度	84.6	85.6	86.2	86.6	93.1
NTDS4	玻璃钢	11.08	8.69	10.14	9.92	5.18
平均	精度	83.57	84.75	84.97	86.8	92.5
平均	玻璃钢	11.435	10.277	9.722	9.732	5.527

玻璃钢的这五个识别方法,我们提出NTMI方法可以实现最低的假阳性。平均的玻璃钢NTMI方法仅为5.527%。最低的玻璃钢等方法现为9.722%。因此,NTMI本文提出的方法是最有效的识别恶意软件在网络流量的准确性和玻璃钢。

说明NTMI方法的有效性更直观地,我们把这五个识别的准确性和玻璃钢曲线的方法。数据1- - - - - -4描述这些方法的精度曲线。从这些数据可以看到,与NTMI方法相比,其他四个方法的识别性能显著降低数据包的数量持续增加,预计,当数据包的数量成倍扩大,其识别的准确性会再次下降。

从数据可以看出5- - - - - -8与其他四种方法相比,NTMI方法最低玻璃钢在恶意软件识别。这种方法不仅精度高,而且低玻璃钢,这也表明,其识别效果是最好的。越来越多的数据包,玻璃钢目前的五个方法显示了一个增加的趋势,但玻璃钢NTMI方法往往是相对稳定的。当测试集的数量增加到12000,最终稳定在5.527%。与此同时,NTMI识别恶意软件时,消耗更少的时间开销的方法。因此,NTMI方法提出了具有更好的识别效果和更稳定的性能在准确性和玻璃钢。

为了更好地验证NTMI方法提出了具有良好的通用性,本研究选择的广泛使用的数据集CAIDA实验。数据9和10总结以上的准确性和玻璃钢五识别方法,可以得出以下结论。

我们选择10%的数据集进行训练和测试,因为公众数据集很大,和最终的测试数据集接近约40000。从图可以看出9与其他方法相比,NTMI方法的准确性仍表现良好。的准确性NTMI方法可以达到91.7%,而其他分类方法的精度可以达到的最高为78.6%。数据包的数量继续增加,其余的识别方法的准确性已大幅下降。

从图可以看出10的玻璃钢NTMI方法是低于其他四个方法更大的网络流量和公共数据集往往是稳定的,剩下的6%左右。与NTMI方法相比,玻璃钢的其他四种方法的共同点越来越多,使识别性能更加可靠。此外,最后的时间开销NTMI方法是30年代和50年代比其他方法更快。从表可以看出5的准确性和玻璃钢,NTMI方法对收集到的数据集的结果摘要非常类似于公共数据集CAIDA,也证明了该方法是可行的在真实的网络环境。最终,我们得出这样的结论:NTMI方法可以达到最高的识别性能和实用性。

4.5。NTMI的有效性

为了更好的测量方法对分类性能的影响在本文中,我们比较的准确性和玻璃钢NTMI方法在执行分类和特征降维,分别。NTMI-NFDR被表示为一个识别方法不执行特征降维。我们进行比较实验CAIDA NTMI和NTMI-NFDR公共数据集。数据11和12实验结果。我们可以观察到NTMI方法性能更好的准确性和玻璃钢特征降维后提取的特征属性集,也验证本文提取的特征降维方法是可行的。

5。结论

在网络流量识别恶意软件,我们首样和规范化数据。其次,我们从处理过的数据中提取特征,降低维数,从而消除一些冗余特性的影响在网络流量的分类性能。然后,我们现在OFSVM算法基于SVM分类算法网络流量,提高网络流量分类的准确性。OFSVM算法提高了支持向量机算法的参数优化和核函数的选择。最后,我们提出了NTMI方法在网络流量识别恶意软件。实验结果表明,该NTMI方法可以达到更高的精度和更低的玻璃钢与其他识别方法相比。

核实NTMI方法的有效性,我们比较它与其他四个分类方法,即。、支持向量机、LA-SVM现,DTM。此外,我们评估这五个五个数据集的方法。评价结果表明,本文提出的算法优于其他四个方面的分类方法准确性和假阳性。其平均精度达到92.5%,而平均误判率仅为5.527%。CAIDA公开的数据集,我们提议NTMI方法实现最高精度和假阳性率最低,即。,91.7%,准确性为6.42%,玻璃钢。因此,实验结果可以证明该算法的有效性。

然而,NTMI方法提出了目前不是完全完美的分类器。未来的研究将进一步考虑是否可以检测哪些漏洞利用所确定的恶意软件。这可能有助于安全专家能够有效地识别类型的攻击,迅速提供解决方案。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

信息披露

本文的初步版本在第七届国际会议上提出了可靠的系统和他们的应用程序(2020年DSA)(秦et al ., 2020)。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作在一定程度上支持中国国家重点研发项目(批准号2020 yfb1005500),中国国家自然科学基金(国家自然科学基金委)(批准号。U1836116, 61872167),和尖端技术江苏省自然科学基金项目(批准号BK20202001)。

引用

m . Robnik-Šikonja和i Kononenko”理论和实证对救援F和F R救援,”机器学习,53卷,不。1、23 - 69,2003页。视图:谷歌学术搜索
答:a . m .沙菲克x Yu Laghari et al .,“网络流量分类技术和使用机器学习算法进行比较分析,”第二届IEEE计算机和通信国际会议(ICCC)成都,页2451 - 2455年,中国,2016年10月。视图:谷歌学术搜索
j .曹z方、瞿g . h .太阳,和d·张,“准确的交通基于支持向量机分类模型,”国际期刊的网络管理,27卷,不。1,2017。视图:出版商的网站|谷歌学术搜索
y, b . Li h ., a .老大和阮x,“Sample-specific SVM学习人鉴定,”《IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,页1278 - 1287年,NV,美国,2016年6月。视图:谷歌学术搜索
z格米、a . Alimohammadi和m . Farnaghi”LaSVM-based大数据学习系统动态预测在德黑兰的空气污染,”环境监测和评估,卷190,不。5 - 17,2018页。视图:出版商的网站|谷歌学术搜索
我优秀”,朴素贝叶斯分类器的一个实证研究,”诉讼IJCAI 2001研讨会上展出的实证方法在人工智能,3卷,不。22日,页。41-46、西雅图、佤邦,美国,2001年8月。视图:谷歌学术搜索
Kamiński B、m . Jakubczyk和p . Szufel“敏感性分析的决策树的框架。”中部欧洲运筹学杂志》上,26卷,不。1,第159 - 135页,2018。视图:出版商的网站|谷歌学术搜索
z, l . z李问:j .霁和y .问:朱,“网络流量分类基于最小距离分区,使用决策树”中国通信学会杂志》上,33卷,不。3、90 - 102年,2012页。视图:谷歌学术搜索
m .党的e . g .施密特:“机器学习算法准确的基于流的网络流量分类:评估和比较,”绩效评估,卷67,不。6,451 - 467年,2010页。视图:出版商的网站|谷歌学术搜索
w·李,李和y, y . Liu“使用k - means聚类的网络流量分类,”第二届国际计算机和计算科学Multi-Symposiums (IMSCCS)爱荷华市,页360 - 365年,IA,美国,2007年8月。视图:谷歌学术搜索
a . Shrivastav和a .女子“网络流量分类使用semi-supervised方法,”第二届国际会议在机器学习和计算机(LCMLC),页345 - 349,班加罗尔,印度,2010年2月。视图:谷歌学术搜索
p . Teufl支付者,m . aml et al .,“感染——网络流量分类”学报》第七届国际会议上网络(ICN)444年,页439 - 2008年4月墨西哥坎昆。视图:谷歌学术搜索
d . Bekerman b . Shapira l . Rokach, a .酒吧,“使用网络流量分类未知的恶意软件检测,”学报2015年IEEE会议通信和网络安全(中枢神经系统)142年,页134 -佛罗伦萨,意大利,2015年9月。视图:谷歌学术搜索
xμ和w·吴”,一个并行网络流量分类基于隐马尔可夫模型”《2011年国际会议上Cyber-Enabled分布式计算和知识发现(CyberC),第112 - 107页,北京,中国,2011年10月。视图:谷歌学术搜索
p·c·塞提和p . k . Behera”网络流量分类更快更安全的网络服务,“国际期刊的计算机应用程序,卷131,不。4、15 - 20,2015页。视图:出版商的网站|谷歌学术搜索
美国雷和刘x”,深度学习加密流量分类:概述,“IEEE通讯杂志卷,57号5,76 - 81年,2019页。视图:出版商的网站|谷歌学术搜索
j·j·h·Lim Kim Heo, k金,y, y汉,“基于分组网络流量分类使用深度学习,”学报2019年人工智能国际会议信息和通信(ICAIIC)页,46-51冲绳,日本,2019年2月。视图:谷歌学术搜索
“NetFlow”, 2020年,https://www.manageengine.com/products/netflow/。视图:谷歌学术搜索
d·哈林顿,r . Presuhn和b . Wijnen”架构描述简单网络管理协议(SNMP)管理框架,“RFC3411,性病,62卷,2002年。视图:谷歌学术搜索
w·郭,d . y .姚明,y傅et al .,”研究区域交通流特征提取方法和交通状态评价,“高速公路和交通研究期刊》的研究和发展,22卷,不。7,101 - 104年,2005页。视图:谷歌学术搜索
美国雷”,一个基于信息增益的特征选择方法和遗传算法,”《2012年国际会议上计算机科学和电子工程(ICCSEE),卷2,页355 - 358,杭州,中国,2012年3月。视图:谷歌学术搜索
h . Kaindl和g . Kainz”双向启发式搜索重新考虑。”人工智能研究杂志》上7卷,第317 - 283页,1997年。视图:出版商的网站|谷歌学术搜索
Maldonado和r·韦伯“包装器方法对于使用支持向量机的特征选择,”信息科学,卷179,不。13日,2208 - 2217年,2009页。视图:出版商的网站|谷歌学术搜索
h·a·法耶德和a . f . Atiya”加快网格搜索支持向量机的参数选择,”应用软计算卷,80年,第210 - 202页,2019年。视图:出版商的网站|谷歌学术搜索
c·f·林和s·d·王,“模糊支持向量机,”IEEE神经网络,13卷,不。2、464 - 471年,2002页。视图:出版商的网站|谷歌学术搜索
a . Elisseeff“介绍变量和特征选择,”机器学习研究杂志》上,3卷,不。2003年,第1182 - 1157页,2003年。视图:谷歌学术搜索
b . Scholkopf k . k . Kah-Kay唱,c . j . c . Burges et al .,“比较支持向量机和高斯径向基函数分类器内核,“IEEE信号处理,45卷,不。11日,第2765 - 2758页,1997年。视图:出版商的网站|谷歌学术搜索
d·惠特利“遗传算法教程”,统计和计算,4卷,不。2、65 - 85年,2014页。视图:谷歌学术搜索
j·肯尼迪和进行r·c·埃伯哈特,”一个离散的二进制版本的粒子群算法,”《IEEE国际会议系统,人,控制论。计算控制论和仿真5卷,第4108 - 4104页,1997年10月美国佛罗里达州奥兰多市。视图:谷歌学术搜索
m . Neshat g . Sepidnam m . Sargolzaei, a . n . Toosi“人工鱼群算法:最先进的的一项调查,杂交,组合和指示性应用,”人工智能审查,42卷,不。4、965 - 997年,2012页。视图:出版商的网站|谷歌学术搜索
j . h .太阳,t·h·刘正,c . c . Chen h·c·黄和k . s .周”MD-Miner:行为跟踪malware-control域的网络流量检测”《IEEE第三大数据计算服务和应用国际会议(BigDataService),页96 - 105年,旧金山,美国,2017年4月。视图:谷歌学术搜索
j .美世功能Ofpositive和Negativetypeand Theircommection Ofintegral理论方程,Philosophicol Trinsdictions Rogyal学会,伦敦,英国,1909年。
2020年j . Caida,https://www.caida.org/home/。

安全性和通信网络