文摘
日益增长的数量和类型的malwares给网络安全带来巨大威胁。深的恶意软件检测二进制卷积神经网络(cnn)已被证明是一种有效的方法。然而,现有的基于cnn的恶意软件分类方法不满意这一天,因为他们可怜的提取能力,恶意软件分类精度不足,高成本的检测时间。要解决这些问题,一个新颖的方法,即多尺度特征融合卷积神经网络(MFFCs),提出了实现一个有效的基于恶意软件可视化分类的恶意软件利用深度学习,可以抵御恶意软件变种和困惑malwares。方法首先将恶意代码的二进制文件转换成灰度图像,然后,这些图像将标准化的规模利用MFFC模型来识别恶意软件的家庭。对比实验验证了该方法的性能。结果表明,MFFC站在最近的先进方法的准确性达98.72%,平均成本为5.34毫秒Malimg数据集。我们的方法可以有效地识别恶意软件和检测恶意软件的变体的家庭,拥有优秀的特征提取能力和更高的精度较低的检测时间。
1。介绍
恶意软件是一种恶意软件,对计算机有害的操作系统,包括病毒、蠕虫、木马、间谍软件(1]。根据趋势的每周报告国家计算机网络应急技术团队/协调中心(称为CNCERT / CC),主机感染网络病毒在中国的数量约为96200,中国的恶意程序传播数量只在一个星期的6972.4万倍(2]。增加的数量和类型的malwares,变得越来越难检测这些malwares,对网络安全产生巨大的挑战。因此,快速、准确的方法来检测和分类malwares及其变体是高度期望的专业领域。
恶意软件的特征向量代表的恶意软件检测的基本特征。根据不同类别的特征向量的恶意软件,恶意软件分析可以分为动态分析和静态分析。静态分析,基于拆卸恶意代码,不执行恶意代码。静态分析的传统方法提取属性代码,操作码和二进制的恶意软件功能来识别样本玩忽职守。但在这种方法代码模糊频繁发生。不同,动态分析实际运行的实践是一个可执行文件并分析其行为在沙箱,模拟器和虚拟机。一些工具如ProcesMonitor或OllyDbg用于监视应用程序行为通过系统调用3]。Alazab et al。4,5)表明,静态分析确实比动态分析方面的速度和效率,因为它可以捕获相关信息结构属性。
恶意软件检测的传统方法主要是基于恶意软件特征分析。然而,上述方法不识别恶意软件变种。Nataraj et al。6,7)意识到恶意软件可视化通过将恶意代码的二进制文件转换为灰度图像的恶意软件的帮助下孔蒂et al。8]。恶意软件可视化后,恶意软件图像属于同一家族的愿景很相似,而恶意软件图像属于不同的家庭有不同的视野。根据图像特征的恶意软件,恶意软件分类可以通过计算机视觉。
恶意软件可视化分类是被证明是比传统的恶意软件分析方法更快、更准确。此外,这些方法可以解决代码混淆问题。近年来,机器学习和深度学习被广泛用于检测恶意软件和恶意软件分类基于恶意软件可视化。与其他技术相比的恶意软件分析图像纹理分析被证明是一个更好的方法来分类恶意软件家族的变体。目前,所有恶意软件基于恶意软件图像分类的方法可以分为两个部分:从恶意软件图像中提取特征,实现恶意软件通过分类器分类,如资讯(再)和softmax。
机器学习基于恶意软件使用恶意软件可视化数据集采用不同的机器学习分类器训练。例如,Nataraj et al。6,7)提出了一个恶意软件的分类方法,首先提取要点特征的恶意软件灰度图像,然后再使用恶意软件进行分类,获得Malimg数据集上的分类精度为97.18%。Kancherla和Mukkamala9]报道的方法使用了512 Gabor-based特性,22小波的特性,和6灰度特性的总特征和支持向量机作为分类器实现恶意软件检测。2016年,Nataraj和希提供了一种新方法命名为垃圾邮件(信号处理分析恶意软件),使用图像或信号代表的恶意软件样本(10]。他们第一次恶意软件通过提取图像特征,ieee的特性。然后,他们使用要点特性作为描述符和最近邻分类器来识别恶意软件,实现97.40%的准确性Malimg数据集。2019年,减少计算时间,Naeem et al。11]提出了LGMP特性描述,它既包含恶意软件的图像的局部和全局特征与资讯分类器来检测恶意软件。他们首先利用D-SIFT描述符提取当地恶意软件特征,然后使用一个要点描述符提取全球恶意软件功能。最后,LGMP描述相结合所产生的局部和全局特征向量。这些结果表明,他们的方法有一个较低的响应时间和更好的性能在恶意软件分类。
近年来,取得了巨大的突破在图像处理和目标探测深度学习和一些优秀的表演已经意识到在这些字段12- - - - - -14]。因此,大量的研究,相关的恶意软件分类基于恶意软件可视化与深度学习的方法,进行了。例如,Kabanga和金15CNN)使用了一个简单的结构,包括三个卷积层和两层完全连接识别恶意软件,实现良好的性能。悦(16想出了一个方法的加权softmax损失优化cnn在恶意软件分类。该方法实现了通过设置一个新的参数β的扩展,它可以控制加权的损失。它被证明是一个有效的方法通过比较VGGNet的准确性(13)模型和VGGNet模型和加权softmax损失。Agarap [17)处理恶意软件分类相结合深入学习和机器学习。他们利用深度学习,如cnn,格勒乌,延时,提取恶意软件的特征图像,然后使用支持向量机,机器学习分类器,分类器模型。然而,提取特征向量的维度,深度学习是巨大的,限制了支持向量机的影响,导致低精度为84.92%。上述模型未能处理不平衡数据集。
崔et al。18,19)用于处理数据不平衡在不同家庭群体智能算法的恶意软件,这在2018年是蝙蝠算法(DRBA)和2019年NSGA-II。训练模型的准确性被作为目标函数。在模型训练过程中,每个恶意软件样本家庭是根据重量重新取样,由一群智能优化算法为每个时代。确保最好的样本集之后,他们训练有素的CNN模型在这个数据集来识别恶意软件。与机器学习的方法要点+资讯,要点+ SVM, GLCM +支持向量机,应用灰度共生矩阵建立和+资讯,他们的方法生成一个更高的精度。此外,还有其他方法(20.- - - - - -22)处理问题的恶意软件厂商家庭不平衡的方法。
总的来说,大部分的方法(23,24在恶意软件被恶意软件可视化分类面临成本高的缺点恶意软件图像提取特征,如主旨,GLCM,枸杞多糖,导致低效率。减少特征提取的成本和提高特征提取的能力,一个恶意软件的家庭分类方法更高的精度和更低的检测时间是非常必需的,更有效的特征提取。
在这项研究中,我们提出一个新颖的方法,称为MFFC(多尺度特性融合卷积神经网络),来识别恶意软件和检测恶意软件的变体的家庭,具有优秀的特征提取能力和更高的精度和更快的检测时间。
本研究的其余部分的结构以以下方式:部分2解释了方法,详细MFFC,我们提出了。部分3介绍了数据集的实验和统计措施。部分4验证我们的方法的性能。部分5致力于分析比较实验的结果。部分6提供了结论和未来的方向。
2。方法
MFFC主要由两部分组成:恶意软件预处理包括恶意软件可视化和图像大小归一化的恶意软件,和MFFC模型建设。的基本结构如图MFFC算法1。
2.1。恶意软件预处理
2.1.1。恶意软件可视化
2010年,孔蒂等人提出的方法将二进制文件映射到灰度图像通过使用多维信息理论分类区域(8]。2011年,Nataraj et al。6带头在孔蒂等人的思想应用到研究恶意代码。恶意软件可视化的方法如下:恶意软件二进制文件转换成一个向量的8位无符号整数(范围从0 - 255)。转换后的向量是重构到一个二维数组中根据不同文件大小,和二维数组作为灰度图像。恶意软件的可视化处理图所示2。基于[6,7),不同的图像宽度应设置如表1根据不同的文件大小。
不同的灰度图像恶意家庭如图3。它可以观察到,虽然恶意软件灰度图像大小和它的长度和宽度的比例在同一家庭是不同的,和视力仍有相似之处,而灰度图像的恶意软件样本在不同的家庭不同的愿景。能够意识到恶意软件分类基于恶意软件的特征图像。
根据恶意软件的视觉相似性图像,恶意软件分类问题可以转化为计算机视觉问题。
2.1.2。恶意软件图像尺寸归一化
在古典卷积神经网络权重矩阵的大小,属于完整的连接层是固定的,所以神经元的数量输入完整的连接层必须是固定的。这意味着卷积后的特征尺寸和池操作之前必须一致的完整的连接层。如果输入图像的大小是不同的,输出卷积后特征尺寸也将不同,池操作,这将导致完全的失败连接层。因此,图像提供给神经网络必须是相同的大小。然而,恶意软件可视化的方法确定恶意软件映像的大小和比例是不同的。因此,它是必要的规范化数据集样本图像的图像大小。
在我们的研究中,恶意软件的图像被重塑固定平方大小(例如,和 )。只有恶意软件已经在图像大小归一化的图像可以被送入cnn进行训练。恶意软件图像大小归一化的优点是可以有效地减少图像的维数,这导致模型训练。与此同时,将不可避免地导致的损失在降维过程中特征信息。
在图4,我们可以看到一个灰度图像的恶意软件家族Allaple命名。一个,原来的大小 。不同尺度的大小 , , ,和 。显然,恶意软件的关键特征图像缩放后图像可以保留。
2.2。MFFC模型
MFFC模型图的粉色部分所示1。恶意软件恶意软件预处理后图像将被送入MFFC模型进行训练。MFFC模型中,有三个CBR层,四个MFFC块,致密层和激活softmax作为分类器,包含25类。
为了提高MFFC模型的特征提取的能力,MFFC块设计。MFFC块是一块,用于提取恶意软件图像的多尺度特征。MFFC块的结构如图5。
MFFC块中,有四个分支。分别从右到左分支,分支我,II, III和IV。第四部门我将分别生成特征向量的C1, C2, C3和C4。最后,特征向量C1 C4将连接得到最终的输出。MFFC块,1×1 CBR层是用来降低维度,从而使参数下降。在第四分公司,两个3×3 CBR层是为了获得一个更大的接受域。
3所示。数据集和统计措施
3.1。数据集和实验设置
所有的实验评估Malimg恶意软件数据集(6]。Malimg恶意软件数据集包含25 9435 malwares恶意软件的家庭。图6显示了样本的分布在每一个恶意软件的家庭。我们90%的数据集用于培训和10%的数据集进行测试。
3.2。统计的措施
评价方法的性能,四个评价指标,如精度、精度,回忆,和F1得分,被认为是。上述评价指标已经普遍应用于相关研究更好地评估各种方法(25- - - - - -27]:真阳性(TP):这意味着积极的样本和积极正确地检测到。真阴性(TN):这意味着负样本正确检测到负面的。假阳性(FP):这意味着负样品错误的检测是积极的。假阴性(FN):它意味着一个正样本错误检测为负。准确的定义是准确预测结果比预测的总和,定义如下: 精度的预测样本比例是正确的(包括积极的和消极的)样本总数和定义如下: 回忆的比例是正确的预测积极总真阳性和定义如下: F1分数加权调和平均数的精度和召回和定义如下:
4所示。结果
来验证该模型的有效性和效率(MFFC),我们设计了实验如下:(1)比较的性能与不同的恶意软件图像大小,(2)MFFC算法的性能,和(3)IMCFN性能的比较与先前研究恶意软件家族分类技术。
所有的实验都进行64位Windows英特尔(R) (TM)核心i7 - 7700总部CPU (2.80 GHz)和16 GB的RAM和NVIDIA GeForce GTX 1050 GPU (4 GB),基于python。
4.1。比较性能与不同的恶意软件的图像大小
CNN模型输入图像的形状是固定的全连接层的限制,但不同的输入形状的恶意软件模型的图像会得到不同的性能。为了获得一个更合适的恶意软件映像的大小,我们恶意软件图像正常化不同大小32×32,64×64、128×128、256×256训练MFFC。结果如表所示2。
当输入恶意软件图像的形状是256×256,模型达到98.72%的精度最高,它的参数是1104041。当我们预测一个新的恶意软件样本,该模型只有成本平均5.34毫秒。
4.2。MFFC算法的性能
图7显示了性能变化的时代的训练集和测试集模型训练过程中,图7(一)准确率的曲线是随时代变化和图吗7 (b)是损失随时代变化的曲线。黑线代表训练集,而红线是测试集。我们可以看到模型融合时代时7。训练和测试后,我们实现了98.72%的准确性和损失0.0517 MFFC。
(一)
(b)
为了清楚地观察分类模型的细节,MFFC的混淆矩阵绘制,如图8。混淆矩阵的主对角线的值代表了真阳性的恶意软件的家庭分类,和其他值意味着恶意软件的假阴性率家庭分类。
对于这个实验,我们得到MFFC的精度是98.86%,而回忆是98.72%,F1分数是98.73%。在图9MFFC在25恶意软件性能的家庭。
(一)
(b)
(c)
4.3。与现有的恶意软件分类比较
我们比较MFFC的性能与其他方法基于恶意软件的可视化,使用机器学习或深度学习。所有这些方法首先将恶意软件的二进制文件转换成图像的恶意软件,从恶意软件图像中提取特征,然后用机器学习分类器(例如,资讯和支持向量机)或深度学习分类器(例如,softmax)对恶意软件进行分类的家庭。
表3MFFC算法提出了一种比较的总结与先前的恶意软件使用Malimg数据集的分类算法对实验进行评估。
5。讨论
在表2恶意软件,我们可以看到,增加图像大小,精度、参数,并预测时间也会增加。恶意软件图像大小会影响MFFC的特征提取能力。图像尺寸越大,特征提取的效果越好。但随着图像尺寸的增加一个阈值,提高准确性。参数的增加也增加了恶意软件图像大小。虽然图像大小的参数从128×128 - 256×256增加到近0.6,精度从97.43%提高到了98.72%总增长1.23%,和增加的预测仅仅是只有0.63 ms。在恶意软件分类,精度和预测更重要的参数。我们认为值得改善的准确性为代价的增加这部分的参数。因此,恶意软件的图像大小为256×256 MFFC是更好的选择。
通过观察结果的训练后,我们得到了一个模型,收敛快,具有良好的泛化能力。整体的恶意软件分类的方法25恶意软件家庭获得令人满意的性能。然而,混淆矩阵所示,有一个错误分类的主要来源,哪些MFFC难以分类样本,同一家族的变体,比如C2LOP。P和C2LOP.gen !g, Swizzor.gen !E, Swizzor.gen !我。换句话说,我们的模型能够检测恶意软件的变体的家庭。无可否认,MFFC算法保持一个很好的性能。
表3表明MFFC比现有的恶意软件分类方法近年来IMCFN除外。MFFC算法和IMCFN的性能是相似的。我们的方法具有相同的性能与IMCFN精密但精度0.1低于IMCFN。这可能是因为IMCFN将恶意软件二进制文件转换成彩色图像的恶意软件时,在我们的方法是灰度图像。彩色图像有更详细的信息,提取有用的恶意软件的特征图像。这是一个很好的为我们的未来研究主题。此外,参数的总数在IMCFN MFFC近1.38亿,只有1104041。这表明MFFC参数的优势。
总的来说,我们的方法获得一个优秀的性能,具有高精度和高速度的预测时间,虽然有能力检测恶意软件的变体的家庭。机器学习和深度学习优秀的对恶意软件的检测图像分类的影响。数量急剧增加的malwares,迫切需要更有效的方法。
6。结论
本研究提出了一个新颖的方法,叫MFFC,基于多尺度特征融合灰度图像的恶意软件的恶意软件可视化,提高恶意软件的性能分类和检测恶意软件变种的能力。实验结果25日恶意软件的家庭,其中包括9342灰度级图像,显示我们的方法让一个优秀的性能以达到98.72%的准确率和良好的检测速度为0.00534秒。
在实验中,我们发现,在一些恶意软件图像大小归一化后会出现图像纹理的变化特性,限制了我们的模型的性能。这是因为原来的恶意软件映像的长宽比是不同的。当我们调整图像的恶意软件,图片部分拉伸导致图像失真。在未来的研究中,我们想要寻找一种新的方法实现图像大小归一化的恶意软件,可以让恶意软件的形象特征不变。恶意软件进入彩色图像的变换是证明有更出色的表现。我们将改善我们的恶意代码彩色图像可视化方法。此外,模型的优化hyperparameters往往取决于没有理论基础的人类经验。一些最具代表性的计算智能算法将会有效的解决这个问题,就像黑脉金斑蝶优化(MBO),蚯蚓优化算法(EWA),大象放牧优化(EHO),蛾搜索(MS)算法,黏菌算法(SMA),哈里斯鹰优化(HHO)。
数据可用性
之前报道的数据被用来支持这项研究,可以在10.1145/2016904.2016908。这些先前的研究(和数据)是在相关地方引用文本中引用(6]。
的利益冲突
作者宣称没有利益冲突。