计算智能和神经科学

在这一页上

文摘介绍方法结果讨论结论数据可用性的利益冲突引用版权相关文章

研究文章|开放获取

体积2021年| 文章的ID1070586| https://doi.org/10.1155/2021/1070586

恶意代码变体识别基于多尺度特征融合cnn

王烁 ,¹ 剑王 ,¹ 这里的歌 ,¹ 和李歌 ¹

学术编辑器: 马西莫Panella

收到了 2021年8月10

修改后的 2021年10月26日

接受 2021年12月01

发表 2021年12月14日

文摘

日益增长的数量和类型的malwares给网络安全带来巨大威胁。深的恶意软件检测二进制卷积神经网络(cnn)已被证明是一种有效的方法。然而,现有的基于cnn的恶意软件分类方法不满意这一天,因为他们可怜的提取能力,恶意软件分类精度不足,高成本的检测时间。要解决这些问题,一个新颖的方法,即多尺度特征融合卷积神经网络(MFFCs),提出了实现一个有效的基于恶意软件可视化分类的恶意软件利用深度学习,可以抵御恶意软件变种和困惑malwares。方法首先将恶意代码的二进制文件转换成灰度图像,然后,这些图像将标准化的规模利用MFFC模型来识别恶意软件的家庭。对比实验验证了该方法的性能。结果表明,MFFC站在最近的先进方法的准确性达98.72%,平均成本为5.34毫秒Malimg数据集。我们的方法可以有效地识别恶意软件和检测恶意软件的变体的家庭,拥有优秀的特征提取能力和更高的精度较低的检测时间。

1。介绍

恶意软件是一种恶意软件,对计算机有害的操作系统,包括病毒、蠕虫、木马、间谍软件(1]。根据趋势的每周报告国家计算机网络应急技术团队/协调中心(称为CNCERT / CC),主机感染网络病毒在中国的数量约为96200,中国的恶意程序传播数量只在一个星期的6972.4万倍(2]。增加的数量和类型的malwares,变得越来越难检测这些malwares,对网络安全产生巨大的挑战。因此,快速、准确的方法来检测和分类malwares及其变体是高度期望的专业领域。

恶意软件的特征向量代表的恶意软件检测的基本特征。根据不同类别的特征向量的恶意软件,恶意软件分析可以分为动态分析和静态分析。静态分析,基于拆卸恶意代码,不执行恶意代码。静态分析的传统方法提取属性代码,操作码和二进制的恶意软件功能来识别样本玩忽职守。但在这种方法代码模糊频繁发生。不同,动态分析实际运行的实践是一个可执行文件并分析其行为在沙箱,模拟器和虚拟机。一些工具如ProcesMonitor或OllyDbg用于监视应用程序行为通过系统调用3]。Alazab et al。4,5)表明,静态分析确实比动态分析方面的速度和效率,因为它可以捕获相关信息结构属性。

恶意软件检测的传统方法主要是基于恶意软件特征分析。然而,上述方法不识别恶意软件变种。Nataraj et al。6,7)意识到恶意软件可视化通过将恶意代码的二进制文件转换为灰度图像的恶意软件的帮助下孔蒂et al。8]。恶意软件可视化后,恶意软件图像属于同一家族的愿景很相似,而恶意软件图像属于不同的家庭有不同的视野。根据图像特征的恶意软件,恶意软件分类可以通过计算机视觉。

恶意软件可视化分类是被证明是比传统的恶意软件分析方法更快、更准确。此外,这些方法可以解决代码混淆问题。近年来,机器学习和深度学习被广泛用于检测恶意软件和恶意软件分类基于恶意软件可视化。与其他技术相比的恶意软件分析图像纹理分析被证明是一个更好的方法来分类恶意软件家族的变体。目前,所有恶意软件基于恶意软件图像分类的方法可以分为两个部分:从恶意软件图像中提取特征,实现恶意软件通过分类器分类,如资讯(再)和softmax。

机器学习基于恶意软件使用恶意软件可视化数据集采用不同的机器学习分类器训练。例如,Nataraj et al。6,7)提出了一个恶意软件的分类方法,首先提取要点特征的恶意软件灰度图像,然后再使用恶意软件进行分类,获得Malimg数据集上的分类精度为97.18%。Kancherla和Mukkamala9]报道的方法使用了512 Gabor-based特性,22小波的特性,和6灰度特性的总特征和支持向量机作为分类器实现恶意软件检测。2016年,Nataraj和希提供了一种新方法命名为垃圾邮件(信号处理分析恶意软件),使用图像或信号代表的恶意软件样本(10]。他们第一次恶意软件通过提取图像特征,ieee的特性。然后,他们使用要点特性作为描述符和最近邻分类器来识别恶意软件,实现97.40%的准确性Malimg数据集。2019年,减少计算时间,Naeem et al。11]提出了LGMP特性描述,它既包含恶意软件的图像的局部和全局特征与资讯分类器来检测恶意软件。他们首先利用D-SIFT描述符提取当地恶意软件特征,然后使用一个要点描述符提取全球恶意软件功能。最后,LGMP描述相结合所产生的局部和全局特征向量。这些结果表明,他们的方法有一个较低的响应时间和更好的性能在恶意软件分类。

近年来,取得了巨大的突破在图像处理和目标探测深度学习和一些优秀的表演已经意识到在这些字段12- - - - - -14]。因此,大量的研究,相关的恶意软件分类基于恶意软件可视化与深度学习的方法,进行了。例如,Kabanga和金15CNN)使用了一个简单的结构,包括三个卷积层和两层完全连接识别恶意软件,实现良好的性能。悦(16想出了一个方法的加权softmax损失优化cnn在恶意软件分类。该方法实现了通过设置一个新的参数β的扩展,它可以控制加权的损失。它被证明是一个有效的方法通过比较VGGNet的准确性(13)模型和VGGNet模型和加权softmax损失。Agarap [17)处理恶意软件分类相结合深入学习和机器学习。他们利用深度学习,如cnn,格勒乌,延时,提取恶意软件的特征图像,然后使用支持向量机,机器学习分类器,分类器模型。然而,提取特征向量的维度,深度学习是巨大的,限制了支持向量机的影响,导致低精度为84.92%。上述模型未能处理不平衡数据集。

崔et al。18,19)用于处理数据不平衡在不同家庭群体智能算法的恶意软件,这在2018年是蝙蝠算法(DRBA)和2019年NSGA-II。训练模型的准确性被作为目标函数。在模型训练过程中,每个恶意软件样本家庭是根据重量重新取样,由一群智能优化算法为每个时代。确保最好的样本集之后,他们训练有素的CNN模型在这个数据集来识别恶意软件。与机器学习的方法要点+资讯,要点+ SVM, GLCM +支持向量机,应用灰度共生矩阵建立和+资讯,他们的方法生成一个更高的精度。此外,还有其他方法(20.- - - - - -22)处理问题的恶意软件厂商家庭不平衡的方法。

总的来说,大部分的方法(23,24在恶意软件被恶意软件可视化分类面临成本高的缺点恶意软件图像提取特征,如主旨,GLCM,枸杞多糖,导致低效率。减少特征提取的成本和提高特征提取的能力,一个恶意软件的家庭分类方法更高的精度和更低的检测时间是非常必需的,更有效的特征提取。

在这项研究中,我们提出一个新颖的方法,称为MFFC(多尺度特性融合卷积神经网络),来识别恶意软件和检测恶意软件的变体的家庭,具有优秀的特征提取能力和更高的精度和更快的检测时间。

本研究的其余部分的结构以以下方式:部分2解释了方法,详细MFFC,我们提出了。部分3介绍了数据集的实验和统计措施。部分4验证我们的方法的性能。部分5致力于分析比较实验的结果。部分6提供了结论和未来的方向。

2。方法

MFFC主要由两部分组成:恶意软件预处理包括恶意软件可视化和图像大小归一化的恶意软件,和MFFC模型建设。的基本结构如图MFFC算法1。

2.1。恶意软件预处理

2.1.1。恶意软件可视化

2010年,孔蒂等人提出的方法将二进制文件映射到灰度图像通过使用多维信息理论分类区域(8]。2011年,Nataraj et al。6带头在孔蒂等人的思想应用到研究恶意代码。恶意软件可视化的方法如下:恶意软件二进制文件转换成一个向量的8位无符号整数(范围从0 - 255)。转换后的向量是重构到一个二维数组中根据不同文件大小,和二维数组作为灰度图像。恶意软件的可视化处理图所示2。基于[6,7),不同的图像宽度应设置如表1根据不同的文件大小。

不同的灰度图像恶意家庭如图3。它可以观察到,虽然恶意软件灰度图像大小和它的长度和宽度的比例在同一家庭是不同的,和视力仍有相似之处,而灰度图像的恶意软件样本在不同的家庭不同的愿景。能够意识到恶意软件分类基于恶意软件的特征图像。

根据恶意软件的视觉相似性图像,恶意软件分类问题可以转化为计算机视觉问题。

2.1.2。恶意软件图像尺寸归一化

在古典卷积神经网络权重矩阵的大小,属于完整的连接层是固定的,所以神经元的数量输入完整的连接层必须是固定的。这意味着卷积后的特征尺寸和池操作之前必须一致的完整的连接层。如果输入图像的大小是不同的,输出卷积后特征尺寸也将不同,池操作,这将导致完全的失败连接层。因此,图像提供给神经网络必须是相同的大小。然而,恶意软件可视化的方法确定恶意软件映像的大小和比例是不同的。因此,它是必要的规范化数据集样本图像的图像大小。

在我们的研究中,恶意软件的图像被重塑固定平方大小(例如,和 )。只有恶意软件已经在图像大小归一化的图像可以被送入cnn进行训练。恶意软件图像大小归一化的优点是可以有效地减少图像的维数,这导致模型训练。与此同时,将不可避免地导致的损失在降维过程中特征信息。

在图4,我们可以看到一个灰度图像的恶意软件家族Allaple命名。一个,原来的大小。不同尺度的大小 , , ,和。显然,恶意软件的关键特征图像缩放后图像可以保留。

2.2。MFFC模型

MFFC模型图的粉色部分所示1。恶意软件恶意软件预处理后图像将被送入MFFC模型进行训练。MFFC模型中,有三个CBR层,四个MFFC块,致密层和激活softmax作为分类器,包含25类。

为了提高MFFC模型的特征提取的能力,MFFC块设计。MFFC块是一块,用于提取恶意软件图像的多尺度特征。MFFC块的结构如图5。

MFFC块中,有四个分支。分别从右到左分支,分支我,II, III和IV。第四部门我将分别生成特征向量的C1, C2, C3和C4。最后,特征向量C1 C4将连接得到最终的输出。MFFC块,1×1 CBR层是用来降低维度,从而使参数下降。在第四分公司,两个3×3 CBR层是为了获得一个更大的接受域。

3所示。数据集和统计措施

3.1。数据集和实验设置

所有的实验评估Malimg恶意软件数据集(6]。Malimg恶意软件数据集包含25 9435 malwares恶意软件的家庭。图6显示了样本的分布在每一个恶意软件的家庭。我们90%的数据集用于培训和10%的数据集进行测试。

3.2。统计的措施

评价方法的性能,四个评价指标,如精度、精度,回忆,和F1得分,被认为是。上述评价指标已经普遍应用于相关研究更好地评估各种方法(25- - - - - -27]:真阳性(TP):这意味着积极的样本和积极正确地检测到。真阴性(TN):这意味着负样本正确检测到负面的。假阳性(FP):这意味着负样品错误的检测是积极的。假阴性(FN):它意味着一个正样本错误检测为负。准确的定义是准确预测结果比预测的总和,定义如下: 精度的预测样本比例是正确的(包括积极的和消极的)样本总数和定义如下: 回忆的比例是正确的预测积极总真阳性和定义如下: F1分数加权调和平均数的精度和召回和定义如下:

4所示。结果

来验证该模型的有效性和效率(MFFC),我们设计了实验如下:(1)比较的性能与不同的恶意软件图像大小,(2)MFFC算法的性能,和(3)IMCFN性能的比较与先前研究恶意软件家族分类技术。

所有的实验都进行64位Windows英特尔(R) (TM)核心i7 - 7700总部CPU (2.80 GHz)和16 GB的RAM和NVIDIA GeForce GTX 1050 GPU (4 GB),基于python。

4.1。比较性能与不同的恶意软件的图像大小

CNN模型输入图像的形状是固定的全连接层的限制,但不同的输入形状的恶意软件模型的图像会得到不同的性能。为了获得一个更合适的恶意软件映像的大小,我们恶意软件图像正常化不同大小32×32,64×64、128×128、256×256训练MFFC。结果如表所示2。

当输入恶意软件图像的形状是256×256,模型达到98.72%的精度最高,它的参数是1104041。当我们预测一个新的恶意软件样本,该模型只有成本平均5.34毫秒。

4.2。MFFC算法的性能

图7显示了性能变化的时代的训练集和测试集模型训练过程中,图7(一)准确率的曲线是随时代变化和图吗7 (b)是损失随时代变化的曲线。黑线代表训练集,而红线是测试集。我们可以看到模型融合时代时7。训练和测试后,我们实现了98.72%的准确性和损失0.0517 MFFC。

(一)

(b)

为了清楚地观察分类模型的细节,MFFC的混淆矩阵绘制,如图8。混淆矩阵的主对角线的值代表了真阳性的恶意软件的家庭分类,和其他值意味着恶意软件的假阴性率家庭分类。

对于这个实验,我们得到MFFC的精度是98.86%,而回忆是98.72%,F1分数是98.73%。在图9MFFC在25恶意软件性能的家庭。

(一)

(b)

(c)

4.3。与现有的恶意软件分类比较

我们比较MFFC的性能与其他方法基于恶意软件的可视化,使用机器学习或深度学习。所有这些方法首先将恶意软件的二进制文件转换成图像的恶意软件,从恶意软件图像中提取特征,然后用机器学习分类器(例如,资讯和支持向量机)或深度学习分类器(例如,softmax)对恶意软件进行分类的家庭。

表3MFFC算法提出了一种比较的总结与先前的恶意软件使用Malimg数据集的分类算法对实验进行评估。

5。讨论

在表2恶意软件,我们可以看到,增加图像大小,精度、参数,并预测时间也会增加。恶意软件图像大小会影响MFFC的特征提取能力。图像尺寸越大,特征提取的效果越好。但随着图像尺寸的增加一个阈值,提高准确性。参数的增加也增加了恶意软件图像大小。虽然图像大小的参数从128×128 - 256×256增加到近0.6,精度从97.43%提高到了98.72%总增长1.23%,和增加的预测仅仅是只有0.63 ms。在恶意软件分类,精度和预测更重要的参数。我们认为值得改善的准确性为代价的增加这部分的参数。因此,恶意软件的图像大小为256×256 MFFC是更好的选择。

通过观察结果的训练后,我们得到了一个模型,收敛快,具有良好的泛化能力。整体的恶意软件分类的方法25恶意软件家庭获得令人满意的性能。然而,混淆矩阵所示,有一个错误分类的主要来源,哪些MFFC难以分类样本,同一家族的变体,比如C2LOP。P和C2LOP.gen !g, Swizzor.gen !E, Swizzor.gen !我。换句话说,我们的模型能够检测恶意软件的变体的家庭。无可否认,MFFC算法保持一个很好的性能。

表3表明MFFC比现有的恶意软件分类方法近年来IMCFN除外。MFFC算法和IMCFN的性能是相似的。我们的方法具有相同的性能与IMCFN精密但精度0.1低于IMCFN。这可能是因为IMCFN将恶意软件二进制文件转换成彩色图像的恶意软件时,在我们的方法是灰度图像。彩色图像有更详细的信息,提取有用的恶意软件的特征图像。这是一个很好的为我们的未来研究主题。此外,参数的总数在IMCFN MFFC近1.38亿,只有1104041。这表明MFFC参数的优势。

总的来说,我们的方法获得一个优秀的性能,具有高精度和高速度的预测时间,虽然有能力检测恶意软件的变体的家庭。机器学习和深度学习优秀的对恶意软件的检测图像分类的影响。数量急剧增加的malwares,迫切需要更有效的方法。

6。结论

本研究提出了一个新颖的方法,叫MFFC,基于多尺度特征融合灰度图像的恶意软件的恶意软件可视化,提高恶意软件的性能分类和检测恶意软件变种的能力。实验结果25日恶意软件的家庭,其中包括9342灰度级图像,显示我们的方法让一个优秀的性能以达到98.72%的准确率和良好的检测速度为0.00534秒。

在实验中,我们发现,在一些恶意软件图像大小归一化后会出现图像纹理的变化特性,限制了我们的模型的性能。这是因为原来的恶意软件映像的长宽比是不同的。当我们调整图像的恶意软件,图片部分拉伸导致图像失真。在未来的研究中,我们想要寻找一种新的方法实现图像大小归一化的恶意软件,可以让恶意软件的形象特征不变。恶意软件进入彩色图像的变换是证明有更出色的表现。我们将改善我们的恶意代码彩色图像可视化方法。此外,模型的优化hyperparameters往往取决于没有理论基础的人类经验。一些最具代表性的计算智能算法将会有效的解决这个问题,就像黑脉金斑蝶优化(MBO),蚯蚓优化算法(EWA),大象放牧优化(EHO),蛾搜索(MS)算法,黏菌算法(SMA),哈里斯鹰优化(HHO)。

数据可用性

之前报道的数据被用来支持这项研究,可以在10.1145/2016904.2016908。这些先前的研究(和数据)是在相关地方引用文本中引用(6]。

的利益冲突

作者宣称没有利益冲突。

引用

j .苏诉d . Vasconcellos s·普拉萨德,s .丹尼尔·y,和k .樱井,“轻物联网恶意软件基于图像分类识别,”学报2018年IEEE第42届会议(COMPSAC)计算机软件和应用程序,页664 - 669,东京,日本,2018年6月。
视图: 谷歌学术搜索
“2021年CNCERT-issue 25日周报,”2021年,https://www.cert.org.cn/publish/main/upload/File/Weekly%20-%20Report%20of%20CNCERT-Issue%2025%202021.pdf。
视图: 谷歌学术搜索
m . Egele t他、大肠Kirda和c .克鲁格尔,”一个调查自动化动态malware-analysis技术和工具,”ACM计算调查,44卷,不。2,1-42,2012页。
视图: 出版商的网站 | 谷歌学术搜索
m . Alazab”分类分析和恶意代码的行为。”系统和软件杂志》上卷,100年,第102 - 91页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
万卡特拉曼·莱马克里斯和m . Alazab“零日恶意软件检测,使用数据可视化”安全性和通信网络卷,2018篇文章ID 1728303, 2018。
视图: 出版商的网站 | 谷歌学术搜索
雅各l . Nataraj s Karthikeyan g . b . s .希“恶意软件图片:可视化和自动分类,”学报》第八届国际研讨会上可视化网络安全美国宾夕法尼亚州匹兹堡,页1 - 7,,2011年7月。
视图: 谷歌学术搜索
l . Nataraj诉Yegneswaran、p·波勒斯和j .张”的恶意软件分类比较评估使用二进制纹理分析和动态分析,”学报》第四届ACM车间安全与人工智能,21 - 30页,芝加哥,伊利诺斯州,美国,2011年10月。
视图: 谷歌学术搜索
g .孔蒂支流,a Shubina et al .,“自动映射的大型二进制对象使用原始片段类型分类,“数字调查7卷,S3-S12, 2010页。
视图: 出版商的网站 | 谷歌学术搜索
k . Kancherla和美国Mukkamala图像基于可视化的恶意软件检测,”学报2013年IEEE计算机智能网络安全研讨会上(CICS)2013年9月,页40-44、新加坡、。
视图: 谷歌学术搜索
l . Nataraj和b . s .希,”帕姆:信号处理分析恶意软件,”IEEE信号处理杂志,33卷,不。2、105 - 117年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
h . Naeem郭,m . r . Naeem f . Ullah h . Aldabbas和m . s . Javed”变异识别恶意代码基于图像可视化,”计算机与电气工程卷,76年,第237 - 225页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
a .坟墓和n . Jaitly”端到端与复发性神经网络语音识别,”31日学报》国际会议上机器学习,第1772 - 1764页,北京,中国,2014年6月。
视图: 谷歌学术搜索
k . Simonyan和a . Zisserman”很深的卷积网络大规模图像识别,”2014年,https://arxiv.org/abs/1409.1556。
视图: 谷歌学术搜索
y . j . h . Yu Wang呗,w·杨,G.-S。夏”,分析大型无人机图像使用多尺度分层表示,“地理空间信息科学,21卷,不。1,33-44,2018页。
视图: 出版商的网站 | 谷歌学术搜索
e . k . Kabanga和c·h·金,“恶意软件使用卷积神经网络图像分类,”计算机和通讯》杂志上,卷06,不。01,153 - 158年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
美国曰,“不平衡的恶意软件图像分类:基于CNN的方法,“2017年,https://arxiv.org/abs/1708.08042。
视图: 谷歌学术搜索
a . f . Agarap”来建立一个智能反恶意软件系统:深入学习方法使用支持向量机(SVM)分类的恶意软件,”2017年,https://arxiv.org/abs/1801.00318。
视图: 谷歌学术搜索
崔z, f .雪,蔡x, y曹,G.-g。王,j .陈“变异检测恶意代码基于深度学习,”IEEE工业信息,14卷,不。7,3187 - 3196年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
x z崔,l . Du, p . Wang Cai,和w·张,“恶意代码检测基于cnn和多目标算法,”杂志的并行和分布式计算卷,129 - 58,2019页。
视图: 出版商的网站 | 谷歌学术搜索
r . Vinayakumar m . Alazab k . p .索曼p . Poornachandran a . Al-Nemrat和美国万卡特拉曼·莱马克里斯,“深度学习智能入侵检测系统的方法。”IEEE访问7卷,第41550 - 41525页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
r . Vinayakumar m . Alazab k . p .索曼p . Poornachandran和美国万卡特拉曼·莱马克里斯,“强大的智能恶意软件检测使用深度学习,”IEEE访问7卷,第46738 - 46717页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
美国万卡特拉曼·莱马克里斯、m . Alazab和r . Vinayakumar”混合深度学习有效的恶意软件检测,基于图像的分析”《信息安全与应用程序47卷,第389 - 377页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
a . Makandar和a . Patrot“恶意软件类使用图像处理技术识别,”学报》国际会议数据管理、分析和创新(ICDMAI)普纳,页76 - 80年,印度,2017年10月。
视图: 谷歌学术搜索
k . Kancherla j·多纳休,s . Mukkamala”封隔器识别使用字节情节和马尔可夫阴谋,”计算机病毒和黑客技术杂志》上,12卷,不。2、101 - 111年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
美国Ni、问:钱和r·张“恶意软件识别使用可视化图像和深度学习,”电脑与安全卷,77年,第885 - 871页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
a . p . Namanya i Awan, j . p . Disso和m . Younas“相似性得分基于散列的便携式可执行文件为有效的恶意软件检测在物联网中,“未来一代计算机系统卷,110年,第832 - 824页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j·萨克斯和k .柏林,“深基于神经网络的恶意软件检测使用二维二进制程序功能,”学报第十届国际会议上恶意和不必要的软件(恶意软件)法,页- 20日,公关,美国,2015年10月。
视图: 谷歌学术搜索
d·吉波特c . Mateu j .飞机和r .目前,“使用卷积神经网络分类的恶意软件表示为图像,”计算机病毒和黑客技术杂志》上,15卷,不。1,15-28,2019页。
视图: 出版商的网站 | 谷歌学术搜索
d . Vasan m . Alazab s Wassan h . Naeem b . Safaei问:郑,“IMCFN:基于图像的恶意软件分类使用微调卷积神经网络架构,”计算机网络文章ID 107138卷,171年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
z赵c . Wang, f·王,李问:“一种新型恶意软件检测和家庭分类方案基于梦想和DenseNet物联网,”安全性和通信网络卷,2021篇文章ID 6658842, 16页,2021年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

416年

下载

849年

引用