文摘
自主研发的恶意软件通常是使用先进的持续威胁(APT)攻击者发动恰当的攻击。因此,我们可以增强APT攻击的理解和认知理解恰当的恶意软件的行为。不幸的是,目前的研究不能有效解释之间的关系识别、检测和防御的恰当的。该模型类似的研究还缺乏一个解释。以抵御恰当的攻击和询问不同的相似性APT攻击,本研究提出了一种基于APT恶意软件分类方法的组合多个深度学习算法和转移学习通过收集恶意软件中使用几个著名的在公共场合恰当的组织。通过提取出应用程序编程接口(API)系统调用,用向量表示的特性通过结合动态LSTM和关注算法,我们可以获得API在不同家庭训练动态分类的贡献。因此,我们使用转移学习执行的多个分类恰当的家庭。本研究旨在减少网络安全人员的负担从审查大量的可疑文件当防御恰当的攻击。此外,它可以有效地拦截他们在最初的入侵倾向于执行阶段有针对性的防御通过结合具体恰当的攻击威胁的情报。实验结果表明,该方法可以达到99.2%的区分常见的恶意软件和恰当的恶意软件和恰当的恶意软件分配给不同的家庭的准确性达95.5%。
1。介绍
最近,先进的持续威胁(APT)攻击不断发展,和新类型的恰当的出现,对网络安全构成严重的威胁和挑战环境在目前的世界。他们通常获得巨大的金融或技术输入,和他们经常执行长期和复杂的攻击特定目标(1]。目的是窃取有价值的机密数据或执行网络间谍活动,它将引起严重的伤害;因此,恰当的检测和预防的研究迫在眉睫。
类似传统的网络攻击,恰当的攻击者必须使用恶意软件在网络空间作为攻击武器攻击(2]。但是,与传统的网络袭击,将使用APT攻击一些独立开发恶意软件对不同的目标(达到特定的目的3]。这个恶意软件统称为恰当的恶意软件(4]。恰当的恶意软件是一种先进的恶意软件为特殊定制的目标,已造成更为严重的威胁比传统的恶意软件(2]。与其他恶意软件相比,APT-type攻击遵循不同的攻击路线图(5];和恰当的恶意软件非常不同于普通的恶意软件。恰当的恶意软件的主要目的是远程控制机器和窃取机密数据,而非发起拒绝服务攻击,发送垃圾邮件,或造成损害。它需要高度的隐形在长时间的操作。例如,在那些机器人和蠕虫的情况下,攻击者需要使用远程指挥和控制服务器控制成千上万的受感染的主机。但是恰当的攻击者不使用相同的终极动员令服务器远程控制很多感染终端用户的机器,因为它会增加暴露的风险。精心制作的恶意软件只用于最终用户机器这对他们是有价值的(6]。恰当的攻击者会发展他们的武器,使现有的自动化安全措施面对突然的恰当的攻击无法准确识别可疑文件系统作为恰当的恶意软件检测到的可疑样品,无法确定恰当的相关攻击(7]。此外,手动分析样品目前是不切实际的。当入侵检测系统检测到可疑样品和警报问题,它要求网络安全专家在很长一段时间内进行人工分析来确定样品是否属于特定(APT攻击8]。由于过度的警报数量,网络安全专家带来了巨大的压力。因此,作为恰当的攻击越来越频繁的今天,准确地确定恰当的恶意软件从可疑样品已成为迫在眉睫的问题。
如何区分恰当的恶意软件和普通的恶意软件?目前,有两种方法来解决这个问题:动态和静态分析(9]。这意味着训练分类模型通过提取动态或静态特性(2,3,7,8,10,11]。静态分析技术可以检查可执行程序没有实际执行样品;的主要优点是它不受执行费用,而动态分析是观察可执行程序在现实或虚拟执行环境和监控实际恶意行为(12]。然而,时间和资源消耗动态分析将是一个重要的缺点相比,静态分析;目前还不清楚环境恰当的恶意软件的需求和需要的时间观察(7]。此外,一些研究人员结合静态和动态分析进行混合分析(2]。其目的是使用这两种分析技术的优势。为了使一个相对合理的解释的结果,与其他工作相比,这项工作可以量化的影响和重量分类的功能。TF-IDF方法被用在先前的研究来确定的优先级和重量特性。此外,TF-IDF方法是基于人的先验知识。它有认知偏见;因此,如何提高优先级计算方法是值得研究的。
威胁情报报告发表在网络上最近证实,恰当的攻击有重用率高。每个恰当的组织都有其特点,恰当的相同的恰当的家庭有一些相似之处。因此,最恰当的攻击是变异的现有攻击(8,13]。恰当的攻击者在同一组织的目标通常是相似的和常规;因此,恶意软件和攻击的目标的行为通常是定期。恰当的组织感兴趣的不同目标。例如,APT33只有被发现目标沙特阿拉伯的交通系统13]。因此,如果恰当的恶意软件被发现在他们所属的家庭,它可以寻找恰当的威胁情报报告发表的这个家庭信息网络和调查他们的特点。然后,根据恰当的特点,我们可以采取积极和有针对性的防御措施2]。因此,有必要分析恶意软件的信息从不同的家庭。理解不同的恶意行为恰当的家庭可以增进了解,抵制(APT攻击2]。确定恰当的恶意软件样本,家庭目前的工作分析典型恶意恶意软件的行为不同的恰当的家庭来区分他们2,14]。然而,公开的恶意软件样本的数量每一个恰当的家庭很小,很难训练一个健壮的分类模型通过这么小数量的样品15]。
这项研究旨在解决上述问题和改进现有方法采用自然语言处理(NLP)领域的知识。我们还提出了一个恰当的恶意软件分类方法结合了多种深度学习算法和转移学习,因为系统调用应用程序编程接口(API)信息严重影响恶意软件检测(16),它支持更高级别的样本行为分析(12,17]。因此,我们选择API特性通过计算优先级和贡献程度的每个特性。函数的概率的计算测试样本属于每个实现恰当的家庭。根据结果和威胁的情报报告,可以进行有针对性的防御和检测具体恰当的攻击。最后,我们训练和测试恰当的恶意软件和普通的恶意软件样本收集从网络和成功测试了分类方法的准确性。
因此,本研究的贡献如下:(1)恰当的和普通的二进制分类任务完成恶意软件通过融合多个深度学习算法,使得模型更加积极培训和实现更好的结果比类似的研究。(2)通过深入学习算法,系统调用功能的分类贡献和重量是动态计算获得不同的优先级和概率恰当的攻击,提高模型的解释和令人信服。(3)传输学习是用来传输二进制分类的训练结果multiclassification任务恰当的家庭使模型的收敛速度和泛化能力加强。因此,少量的恶意软件样本的问题容易解决。
本文的其余部分组织如下:部分2介绍了相关的研究。部分3提供了一个框架的概述。部分4拟议的方法解释道。节5我们介绍了数据集。部分6介绍了实验和比较测试结果验证了该方法的有效性。最后,第七节给出了结论。
2。相关工作
研究常见的恶意软件检测技术可分为static-feature-based和dynamic-feature-based方法。软件运行时行为的动态特性。然而,dynamic-feature-based方法在大多数研究讨论行为(18]。
研究基于静态特性如下:康和赢得19)提出了一个方法来提取特征数据从文件使用机器学习和检测恶意软件。他们建造了一个恶意软件分类模型使用多个款,XGBoost,随机森林层。他们还分析了它的性能和获得96.3%的准确性。李等人。15)提出了一个增量恶意软件分类(IMC)框架和基于多类支持向量机增量学习方法(SVM),改善了分类能力的IMCSVM逐步通过学习新恶意软件样本。Baldangombo et al。20.)提出了一个静态的恶意软件检测系统中提取有价值的功能的Windows便携式可执行(PE)文件使用静态分析方法。
基于行为的研究如下。林等。21对恶意软件)开发了一个支持向量机分类器分类根据收集到的恶意软件的行为在沙箱环境。该方法结合了特征选择和提取,大大降低特征维度。用于训练和分类。Mohaisen et al。22)提出了一种基于行为的恶意软件分析和自动标记(AMAL)系统监控文件系统上的恶意软件的使用,内存、网络,注册表。它创造了代表功能根据上述情况,并使用它们来构建一个分类器训练通过手动训练样本进行了分析。这些分类器可以将恶意软件样本划分为家庭具有类似的行为。Alazab et al。23)提出了一个方法来自动提取和分析API调用的特点,试图分析和分类的行为根据恶意API函数调用自动隐藏在任何包程序。阿米尔和Zelinka24)提出了一个马尔可夫的连锁酒店忠诚度奖励恶意软件检测的方法。他们介绍了嵌入理解上下文API函数在恶意软件调用序列之间的关系。詹尼·et al。25)提出了一种新的算法基于重复子序列对齐,使用关联规则来推断恶意软件的行为。这种方法利用转换的概率两个API调用的调用序列。它可以运行在动态分析场景中跟踪在运行时API调用。
目前,深度学习的性能吸引了大量关注在网络安全领域(26]。不同于上面的机器学习方法,研究发现使用深度学习方法如下。侯et al。27)提出了一个基于组件的动态分析方法遍历。他们使用深度学习框架基于图像特征来检测未知新Android恶意软件通过构造加权有向图。哈代et al。28]研究了如何设计一个深度学习架构基于可叠起堆放的autoencoder (SAE)模型智能恶意软件检测的基础上,从PE文件提取的Windows API调用。实验结果表明,与传统的肤浅的学习方法相比,该方法可以进一步提高恶意软件检测的总体性能。Kolosnjaji et al。29日)构建了一个基于卷积神经网络和循环网络层来获得最好的恶意软件特征分类。斯科菲尔德等。30.)提出了一个基于Windows系统的卷积神经网络API调用的恶意软件类型分类。Kolosnjaji et al。31日)组成的神经网络实现卷积和前馈神经结构,代表一个分层的特征提取方法,该方法结合了指令序列的卷积和纯粹的向量化的特性从PE文件头。
阅读上面的工作检测普通恶意软件可以给工作带来很多建议和灵感在恰当的领域。恰当的检测研究如下。Milajerdi et al。32]福尔摩斯系统并给出了设计一个高级图表来有效利用之间的关系生成可疑信息流动在攻击者的活动中恰当的检测。然而,这种方法需要强大的先验知识,不容易处理复杂多变的攻击在恰当的。汉et al。33]介绍了独角兽系统基于图的方法。他们总结长期的执行系统与空间效率的慢动作的攻击往往发生在很长一段时间。缺点是攻击者可能毒药在运行时动态建模。曹(34恰当的检测提供了一个框架,脉冲星。脉冲星使用probability-graphic模型推断出攻击的时间演化基于安全事件在运行时观察到的。Ghafir et al。35]提出了基于机器学习的MLAPT系统,可以准确、快速检测通过APT攻击报警相关性。然而,其局限性在于依赖报警的准确性。Narayanan et al。36)描述了一种新颖的认知网络安全系统,需要不同的文本来源的信息并将其存储在一个常识图使用从一个扩展的版本的一个统一的网络安全本体。然后,系统推导出各种合作代理的知识图代表主机和基于网络的传感器来减少安全管理员的负载。然而,由于保密的原因,恰当的网络威胁情报从各种来源通常很难获得2]。
将恶意软件检测与恰当的检测:汉et al。2)设计一个新的恰当的恶意软件检测和认知框架,APTMalInsight,识别和识别恰当的恶意软件使用系统调用信息和本体知识。他们提出了一个恰当的恶意软件检测方法基于动态行为特征。首先,动态API序列提取恰当的恶意软件。第二,它计算的分类贡献API, API序列进行排序。最后,有效的检测和家庭分类恰当的恶意软件实现。然而,该方法判断API是基于先验知识的优先级,这可能导致偏差。Laurenza et al。3]依赖恶意软件的静态特性,设计了一个恶意软件分类框架基于隔离森林学习的概念。他们训练每个隔离森林与特定的恰当的样本只使用静态特性。解决恶意软件问题的恰当的组织识别、陈et al。4)设计了一个基因模型结合知识图的恶意软件的行为。他们提出了一个遗传相似性算法为恶意软件恰当的组织识别和显示使用基因跟踪恶意软件的可能性。Laurenza et al。7)设计了一个样品优先级方法,已知的容易获得的公开报告用于建立一个知识库分类。然而,它是局限于只使用静态特性和无法分析根据恰当的恶意软件的行为。Sexton et al。11)建立了一个基于相似性分类程序和恰当的恶意软件的子程序,表明恶意程序和良性的项目可以共享大量的代码。他们只使用操作码作为静态特性,具有局限性。马丁:里拉et al。8]提出使用静态、动态和网络相关特征通过领域知识解释和选择,以及著名的机器学习技术分析的辨别力APT-related仿制恶意软件没有任何已知的恶意软件协会恰当的。然而,机器学习分类算法模型是不活跃的。
3所示。方法
3.1。检测框架
图1显示我们的检测框架。检测框架由一个数据分析模块,二进制分类模型,和multiclassification模型。详细信息如下。
数据分析模块是用于测试的样本数据初始数据清理和排除一些样品不属于分类任务的范围,如良性的样本。这两个模型的功能是输入训练样本的分类模型,与普通的恶意软件的分类类别,恰当的恶意软件两个维度。然后,恰当的恶意软件样本输出二进制分类模型作为multiclassification模型的输入。每个样本的概率计算对应于每一个恰当的家庭通过评分系统,使得检测结果更直观,帮助判断各种恰当的攻击的可能性。培训模式的细节描述如下。
3.2。培训框架
图2显示了模型训练框架。训练模型的过程包括数据预处理,特征提取,字符串分割,不同深度学习算法,学习分类器和传输。详细信息如下所示。
首先,常见的数据集和恰当的恶意软件是收集从公众。获得数据后,数据清洗和API提取系统调用功能。更好地表达意义的功能,扩大表示空间的特性,并解决词汇表之外(OOV)问题,我们部分样本的每个字符串对应于每个API获取分段嵌入的字符串。然后,动态长期短期记忆(LSTM)算法在NLP域是用来获取每个API的嵌入。之后,注意算法用于集成所有API与体重得到样品在每个样本表示向量和样本表示向量映射到一个二维空间来得到一个二维向量。最后,将softmax二进制分类恰当的和常见的恶意软件。
不同于TF-IDF方法中使用类似的工作检查功能的优先级和重量(2,3,7,8,10,11重量),我们的特性是基于注意力训练算法。因此,API有更大的影响对样本分类模型将得到更高的重量的。TF-IDF方法是一个优先级的确定方法基于人类的先验知识,先验知识的认知偏见。我们的方法可以避免认知偏见;然而,它使模型计算的分类贡献更多的解释和真实的API。
基于二进制分类模型,我们提出一个转移学习方法,在最优嵌入不同的字符串二进制培训模式作为初始嵌入相应的字符串在多个分类处理将softmax恶意软件在不同的多个分类恰当的家庭。然而,该模型收敛速度快,泛化能力强。它也解决了一小部分的问题恰当的恶意软件样本。
模型训练框架使用不同的深度学习算法完成恰当的恶意软件的二进制分类任务,常见的恶意软件,multiclassification恰当的恶意软件家族的任务,使模型更积极的培训和计算的分类贡献和重量API在此基础上。然后,它可以获得不同的优先级和概率恰当的攻击,提高模型的解释和说服力。
图3显示了我们的网络结构图。
3.3。数据预处理
在获得初始样本数据,第一个任务是原始数据集进行预处理。首先,模糊的部分数据样本筛选手动使用在线恶意软件样本分析VirusTotal的函数,它是世界上最大的在线恶意文件分析网站。它允许75种杀毒软件来识别目标样本和报告结果,包括世界范围内几乎所有的杀毒软件项目。VirusTotal假设样本分析的网站,只有不到三个杀毒软件识别恶意软件样本。在这种情况下,我们考虑的样本有一个高概率的良性和排除从数据集。如果有错误数据样本的原始数据,模型训练期间将陷入困境。为了避免这种情况,我们选择了数据预处理方法尽量减少数据集的不确定性。
此外,在特征提取后,有一个步骤来处理数据集。完成特征提取的任务之后,我们发现特征序列是相同的一些样品,显示数据集的冗余数据。我们只会保留一个样本序列相同的特性。功能在某些功能序列的数量很小和代表性;因此,我们决定屏蔽和样品不到十特性和排除他们从确保模型可以少受培训过程中不确定因素的影响。
3.4。特征提取和处理
首先,pefile用于提取API的样品;pefile基于Python是一个开源项目。敏捷开发的优势,方便,快速访问各种样品的关键数据结构。
我们选择API作为样本的特征,因为攻击者可以直接与本地操作系统应用程序的API,交互执行行为。本机API提供了一个内核,调用底层操作系统服务控制,如相关硬件,设备,内存,和服务流程。在启动操作系统使用这些本地api(当其他系统组件没有被初始化)和执行任务和要求在正常操作。本地api提供的功能通常是接触到用户模式应用程序通过接口和库。更高级的软件框架(例如Microsoft . net和MacOS可可)可以被用来与本地api进行交互。攻击者可能会滥用这些本机API函数的执行行为。类似于命令和脚本解释器,本机API及其接口层次结构提供一种机制相互作用和利用受害者的各种组件系统。因此,它可以识别对手监控活动。
更好的表达的意思API和解决OOV问题,我们在API执行字符串分割和分配相同的嵌入相同的字符串分割后(图4)。
当执行NLP或文本处理,我们通常有一个词汇。词汇量是预紧,自我界定的,或从当前数据集。假设我们有另一个数据集用文字,不在我们目前的词汇。让我们说这些话是OOV。在这项研究中,如果一个API特性的测试集样本没有出现在训练数据的词汇,这个问题将在很大程度上避免使用我们的方法。
3.5。分类算法
嵌入转换大型稀疏向量保持在一个低维空间语义关系,也就是说,找一个映射或函数来生成一个表达式的新空间。位置(距离和方向)的语义向量空间的代码到一个良好的嵌入。在这项研究中,我们使用一个高斯分布随机初始化嵌入。原因是,大量的数据在这个研究是稀疏的,和嵌入可以通过嵌入分析和理解。
LSTM是一个RNN用来解决梯度消失和爆炸问题的序列训练过程。为简单起见,LSTM可以执行在时间序列和更好地理解上下文语义信息和上下文信息比普通RNN的关系。因此,它有一个更好的适合本研究的实验环境。
RNN只有一个传输状态,而LSTM神经元传递两条信息落后在时间维度:一个细胞状态和一个隐藏的状态。隐藏状态商店大多是“最近的记忆。“什么是存储在细胞状态主要是“长期记忆。“图5显示LSTM的结构。
LSTM有三个主要阶段:(1)忘记的阶段。这个阶段是选择性地忘记输入从之前的节点使用乙状结肠层实现称为“忘记门。“它看起来在先前的输出和电流输入和输出每个数字0和1之间的细胞状态(以前的状态),1代表完整的保留和0代表全部删除。 (2)选择记忆阶段。这一阶段的输入是有选择地”记忆。“首先,乙状结肠层,称为“输入层,门”决定了我们将更新值。接下来,双曲正切层用于创建候选向量。然后,两个向量结合创建一个更新过的值。∗是新的候选值。在这项研究中,我们添加一个新字符串的嵌入到细胞状态来取代旧的对象被遗忘在前面一步更新最后一个状态值用以下公式: (3)输出阶段。这个阶段决定了将被视为当前状态的输出,首先乙状结肠层,来决定哪些部分输出,然后通过双曲正切层传递细胞状态并乘以乙状结肠层的输出:
与普通LSTM这个实验环境相比,动态LSTM结合序列和语义信息的字符串分段API与固定向量维度的大小。然而,如果使用普通LSTM,计算将冗余,和填0将反复计算,导致错误的结果。
注意机制是解决问题的方法通过模仿人类的关注。简单地说,注意力机制快速屏幕高价值的信息从大量的信息。它主要是用来解决问题的,很难获得最终的合理的向量表示的输入序列LSTM / RNN模型。方法是保留LSTM的中间结果,学习的新模型和关联的输出来实现信息筛选。
注意原则是计算之间的匹配程度,当前输入序列和输出向量。匹配度越高,越高的注意力和相对分数越高。比赛从只关注是有限的重量计算当前序列对,不是整体的重量,如网络模型的重量。我们使用注意把每个文件下的所有api与权重获得每个样本的向量表示。
我们的注意力功能点积的关注。点积的关注的本质是解决操作过程(图5)。有三个向量,问,K,V代表查询键,分别和价值。他们来自不同的线性变换的嵌入效果。
给定一个任务相关的查询向量,可以计算值通过计算关键的注意分配和附加价值。这是一个表现过程的注意机制减轻神经网络模型的复杂性。图5(图显示了注意力的机制算法6)。
同时执行所有API的关注。
为了避免重复嵌入培训功能和加速收敛的多分类模型,我们使用转移学习方法更好地推广模型。转移学习转移训练模型的参数(pretrained模型)的新模式,帮助培训新模式。考虑到大多数数据或任务相关,我们有很强的相关性之间的二分法的特点和multiclassification模型。因此,通过转移学习,我们可以分享新模型的模型参数学习加速和优化模型的学习效率,而不是从零学习,因为大多数网络。它也解决了少量的样本的问题,小数量的特性,适合multiclassification和困难。
在这项研究中,采用同构归纳学习方法转移来解决问题的不同的学习任务在源域和目标域,以及相同的特征尺寸和不同分布的问题。
4所示。数据集
我们收集了来自公共数据集。我们收集了10841个常见的恶意软件样本(https://github.com/iosifache/DikeDataset)属于APT1 APT10、APT19 APT21, APT28, APT29, APT30,黑暗的酒店,精力充沛的熊,Gorgon集团WinNTI,和其他恰当的组织和团体11恰当的恶意软件样本(https://github.com/cyber-research/APTMalware)和3954恰当的恶意软件样本。恰当的恶意软件的提供者使用开源情报来自多个供应商的威胁。许多威胁情报收集,所有文件的哈希列表作为入侵指标(国际石油公司)获得目标VirusTotal样本。表1显示了家人和样本容量恰当的恶意软件。
5。实验结果和讨论
整个实验所需的代码是使用Python PyTorch框架写的。实验环境操作系统Windows 10,英特尔(R) (TM)核心i7 - 4720总部2.60 GHz处理器,16 GB的RAM和GTX970M显卡。在实验中使用的数据是14795份常见的恶意软件和恰当的恶意软件样本。与类似的研究,本实验使用10倍交叉验证对模型的效果进行评估。训练集,验证集的比例是9:1。单一的培训时间是4小时,平均30分钟。
5.1。评价指标
首先,我们评估的有效性二进制分类模型的分类恰当的恶意软件常见的恶意软件。然后,我们评估的结果往往家庭multiclassification模型的分类。在评估二分法模型,积极的和消极的样本不均衡;因此,准确率不能用于评估模型。在这里,我们使用精确率、召回率,和F1-score评价模型。这些评价指标定义如下。
这里,TP阳性样本的数量预计这将是积极的,TN负样本预测的数量是负数,FP是负样本的数量将是积极的,和FN阳性样本的数量将是负的。
5.2。实验结果分析
我们使用10倍交叉验证方法来评估解密模型。每个折叠培训50轮,共有十倍。然后,平均值获得的准确率,精确率、召回率,和F1-score的模型。培训过程可视化使用TensorBoard可视化工具。的准确性、精密、召回和F1-score是0.99224,0.98076,0.98152和0.9811,分别。培训过程如图7- - - - - -10。
多个分类模型的训练精度的恰当的恶意软件家族如图11。
本研究也可以把API的测试样品和计算的重要性API的概率样本的分类和分类到每个家庭。如图12,我们选择的样本APT21进行测试。我们可以观察到前20位最重要的api模型认为影响这个样本的分类。样品被认为属于APT21有99.94%的概率。因此,该模型可以有效地确定恶意软件的所有权。
5.3。对比实验
首先,经典的机器学习分类算法用于测试数据集。测试结果如下所示。提出的模型在这个数据集的训练结果比以下机器学习算法:资讯、逻辑回归、决策树、梯度提升,演算法,朴素贝叶斯、线性判别分析,二次判别分析、支持向量机和贝叶斯多项式。我们用10机器学习算法,其中梯度提升和决策树实现更好的结果比其他算法。然而,梯度提升算法的准确性很低,只有0.9282,决策树的召回率只有0.9079。此外,我们测试上述算法multiclassification数据集,和一般效果差。表2显示二进制分类评价结果的经典的机器学习算法。
为了更好地说明了注意力的方法对实验结果的影响,我们提出的模型与方法相比没有注意。我们获得的召回率和F1模型的价值较低而不关注(图13)。
本研究还将使用更多的使用学习方法转移到比较分类模型。如图14,如果你不使用转移学习模型,精度会下降3%到4%,培训时间将会更长。在这种对比实验,精确,召回率,和F1-score不是加权平均值。
与汉族等的研究。2),他们的研究也提取样本的API特性。所不同的是,他们使用TF-IDF算法来计算每个API, API的重量值序列根据分类贡献,只选择一些API模型训练。然而,我们使用动态LSTM和注意力的api。此外,他们采取了随机森林分类算法对普通的恶意软件和恰当的恶意软件样本进行分类。我们复制他们的方法并进行了比较实验方法使用我们的数据集。图15比较实验结果显示了。如图,我们的方法比汉族的方法等。这是因为TF-IDF算法研究的优先级或重量特性基于人类知识之前,我们更加注重数据模型分类的影响。
上述实验结果表明,该方法可以有效地解决常见的恶意软件的识别问题,恰当的恶意软件,和所有权问题的恰当的家庭,证明有相似和不同的攻击方式恰当的家庭之间的连接。
6。结论
检测和抵御恰当的攻击和探索不同的相似性和连接的攻击手段恰当的家庭,本研究提出了一种恰当的恶意软件分类方法结合了多种深度学习算法和知识转移。实验表明,该方法可以达到99.2%的区分常见的恶意软件和恰当的恶意软件和恰当的恶意软件分配给不同的恰当的家庭以95.5%的精度。实验结果表明,该方法有助于恰当的恶意软件的分类不同的家庭。
恶意软件生态系统中的一个关键问题是其快速进化和演化造成的各种问题37];可持续发展是一个重要的要求和性能指标;没有解决可持续性,提出恶意软件探测器/分类器是一个无尽的任务缺乏实质性的科学发展;和本文的模型需要不断更新,不断收集恰当的恶意软件样本进行迭代,因为恰当的攻击有很强的可重用性。每当新的恰当的恶意软件被收集,更新后的模型能有效地抵御这种攻击在未来一段时间。这反映了缺乏连续性,因为不能自动进行迭代,并不能保证该模型将不会受到敌对的例子。如何确保模型的可持续性是我们未来的研究方向。
数据可用性
恰当的恶意软件数据摘要可以免费获得https://github.com/cyber-research/APTMalware。摘要常见的恶意软件的数据可以获得免费的https://github.com/iosifache/DikeDataset。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作得到了国家自然科学基金批准号。61772229和61772229下的中国与国际科技合作项目批准号下的吉林省20210402082“大酒店”。