文摘
日益复杂的网络攻击,一个主动防御基于情报共享变得至关重要。情报分析的一个重要问题,自动从网络中提取威胁行动威胁情报(CTI)报告。为了解决这个问题,我们建议EX-Action,从CTI提取威胁行动报告的框架。EX-Action发现威胁行动采用自然语言处理(NLP)技术和多通道识别行为的学习算法。同时,信息完整性的指标是用来评估通过EX-Action提取的行动。CTI的实验报告,包括用复杂的句子结构,实验结果表明EX-Action可以实现更好的性能比两个先进的动作提取方法的准确性,记得,精密,F1-score。
1。介绍
越来越多的信息在现代社会,先进的持续威胁(APT)攻击,网络安全作为一个新发展,已逐渐成为主要的攻击方法。恰当的攻击有许多特点,如长期、复杂的攻击方法,隐蔽性很强。传统的防御方法是一个被动的防御方法,主要依赖于安全设备和规则匹配为静态控件生成警报。它不适合恰当的保护,0天的攻击,和其他新的网络安全威胁(1]。因此,许多组织旨在开发及时、相关、可执行的CTI对新兴威胁和主要演员,使有效的网络安全威胁决策(2]。
CTI是一种信息记录的现任和前任安全威胁(3等),其中包含的信息推理、语境机制,可观测指标,缓解措施和对策的攻击。是非常耗时的安全从业人员的分析和利用多源和非结构化CTI报告。因此,自动、高效的从非结构化信息提取CTI报告已成为主要的研究方向之一。
从非结构化信息提取的提取有价值信息CTI报告。提取的信息主要包括网络安全实体和关系。网络安全实体识别识别命名实体在网络安全领域,其中主要包括人的名字,组织、地方,和一些安全条款。实体关系抽取是提取结构化CTI报告的安全实体之间的关系。主要的三重提取已知的实体和预定义的关系。实体之间的复杂关系和上下文联系很难被识别。
行动包括主题、动词和对象。行为不仅描述了攻击行为在攻击过程中还包括设定实体及其上下文语义关系。因此,对CTI报告行为是至关重要的。主体和客体的行为对应于一对安全实体,和动词描述实体对之间的语义关系。实体和它们之间的关系不需要预定义的方法。
目前,基于语义提取的操作主要是依赖(4),本体模型(5)是用于识别它们。因此,主要有以下挑战的提取和识别威胁的行动:(1)威胁的行为不能准确提取非结构化CTI报告仅仅依靠他们的语义依赖。(2)依靠本体的方法来识别行为将失去一些未定义的关键威胁行为。(3)信息内容提取威胁的行为是不完整的,很难测量提取的威胁行为的信息内容。
在这项研究中,我们提出一种多模式学习方法,名叫EX-Action,准确地提取和自动识别在非结构化的CTI威胁行动报告。EX-Action方法基于互信息和NLP技术的结合。它可以提取更多的行动基于句法结构。本研究的三个主要贡献如下:(1)我们提出一个动作提取框架,EX-Action命名。EX-Action提取威胁行为的非结构化CTI报告,包括复杂的句子结构,语法规则匹配。然后,它由多通道识别威胁的行动学习算法。(2)我们使用一个名为归一化互信息的评价指标(敝中断)6)测量信息内容的不同威胁的行为,这量化威胁行为的信息内容的完整性。(3)我们应用EX-Action来提取18210行动从243年非结构化CTI报告,和实验结果表明,获得的准确性,F1-score,敝中断EX-Action是79.09%,85.58%,和85.26%,分别。
本研究的其余部分组织如下。我们从CTI列表中提取的相关工作信息报告2。节3介绍EX-Action框架和描述它。部分4给出了实验结果。节5,我们将讨论该方法。最后,部分6总结了本研究。
2。相关工作
信息在大数据时代的碎片给非结构化CTI报道多样化的特点,碎片化和异质性。这些特征的非结构化CTI报道,廖et al。7)提出了一个方法来自动恢复价值的攻击指标从流行的技术博客和将其转换为行业标准和机器可读的CTI报告。莎拉Qamar et al。8]提出的建设结构化威胁信息表达(斯蒂克斯)分析仪本体和本体模型的关系。他们的方法可以确定相关性、威胁的可能性,并影响和暴露资产通过自动分类网络威胁和制定规则和推理。荀et al。9)提出了一个自动识别模型的威胁情报(TI)基于卷积神经网络(CNN)自动提取TI各种非结构化TI数据来源。这些研究CTI减少噪声数据报告重组非结构化知识来识别网络威胁威胁报告信息的一种有效方式。
这是CTI分析中的重要研究内容之一,重建CTI知识通过使用图模式。蜀et al。10)使用了一个图模型来组织多源异构数据的威胁,而形式化网络威胁情报计算到一个新的安全模式。丫et al。11)提出了一个攻击实体识别方法构建一个CTI知识图。贾et al。12)使用现有的机器学习技术组织知识网络安全威胁报告和构建知识库。杜et al。13)提出了一种知识图的人类可读的CTI推荐的角度攻击链。威胁情报知识图帮助安全人员及时、快速地了解网络威胁。
当前CTI的研究报道主要包括实时感知、动态共享和有效的应用。关于CTI应用,它包含结构化和非结构化CTI报告。对结构性CTI报道,金正日et al。14)自动生成规则而无需人工干预以减轻新的网络安全威胁,已经被发现在实时。为了应对缺乏领域知识的分析下现有的结构化CTI报道,Tappeiner et al。15)提出了一种基于卷积神经网络域识别器识别目标CTI领域从社交媒体数据,并自动生成特定的CTI。
为了解决这个问题依赖安全从业人员的分析结果在CTI应用程序的效率低下,朱et al。16)自动工程特性,提出了一个端到端的方法,识别抽象行为与恶意软件和相关这些行为映射到具体的特性和生成一个特征语义网络。朱et al。17桥)提出了一个方法与手工测量数据分析和多级分类器训练提取国际石油公司和进一步分类成不同阶段。Ayoade et al。18)利用自然语言处理技术从威胁报告文档中提取攻击者的行为所产生的不同的组织,然后自动分类成标准化的策略和技术。
从非结构化CTI中提取对威胁的行为报告,Husari et al。5]提出了一种方法叫TTPDrill基于语义依赖和本体提取操作数据库,用于操作映射到不同的攻击模式。然而,TTPDrill将忽略威胁行动的一部分条款结构和并行的句子。使用本体结构识别威胁的行为,这将失去一些未定义的本体结构的威胁行为。Husari et al。19名叫ActionMiner)开发了一个方法,使用NLP技术和基于信息熵和互信息,提取底层网络威胁行动公开CTI来源。然而,ActionMiner依赖语法分析来提取低级威胁行为。它缺乏一个行为主体,信息内容很难保证。
本研究提出了一个名为EX-Action框架。它提取的行动基于句法结构和规则映射和确定它们的多通道学习算法。EX-Action标识的行为基于多个特性,使动作识别的准确性和覆盖操作在复杂的句子结构。
3所示。提出了框架
在这项研究中,我们提出一个框架称为EX-Action。它包含四个模块,数据预处理,提取候选人威胁行动,行动特征提取、识别和行动。EX-Action架构如图1。首先,EX-Action预处理获得的CTI报告。第二,候选人威胁行为是由基于规则的提取方法。然后,候选人行动多通道特性计算。最后,EX-Action标识的行为和产生加权集成学习算法的选择操作。
3.1。数据预处理
在这个模块中,EX-Action清洗CTI报告的数据过滤无效字符和句子,不包含威胁行为。有一些网络安全方面CTI报告。然而,这些网络安全条款并不认可NLP技术,如文件路径、IP地址,等等。EX-Action使用正则表达式来替换并保存面目全非。
3.2。候选人威胁行为提取
在这个模块中,EX-Action从预处理提取候选威胁行动CTI报告由一个基于规则的方法。由CTI报告的句子,它可以表示为 ,每个句子包含几个动作动词, 。对于每一个动词,EX-Action提取基于规则匹配策略,许多操作表示 。提取的候选人威胁行动的格式(主语、动词和对象),即,包含三个主题元素,动词和对象。EX-Action匹配的词类(POS)的三个元素,包括行动。POS用于匹配元素。操作规则匹配给出的三个元素表1。列“POS”代表了每个组件的POS,和“POS-Symbols”代表POS标记的象征。
在这个模块中,句子由POS标记工具(20.]。把动词词类的结果确定的滑动窗口的开始。然后,主体和客体,分别搜索描述句子的威胁。搜索窗口大小的主体和对象可以影响它的萃取性能。一些潜在的对象可能已经很长一段距离目标动词,因此,窗口大小太小了不能让他们。然而,太大窗口大小可能会导致许多不匹配的签证官对,这将影响EX-Action的识别效率。EX-Action采取不同的策略设置滑动窗口大小搜索主题和对象。对于这个话题,滑动窗口大小设置为之前的字数动词在一个句子,然后,EX-Action匹配所有名词和名词与动词组合在窗口。对象的一个动态窗口机制用于设置滑动窗口的大小。该机制采用的字数动词在一个句子后滑动窗口大小,和滑动窗口滑动当遇到另一个动词。 Figure2显示了一个示例提取EX-Action的行动。
在搜索的过程中主体和客体,现象有名词复合结构或代词充当主语或宾语。为了确保行动中提取信息的完整性,multinoun化合物结构标记作为一个名词和动词匹配。动词和对象可以保留基本信息内容,但是代词充当对象时,可能会丢失很多信息。因此,保存代词做主语,代词的对象被丢弃在这个模块。
3.3。行为特征提取
在这个模块中,EX-Action提取5种特征为每个行动。提取的行动框架的功能如图3。它包含相似性度量,概率计算,互信息值测量,语义依赖测量和距离计算。包含9值特性, 。特性的描述表2。更多细节接下来会被描述的行动特征提取。
3.3.1。相似度测量
在本节内,候选人的行为和CTI报告之间的相似性计算由TF-IDF BM25算法。TF-IDF方法通常用于计算特征项在文本向量化的过程(21]。方程(1)是用来计算特征项的权重的行动。 在哪里单词的总数在CTI报告吗 ,和代表单词的数量在CTI报告 。因为威胁行为包含不同数量的话说,平均值作为相似性衡量候选人的行为。
BM25 [22)是一个升级TF-IDF算法。它增加了一个常数TF-IDF限制增长限制TF价值和使用文档的长度来评估候选人的行为的重要性。它执行加权求和候选人之间的相关性得分威胁行动和CTI报告 ,与方程(2)是用于计算的行动。 在哪里代表了每个单词的频率,代表每个词的词频,是文本的长度, , ,和是调整因素。
3.3.2。概率计算
在本节内,签证官对计算的同现频率来确定候选人之间的相关行动,CTI的报告。在行动中,主题通常表示攻击主题或组织,动词表示攻击行动,对象表示的操作目标CTI报告。因为攻击组织不同的攻击过程中,计算的同现频率动宾三元组之间的相关性会削弱行动和CTI报告。因此,EX-Action计算的同现频率下签证官对一个固定的窗口作为一个特性。行动和CTI报告之间的相关性与签证官的频率成正比。具体来说,窗口大小 用于计算的同现频率签证官对我们的实验。
3.3.3。互信息值测量
互信息(MI)措施减少不确定性信息的一个随机变量,给出知识的另一个23]。签证官对MI和动宾三重计算来衡量候选人的信息内容的行为。候选人之间的关系的行为和CTI报告MI值成正比。方程(3)用于计算动宾MI的三倍。 在哪里 是频率的威胁行动,是其主题出现的次数,然后呢的同现频率吗对。
3.3.4。语义依赖测量
有一些候选人行为匹配度高,但他们实际上都是不准确的语义匹配。语义依赖的功能旨在识别这些行为。斯坦福依赖分析仪(4)是用于分析每个句子的语义依赖关系。和设置之间的依赖性重主语和动词和动词和对象之间的依赖性重量,分别。然后,总结依赖体重(和 )的功能语义依赖图4显示了一个示例斯坦福大学的一个句子的语义依赖。
3.3.5。距离计算
在本节,两个距离计算。它们分别主语和动词之间的距离和动词和对象之间的距离。动词之间的数量的词和目标词是作为距离的值。例如,对于一个词主语和动词之间的距离是记录为1。
3.4。行为识别
整体学习促进弱学习者强学习者通过构造,结合多个基本学习者完成学习任务。在这个模块中,EX-Action自动识别候选人行动并行集成学习算法。算法的主要过程进行了说明1。算法的时间复杂度1是 。
|
||||||||||||||||||||||||||||||||||||||||
在算法1,训练集是输入,其中包含候选人的行为及其特性。地面真理是手动的操作集提取。地面真理是用来计算候选行为的相似性。Five-base分类学习者用来构造一个平行的系综分类。它们分别决策树(树),随机森林(森林),支持向量机(SVM),线性回归(LR)和多层感知器分类器(MLPC)。它可以表示为 。
的的预测价值生成的行动我- - - - - -th基础分类学习者。然后,不同的重量被设置为并获得加权求和每一个行动。EX-Action标识选择行为从候选人威胁行为设定的加权投票的方法,最大限度地减少损失函数的线性组合基础的学习者。投票是一个预定义的阈值;如果大于 ,候选人的行动将被视为所选择的行动。最后,EX-Action计算相似度选择的行动和地面之间的真理。如果相似度大于预定义的相似性阈值θ,操作被认为是正确的行动。
在EX-Action,根据不同的分类表现不同的模型,不同的重量值设置为每个模型。可以看出,决策树在我们的实验表现最佳的性能。因此,决策树是分配给的最大重量,和其他四个的重量值模型都是平等的。
4所示。评价
4.1。实验数据集
我们从ATT&CK获得243安全报告1。它们包含5136句。句子的数量关于CTI报告在表中不同的技术3。在我们的实验中,20%的CTI报告是随机选择的测试数据。图5(一个)显示句子长度的分布,和图5 (b)显示了测试数据的频率分布。
(一)
(b)
从图可以看出5句子的长度描述威胁行动是主要分布在10到30。因此,本研究的数据集可以被视为CTI报告与复杂的句子和长度。
4.2。评价指标
在这项研究中,准确性,回忆、精度F1-score,归一化互信息(敝中断),和提取操作的数量(数量)作为性能指标。准确性、召回、精密,F1-score反映机器之间的定量差异威胁的行为识别和地面真理。他们可以通过方程计算(4)- (7)。
代表提取操作的数量,数量和敝中断代表了测量机之间的威胁行动信息内容的差异识别和人工开采。敝中断通常用于衡量两个聚类的相似性聚类结果。这是用来测量研究中的信息内容的差异。敝中断之间的行为反映了相似机器识别和人工开采。方程(8)是用来计算每个操作的信息内容的区别。 在哪里代表单词的数量的节点动作,代表单词的数量的节点机识别行动,代表单词的数量的节点手动提取操作,和Cij代表单词的数量节点属于两种类型的行动。之间的相似性信息机器识别和地面真理MI值成正比。敝中断= 1时,信息内容是相等的。
4.3。结果和分析
在这一节中,有四个部分来显示我们的实验结果和分析。他们EX-Action特性重要性排名,模型比较,阈值测定,和现有方法的效果比较。请注意,每个指标的最佳值在每个表大胆。
4.3.1。EX-Action特性重要性排名
本节显示了行为的功能分布,重要性分布的特性,不同的功能组合的性能。包含9值的特性。他们是 , , , , , , , ,和 。一些行为的特性分布如图所示6。可以看出,这些行动的特征值分布是非线性分布。
(一)
(b)
(c)
(d)
(e)
(f)
表4给出了获得不同的功能组合的结果。在同等条件下,召回和达到最大值的77.82%,提取操作的数量达到了1179年的最大值,但其他指标都低于 。的性能高于其他组合的精度,精度,F1-score和信息完整性。它可以发现更适合威胁动作识别的特征选择。
9的重要性分布特性计算的基尼指数,为给定的图7。图7提供数据的距离签证官对动作识别有最大的影响。和签证官对条件概率的频率比其他更重要的特性。
4.3.2。模型比较
本节显示了不同基础的学习者,结果未加权的整体学习模型(未加权的模型),和EX-Action(加权整体模型)。获得的结果的不同基础的学习者,未加权的模型,并给出EX-Action表5。
下表5树的准确性和F1-score高于其他基础的学习者,但其准确性和F1-score低于EX-Action。因此,在EX-Action,树是世界上最大的重量,重量值权重的基础学习者都是相同的。比较的结果未加权的模型和EX-Action,召回未加权的模型是81.06%,高于EX-Action,提取操作的数量也比EX-Action高。然而,准确度、精度、F1-score和敝中断EX-Action值都高于未加权的模型。
4.3.3。阈值确定
投票阈值决定了模型识别动作的结果,和相似度阈值确定行为识别的正确性,这将影响EX-Action的性能。本节测试的最优参数EX-Action通过投票的设置阈值和相似性阈值。投票结果的比较在不同的阈值和不同的相似度阈值如图8。
(一)
(b)
如图8(一个)投票,当相似度阈值和阈值设置为0.2和4分别准确性,F1-score,敝中断是最优的。此外,如图8 (b),相似度阈值之间的差异程度,机器识别的行动和地面真理。可以看出,相似性阈值越高,越高,它所包含的信息内容和准确性和F1-score将越低。
4.3.4。现有方法的性能比较
在本节内,EX-Action相比TTPDrill[的性能5]和ActionMiner [19)的准确性,回忆、精度F1-score,提取操作的数量,敝中断。如表所示6EX-Action的结果是高于其他两种方法的准确性,记得,精度,F1-score,提取操作的数量,敝中断。
从CTI报告中提取操作的复杂结构,TTPDrill主要依赖于语义依赖。它将忽略威胁的一部分行动条款等复杂的句子结构。因此,TTPDrill提取更少的行动和行为表现不佳。TTPDrill可以保留主要信息的行动与ActionMiner相比,敝中断是高于ActionMiner。ActionMiner主要依赖于句法结构提取。它可以获得更好的精度和召回为低级的行为提取复杂的句子。然而,它并不保留行动的主题,所以它的敝中断价值很低。
此外,我们比较操作的例子从CTI报告中提取用于我们的实验数据和文献[19分别]提出ActionMiner。提取操作的示例通过在两个数据集的三种方法给出了表7。
的三种方法提取的操作在我们的实验数据集显示在左边的表7。可以看出TTPDrill有更好效果中提取句子结构简单和明显的依赖关系。因此,它的性能很差在我们的实验数据集。比TTPDrill ActionMiner可以提取更多的行动,但它缺乏行动和行为的主题表现不佳的保留句子的信息内容。EX-Action的数量可以达到更好的结果提取操作和保留的信息用复杂结构的句子。
CTI报告中提到的文献[19),显示了三种方法提取的操作表的右边7。可以看出,威胁描述句子结构的CTI报道相对比较简单。比较三种方法,发现行为提取TTPDrill能给一个好的描述,但是句子的复合组件还没有提取。ActionMiner可以提取更多的行动,但它缺乏话题。提取的操作比ActionMiner EX-Action更完整,和提取操作的数量由EX-Action超过TTPDrill提取。
5。讨论
非结构化CTI报告记录了网络攻击过程中,上下文机制和其他信息。准确地提取和识别威胁行动从非结构化CTI报告将有助于安全从业人员有效地恢复攻击过程。在[24高),等人相关的威胁行动从CTI文本中提取与行动从系统审计日志中提取并构造一个威胁行动图搜索,实现一个高效的网络威胁。
5.1。贡献
首先,EX-Action可用于从非结构化提取操作用复杂的句子CTI报道。它使用语法规则提取的威胁行为,可以在复杂的句子提取更多的行动。同时,机器学习算法用于识别行为是基于自己的特性,它可以识别更多的行为未定义的本体模型。第二,EX-Action包含主题,提取动作动词和对象。它还提供了一种方法来提取实体关系,上下文语义实体之间的关系。
5.2。限制
有一些缺点在这项研究中,如依赖词性和语义分析,可能会失去部分威胁的行动和未能认识到代词指示物。
6。结论
本研究提出了一种多通道学习方法提取和识别威胁的行为,它可以提取复杂的语义关系和认可的行动威胁网络安全的实体对未定义的关系。实验结果表明,EX-Action可以有一定的准确性和信息完整性之间的平衡行动中提取。在未来的工作中,我们将研究如何避免过度依赖词性标注工具和尝试使用代词决议确定代词的主体和客体。
数据可用性
非结构化CTI报告数据用于支持本研究的结果中包括这篇文章。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由中国国家自然科学基金(62062022)和贵州省的科学和技术基础([2017]1051)。