近年来,物联网的普及(物联网)应用程序和服务带来了极大的方便人们的生活,但无处不在的物联网也给城市带来了许多安全问题。其中,高级的持续威胁(APT)是最具代表性的攻击之一,和它的连续爆发了前所未有的大规模部署物联网的安全挑战。然而,重要分析恰当的恶意软件样本的归因研究还相对较少。因此,我们提出一个分类方法与恰当的归因组织恶意软件在物联网中使用机器学习。它旨在标志着真正的进攻组织实体,以更好地确定恰当的攻击活动和保护物联网的安全。这个方法执行特性表示和特征选择基于APT行为数据从设备物联网和选择特性与高度分化的组织。然后,火车一个名为SMOTE-RF的多级模型,可以更好地处理不平衡和multiclassification问题。我们真正的动态行为数据结合实验来验证方法的有效性提出了恰当的恶意软件样本的归因分析和实现良好的性能。我们的方法可以识别组织袭击事件背后复杂的恰当的物联网设备和服务。
作为物联网的应用程序和服务传播到我们生活的每一个角落,物联网设备的数量正在迅速增加,然而,大部分的设备是不考虑安全问题,以及不能更新,这使得网络罪犯容易受到攻击时发现一些错误或安全问题。无处不在的物联网带来了许多安全问题
进行了相同的组织有一定的相似之处他们的行为,实现自动分类恰当的恶意软件样本,也就是说,分类和识别的样本相同的组织。行为数据的基础上,从物联网设备获得恰当的恶意软件攻击,提出了一种分类恰当的进攻组织基于机器学习的方法。本文的主要贡献如下:
我们建议一个合适的组织基于机器学习的分类方法和恶意软件。旨在有效的方法确定恰当的攻击活动已被实验验证,性能稳定,效率高,可马克真正攻击组织实体保护物联网的安全。
我们进行特征表示和选择过滤的特征具有更高学位的区别不同组织根据收购行为数据的恶意软件,降低了特征维数,提高了计算速度。
由于恰当的组织不平衡的数据集,我们设计了SMOTE-RF模型来解决这个multiclassification问题。
恰当的攻击是一个复杂的网络攻击的目的非常明显。它一步一步攻击目标网络通过多个阶段并维护长期访问目标(
目前,常用的检测方法与恰当的主要研究方面的恶意代码检测、攻击检测和网络流量检测。Abomhara和前
检测的恶意软件,恶意软件可以识别的智能分析恶意样本的特征(
,恰当的组织识别是更倾向于分析恶意代码结构及其之间的关系攻击链。例如,FireEye实验室(
提出了一种分类方法,基于机器学习的归因组织恰当的恶意软件。基于恶意软件样本在恰当的攻击,这种方法首先动态分析样本,进行预处理获得的行为数据,构造一组行为数据的恶意软件样本,然后使用TF-IDF方法执行功能表示一个向量矩阵形式,并计算卡方值的高纬度地区特征向量进行特征选择。基于SMOTE-RF模型本文设计多级模型训练的最后,测试集预测和输出。本文的总体设计框架是如图
总体设计框架图。
在本文中,我们使用行为特性数据集NSFOCUS提供的恰当的数据集。他们收集和获得大量的动态信息的恶意软件在沙箱,标志着它所属的组织。这个实验选定的样本数据7恰当的组织形式的原始数据集,和信息如表所示
恰当的组织分布。
| 恰当的组织名称 | 数字 | |
|---|---|---|
| 1 | 拉撒路 | 1060年 |
| 2 | APT28 | 343年 |
| 3 | 运行c大调 | 276年 |
| 4 | APT29 | 273年 |
| 5 | 把大象 | 156年 |
| 6 | 沙虫 | 154年 |
| 7 | Naikon | 127年 |
行为数据的样本数据集包含很多冗余数据,包括路径数据时生成恶意软件执行操作,各种文件的恶意软件,api,操作对象数据和其他信息(见图
一个示例图行为的恶意软件样本的数据。
行为数据的文本形式的恶意软件样本,图中所示的示例行为数据的恶意软件样本。因此,在模型训练之前,文本数据必须量化。根据我们的统计,大多数样本的文本字符长度低于10000,所以前10000个字符是截获每个示例的文本数据(见图
样品的长度直方图的行为文本数据。
如果
逆文本词的频率
如果一个单词的TF价值从行为中提取数据很高但IDF值很低,这表明,这个词可能是重要的攻击。
当使用TF-IDF算法来识别关键字在行为数据,对所有数据提取相同的示例作为一个独立的文档
最后,在上述计算,数据集的行为数据被表示为一个特征矩阵
拉撒路的前20位特征组样本。
前20名的特点APT28样本。
前20名的功能操作c大调样本。
前20名的特点APT29样本。
前20名的特点把大象样本。
前20名的沙虫样本特性。
前20名的特点Naikon样本。
自功能表示生成许多特征维度和稀疏的特征矢量值在前面的步骤中,降维的特征向量是一个更可行的方法来提高检测的速度和效率,提高模型的拟合效果。在这里,卡方检验用于特征降维。卡方检验(CHI)也被称为
其中,
我们计算卡方值超过一千的特性后生成特性表示。卡方值越大,越好区分样本的能力特征。卡方值的排名前20位的特征尺寸如图
前20名的功能卡方值。
处理问题的不平衡的分类和multiclassification恰当的数据集,本文设计了SMOTE-RF模型。模型集成了击杀和随机森林算法。击杀算法是一种简单而有效的过采样方法提出的拉et al。
SMOTE-RF模型是第一个基于样本的数量
SMOTE-RF模型施工过程分为七个步骤。
原始训练集
第一步:计算每个样本之间的欧氏距离
步骤2:随机选择
其中,
步骤3:将新合成的样品放入原始训练集
步骤4:使用随机选择引导重采样技术
步骤5:假设每个样本都有
第六步:遵循步骤4 - 5生成
第七步:通过所有的树投票分类目标,分类得票最多的是最后的分类结果。
摘要实验multiclassification。为了全面调查各种分类、性能指标选择精度,回忆,和
混淆矩阵表示的分类结果。
| 真正价值 | 预测价值 | ||
|---|---|---|---|
| 组1 | 组2 | 组3 | |
| 组1 |
|
|
|
| 组2 |
|
|
|
| 组3 |
|
|
|
为
最后,算术平均每个类别的指标计算得到宏观平均,这是用来测量每个算法的总体效果分类:
比较预测结果,经常执行的算法在分类任务,如资讯算法,DT算法,和XGBoost算法,选择这里的SMOTE-RF模型相比,本文通过实验和验证。每个类别中的每个模型的预测结果如表所示
每个模型的分类结果在每一个恰当的组织。
| 恰当的组织 | 评价 | 然而, | DT | XGB | SMOTE-RF |
|---|---|---|---|---|---|
| 拉撒路集团 | 精度 | 0.791 | 0.750 | 0.800 | 0.845 |
| 回忆 | 0.507 | 0.493 | 0.478 | 0.567 | |
| f值 | 0.618 | 0.595 | 0.598 | 0.644 | |
|
|
|||||
| APT28 | 精度 | 0.360 | 0.351 | 0.355 | 0.366 |
| 回忆 | 0.854 | 0.833 | 0.792 | 0.854 | |
| f值 | 0.506 | 0.494 | 0.490 | 0.513 | |
|
|
|||||
| 运行c大调 | 精度 | 0.889 | 0.889 | 0.889 | 0.889 |
| 回忆 | 0.828 | 0.828 | 0.828 | 0.828 | |
| f值 | 0.857 | 0.857 | 0.857 | 0.857 | |
|
|
|||||
| APT29 | 精度 | 0.937 | 0.938 | 0.912 | 0.968 |
| 回忆 | 0.825 | 0.839 | 0.857 | 0.834 | |
| f值 | 0.877 | 0.886 | 0.884 | 0.896 | |
|
|
|||||
| 把大象 | 精度 | 0.927 | 0.980 | 0.944 | 0.927 |
| 回忆 | 0.836 | 0.836 | 0.836 | 0.836 | |
| f值 | 0.879 | 0.903 | 0.887 | 0.879 | |
|
|
|||||
| 沙虫 | 精度 | 0.840 | 0.917 | 1.0 | 1.0 |
| 回忆 | 0.808 | 0.846 | 0.846 | 0.885 | |
| f值 | 0.824 | 0.880 | 0.917 | 0.939 | |
|
|
|||||
| Naikon | 精度 | 0.913 | 0.957 | 0.917 | 0.957 |
| 回忆 | 0.700 | 0.733 | 0.733 | 0.733 | |
| f值 | 0.792 | 0.830 | 0.815 | 0.830 | |
在火车上每个模型集的性能指标。
每个模型在测试集上的性能指标。
近年来,网络攻击是被各国和情报机构的重要手段来达到他们的政治、外交、军事、和其他用途。恰当的检测信息安全与学术研究已引起广泛关注。归因的恰当的恶意软件样本的分类有利于构建攻击场景,追踪攻击者和有效识别恰当的进攻组织的后续事件。本文提出了基于机器学习的分类方法的恰当的组织和恶意软件。这个方法是基于行为数据和恰当的组织标记从动态分析获得恰当的恶意软件获得的物联网设备,和相对强劲的特征向量是通过特征表示和特征降维。考虑到样本不平衡数据集,本文设计一种SMOTE-RF模型,集成了击杀和随机森林算法。最后,该方法的有效性的归因分析恰当的恶意软件是由多组验证实验。其中,特征提取方法可以达到超过80%的精度一般模型和SMOTE-RF模型表现良好,并在恰当的恶意软件的分类性能稳定。接下来,我们将结合non-APT恶意软件样本进一步研究恰当的攻击和每个组织的特点,更好地识别恰当的袭击活动,保护下一代的复杂网络的安全。
没有数据被用来支持本研究。
作者宣称没有利益冲突。
Shudong李和张Qianqing同样这项工作。
这项研究是由广东省的关键R D程序(2019号b010136003),国家自然科学基金委(62072131和62072131号),在广州科技项目(202102010442),中国国家重点研发项目(2019号qy1406),国家工程实验室的开放项目为移动互联网系统和应用的安全,和广东省高校珠江学者计划(2019)资助。作者感谢NSFOCUS公司提供的数据。