在今天的安全格局,先进的威胁越来越难以检测的模式展开攻击。经典方法严重依赖静态匹配,如黑名单或正则表达式模式,可能是有限的灵活性和不确定性在系统数据检测恶意数据。这就是机器学习技术可以显示他们的价值,并提供新的见解和更高的检测率。僵尸网络的行为,使用domain-flux技术隐藏指挥和控制通道在本研究调查。机器学习算法和文本挖掘用于分析网络的DNS协议和识别僵尸网络。为此,提取并贴上域名包含健康和DGA感染僵尸网络数据的数据集。数据预处理技术基于文本挖掘的方法应用于探索域名字符串与语法分析和主成分分析。性能得到了改进,通过主成分分析提取统计特征。该模型的性能已被评估使用不同分类器的决策树等机器学习算法,支持向量机,随机森林,和逻辑回归。实验结果表明,随机森林算法可以有效地使用僵尸网络检测和有最好的僵尸网络的检测精度。
使用互联网的普及导致了一些网络攻击的危险,包括僵尸网络,DDoS攻击和垃圾邮件。如今,僵尸网络是最普遍和严重的威胁,通常发生在网络攻击。机器人是由攻击者控制,称为僵尸主控机,在一个共享的指挥和控制(C&C)基础设施,允许远程控制被感染的计算机系统。机器人不同于其他形式的恶意软件,他们是高度自治,并配有使用沟通渠道的能力接受命令和控制系统的代码更新。他们还可以定期通知他们的工作状态控制系统。僵尸网络控制系统、指挥和控制服务器,通过此方法和代码更新机器人僵尸主控机发送命令。僵尸网络通常被用来传播恶意软件,发送垃圾邮件,窃取敏感信息,欺骗,生成虚拟点击,或更严重的进行大规模的网络攻击,例如DDoS攻击。根据一些安全的报道,大约有80%的网络流量与僵尸网络的活动,包括垃圾邮件和网络攻击(
僵尸网络广泛应用于有组织犯罪渗透到政府的安全系统,银行和企业。近年来,许多研究已经完成的方法检测和防止僵尸网络。根据Ryu和杨
EGGDROP僵尸网络时在1993年,作为第一个僵尸网络报道,Necurs僵尸网络是最活跃的恶意软件出版商在2016年。230万多封垃圾,包括JavaScript和Visual Basic下载者,被作为电子邮件附件发送每天通过僵尸网络Necurs 11月24日。根据相同的报告,2016年僵尸网络显示最大的DDoS攻击,记录由法国OVH主机公司。1真沸点的最大速度,针对物联网(物联网)设备如路由器和IP摄像机,Gartner预测。将会有120亿多2022年物联网设备,防止这些威胁的第一步是检测,一直是许多研究的主题,近年来(
DGA检测框架,称为深机器人检测(DBD)提出分析和分类的统计特征提取的DNS查询机器学习。提出了框架的结果证明的准确性和假阳性率低检测domain-flux僵尸网络(
比尔博是一个混合模型,这就是卷积神经网络(CNN)的组成,长期短期记忆(LSTM)和人工神经网络(ANN)提出检测DGA僵尸网络(
僵尸网络检测算法有各种挑战可能影响结果(
源和目标IP流为基础的功能,比如,协议,发送或接收的数据包数量是最常用的函数在机器人领域的检查。然而,这些功能不能完全捕捉通信模式,可能暴露恶意主机的其他方面。此外,流级别模型生成一个高计算开销,这可以避免通过调整行为特征,如修改数据包的结构。为了克服这些局限性,探索基于这些方法的特点是未来最有前途的方法研究,图从主机到主机的网络流量通信模式(
方法提出了基于DNS查询类似的周期时间间隔级数的分析来识别DGA-bot-infected机器(
如前所述,僵尸网络的主要特征是中华商务基础设施。每个僵尸网络路由是一个协调的群机器人,通过中华商务渠道并执行恶意操作。因此,该方法的主要目的是检测僵尸网络,防止垃圾邮件和网络流量的传播。数以百万计的垃圾邮件如果发现僵尸网络是可以预防的。
在该方法中,用户行为分析和主机之间传输的流量记录提取网络行为模式。术语frequency-inverse文档频率(TFIDF)模型是用来模拟模块检测行为模式,和主成分分析(PCA)是用来增加诊断的速度和准确性评估结果。行为模式可以从一组攻击包的形式和使用可检测网络入侵检测规则。自然,使用多样的和高质量的数据,进一步评估该方法的力量。这样,流程上实现如何使用机器学习来检测恶意DGA域。这有助于扩展现有Splunk安全应用。
Splunk是一个软件平台搜索、分析和可视化机器生成的数据从网站,收集应用程序、传感器和设备。为了实现该方法,Splunk使用的是7.0版本与16 GB的内存,电脑英特尔酷睿i7 - 7660 u处理器,64位Windows操作系统。以下插件用于识别恶意域名:
评估性能的域名使用机器学习算法分类,提取并标记域名数据集,100000个域名,是应用。这包括一个无害的域名从集合Spamhaus的网站(
分离DGA僵尸网络的域。
成束的比较图表,newgoz chinad僵尸网络,和合法的数据。
图
检测系统的框架。MLA:机器学习算法;域名:域名服务器。
自动生成的僵尸网络域名通常有域名规范和词汇属性不同于合法的域名。一些特性,比如香农熵准则、已知词率在一个字典,域名,长度,辅音,元音率,以及域分析字符串,探索通过语法分析和主成分分析(PCA)。尺寸是有效改善的分析结果,提高诊断的准确性,使用TFIDF算法和字符长度设置n元参数,可以得到一个矩阵。这个矩阵在域名中包含最常见的团体字符串。通过这种方式,一个高维的结果。因此,通过使用PCA,尺寸下降。主成分分析提供了一个有用的形式表示,可以绘制三维图如图
主成分分析的三维图。
机器学习应用于Splunk发现异常,预测或估计系统的响应,或集群检测行为。通常处理一组字段不寻常的信息由一个人或国家代码写一个IP搜索,甚至从一个索引搜索字段。
识别功能最有前途的预测恶意域,分析该领域SPL命令。它应用于排在所有属性和确定的一流的属性创建机器学习模型的精度最高。域名是富含附加功能如表所示
域名数据属性和属性值的计算。
| 域名/属性 | google.com | microsoft.com | g.doubleclick.net | newsama.com |
|---|---|---|---|---|
| 类 | 合法的 | 合法的 | 合法的 | 合法的 |
| partition_number | 1 | 0 | 0 | 0 |
| 子类 | 合法的 | 合法的 | 合法的 | 合法的 |
| ut_consonant_ratio | 0.6 | 0.7 | 0.7 | 0.7 |
| ut_digit_ratio | 0 | 0 | 0 | 0 |
| ut_domain_length | 10 | 13 | 17 | 20. |
| ut_meaning_ratio | 0.2 | 0.692307692 | 0.823529412 | 0.2 |
| ut_shannon | 2.646439345 | 3.026986833 | 3.616874606 | 3.684184 |
| ut_vowel_ratio | 0.4 | 0.307692308 | 0.294117647 | 0.35 |
分配图在图
基于香农算法和语义率分配图。
相关分析DNS数据使用SPL语言特性计算。
散布图提出了识别属性的组合。功能,可以快速确定代表一个不同的分布。因此,准确的预测更有可能。结果URL的工具箱的结果可以得出基于域名。不同域名的SPL代码计算值属性如图
在功能设计和选择阶段,某些数据可以探索和丰富的附加功能通过使用机器学习算法提高检测精度。另外,可以通过添加更多的功能,如Alexa排名,领域,年龄,常见的黑名单和白名单。这将导致改善机器学习的数据集和识别特征。图
SPL命令Splank基于TFIDF模型。
域数据集富含特性。
评估僵尸网络检测技术的性能,提出了一种适合定量测定的标准(
正确的僵尸网络活动警报的数量,包括攻击模式和C&C在每个中断,叫做真阳性。
正确诊断的数量在每个当前中断正常活动被称为正确的负面。
假警报的数量的僵尸网络活动,包括攻击和中华商务模式在每个中断,称为假阳性。
假警报的数量的僵尸网络活动,包括攻击和中华商务模式在每个中断,称为假阳性。
它表明,该算法能够正确检测机器人流量的百分比。该参数从机器人的数量的比例获得交通正确认定为机器人交通bot算法总数的交通(
它表明流量的百分比确定的算法正常交通是正常的。该参数获得的数量比正常流量检测算法的总数交通正常算法检测到的交通(
这个参数是两个参数的组合,获得的精度和召回,
这个参数表示的整体精度算法和正确的总数的比例流量算法检测到的交通的总数(
它被称为矩阵显示监督算法的性能。矩阵的每一列显示了一个示例的预测价值。这个矩阵是用来确定的价值评价指标,如精密度和准确度。
本文对域名为冒险和合法的类别进行分类的基础上,创建功能。可以培养不同的算法和机器学习模型来评估算法是最准确的。在这种评价,逻辑回归算法,支持向量机,随机森林,研究了决策树。此外,技术分析的主要域名已经使用的组件和特性,可以提高检测算法的准确性(
首先,用随机数据,现有的数据集分为两套相同的培训和测试。提到的算法处理和比较的目的数据。在下一步中,基于算法的成功率行为的正确和积极的和消极的利率预测,评估结果可以读的偏差矩阵。提供的预测分类字段Splunk机器学习应用程序。这些数据根据数据处理
随机森林模型的评价不使用主成分分析特征。
评估的结果基于逻辑回归算法不使用主成分分析特征。
价值评价结果基于SVM算法不使用主成分分析特征。
基于决策树算法的结果评估值不使用主成分分析特征。
SPL命令来评估基于属性指定的域名。
如图
价值评价结果基于逻辑回归算法使用主成分分析功能。
决策树模型的评价以及使用主成分分析的特征图的功能。
支持向量机模型的评价与使用主成分分析功能特性图。
随机森林模型的评估使用主成分分析功能特性图。
如图
预测错误率图DGA僵尸网络检测。
机器学习模型使用主成分分析特性的比较。
| 机器学习模型 | 决策树 | 支持向量机 | 随机森林 | 逻辑回归 |
|---|---|---|---|---|
| 标准 | ||||
| 精度 | 0.98 | 0.96 | 0.99 | 0.93 |
| 精度 | 0.98 | 0.96 | 0.99 | 0.93 |
机器学习模型的比较和评估主要分析组件。
| 算法名称 | predicted_dga actual_dga | predicted_dga actual_legit | predicted_legit actual_dga | predicted_legit actual_legit |
|---|---|---|---|---|
| 决策树 | 24702例(99.1%) | 376例(0.9%) | 217例(1.2%) | 24697例(98.3%) |
| 随机森林 | 24518例(98.6%) | 541例(1.4%) | 401例(2.2%) | 24532例(97.8%) |
| 支持向量机 | 23976例(95.9%) | 1184例(4.1%) | 943例(4.1%) | 23889 (95.9) |
| 逻辑回归 | 23254例(92.2%) | 1686例(7.8%) | 1665例(7.2%) | 23387例(22.6%) |
比较不同算法没有PCA特征。
| 名算法 | predicted_dga actual_dga | predicted_dga actual_legit | predicted_legit actual_dga | predicted_legit actual_legit |
|---|---|---|---|---|
| 决策树 | 23060例(92.5%) | 1879例(7.5%) | 1541例(6.2%) | 23443例(93.8%) |
| 随机森林 | 22741例(91.7%) | 2066例(8.3%) | 1587例(6.4%) | 23378例(93.6%) |
| 支持向量机 | 22362例(89.7%) | 2555例(10.3%) | 1885例(7.5%) | 23299例(92.5%) |
| 逻辑回归 | 22381例(89.3%) | 2694例(10.7%) | 2753例(11%) | 22362例(89%) |
提到模型的训练步骤之后,第一部分中创建的属性,应该计算。为数据,Splunk基础工具,生成一组随机的抽样域信每一分钟,使用机器学习的随机森林算法,决策树,后勤回归和支持向量机在实际搜索范围。的过程中指定正确的和不正确的预测数字
正确和不正确的随机森林算法的预测。
真与假的过程预测决策树算法。
真的和假的预测过程逻辑回归算法。
真的和假的预测过程支持向量机算法。
实际的基于时间的搜索随机森林、决策树、逻辑回归和支持向量机计算考虑了数据集的主要分析组件和没有它。根据表
比较算法的计算时间和没有主要分析组件的数据集。
| 名算法 | 时间的算法主要分析组件数据集(sec) | 时间没有主要的算法分析组件数据集(sec) |
|---|---|---|
| 决策树 | 71.128 | 75.467 |
| 随机森林 | 69.027 | 73.158 |
| 支持向量机 | 81.208 | 97.621 |
| 逻辑回归 | 77.817 | 92.237 |
应用的主要目的本研究中使用的数据集是减少所需的信息进行分析。结果列表只显示预期启动并检查这些DGA算法是否有安全风险。此外,通过编辑代码,图形界面定制的安全分析师能够为系统提供反馈。如果域名数据报告为合法的,结果不正确归类为DGA可以白名单。这将导致进一步减少假阳性的识别DGA域如图
DGA检测域和域的编辑预测检测到错误。
在该机制中,另一个级别的分类生成可以以不同的方式使用。通过手动将验证结果插入到训练数据集,提出了模型的准确性提高了持续培训。这有助于保持最新的模型和训练数据集随时间增大通过增加合法域名白名单,最后,扩大使用经批准的分类精确匹配的黑名单。结合所有这些方法会导致生存威胁的列表,我们可以存储和修改根据我们的组织环境和规范(
DGA域的分类和分析。
评价结果表明,该算法的性能与不同的参数有关。
僵尸网络的性能评估域名分类器使用机器学习算法,我们使用提取并标记域名数据集包含健康和DTA感染僵尸网络数据。
数据集,基于文本挖掘的方法,我们探索域名字符串语法分析和主成分分析和识别特定的模式和特点,存在于域名的结构。
我们分析域字母的基础上创建特性,通过机器学习模型与逻辑回归算法,支持向量机,随机森林,决策树。
DGA僵尸网络数据集的实验结果表明,大部分的机器学习技术用于实现的总体分类精度超过95%,其中,随机森林算法,分类精度较高,产生最好的结果和选择数据集的特性可以改善结果产生重大影响。
以下成就提供了解决DGA僵尸网络问题。
使用文本挖掘识别控制中心和DGA僵尸网络命令是独立的结构;提取的特征可以用高精度识别僵尸网络控制中心独立于它们的结构(集中、对等和基础设施)。
使用机器学习的方法和算法提供了智能识别僵尸网络。这些算法,经过短暂的学习时间模型,它能够自动和智能地识别僵尸领域从正常域。
该方法是在线的,可位于旁边的一个在线监测系统执行DGA域检测。
新一代的僵尸网络是使用稀释技术远离黑名单。研究表明,网络犯罪越来越多地打开这些技术来逃避传统的检测方法。DNS流量的特性之一是它可以逃避随机名称生成算法的攻击。这是一个攻击者改善DGA机器人的新挑战。在这个研究中,一个僵尸网络检测模型提出了基于机器学习的随机域生成算法。该模型使用域名查询数据基于文本挖掘模型。因此,僵尸网络的行为使用domain-flux技术隐藏指挥和控制通道进行了研究。
应用机器学习算法和文本挖掘技术分析DNS协议和识别僵尸网络。为了这个目的,提取并贴上域名包含清洁和DGA感染僵尸网络数据的数据集。为了探索域名字符串、语法分析和主成分分析用于预处理数据是基于文本挖掘的方法。域名结构中存在的一些特性。特征选择方法是用于提高机器学习算法的准确性。
评价结果表明,该算法的性能根据不同的参数变化。精确显示机器人的速度交通相比,确定机器人的算法。记得参数还指定了检测机器人的速度流量的算法。根据测试结果,可以看出,在决策树中,支持向量机,随机森林,和逻辑回归算法,逻辑回归算法具有最低的总体分类精度。此外,随机森林算法分类精度最高。然而,其他算法的分类精度的差异并不大。决策树和支持向量机算法几乎相同的总体分类精度。随机森林算法的结果明显优于决策树算法。然而,由于大量的树木所需的培训,培训时间随机森林了。然而,随机森林分类训练可以离线完成。 Hence, it does not affect the classification speed during the test period. The random forest machine learning algorithm has the highest overall classification accuracy. It is selected for implementing the proposed botnet detection model.
没有数据被用来支持本研究。
作者宣称没有利益冲突。