raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

JCNC

计算机网络和通讯》杂志上

2090 - 715 x 2090 - 7141

Hindawi

10.1155 / 2021/4767388

4767388

研究文章

一个新颖的方法来检测DGA-Based僵尸网络使用机器学习技术在DNS查询

https://orcid.org/0000 - 0002 - 1577 - 4370

Soleymani

阿里

https://orcid.org/0000 - 0001 - 9521 - 9213

Arabgol

今天

Shojae Chaeikar

萨曼

计算机工程学院

伊朗人大学的e-Institute高等教育

德黑兰

伊朗

2021年

5 7 2021年

2021年 26 4 2021年 24 6 2021年 5 7 2021年

2021年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

在今天的安全格局,先进的威胁越来越难以检测的模式展开攻击。经典方法严重依赖静态匹配,如黑名单或正则表达式模式,可能是有限的灵活性和不确定性在系统数据检测恶意数据。这就是机器学习技术可以显示他们的价值,并提供新的见解和更高的检测率。僵尸网络的行为,使用domain-flux技术隐藏指挥和控制通道在本研究调查。机器学习算法和文本挖掘用于分析网络的DNS协议和识别僵尸网络。为此,提取并贴上域名包含健康和DGA感染僵尸网络数据的数据集。数据预处理技术基于文本挖掘的方法应用于探索域名字符串与语法分析和主成分分析。性能得到了改进,通过主成分分析提取统计特征。该模型的性能已被评估使用不同分类器的决策树等机器学习算法,支持向量机,随机森林,和逻辑回归。实验结果表明,随机森林算法可以有效地使用僵尸网络检测和有最好的僵尸网络的检测精度。

1。介绍

使用互联网的普及导致了一些网络攻击的危险,包括僵尸网络,DDoS攻击和垃圾邮件。如今,僵尸网络是最普遍和严重的威胁,通常发生在网络攻击。机器人是由攻击者控制,称为僵尸主控机,在一个共享的指挥和控制(C&C)基础设施,允许远程控制被感染的计算机系统。机器人不同于其他形式的恶意软件,他们是高度自治,并配有使用沟通渠道的能力接受命令和控制系统的代码更新。他们还可以定期通知他们的工作状态控制系统。僵尸网络控制系统、指挥和控制服务器,通过此方法和代码更新机器人僵尸主控机发送命令。僵尸网络通常被用来传播恶意软件,发送垃圾邮件,窃取敏感信息,欺骗,生成虚拟点击,或更严重的进行大规模的网络攻击,例如DDoS攻击。根据一些安全的报道,大约有80%的网络流量与僵尸网络的活动,包括垃圾邮件和网络攻击( 1]。域名服务(DNS)是一个重要的互联网服务,允许主机名的决议,或域名的互联网协议(IP)地址,反之亦然。例如,每次一个web客户端浏览器访问一个网页,它首先发送一个请求到DNS系统找到web服务器的IP地址。接下来,它使用的IP地址来访问web服务器和负载请求的web页面。大多数合法应用程序发出请求时使用DNS服务来访问网络服务。然而,DNS服务也由机器人僵尸网络的合法应用程序使用。机器人将DNS查询找到C&C服务器的IP地址,当他们有一个IP地址;他们访问中华商务服务器接收命令,以及下载更新后的机器人代码。逃避扫描和检测服务器,僵尸主控机是不断变化的服务器的名称和IP地址使用预定义的技术,如域生成算法(DGA),或快速变化( 2, 3]。的名称和IP地址服务器不断地推到DNS系统。机器人还能自动生成C&C服务器名称按照这些技巧。因此,机器人还可以找到服务器的IP地址自动生成自己的主机名和使用这些主机名来查询DNS服务。因此,监测和分析DNS查询的数据可以显示在监控网络恶意活动的存在,因为一些DNS查询的数据可能产生的僵尸网络。深入分析了可疑的DNS查询可能揭示出有价值的信息关于服务器和僵尸网络的存在。有效地应对僵尸网络需要仔细考虑渠道的控制来控制他们。这已经成为一个主要的挑战世界各地的安全系统。

僵尸网络广泛应用于有组织犯罪渗透到政府的安全系统,银行和企业。近年来,许多研究已经完成的方法检测和防止僵尸网络。根据Ryu和杨 4),创建的IP地址的数量作为控制和命令服务器由亚马逊在2017年对2016年增加了6倍( 4]。攻击者使用各种方法,如加密和新的通信协议,加强把命令的基础。基于[ 5],僵尸网络的主要目标如下:(1)信息分散:发送垃圾邮件,分布式拒绝服务,传播虚假信息的非法来源,并消除或减少带宽;(2)信息收集:获取个人身份,密码,和金融信息;和(3)信息处理:信息处理破解密码访问其他主机。

EGGDROP僵尸网络时在1993年,作为第一个僵尸网络报道,Necurs僵尸网络是最活跃的恶意软件出版商在2016年。230万多封垃圾,包括JavaScript和Visual Basic下载者,被作为电子邮件附件发送每天通过僵尸网络Necurs 11月24日。根据相同的报告,2016年僵尸网络显示最大的DDoS攻击,记录由法国OVH主机公司。1真沸点的最大速度,针对物联网(物联网)设备如路由器和IP摄像机,Gartner预测。将会有120亿多2022年物联网设备,防止这些威胁的第一步是检测,一直是许多研究的主题,近年来( 4]。

DGA检测框架,称为深机器人检测(DBD)提出分析和分类的统计特征提取的DNS查询机器学习。提出了框架的结果证明的准确性和假阳性率低检测domain-flux僵尸网络( 6]。

比尔博是一个混合模型,这就是卷积神经网络(CNN)的组成,长期短期记忆(LSTM)和人工神经网络(ANN)提出检测DGA僵尸网络( 7]。实验是进行三个DGA字典:gozi matsnu, suppobox。从数据集,80%是用于培训而20%是随机选择测试和抵抗。测试结果的分类、普遍性和基于时间的弹性,比尔博成功分类流量匹配预期的网络模式。虽然识别领域从网络日志没有僵尸网络或蠕虫接触中华商务,这是非常罕见的,比尔博是能够识别字典所使用的启动与潜在的恶意广告网络和其他应用程序。部署在现实世界:系统的性能评估使用Alexa DGArchive 100万强的数据。

僵尸网络检测算法有各种挑战可能影响结果( 8]。这些挑战有关的质量和数量的数据集的训练和测试基于机器学习的方法。另一个挑战是僵尸网络的快速通量方法可以隐藏身份和网络罪犯逃避或检测。虽然深度数据包检测(DPI)不是有效的加密的交通,机器学习僵尸网络检测和基于主机的检测机制需要很多资源,比如处理和存储。这可能导致主机的开销,因为他们必须保持运行检查网络流量和收集数据。

源和目标IP流为基础的功能,比如,协议,发送或接收的数据包数量是最常用的函数在机器人领域的检查。然而,这些功能不能完全捕捉通信模式,可能暴露恶意主机的其他方面。此外,流级别模型生成一个高计算开销,这可以避免通过调整行为特征,如修改数据包的结构。为了克服这些局限性,探索基于这些方法的特点是未来最有前途的方法研究,图从主机到主机的网络流量通信模式( 9, 10]。

方法提出了基于DNS查询类似的周期时间间隔级数的分析来识别DGA-bot-infected机器( 11]。测量DNS查询的相似的周期性,每一对之间的平方欧氏距离的计算时间间隔系列。最后,他们层次聚类算法应用到集群高相似的域名。结果表明,生成的域名是相同的僵尸网络或DGA分成相同的集群。

2。方法

如前所述,僵尸网络的主要特征是中华商务基础设施。每个僵尸网络路由是一个协调的群机器人,通过中华商务渠道并执行恶意操作。因此,该方法的主要目的是检测僵尸网络,防止垃圾邮件和网络流量的传播。数以百万计的垃圾邮件如果发现僵尸网络是可以预防的。

在该方法中,用户行为分析和主机之间传输的流量记录提取网络行为模式。术语frequency-inverse文档频率(TFIDF)模型是用来模拟模块检测行为模式,和主成分分析(PCA)是用来增加诊断的速度和准确性评估结果。行为模式可以从一组攻击包的形式和使用可检测网络入侵检测规则。自然,使用多样的和高质量的数据,进一步评估该方法的力量。这样,流程上实现如何使用机器学习来检测恶意DGA域。这有助于扩展现有Splunk安全应用。

Splunk是一个软件平台搜索、分析和可视化机器生成的数据从网站,收集应用程序、传感器和设备。为了实现该方法,Splunk使用的是7.0版本与16 GB的内存,电脑英特尔酷睿i7 - 7660 u处理器,64位Windows操作系统。以下插件用于识别恶意域名: (我)

DGA分析应用。这个应用程序展示了如何使用MLTK实施机器学习来检测恶意域名。恶意软件像僵尸网络使用域生成算法创建主机恶意网站或服务器的url。静态匹配并不总是有帮助的。因此,机器学习模型可以增加价值,并允许提高检测率( 12]。

(2)

Splunk机器学习工具。Splunk机器学习工具包的应用提供新的SPL命令,自定义可视化,助理,探索各种毫升的概念和例子。也包括可视化和SPL命令适用于您的数据。你可以检查助理面板和底层代码,看看它是如何运作的 13]。

(3)

Python的科学计算。这个插件包含一个Python解释器与以下科学和机器学习库:捆绑numpy, scipy,熊猫,scikit-learn和统计模型。用这个插件,可以导入这些强大的库在一个自定义搜索命令,定制rest端点,模块化的输入等等( 14]。

(iv)

平行坐标。自定义可视化提供一个新的交互式可视化数据中搜索和调查方法。它提供了更好的沟通结果仪表盘和报表。安装这个程序之后,已经建立起一个平行坐标可视化作为额外项目的可视化选择在搜索和仪表板( 15]。

(v)

三维散点图。这个可视化允许查看三维散点图( 16]。

3所示。研究数据

评估性能的域名使用机器学习算法分类,提取并标记域名数据集,100000个域名,是应用。这包括一个无害的域名从集合Spamhaus的网站( 17]。无风险域组顶部的Alexa排名。安全检查域名virustotal.com,以确保他们是安全的。几乎60%的域名是合法的域名和剩下的40%属于三个DGA子类对应于不同类型的僵尸网络。成束的列表,Chinad, NewgoZeus僵尸网络和一组危险的域名呈现在图 1。第一集开始标记代表一个合法的域或域名是由DGA ( 18]。在图 2、合法域字母是蓝色的集群和危险域字母在不同的集群(黄、红、紫)。这表明一些DGA子类,如newGOZ(黄色)比其他人更可分(红色和紫色)。这意味着比储物柜newGOZ检测更准确,游戏结束了宙斯,ChinAd探测器。这种方法的结果是第一个数值属性计算从域名的字符串。利用这些结果,可以确定域与DGA子类的规范。

图1

分离DGA僵尸网络的域。

图2

成束的比较图表,newgoz chinad僵尸网络,和合法的数据。

4所示。提出的模型

图 3展示了一个僵尸网络检测系统框架模型,基于机器学习使用DNS查询数据。根据这一框架,僵尸网络定期发送查询查询DNS系统自动找到服务器的IP地址使用生成的域名。他们在两个阶段的培训和执行检测。在训练阶段,DNS查询收集数据然后域名的DNS查询提取。接下来,域名集预处理提取属性进行训练。在训练阶段,使用机器学习算法学习分类器。评估过程后,将机器学习算法选择适用于该诊断模型的总体分类精度最高。在这个模型的检测阶段,DNS查询监控和过程。这个过程是域名提取、预处理和分类在训练阶段,使用生成的分类。这是确定域名是否合法或属于一个僵尸网络。 The preprocessing step is the same for all domain letters in the training and the detection phase. However, for all domain names in the training phase dataset, this step is done in offline mode.

图3

检测系统的框架。MLA:机器学习算法;域名:域名服务器。

自动生成的僵尸网络域名通常有域名规范和词汇属性不同于合法的域名。一些特性,比如香农熵准则、已知词率在一个字典,域名,长度,辅音,元音率,以及域分析字符串,探索通过语法分析和主成分分析(PCA)。尺寸是有效改善的分析结果,提高诊断的准确性,使用TFIDF算法和字符长度设置n元参数,可以得到一个矩阵。这个矩阵在域名中包含最常见的团体字符串。通过这种方式,一个高维的结果。因此,通过使用PCA,尺寸下降。主成分分析提供了一个有用的形式表示,可以绘制三维图如图 4。

图4

主成分分析的三维图。

机器学习应用于Splunk发现异常,预测或估计系统的响应,或集群检测行为。通常处理一组字段不寻常的信息由一个人或国家代码写一个IP搜索,甚至从一个索引搜索字段。

4.1。数据预处理

识别功能最有前途的预测恶意域,分析该领域SPL命令。它应用于排在所有属性和确定的一流的属性创建机器学习模型的精度最高。域名是富含附加功能如表所示 1。

表1

域名数据属性和属性值的计算。

域名/属性	google.com	microsoft.com	g.doubleclick.net	newsama.com
类	合法的	合法的	合法的	合法的
partition_number	1	0	0	0
子类	合法的	合法的	合法的	合法的
ut_consonant_ratio	0.6	0.7	0.7	0.7
ut_digit_ratio	0	0	0	0
ut_domain_length	10	13	17	20.
ut_meaning_ratio	0.2	0.692307692	0.823529412	0.2
ut_shannon	2.646439345	3.026986833	3.616874606	3.684184
ut_vowel_ratio	0.4	0.307692308	0.294117647	0.35

分配图在图 5显示了两个选择特性(香农熵和语义比)适合DGA子类的合法域和域。显示的类别和子类别分布的基础上,选择属性,生成依赖情节的平行坐标图。这允许探索之间的关系特性和识别模式的多维数据集。在这个研究中,主成分分析方法应用于提高优化过程,从而增加机器学习算法的准确性。图 6显示了搜索处理语言(SPL)命令计算考虑属性。

图5

基于香农算法和语义率分配图。

图6

相关分析DNS数据使用SPL语言特性计算。

散布图提出了识别属性的组合。功能,可以快速确定代表一个不同的分布。因此,准确的预测更有可能。结果URL的工具箱的结果可以得出基于域名。不同域名的SPL代码计算值属性如图 6。

在功能设计和选择阶段,某些数据可以探索和丰富的附加功能通过使用机器学习算法提高检测精度。另外,可以通过添加更多的功能,如Alexa排名,领域,年龄,常见的黑名单和白名单。这将导致改善机器学习的数据集和识别特征。图 7显示了添加PCA的SPL命令的输出特性和语法分析和添加字段显示在图 8。

图7

SPL命令Splank基于TFIDF模型。

图8

域数据集富含特性。

4.2。分类标准

评估僵尸网络检测技术的性能,提出了一种适合定量测定的标准( 19]。僵尸网络检测方法,分析了网络数据分为正常/可疑组。任何偏离正常的交通模式被认为是可疑数据。因此,我们必须做出真阳性(TP),真阴性(TN),假阳性(FP),和假阴性(FN)来确定真阳性率(TPR)和假阳性率(玻璃钢)。

4.2.1。准备真阳性

正确的僵尸网络活动警报的数量,包括攻击模式和C&C在每个中断,叫做真阳性。

4.2.2。真正的负

正确诊断的数量在每个当前中断正常活动被称为正确的负面。

4.2.3。假阳性

假警报的数量的僵尸网络活动,包括攻击和中华商务模式在每个中断,称为假阳性。

4.2.4。假阴性

假警报的数量的僵尸网络活动,包括攻击和中华商务模式在每个中断,称为假阳性。

4.2.5。回忆

它表明,该算法能够正确检测机器人流量的百分比。该参数从机器人的数量的比例获得交通正确认定为机器人交通bot算法总数的交通( 5),并计算了 (1) 回忆 = TP TP + 《外交政策》。

4.2.6。精度

它表明流量的百分比确定的算法正常交通是正常的。该参数获得的数量比正常流量检测算法的总数交通正常算法检测到的交通( 5]。它是计算 (2) 精度 = TN TN + FN 。

4.2.7。<斜体> < /斜体> _Measure

这个参数是两个参数的组合,获得的精度和召回, (3) F 测量 = 2 ∗ 回忆 ∗ 精度回忆 + 精度。

4.2.8。精度

这个参数表示的整体精度算法和正确的总数的比例流量算法检测到的交通的总数( 5),表明多少输出可以信任。它是计算 (4) 精度 = TP + TN TP + FN + 《外交政策》 + TN 。

4.2.9。障碍矩阵

它被称为矩阵显示监督算法的性能。矩阵的每一列显示了一个示例的预测价值。这个矩阵是用来确定的价值评价指标,如精密度和准确度。

5。创建和评估机器学习模型

本文对域名为冒险和合法的类别进行分类的基础上,创建功能。可以培养不同的算法和机器学习模型来评估算法是最准确的。在这种评价,逻辑回归算法,支持向量机,随机森林,研究了决策树。此外,技术分析的主要域名已经使用的组件和特性,可以提高检测算法的准确性( 1]。

首先,用随机数据,现有的数据集分为两套相同的培训和测试。提到的算法处理和比较的目的数据。在下一步中,基于算法的成功率行为的正确和积极的和消极的利率预测,评估结果可以读的偏差矩阵。提供的预测分类字段Splunk机器学习应用程序。这些数据根据数据处理 9- - - - - - 12用随机森林、逻辑回归、支持向量机、决策树算法。使用添加的功能,这些算法处理,依照SPL命令在图 13。

图9

随机森林模型的评价不使用主成分分析特征。

图10

评估的结果基于逻辑回归算法不使用主成分分析特征。

图11

价值评价结果基于SVM算法不使用主成分分析特征。

图12

基于决策树算法的结果评估值不使用主成分分析特征。

图13

SPL命令来评估基于属性指定的域名。

如图 14根据回归算法,结合错误分类的错误率几乎是7%。精确的值,记得,准确性,F1是93%。其他数据显示算法评估 15- - - - - - 17在相同条件下,性能评估。

图14

价值评价结果基于逻辑回归算法使用主成分分析功能。

图15

决策树模型的评价以及使用主成分分析的特征图的功能。

图16

支持向量机模型的评价与使用主成分分析功能特性图。

图17

随机森林模型的评估使用主成分分析功能特性图。

如图 18和表 2,最佳的性能在最少的假阳性和best-combined结果预测错误率最低的相关随机森林。然而,决策树也有类似的功能。两种算法交叉验证后,可以认为本算法适用于这个数据集。在这种情况下,逻辑回归算法精度和预测错误率最高最低。此外,通过添加PCA特征和比较表 3和 4DGA的结果表明,该预测数据可以增加了99.2%。

图18

预测错误率图DGA僵尸网络检测。

表2

机器学习模型使用主成分分析特性的比较。

机器学习模型	决策树	支持向量机	随机森林	逻辑回归
标准	决策树	支持向量机	随机森林	逻辑回归
精度	0.98	0.96	0.99	0.93
精度	0.98	0.96	0.99	0.93

表3

机器学习模型的比较和评估主要分析组件。

算法名称	predicted_dga actual_dga	predicted_dga actual_legit	predicted_legit actual_dga	predicted_legit actual_legit
决策树	24702例(99.1%)	376例(0.9%)	217例(1.2%)	24697例(98.3%)
随机森林	24518例(98.6%)	541例(1.4%)	401例(2.2%)	24532例(97.8%)
支持向量机	23976例(95.9%)	1184例(4.1%)	943例(4.1%)	23889 (95.9)
逻辑回归	23254例(92.2%)	1686例(7.8%)	1665例(7.2%)	23387例(22.6%)

表4

比较不同算法没有PCA特征。

名算法	predicted_dga actual_dga	predicted_dga actual_legit	predicted_legit actual_dga	predicted_legit actual_legit
决策树	23060例(92.5%)	1879例(7.5%)	1541例(6.2%)	23443例(93.8%)
随机森林	22741例(91.7%)	2066例(8.3%)	1587例(6.4%)	23378例(93.6%)
支持向量机	22362例(89.7%)	2555例(10.3%)	1885例(7.5%)	23299例(92.5%)
逻辑回归	22381例(89.3%)	2694例(10.7%)	2753例(11%)	22362例(89%)

提到模型的训练步骤之后,第一部分中创建的属性,应该计算。为数据,Splunk基础工具,生成一组随机的抽样域信每一分钟,使用机器学习的随机森林算法,决策树,后勤回归和支持向量机在实际搜索范围。的过程中指定正确的和不正确的预测数字 19- - - - - - 22和结果如下所示。

图19

正确和不正确的随机森林算法的预测。

图20

真与假的过程预测决策树算法。

图21

真的和假的预测过程逻辑回归算法。

图22

真的和假的预测过程支持向量机算法。

实际的基于时间的搜索随机森林、决策树、逻辑回归和支持向量机计算考虑了数据集的主要分析组件和没有它。根据表 5决策树的分析时间和随机森林与其他算法相比低。

表5

比较算法的计算时间和没有主要分析组件的数据集。

名算法	时间的算法主要分析组件数据集(sec)	时间没有主要的算法分析组件数据集(sec)
决策树	71.128	75.467
随机森林	69.027	73.158
支持向量机	81.208	97.621
逻辑回归	77.817	92.237

应用的主要目的本研究中使用的数据集是减少所需的信息进行分析。结果列表只显示预期启动并检查这些DGA算法是否有安全风险。此外,通过编辑代码,图形界面定制的安全分析师能够为系统提供反馈。如果域名数据报告为合法的,结果不正确归类为DGA可以白名单。这将导致进一步减少假阳性的识别DGA域如图 23。

图23

DGA检测域和域的编辑预测检测到错误。

在该机制中,另一个级别的分类生成可以以不同的方式使用。通过手动将验证结果插入到训练数据集,提出了模型的准确性提高了持续培训。这有助于保持最新的模型和训练数据集随时间增大通过增加合法域名白名单,最后,扩大使用经批准的分类精确匹配的黑名单。结合所有这些方法会导致生存威胁的列表,我们可以存储和修改根据我们的组织环境和规范( 18]。总结在图的绘制逻辑 24。

图24

DGA域的分类和分析。

6。评价参数

评价结果表明,该算法的性能与不同的参数有关。

6.1。数据模拟和分析

僵尸网络的性能评估域名分类器使用机器学习算法,我们使用提取并标记域名数据集包含健康和DTA感染僵尸网络数据。

6.2。设计和选择的属性

数据集,基于文本挖掘的方法,我们探索域名字符串语法分析和主成分分析和识别特定的模式和特点,存在于域名的结构。

6.3。建模与机器学习算法

我们分析域字母的基础上创建特性,通过机器学习模型与逻辑回归算法,支持向量机,随机森林,决策树。

6.4。评价标准的评价和比较

DGA僵尸网络数据集的实验结果表明,大部分的机器学习技术用于实现的总体分类精度超过95%,其中,随机森林算法,分类精度较高,产生最好的结果和选择数据集的特性可以改善结果产生重大影响。

以下成就提供了解决DGA僵尸网络问题。

6.5。提取最优的特性

使用文本挖掘识别控制中心和DGA僵尸网络命令是独立的结构;提取的特征可以用高精度识别僵尸网络控制中心独立于它们的结构(集中、对等和基础设施)。

6.6。提供检测方法

使用机器学习的方法和算法提供了智能识别僵尸网络。这些算法,经过短暂的学习时间模型,它能够自动和智能地识别僵尸领域从正常域。

6.7。能够在线

该方法是在线的,可位于旁边的一个在线监测系统执行DGA域检测。

7所示。结论

新一代的僵尸网络是使用稀释技术远离黑名单。研究表明,网络犯罪越来越多地打开这些技术来逃避传统的检测方法。DNS流量的特性之一是它可以逃避随机名称生成算法的攻击。这是一个攻击者改善DGA机器人的新挑战。在这个研究中,一个僵尸网络检测模型提出了基于机器学习的随机域生成算法。该模型使用域名查询数据基于文本挖掘模型。因此,僵尸网络的行为使用domain-flux技术隐藏指挥和控制通道进行了研究。

应用机器学习算法和文本挖掘技术分析DNS协议和识别僵尸网络。为了这个目的,提取并贴上域名包含清洁和DGA感染僵尸网络数据的数据集。为了探索域名字符串、语法分析和主成分分析用于预处理数据是基于文本挖掘的方法。域名结构中存在的一些特性。特征选择方法是用于提高机器学习算法的准确性。

评价结果表明,该算法的性能根据不同的参数变化。精确显示机器人的速度交通相比,确定机器人的算法。记得参数还指定了检测机器人的速度流量的算法。根据测试结果,可以看出,在决策树中,支持向量机,随机森林,和逻辑回归算法,逻辑回归算法具有最低的总体分类精度。此外,随机森林算法分类精度最高。然而,其他算法的分类精度的差异并不大。决策树和支持向量机算法几乎相同的总体分类精度。随机森林算法的结果明显优于决策树算法。然而,由于大量的树木所需的培训,培训时间随机森林了。然而,随机森林分类训练可以离线完成。 Hence, it does not affect the classification speed during the test period. The random forest machine learning algorithm has the highest overall classification accuracy. It is selected for implementing the proposed botnet detection model.

数据可用性

没有数据被用来支持本研究。

的利益冲突

作者宣称没有利益冲突。

黄平君

x D。

阮

问:C。

僵尸网络检测基于机器学习技术使用DNS查询数据

未来的互联网 2018年 10 5 43

10.3390 / fi10050043

2 - s2.0 - 85061152686

Alieyan

K。

Almomani

一个。

Manasrah

一个。

卡胡姆

M . M。

僵尸网络检测基于DNS的调查

神经计算和应用 2017年 28 7 1541年 1558年

10.1007 / s00521 - 015 - 2128 - 0

2 - s2.0 - 84949683999

李

X。

王

J。

张

X。

基于DNS的僵尸网络检测技术

未来的互联网 2017年 9 4 55

10.3390 / fi9040055

2 - s2.0 - 85033437367

Ryu

年代。

杨

B。

机器学习算法的比较研究,对僵尸网络检测的乐团

计算机和通讯》杂志上 2018年 6 5 119年 129年

10.4236 / jcc.2018.65010

Grizzard

j·B。

沙玛

V。

女修道院

C。

康

B . B。

大衮

D。

p2p僵尸网络:概述和案例研究

学报第一会议研讨会上热门话题在理解僵尸网络(HotBots ' 07)

2007年4月

美国剑桥,马

Vinayakumar

R。

索曼

k P。

Poornachandran

P。

Alazab

M。

Jolfaei

一个。

DBD:深入学习DGA-Based僵尸网络检测 2019年

澳大利亚悉尼

澳大利亚麦考瑞大学

127年 149年用英语

10.1007 / 978 - 3 - 030 - 13057 - 2 - _6

Highnam

K。

Puzio

D。

罗

年代。

詹宁斯

n R。

字典DGA的实时检测网络流量使用深度学习

SN计算机科学 2021年 2 2 110年

10.1007 / s42979 - 021 - 00507 - w

Shinan

K。

Alsubhi

K。

Alzahrani

一个。

阿什拉夫

m . U。

软件定义网络中基于机器学习僵尸网络检测:系统回顾

对称 2021年 13 5 866年

10.3390 / sym13050866

亚都

答:一个。

萨拉赫丁

m·A。

Limam

N。

Boutaba

R。

基于机器学习的方法对机器人检测

学报2019联合会/ IEEE研讨会上集成网络和服务管理(IM)

2019年4月

美国华盛顿特区

144年 152年

Chowdhury

年代。

Khanzadeh

M。

Akula先生

R。

僵尸网络检测使用基于特征聚类

《大数据 2017年 4 1 23

10.1186 / s40537 - 017 - 0074 - 7

2 - s2.0 - 85027869929

你

t D。

光

C。

鑫

l . Y。

僵尸检测机器的基础上分析了类似的周期性DNS查询

学报2015年国际会议上沟通、管理和通信(ComManTel)

2015年12月

越南岘港

35 40

10.1109 / commantel.2015.7394256

2 - s2.0 - 84964768855

Drieger

P。

DGA应用Splunk

2018年

https://splunkbase.splunk.com/app/3559/

Splunk Inc .)

Splunk机器学习工具

2018年

https://splunkbase.splunk.com/app/2890/

Splunk Inc .)

Python的科学计算

2018年

https://splunkbase.splunk.com/app/2881/

Splunk Inc .)

平行coordinates-custom可视化

2018年

https://splunkbase.splunk.com/app/3137/

约翰逊

X。

3 d scatterplot-custom可视化

2018年

https://splunkbase.splunk.com/app/3138/

Spamhaus的恶意软件实验室

报告2017 Spamhaus僵尸网络威胁

2018年

-报告- 2017 https://www.spamhaus.org/news/article/772/spamhaus——僵尸网络威胁

Splunk Inc .)

Operationalizing-machine-learning-to-detect-malicious-domain

2018年

https://www.splunk.com/en_us/form/operationalizing-machine-learning-to-detect-malicious-domain.html

Acarali

D。

Rajarajan

M。

Komninos

N。

Herwono

我。

调查方法和特性的基于http的僵尸网络流量的识别

网络和计算机应用》杂志上 2016年 76年 1 15

10.1016 / j.jnca.2016.10.007

2 - s2.0 - 84994607910