厂商分布式机器学习NetFlow-Based僵尸网络活动检测

文摘

恶毒的技术的最近进展造成情况呈现传统的基于签名的网络攻击检测方法无效。目前,新的改进,有力的解决方案将大数据技术,有效的分布式机器学习,和算法消除数据不平衡问题是必要的。因此,本文的主要贡献是厂商建议的分布式网络安全机器学习方法。特别是,我们提出使用和厂商实现分布式机器学习通过分布式极端学习机器(ELM),分布式随机森林,和分布式随机Boosted-Trees检测僵尸网络。系统的概念框架和体系结构是基于大数据处理与数据挖掘和机器学习技术。在实践中,作为一个用例,我们考虑问题的僵尸网络检测通过分析NetFlows的数据形式。报告结果承诺,表明,该系统可以被认为是一个有用的工具为网络安全的提高。

1。介绍

在这个时代,人的生活的方方面面,可以顺利转换到互联网,毫无准备的危险等待用户越多。大量的敌方特工潜伏在阴影里等待猎物。无数的方式渗透到用户的设备一应俱全(甚至可以买Darknet所谓犯罪作为服务(CaaS)犯罪模型);这些威胁包括木马、间谍软件、网络钓鱼、甚至攻击,需要仔细的编排数百,数千甚至数百万被感染的计算机,称为僵尸网络。

它通常开始于一个看似良性的电子邮件,从一个未知的源应用程序下载。有时,用户甚至不知道他的设备下载从网络上的东西,因为它可以利用漏洞在浏览器或浏览器的插件。然而,用户的设备现在是暴民的机器的一部分,应对主人的命令,一个僵尸主控机。这台机器,用户不知道,现在可以DoS攻击的一部分甚至可以发送垃圾邮件或共享或窃取数据。(1]。

当代理解程序,执行完整的数据包数据分析,也称为深层数据包检测(DPI)呈现大量的交通不足多吉比特每秒的速度。这个问题只会被放大的到来巨大的云计算之类的环境。此外,完整的包数据的存储用户的隐私,构成风险,因为它可能包含敏感信息。NetFlow,通常缩写为简单的流动,是一种衍生的两个系统之间的数据流共享。NetFlow记录组成之间的流量统计相同的IP地址,相同的源和目的地港口,IP协议和IP类型的服务。出于这个原因,NetFlow明显更高效和不侵犯用户的隐私2,3]。

动态变化的本质安全漏洞导致的增加的数量动态适应检测算法。异常探测器不使用签名,但一个“正常”的模型行为标记任何分歧。这些系统是诱人的保安人员不需要大量的维护。然而,不幸的是,许多异常探测器不适合实时环境中,当他们遇到各种各样的挫折。

在某些应用程序中,必须将训练样本加权。这背后的原因之一可能是数据不平衡问题。在这种情况下,属于某些类的训练样本的数量更大的与其他类。

数据不平衡的问题最近已经深入研究了在机器学习和数据挖掘领域。在许多情况下,这个问题影响的机器学习算法,因此恶化的有效性分类器(4]。通常情况下,在这种情况下,分类器将在大多数类达到较高的预测精度,但贫穷的少数类预测的准确性。

一般来说,解决这个问题可以归类为数据相关和algorithm-related。属于数据相关类别的方法使用数据采样过密和欠采样技术,而algorithm-related的介绍培训程序的修改。这个群体可以进一步分为类别厂商使用分类(例如,将更高的成本分配给多数类)或方法,使用不同的性能指标(如Kappa度量)。据报道最近厂商学习的有效解决class-imbalance大规模的设置。

因此,本文的解决方案将大数据技术,有效的分布式机器学习,提出算法消除数据不平衡问题。

提出了论文扩展我们的以前的工作5)在分布式平台上NetFlow数据分析(见图1)和初始工作极端机器学习分类器(ELM)网络安全(6]。全球解决方案背后的理念是提供统一和高度可伸缩的环境检测僵尸网络活动。数据摄取到系统在NetFlows的形式。广泛地在我们的研究中,我们探索多种机器学习解决方案基于ai的心脏检测和决定在我们的平台。在前面的工作中,极端的分布式实现机器学习分类器(ELM)是用于NetFlow数据分类。在这项工作中,我们扩展方法通过引入两个额外的价格敏感算法(随机森林和Gradient-Boosted树),现在已经部署在该系统。此外,在我们以前的工作相比,我们考虑可伸缩性挑战和我们报告实验比较这些算法的可扩展性的观点。另一个证明论文摘要是ELM-based方法仍然是一个合理的选择,因为它很简单和可伸缩性,即使基于树的技术允许实现稍好(或类似的)结果。支持本文我们故意提供技术细节的概述的所有三种方法和方法,我们也确定一些强和弱。

本文结构如下:在部分2,对相关工作提出和讨论。部分3厂商给我们的提议的细节的分布式网络安全的机器学习(僵尸网络检测)。分布式极端的学习机器(ELM),分布式随机森林,和分布式随机Boosted-Trees检测僵尸网络。实验设置,使用数据集,数据预处理,并提出了部分结果4和5,分别。之后给出结论。

马丁烤架,伊万尼克拉艾,维罗妮卡瓦莱罗能源和马丁Rehak提倡基于NetFlow / IPFIX DGA-performing恶意软件探测器。域生成算法(DGA)是一个为僵尸网络隐藏指挥和控制(C&C)僵尸主控机服务器。当C&C服务器被破坏,失去了对整个僵尸网络的命令,反病毒公司和操作系统供应商黑名单的IP和防火墙阻止任何可能的交流水平。DGA是域稀释的一种形式,不同的种子被用来生成一个域名在一个特定的时间框架。僵尸网络接触这些域名听命令。发布命令,僵尸主控机必须使用相同的种子和注册一个特定的域在僵尸网络试图接触它之前。DGA可以根据热门网站使用字典像谷歌或热门话题在twitter上创建域名,可能使萎靡不振的僵尸网络C&C域极其困难。当前僵尸网络探测器经历重大性能问题当扩展到更大的网络,这使他们不切实际的。逆向工程,深层数据包检测、聚类和其他方法吸收了太多的时间和资源。此外,用户的隐私。 To circumvent these issues, NetFlow data usage is proposed. DGA malware is expected to attempt to try to contact more domains than it does new IP addresses. Because the NetFlows are not unidirectional, additional information has to be used to single out the originator of each transmission. NetFlows with the same IP-port-protocol triples are paired and marked as request and response according to timestamps since a request always comes first. However, this method loses its reliability when scaled to larger networks. In such cases, a service detection algorithm provides a strong feature based on a median number of peers difference. A DNS anomaly detector is implemented, labelling the right tail of the normal distribution as anomalous. This is because DNS requests that are more numerous than the visited IPs are possible C&C botnet connections. Anomaly values are acquired with a fuzzy function. Finally, as the proposed method is susceptible to raising a false positive for DNS resolver service, data from the service detection step is used to tackle this problem [7]。

问:a . Tran f .江,j .胡锦涛目前的实时入侵检测系统(IDC) hardware-core高频的现场可编程门阵列。作者检查一批IDC的包括新增字段,它是基于计算智能,包括模糊系统,支持向量机,进化算法和微分进化一样,遗传算法和粒子群优化。虽然这些软件方法具有快速适应新的威胁的能力,它们的有效性在大容量环境中检测速度是有限的。这就是说无法妥善解决大规模环境的需求在不久的将来,云计算等。拟议中的hardware-cored IDS比基于软件的同行提供了一个更高的检测速度。该方法提供了一种现场可编程门阵列(FPGA)和一个可发展的内部块基于神经网络(BBNN)。这个过程是一个前馈的BBNN算法。块和权重的特点是由遗传算法寻找全局最优遵循一个特定的适应度函数。NetFlow数据是用来简化特征提取,因为这些可以设置为默认的流动特性。此外,NetFlow收集器能够为FPGA生成实时数据。 The procedure itself is as follows: the FPGA performs real-time detection of possible intrusions and adds the record to the database; the BBNN repeatedly retrains itself with the fresh database; the FPGA corrects its configuration building on the structure of the BBNN [8]。

k·弗拉纳根,e·法伦a·阿瓦德和p·康诺利提出使用基于微簇的孤立点检测算法(MCOD)作为偏差发现设备,考虑到增强模式偏差。程序采用集群的数量减少距离计算执行。减少计算需要使它适合实时数据流分析,与其他异常检测方法。流和聚类质心之间的距离决定是否异常,或不是。MCOD用于一个接一个的间隔,使算法time-aware。异常检测的影响,然后由多项式回归处理到达一个近似的集群密度随着时间的推移。在拟议的过程中,所有集群密度监测用k变量无视集群优势。这种方法减少的影响不太可能的假设,所有的交通都是平均分配在网络,允许增加的态势感知。通过比较集群密度随着时间的推移,两个多项式生成代表集群活动。总体而言,该方法旗帜异常在两个独特的方面。 The MCOD detects distance-based divergences at the end of every time series. The polynomials created over 3-hour and 24-hour periods, when compared using Frechet distance, reveal any anomalies of actual versus expected behaviour of a cluster [9]。

x元探索深度学习实时恶意软件检测。基于签名的方法形成当前的恶意软件检测行业标准,尽管明显的缺陷检测混淆恶意软件,零日攻击,只是数量惊人的每日新恶意软件版本。为了解决这类问题,异常探测器实现基于机器学习模型。方法再邻居支持向量机,或决策树算法误判率高的斗争。没有足够的上下文恶意软件分类很难准确执行。另一方面,深度学习(DL)算法是适合上级决策,不过是有代价的。DL需要更多的时间再培训检测模型,构成一个主要的缺点当新的恶意软件菌株必须经常补充道。提出了过程试图平衡深度学习的准确性和经典的机器学习方法的迅速利用多级检测算法配合操作系统。第一阶段包括经典的机器学习检测。以防毫升分类一个潜在的威胁,它是“不确定的阶段”。 In the second stage, a deep learning algorithm decides if the threat is marked as benign or as hostile, and therefore, killed. If new malware is found, the model is retrained with the use of a concept-drift component, which makes sure the model is relevant [10]。

的表现分析,很明显,改进的有效的解决方案将大数据技术,有效的分布式机器学习分类器以及算法消除数据不平衡问题是必要的。

因此,在以下部分中,我们将为网络安全厂商目前分布式机器学习方法。

3所示。分布式机器学习

3.1。分布式极端学习机

榆树(极端的学习机器)的数据分类方法,提出了由黄等。11]。分类器适应的想法single-hidden-layer神经网络训练,没有一个迭代的过程。榆树的分类器的响应信号计算隐层因素的反应和输出层的重量(见图2)。

隐层的神经元不必古典意义上的神经元因为它们不是在学习阶段。使用的隐层神经元榆树应用于原始特征向量映射到新的特征空间和可用于网络安全域(6]。通常,层执行随机和非线性投影。

让 ,在哪里是一组刺激信号。一个可以代表隐藏神经元层完全连接输入信号通过随机初始化权值的集合。然后我们可以选择任意的激活函数并表明响应(表示 )的 - - - - - -神经元( )为 - - - - - -(th刺激信号 )由以下公式给出:

此外,让我们考虑受监视的二元分类问题,因此 ,在哪里反应表明必须由网络产生一个信号。记住,在一个隐藏层(表示权重 )不是训练,我们可以使用以下公式来训练模型的近似误差降至最小平方误差意义上: 最优解的均方误差可以通过使用Moore-Penrose (MP)伪逆(表示 )的矩阵 ,这样可以使用公式计算:

榆树的目标之一是实现概括性能好。它是实现在训练阶段,通过最小化训练误差和输出的标准体重。因此,它是很常见的引入在公式(2)额外的参数控制regularisation强度: 的参数可以找到合适的模型复杂度和效率之间的平衡,以避免过度拟合的问题。这通常需要额外的调优或额外的优化的网格搜索和交叉验证。解决这个优化问题是众所周知的岭回归的解决方案: 最后,我们可以很容易地把额外的参数让我们把榆树的分类器厂商: 使用前面介绍的矩阵符号、公式(6)可以写成最后,封闭形式的解决方案可以使用以下公式: 另外,用 , ,和我们可以获得更紧凑的形式: 尽管解决方案(9)封闭的形式,明确计算的倒数不是最实用的方法。相反,奇异值分解)可以利用。首先,我们factorise的方式在哪里是左奇异向量的矩阵,是一个对角矩阵的奇异值,是右奇异向量的矩阵。很容易证明使用圣言会分解可以用以下公式表示: 的计算公式(11)可以有效的分布式使用使用映射-规约模式编程模型。可以找到实现的细节(5]。

3.2。分布式随机森林

随机森林(RF)分类器适应装袋算法的修改。不同的是在种植麻疯树的过程。一般的训练样本(每个都有输入变量)与替代品生产取样分区。每一个分区是用来训练的一个树。每棵树种植(训练)的一个经典方法通过引入节点拆分数据。在随机森林分类器的情况下,分割点选择只对随机选择的变量(的可用)。最后,预测获得的分数训练有素的树木可以计算使用多数投票(12),功能和代表指标表明随机树的合奏。分类任务的另一个选择是熵测量(显示的频率 - - - - - -th标签):

已经存在一个可伸缩的随机森林分类器的实现MLlib Apache火花库(12]。它使用分布式计算环境中,因此可以由计算。在实践中,学习过程对于每个决策树可以并行执行。记住,每棵树只训练数据的子集,它会导致有效的模式,规模大型数据集。更准确地说,当随机森林是Apache火花训练环境;算法的样本(替代)学习数据和分配决策树,这是训练的那部分数据。然而,数据样本不显式地复制,而是是注释有额外的记录,使信息概率给定实例属于特定的数据分区用于培训。

训练过程协调中央(在所谓的主节点)使用一个树节点的队列。因此,一些三同时训练。每个节点的队列算法搜索最佳的分割。在这个阶段集群资源(所谓的工作节点)。算法终止时的最大高度达到决策树或每当没有更进一步的数据点。最终的输出产生的合奏的多数投票结果产生的决策树。

的缺点之一,当前版本的Apache火花随机森林分类器的事实是它不处理厂商学习(我们想要更高的重要性分配给数据样本指示异常或网络攻击),因此在某些情况下它可能是偏向于多数类。这个问题很重要,从异常检测的角度或入侵检测系统,这些系统通常应该有很高的识别率,但不应该压倒管理员与大量的假警报。

3.3。分布式Gradient-Boosted树

与随机森林分类器(其中许多树可以同时训练)Boosted-Trees分类器使用添加剂的学习方法。在每个迭代中一个单一的树是训练和添加到乐团为了修复错误(优化目标函数)在先前的迭代中引入的。这可以用下面的方程,表示表明 - - - - - -数据样本,整体的反应在吗 - - - - - -th迭代,树的培训吗 - - - - - -th迭代: 目标函数衡量的损失和树木组成的复杂性。为了处理任意的损失函数,常见的实现GBT算法适应二阶泰勒展开。因此,目标函数具有以下形式: 在哪里表示训练样本的数量,损失函数的梯度,损失函数的麻绳,一个函数测量的复杂性树。衡量复杂性的方法之一是使用以下公式: 在哪里表明树和叶子的数量的值存储在哪里 - - - - - -叶。和是常数。替换成(18),很容易显示最终的优化公式在哪里和表明梯度和麻布属于所有实例 - - - - - -叶。最优这样定义的目标函数和最小值可以计算 (较小的值是更好的树)。然而,而不是计算最优对成年树木,典型的方法是使用这些公式而贪婪的方式种植特定的树。换句话说,我们可以使用节点杂质测量找到最好的分裂,而构建树。特别是,鉴于部分树,一个合理的启发式选择下一个分裂节点将是一个将尽可能减少杂质。

4所示。NetFlow数据采集和预处理

为了评估提议的解决方案厂商在为分布式机器学习,我们使用恶意软件提供的数据捕捉设备项目13]。数据集被完全贴上标签,每个对应于不同的场景的恶意软件感染和/或僵尸网络活动。这些场景的详细评估部分。此外,数据集的作者提供了一个评估方法和工具来自动化。原则上,评估检测算法是训练的场景和测试的一个子集上别人。更现实的策略比一个特定场景的常用方法,其中一部分是用于培训和其余部分进行测试。

捕获的数据存储用作NetFlows聚合网络属性。通常,这些数据是收集的路由器和后来发送的收藏家。信息提取NetFlows通常用于网络审计目的。单NetFlow总量统计数据(例如,发送和接收的字节数)对数据包已经被一个特定的源地址发送到一个特定的目的地地址。

单一NetFlow通常不足以捕获长期特定节点的恶意或反常行为。因此,需要额外的数据的分析。在建议的方法中,我们计算统计特性的一组NetFlows收集特定的源IP地址。固定长度的计算是缩小了时间跨度称为时间窗口。特别是,我们计算为一个特定的IP地址如下:(我)NetFlows数量(2)源端口的数目(3)使用的协议数量(iv)一些目的地IP地址(v)一些目的地服务(vi)源和目的地之间交换的字节数(七)交换的数据包的总数

通常,收集NetFlow数据明显可观的数量,即使对于一个中型网络监控一个相对短的时间内。因此,为了使这种分析的可行性和可伸缩的我们已经建议收集NetFlow HDFS中的数据系统(14),这是一个分布式文件系统适应由Apache火花框架(15]。利用使用映射-规约模式编程概念我们能够同时运行在分布式NetFlow数据基于时间的计算。一般来说,数据集在Apache火花是排成一排排的训练实例(特征向量与标签),分布式的节点数量显示和分区。

5。实验

5.1。评价方法

已拨款过程利用基于时间的度量标准的证明方法的性能建议毫升方法(定义在[16])。这种技术的创造者的构思和出版的乐器叫僵尸网络探测器比较器。上述仪器检查NetFlow文件加强预测标签生成的其他僵尸网络检测方法。

动机存在支持应用的基于时间的指标而不是标准性能指标应用于毫升。本质上,平均错误率表示单个的粒度NetFlow过分玫瑰色的(例如,假警报率非常低)。相比之下,一个更好的概述系统的有效性是由基于ip的误差度量计算一段时间窗口(在大多数情况下特定的设备网络的破坏)。然而,立即识别恶意IP是首选的一个延迟。因此,一个点球系统应该实现的任何延迟萎靡不振的过程。为了占,组件是包含在指标计算使用回调函数: 在哪里表示比较时间窗和是一个常量值设置为。这个修正函数嵌入到经典有效性指标如下: 在哪里表明基于时间的真正的正数,回调函数独特的僵尸网络IP地址的数量在时间窗进行了比较。同样,我们可以定义另一方面,和不依赖于时间和定义如下: 在哪里显示独特的数量正常的IP地址出现在比较时间窗口。同样,tTN可以被定义为

基于时间的指标的计算方法如下:(1)NetFlows分为比较时间窗口(我们使用300年代的默认时间窗长度)。(2)在日渐NetFlow、标签检查对预测的和tTP, tTN, tFP, tFN的值了。(3)回忆、精度、准确性、错误率和F-measure估计在每个时间窗比较的结论。(4)最后,当与NetFlows处理整个文件,最后一个指标计算和产生错误。

每次算法斑点比较时间窗的僵尸网络IP地址正确,真阳性的计数器值。同样,一个正常的IP地址评为non-botnet地址增量真阴性的结果。每次出现的良性IP归类为僵尸网络地址增加假阳性的值。在每一个实例的僵尸网络IP判断non-botnet假阴性计数器。

5.2。结果

在本节中,我们提出了提出了降低成本的分类方案的定量评价方法(召回、精度、准确性、错误率和F-measure)。特别是,表1- - - - - -4包含结果记录在几个场景包含僵尸网络的测试数据集和活动。


	回忆	前的。	Acc。	呃	调频

射频	1.00	0,97	0,99	0 01	0,99

GBT	0.95	0,99	0,97	0,03	0,97

榆树	0,95	0,88	0,95	0,05年	0,92


	回忆	前的。	Acc。	呃	调频

射频	1.00	1.00	1.00	0 00	1.00

GBT	1.00	1.00	1.00	0 00	1.00

榆树	1.00	0.92	0.86	0 01	0,99


	回忆	前的。	Acc。	呃	调频

射频	0.92	0.99	0.95	0,05年	0.96

榆树	0.99	0.89	0.93	0,06年	0.94

GBT	0.67	0.99	0.77	0,21	0.80


	回忆	前的。	Acc。	呃	调频

射频	0.20	0.94	0.81	0,19	0.33

GBT	0.21	0.85	0.75	0,25	0.33

榆树	0.26	0.47	0.76	0,24	0.33

第一个场景是irc有关僵尸网络的主要活动集中于垃圾邮件。结果如表所示1。一般来说,获得的结果与随机森林和Gradient-Boosted树分类器相媲美。它可以注意到随机森林分类器不是最高的精度,但召回率最高。极端学习机在场景分类器实现GBT一样的回忆的价值,但它表现出显著差精度比其他分类器。

第二个场景包含的僵尸网络流量记录扫描几个小时SMPT邮件服务器和连接到多个远程桌面服务。然而,恶意软件不发送任何垃圾邮件。结果如表所示2。在这个场景中射频和GBT达到类似的结果的有效性。榆树分类器,我们报道贫困精度比其他分类器。

在第三个场景中,交通记录收集一些主机感染了内里的恶意软件。感染后,主机开始发送垃圾邮件的电子邮件。结果如表所示3。在这个场景中,GBT其他分类器分类器实现了最糟糕的结果,虽然分类器的精度是类似于射频标识符(在这种情况下最好的)。GBT分级机我们已经观察到最低的回忆。GBT的错误率也明显高于榆树和RF分类器的错误率报道。

在第四个场景中,我们评估的分析方法被感染主机的流量记录活动。在这种情况下,受感染的主机接触各种C&C(命令和控制)主机和接收一些加密的数据。结果如表所示4。所有分类器,我们报道的不良结果。在所有分类器精度最高的是94%。我们可以观察到低召回所有分类器。

6。计算性能评估

在本节中,我们提供了一个计算绩效评估的概述。提出方法相比对必要的时间来训练他们的特定的模型。实验结果呈现在图3。

提出的实验我们已经报道了培训时间不同大小的Apache火花集群。因为它是图所示3我们测量的培训时间1和8 Apache引发工人,分别。因为它预计GBT算法是最耗费时间的。榆树算法实现的最短学习时间。实验显示,增加工人的数量节点允许我们加速训练过程的4.5倍的榆树,在射频和GBT 3.7。这个实验使我们得出结论,榆树分类器可以被认为是一个可靠的选择解决异常检测问题由于其时间效率和可伸缩性,即使基于树的技术允许实现效率略高。

7所示。结论

本文的主要贡献是命题NetFlow-based僵尸网络活动的厂商检测解决方案,利用分布式机器学习算法。值得注意的是,NetFlow聚合的方法和分析建议,评估和比较。该方法利用Apache火花框架和Hadoop分布式文件系统(HDFS)高效和有效的基于时间的计算。洞察技术方面的三个分类器,即极端的学习机器,随机森林,Gradient-Boosted树木提供。该方法使用基准数据集和评价产生不错的效果。

提出了研究继续我们之前工作在一个可伸缩的和分布式系统NetFlow数据分析。特别是,在这项工作中,我们介绍了两个额外的敏感的算法(随机森林和Gradient-Boosted树)已经部署在该系统。我们声称ELM-based方法仍然是一个合理的选择,因为它很简单和可伸缩性,即使基于树的技术允许实现稍好(或类似的)结果。特别是,榆树允许高效集群资源利用率由于使用映射-规约模式编程模型。相比之下,GBT时需要更多的迭代方法训练,因为(部分中提到3.3)每个新树从先前的迭代纠正错误。在射频标识符的情况下,一些树可以并行地训练。然而,结果表明,计算负担不支付,我们可以观察到改善 - - - - - - (F-measure度量而言)。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

我们特此承认我们的研究成果提出了(17),我们使用准备相关工作部分。

引用

m . Choraśr . Kozik d Puchalski, w . Hołubowicz“相关SQL注入攻击的检测方法,”先进的智能和软计算,et al ., a Herrero Ed, 189卷,第185 - 177页,施普林格,2012年。视图:出版商的网站|谷歌学术搜索
美国Abt和h -拜尔,”对效率和保护隐私网络——建立僵尸网络检测使用netflow数据,”学报》第九届国际网络会议上,公司2012年,2012年。视图:谷歌学术搜索
r . Kozik和m . Choraś”模式提取算法NetFlow-Based僵尸网络检测活动,“安全性和通信网络卷,2017篇文章ID 6047053, 10页,2017。视图:出版商的网站|谷歌学术搜索
r . Kozik和m . Choraś”解决数据不平衡问题在应用程序层异常检测系统中,”混合人工智能系统,haif . Martinez-Alvarez, a . Troncoso h . Quintian大肠Corchado, Eds。卷,9648年,页441 - 450,施普林格,2016年。视图:出版商的网站|谷歌学术搜索
“传播极端r . Kozik学习机器与Apache火花NetFlow-based恶意软件检测活动,“模式识别的字母卷。101年,14到20,2018页。视图:出版商的网站|谷歌学术搜索
r . Kozik m . Choraśw . Hołubowicz, r . Renk“极端Web层异常检测,学习机器”图像处理和通信挑战8卷,525先进的智能系统和计算施普林格,页226 - 233年,2017年。视图:出版商的网站|谷歌学术搜索
m .烧烤:尼克拉艾、诉瓦莱罗能源和m . Rehak“使用NetFlow DGA恶意软件检测,”学报2015联合会/ IEEE集成网络管理国际研讨会(IM)1309年,页1304 - 2015年5月,加拿大,渥太华。视图:出版商的网站|谷歌学术搜索
问:A . Tran f .江,j .胡“实时NetFlow-based入侵检测系统与改善BBNN和高频现场可编程门阵列,”学报2012年IEEE 11日国际会议上信任,安全和隐私在计算和通信(TrustCom)利物浦,页201 - 208年,英国,2012年6月。视图:出版商的网站|谷歌学术搜索
k·弗拉纳根,e·法伦a·阿瓦德和p·康诺利,“自配置NetFlow异常检测使用集群密度分析,”学报》2017年19先进通信技术国际会议(ICACT)平昌,页421 - 427年,Kwangwoon,韩国,2017年。视图:出版商的网站|谷歌学术搜索
基于x元,“博士论坛:深学习实时与多级分析恶意软件检测,”学报2017年IEEE智能计算国际会议(SMARTCOMP),页1 - 2,香港,中国,2017年5月。视图:出版商的网站|谷歌学术搜索
G.-B。黄、周h . x叮,r·张“回归和多级分类,极端的学习机器”IEEE系统,人,控制论,B部分:控制论,42卷,不。2、513 - 529年,2012页。视图:出版商的网站|谷歌学术搜索
Apache的火花,“随机森林分类器”,https://spark.apache.org/docs/2.2.0/ml-classification-regression.html random-forest-classifier。视图:出版商的网站|谷歌学术搜索
“恶意软件捕获设备项目,项目主页,“https://mcfp.weebly.com/。视图:谷歌学术搜索
HDFS (Hadoop Distirbuted文件系统),“架构指南”,https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html。视图:谷歌学术搜索
SparkSQL”, Apache火花框架项目主页,“http://spark.apache.org。视图:谷歌学术搜索
加西亚,m .烧烤、j . Stiborek和a . Zunino“僵尸网络检测方法的实证比较,”电脑和安全》杂志上,45卷,第123 - 100页,2014年。视图:出版商的网站|谷歌学术搜索
r . Kozik m . Pawlicki和m . Chora“稀疏Autoencoders无监督数据分类、Netflow”图像处理和通信挑战10。IP&C 2018、m Chora和r . Chora Eds。,先进的智能系统和计算,Springer, 2018.视图:谷歌学术搜索

安全性和通信网络

文摘

1。介绍

3所示。分布式机器学习

3.1。分布式极端学习机

3.2。分布式随机森林

3.3。分布式Gradient-Boosted树

4所示。NetFlow数据采集和预处理

5。实验

5.1。评价方法

5.2。结果

6。计算性能评估

7所示。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章

安全性和通信网络

厂商分布式机器学习NetFlow-Based僵尸网络活动检测

文摘

1。介绍

2。相关工作

3所示。分布式机器学习

3.1。分布式极端学习机

3.2。分布式随机森林

3.3。分布式Gradient-Boosted树

4所示。NetFlow数据采集和预处理

5。实验

5.1。评价方法

5.2。结果

6。计算性能评估

7所示。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章