指纹识别网络实体在高速网络环境中基于流量分析

文摘

对于入侵检测,它是越来越重要的检测可疑的实体和潜在威胁。在本文中,我们引入了网络实体的识别技术来检测潜在的入侵者。然而,传统的实体识别技术基于MAC地址,IP地址,或其他明确的标识符可以停用标识符是否隐藏或干扰。与此同时,现有的指纹识别技术也限制其有限的性能和过度的时间流逝。为了实现在高速网络环境中实体识别,PFQ内核模块和风暴用于高速数据包捕获和在线流量分析,分别。指纹识别技术,在此基础上,一种新的设备运行时环境分析的基础上,提出了采用逻辑回归来实现在线识别与一个滑动窗口机制,识别精度达到77.03%在60分钟内。为了实现跨设备用户标识、网页访问记录,域名的DNS的反应,和HTTP用户代理信息提取的构成用户的在线行为的指纹识别与多项朴素贝叶斯模型。当最低有效特征尺寸设置为9,只需要5分钟达到79.51%的精度。性能测试结果表明,该方法可以支持10 gbps的流量捕获和在线分析,以及系统体系结构是合理的在实践中因为它的实用性和可扩展性。

1。介绍

计算机网络的迅速发展和广泛应用,移动通信、智能设备、网络和物联网技术,越来越融入人们的社会生活。人们可以通过各种设备随时随地访问服务,从而实现人们之间的互连和人,人和事,甚至事情和事情。然而,尽管网络给人们带来了很多便利,网络攻击如DDoS攻击,蠕虫攻击,信息窃取,网络诈骗越来越严重。因此,必须有效地防止网络威胁。

入侵检测系统是用于监控网络或系统中,它可以识别恶意活动或违反政策内外入侵者。作为一种重要的和动态的研究领域,网络入侵检测技术可以识别恶意活动通过监测和分析入站和出站流量(1,2]。但是有更少的工作,可以有效地识别潜在威胁如果入侵者没有异常活动。为了解决这个问题,我们引入网络实体的识别技术来探测入侵者没有异常活动,主要包括设备标识和用户识别。基本的想法是,如果我们发现未经授权的设备或未经授权的用户使用授权的设备,我们可以表明,网络入侵可能发生。

然而,传统的网络实体识别技术通常是基于明确的标识符。例如,用户设备总是确定的MAC地址或浏览器cookie,和用户被拦截并验证他的账户信息在网络流量通过深层数据包检测(DPI)。这些明确的标识符可以很容易地隐藏或破坏,导致识别失败。为了应对这一问题,研究人员已经证明(3)缺乏明确的标识符带来无害,只要精心挑选的隐式标识符是合理的总和。潜在的选择是实例化中的名称信息802.11有源探头,插件在浏览器中安装,系统字体库,等。虽然这些隐含的标识符不能唯一地标识一个网络实体,它们很难被隐藏,因为他们通常反映用户的个性化配置、历史行为记录,或实体之间的细微差别。因此,在实践中,隐式的组合标识符通常是用来生成指纹设备标识和用户跟踪。指纹技术本质上是一种基于隐式标识符的流量分析和边信道攻击方法。尽管其有效性已经初步验证了现有的工作,仍有许多问题需要解决在实际应用程序中,包括有效的选择功能,实现实时处理网络流量在高速网络环境中,和快速的识别设备和用户在很短的时间内。

针对上述问题,我们使用PFQ内核模块实现高速网络数据包的捕获和使用风暴,一个著名的分布式实时流数据处理技术,实现网络流量的在线分析。在此基础上,基于运行时环境的设备标识方法分析和网络用户分别提出了基于行为的指纹识别方法。论文的主要贡献如下:(我)一个分布式流量分析高速网络环境设计的框架。框架使用PFQ内核模块实现数据包捕获、卡夫卡包分配,和风暴对数据包内容分析和信息提取的应用程序,操作系统,HTTP用户代理,域名和网站访问记录。(2)在线设备识别技术的基础上,分析提出了用户设备的操作环境。这种技术选择961特性,比如应用程序,操作系统,和HTTP用户代理领域构成的指纹设备,而各种离线分类模型训练和验证。最后,我们选择逻辑回归算法来识别用户设备滑动窗口的方式。(3)为了实现网络用户识别、网络访问记录,选择域名和HTTP - agent字段构成用户行为指纹根据用户的网络行为习惯。这些指纹,包含57593特性列,由两个离线分类模型训练和验证使用机器学习,朴素贝叶斯和随机森林模型。相比之下,发现多项式朴素贝叶斯模型比随机森林模型,所以选择的分类算法确定滑动窗口的方式在线用户。(iv)为了实现高效的识别、不同的时间窗口大小的影响识别率的测试。具体来说,设备识别的准确率达到77.03%在60分钟,和79.51%的用户识别精度可以在5分钟内实现。数据包捕获率、分布式处理速度和在线识别响应速度也评估验证提出的识别技术的可行性。

给出了一个早期版本的网络实体识别(4]。在早期版本中,我们设计一个分布式高速交通分析框架基于运行时流量识别设备。在这个杂志版本,解决跨设备场景中,我们进一步分析用户的网络行为习惯和生成指纹来识别网络用户。我们也评估布尔之间的识别性能差异和数值类型指纹在这个扩展的版本。

本文的其余部分组织如下。节2我们概述相关的工作。节3我们描述我们的网络实体指纹技术的总体设计。部分4介绍了一个分布式交通高速网络环境的分析框架。在部分5和6,我们现在的细节网络设备和用户的识别技术,分别。部分7识别技术的性能测试。最后,本文的结论部分8。

网络用户和设备的身份是两个不同的研究方向密切相关。早期设备识别技术主要获取信息的硬件、操作系统、网络协议和其他参数通过收集和分析生成的物理信号或交通设备。例如,在物理层(5分析了TCP包时间戳),获取时钟歪斜(6分析了以太网帧,得到模拟信号之间的差异不同的设备(7]。在操作系统层,主动扫描算法所使用的无线设备驱动程序可能推断出通过分析802.11调查请求帧的间隔时间8]。在应用程序层,用户代理领域,IP地址,浏览器cookie,用户登录ID和其他身份信息通过流量分析在明文中提取9]。的间隔时间、数量、方向和其他属性的加密无线数据包分析不同的终端应用程序的区别10]。其他研究应用不同的威胁模型实现的识别设备,例如,基于浏览器的设备识别(11- - - - - -17),基于移动应用程序(18,19]。

从本质上说,上述识别技术仅仅是识别一个浏览器(20.)或一个终端设备。他们远非能力足以识别用户跨设备的活动。例如,在入侵检测的场景中,如果一些入侵者占有授权设备,我们不能检测到入侵识别技术通过使用设备。所以有必要进行用户研究基于行为的指纹识别技术。

从本质上讲,用户基于行为指纹识别是生物特征识别技术,它利用人体固有的生理特征或行为特征进行识别。他们可以被分类成两种类型。前一个已广泛应用采用人体器官的特点,如指纹识别、人脸识别、虹膜识别。

基于行为的识别技术(21)提取特征识别与信息用户的操作技能,知识,风格,偏好,在行为和策略了。例如,研究人员发现,不同的用户互相区分移动,点击,拖动,并释放鼠标22]。一些关键抚摸当键盘输入(可能是不同的23]。所有这些差异可以有效识别提取指纹。在网络领域,用户有不同的网络访问行为模式,因为不同的喜好,习惯,等。不同的行为模式会导致不同的交通流。因此,研究人员认为,产生的网络流量的用户可以被看作是生物识别用户身份(24]。

为了识别用户网络流量的基础上,早期的解决方案是实现通过提取显式标识符如IP地址和MAC地址(3]。然而,这种方法基于显式标识符是不可靠的,它将失败一旦用户更改IP地址或设备。到目前为止,动态地址分配方案采用ISP让用户改变IP更频繁。为了解决这个问题,研究人员行为指纹识别技术应用于基于网络流量的用户标识。Padmanabhan et al。25)发现,不同的用户可能会有不同的行为当浏览相同的网站。通过分析实际数据,提取用户的clickprints生成行为的指纹。彭日成et al。3]提出探索目的地址,网络名称,802.11选项配置,和广播帧长度,以识别用户从协议和用户偏好的角度。这实际上是一个综合性的应用相关的和device-related隐含的标识符。

杨(26)使用数据挖掘技术在网络上浏览数据集,以挖掘关联规则为每个用户的行为,提出了三种强度评估标准基于支持和提升来生成指纹,最后计算指纹识别之间的距离。Kumpošt et al。27)认为,网站访问用户和相应的频率,反映个人的偏好,可以被称为一个行为指纹。他们存储源IP、目的IP和频率在一个二维矩阵和执行逆文档频率和余弦相似度算法来识别用户。同样,赫曼et al。28)提取用户的目的地域名和相应的访问频率获得行为的指纹并使用多项朴素贝叶斯分类器分类。实验是进行数据集包含HTTP流量由28个志愿者,和73%的准确率。

因为实验中使用的数据集(28]不够大来证明该方法的可行性,作者在以后的工作中进行一个大规模的实验(29日]。他测试数据集包含超过2100用户的DNS请求,采用余弦相似度算法来过滤噪声数据,最后获得88%的准确性。此外,赫曼et al。30.)也比较和评估三种分类方法通过大量的实验,包括多项朴素贝叶斯分类器,最近邻算法和关联规则挖掘技术。金等。31日获取用户的行为基于DNS流量通过分析指纹域名,域名的顺序,请求的时间。顾et al。32]推断出用户的偏好通过语义分析的搜索记录,实现93.79%的准确性509网络用户的数据集。

总体而言,当前的设备和用户识别研究有一些缺陷。例如,只有少数特性研究和识别效果容易抖动。此外,现有的研究没有足够的时间,因为它需要总一天的交通作为一个指纹。

为了避免上述问题,我们采用分布式处理技术提取信息,如应用程序,操作系统,HTTP用户代理,域名和Web访问记录实时高速网络流量。然后我们提出两个在线识别方法基于运行时环境和行为指纹,分别成为可能的滑动窗口的模式。另外,我们也关注测试不同的交通窗口大小对识别的影响率,从而证明该技术的效率高、实用性。

3所示。总体设计的指纹

我们的网络实体的整体设计如图指纹识别技术1。第一步利用PFQ-based高速数据包捕获模块捕获高速网络流量,然后将数据包转发到分布式高速网络流量通过卡夫卡消息队列处理模块。然后处理模块解析消息内容,提取相关特征数据,并将其存储在HBase。最后,Spark-based在线识别模块定期读取功能分布式数据库的数据并实现网络设备的在线识别和用户采用一个滑动窗口机制的机器学习算法。指定每个模块的工作原理和功能如下:(我)PFQ-based高速数据包捕获模块。配置一个镜像端口交换机或路由器,或者使用一个分光器反映交通数据分发服务器。高速数据包捕获模块在这个服务器上实现高效的数据包捕获采用内存映射机制,基于零拷贝技术,双缓冲机制PFQ Linux内核模块。(2)卡夫卡消息队列。分布式消息队列是一个数据传输通道之间的数据包捕获模块和分布式处理模块。更具体地说,它是协调的缓冲区生产国和消费国。我们使用卡夫卡实现分布式消息发布,它有很高的线性可扩展性适应高速数据传输的情况。(3)Storm-based数据处理模块。分布式数据处理模块,核心功能模块,为网络流量进行处理和分析所有任务,包括网络消息解析、应用协议识别,识别的程序,最后提取并存储数据的应用程序,操作系统,网络访问记录,域名,和HTTP用户代理领域。我们意识到分布式流媒体数据处理基于风暴平台,可以实现高速的数据读结合卡夫卡队列和可以实现高速数据结合HBase写作。与此同时,风暴的内部组件之间的数据传输性能也是非常有效的。(iv)HBase。在线识别模块提出了定期阅读和分析数据。因此,分布式用于数据库,HBase函数作为分布式数据处理模块之间的数据媒体和在线识别模块。(v)Spark-based在线识别模块。我们识别模块是基于火花平台,旨在适应两个场景。对于设备标识场景,模块提取设备运行时环境生成指纹特征。跨设备识别的场景中,用户行为数据采集实现网络用户的指纹。相关的功能从HBase分布式数据库读取的数据,机器学习算法在火花MLlib随着滑动窗口机制是用来确认网络设备和用户在线。

4所示。收集和分布式处理的高速网络流量

4.1。高速网络流量的集合

Pcap相比,这是一个传统的包嗅探工具,PFQ是更好的设计优化的网络数据包捕获框架定制的多核cpu和multihardware队列网络接口。它主要用于高效数据包捕获和传输在Linux上。在其内部实现中,PFQ消除复制数据包的成本从内核空间到用户空间采用内存映射机制,并执行并发操作的用户空间应用程序和内核PFQ包抓项目缓冲区的双缓冲技术。PFQ分为三个部分:核心组件的包提取程序,数据包转发模块,窝队列。首先,包提取程序直接获取数据包的网络接口卡(NIC)司机和转移他们到批处理队列。然后,数据包转发模块选择套接字并将数据包发送到用户空间应用程序。

捕获数据包后,librdkafka用于编写成卡夫卡消息队列。在这篇文章中,我们分离高速数据包捕获模块和卡夫卡通过开源项目Blockmon[消息队列33]。

4.2。分布式处理的网络流量

当捕获的数据包写入卡夫卡消息队列,实现分布式分析和处理的数据包根据风暴的平台。以下是相关的关键概念:(我)拓扑结构:应用程序的逻辑定义各种组件和它们之间的通信方式。(2)流:数据流组成的元组风暴组件之间传输消息。所有流平行转移在一个分布式的方式。(3)滔滔不绝的说:数据源。通常,水柱从外部数据源读取消息并转移到拓扑形式的元组。(iv)螺栓:风暴处理单元。每个螺栓完成一个或多个处理任务,负责处理结果传输到外部系统存储或显示。

4.2.1。准备流数据的输入

滔滔不绝的和螺栓之间的数据传输,以及之间的螺栓,以流的形式,而滔滔不绝的获得来自外部数据源的数据以不同的方式。在本文中,我们使用KafkaSpout从卡夫卡消息队列读取数据包和传递元组的数据包解析螺栓。

在分布式处理环境中,KafkaSpouts从卡夫卡分区并行检索数据从节点。和并行性的程度有重要影响系统的吞吐量。同时,它是受到卡夫卡分区的数量的影响,因为每个卡夫卡分区只能被一个KafkaSpout。即提高风暴吞吐量的关键是增加卡夫卡分区的数量。

4.2.2。数据包分析和过滤

输入数据包元组进行了分析和筛选获得消息的内容,和标题信息提取的每一层网络协议,包括PFQ pkthdr头,以太网帧头,IP报头,TCP报头和UDP报头。包分析的过程中,一些规则设置过滤数据包与网络设备识别,如网络控制协议数据包和路由协议数据包来提高系统的处理效率。

4.2.3。应用协议识别

传统上,为了识别应用协议,捕获的数据包的端口号总是与知名的。这种方法缺乏是由于较高的假阳性率。因此,我们的目标是提高识别精度采用DPI技术分析数据包的有效载荷。虽然这种方法效率较低,其准确率明显高于前者。应用协议识别的模块开发的两个阶段:(a)设计规则匹配引擎和(b)写协议识别规则。第一步提取Snort规则匹配引擎的核心组件和介绍了多线程。然后,基于引用协议文档,我们总结一个典型的协议的特点,写一个适当的规则根据Snort规则的编写规范。

识别应用协议的过程如图2。规则匹配引擎生成规则树根据指定的协议识别规则和执行规则匹配的网络流量。发生匹配时,它表明,包被确定为一种特定类型的协议。

盒子1显示了一个SNMP协议的识别规则和相应的解释。

警报udp EXTERNAL_NET任何- > HOME_NET美元美元
(味精:snmp ;内容: ;抵消:0;深度:1;
byte_test: 1、< 0 x80 1;内容: ;抵消:2;深度:1;
席德:70;牧师:1,)

这句话表明,规则是作为第一个版本发布,与70年的id。所有的UDP数据包从任何港口或IP地址发送检测到没有例外。根据识别规则,应用层载荷的第一个字节值是0 x30。第二个字节值必须小于0 x80,第三是0 x02。匹配成功时,警报触发行动和SNMP协议类型值返回给调用者。

各种典型的协议文件的审查后,我们已经完成了写作的识别规则25典型的应用程序层协议如bt, DNS, DROPBOX, HTTP、SMTP和SSH。

4.2.4。应用程序标识

应用协议的识别之后,我们进一步找出应用程序生成的数据包的类型。我们都知道,除了交通生成的用户交互,应用程序的后台进程定期与服务器通信,从而产生更多的流量。我们分析交通和提取各种特征识别中的应用。

应用程序和服务器之间的数据传输通常是分为两种情况。首先,应用程序使用一个定制的数据传输协议,如OICQ协议,由腾讯和设计仅仅是用作QQ的数据传输协议。在这种情况下,只要确定了应用协议,应用程序肯定会被识别。其次,多个种类的应用程序共享一个应用层数据传输协议,比如HTTP协议,封装客户端和服务器之间的数据传输。对于这种情况,我们区分不同的应用程序通过提取多个字段值和交通。例如,在HTTP协议,主机字段表示的组合的域名服务器的地址和端口号。通常情况下,应用程序的地址和对应的域名由不同的公司是不相同的。即使同一家公司提供的不同的应用程序共享相同的服务器地址仍然是互相区别不同的HTTP请求参数。因此,主持人的组合可以使用HTTP协议和请求参数来识别不同的应用程序。

观察和分析应用程序流量在实验网络和116年总结了一组常用的应用程序识别规则21岁以下类别,如浏览器、电子邮件、远程管理、网络游戏、即时通讯、社交网络、网络磁盘,输入工具,在线视频,P2P视频和股票软件。这些识别规则覆盖交通来自用户的点击,登录活动,自动更新,后台进程通信。

4.2.5。HTTP用户代理检测

顾名思义,包含用户代理的用户代理在HTTP流量信息。一般来说,浏览器生成的用户代理领域包含的信息类型和版本的浏览器和操作系统。作为一种重要的信息在用户代理领域,一个特定的操作系统都有自己的结构映射规则,多元化的类型所有现有的操作系统。例如,Windows操作系统的前缀通常Windows NT,和后缀代表特定的操作系统版本。操作系统的识别规则提出了覆盖等主流操作系统Windows, Mac OS, OpenBSD, Ubuntu。

4.2.6。DNS解析和Web访问记录

用户生成大量的HTTP请求和DNS请求时操纵应用程序或使用浏览器访问网站。HTTP请求的目的IP地址和对应的时间信息可以在某种程度上反映了用户的行为特征。和DNS反应可以帮助我们把多个IP地址相同的域名。DNS数据包的解析是主要用于IPv4协议。从响应数据包,我们可以提取<域名、地址>对。具体地说,这些问题指出要求域名的数量,和相应的地址包含在答案RRs字段。有很多种DNS响应类型,杰出的字段类型。例如,记录一个域名映射到对应的IP地址,而CNAME记录映射规范域名的别名。

4.3。网络流量数据的分布式存储

基于数据包的处理和提取,提取的信息的应用程序,操作系统,HTTP用户代理、DNS和Web访问记录存储在分布式数据库的相应列HBase。通过从HBase读取数据,实现设备标识和用户识别。

5。设备标识基于运行时环境分析

5.1。基本思想

第一设备标识场景中,我们提出一种新颖的基于运行时环境识别方法分析。它的基本思想是意识到的唯一标识设备的基础上,结合设备的操作系统,HTTP用户代理信息,尤其是已安装的应用程序。

如图3,识别过程可分为两个阶段,即Spark-based离线训练阶段和Spark-based在线培训阶段。在离线训练阶段,火花从HBase分布式读取相关特性,生成相应的设备指纹作为一个向量来表示,因此学习一个适当的通过离线训练分类模型。离线训练和验证所需的数据集可以用IP地址(MAC地址的标签可以利用局域网)。在线识别阶段、分布式分析和特征提取是进行实时交通。和生成的指纹向量由离线训练分类模型。最后,分类结果显示设备的身份。

5.2。特征选择和指纹生成

本节的重点是用户设备的操作环境,获取设备识别技术根据其特点。操作环境主要包括两种类型的特性,这是操作系统类型和应用程序类型(包括版本信息)。生成用户的设备指纹识别设备,我们收集的类型和版本信息应用程序从应用程序识别的结果,并提取属性,如浏览器类型和版本和操作系统类型从HTTP用户代理检测的结果。

具体来说,设备的指纹是单位时间内通过分析交通生成的。如果检测到应用程序的流量在时间内,相应的应用程序的功能属性设置为1或相应的频率。设备指纹特征向量的维数是961。根据提取的特征属性的值类型,我们设计两种类型的设备指纹:布尔类型设备指纹和数值类型设备指纹,布尔类型设备的指纹表明特性,比如应用程序或操作系统是否出现在网络流量,这些特性和数字设备指纹表明经常出现。

注意,所有可识别的应用程序类型集和设置应用程序的版本。是指可识别的版本的总数th应用程序和操作系统代表了操作系统类型。设备指纹的特征向量可以由公式(1)。

当属性的值在指纹数值,它是数值类型设备指纹。当属性的值是0或1,它是一个布尔类型。然后设备识别问题可以建模为一个multiclassification问题在机器学习。

5.3。离线模型训练和验证

自识别的效率很大程度上取决于分类算法和设备指纹向量的维数相对较小,multiclassification算法一般可以用来训练识别模型。我们比较多项朴素贝叶斯算法的分类效果,随机森林算法,逻辑回归算法。在那之后,最好的选择算法进行在线识别。

我们收集网络流量53天的118用户设备于6月1日至7月23日,2016年。在每个设备上产生的网络流量每小时检查。考试的基础上,提取的特征是形成指纹(所有零向量指纹被丢弃)。然后我们总共得到50305设备有效的指纹。收集到的数据在第一个30天用于离线模型训练和验证,包括30148条记录,而剩下的20157条记录聚集在接下来的日子里被用来评估分类模型的准确性。

在离线训练过程中,设备的指纹数据集的随机分为两个子集,一个作为训练集,其中包含70%的指纹和其他验证集包含了剩下的30%。最重要的是,布尔类型设备指纹的分类模型训练和验证如下。

5.3.1。布尔类型的分类模型的训练和验证设备指纹

首先,随机森林分类模型的训练。不同于多项朴素贝叶斯和逻辑回归,随机森林分类模型有两个参数需要调整,即。决策树的数量(全国矿工工会)和决策树的最大深度(深度)。的参数全国矿工工会影响整体分类的准确性,而深度影响每一个决策树的分类精度。训练和测试执行在不同的值全国矿工工会和深度,获得分类精度图所示4(一)。

(一)布尔类型指纹

(b)数值类型的指纹

从图可以看出4(一),深度通常有一个更大的对分类精度的影响。的增加深度,精度显著提高。时的值深度是30,分类结果是最优的。的影响全国矿工工会在分类精度积极相关深度:当深度小,准确率上升的增加全国矿工工会;当深度较大,分类准确率首先上升的增加全国矿工工会,然后保持稳定时全国矿工工会大于20。时的值全国矿工工会是150,分类精度是最高的。因此,我们设置的值全国矿工工会150的价值深度30,分别优化。

然后,多项朴素贝叶斯和逻辑回归分别训练分类模型,评估模型的分类精度,验证集和测试集,分别。图5(一个)显示了这三个模型的分类精度,MNB指多项朴素贝叶斯、射频表示随机森林,LR代表逻辑回归。从图5(一个)可以看到,它的分类精度验证设定的执行逻辑回归算法大大高于其他算法。同样的算法,测试集的分类效果明显低于验证集。这是因为训练和验证中的数据集随机分割,和数据测试和训练集的时序关系。此外,设备的操作环境可能会变化,因此设备标识的准确性可能随着时间的推移逐渐减少。

(一)布尔类型指纹

(b)数值类型的指纹

数据的进一步分析表明,部分记录在设备指纹向量保持接近0的全部价值。这是由于这样的事实:并不是所有的设备可识别的应用程序产生的交通参与。这样的交通不能认定为有效的设备信息。处理,给出下面的定义。

定义1(有效维度)。给定一个指纹向量,表示特征列的数量与一个非零值作为有效的维度。

定义2(最小有效维度)。指纹向量的集合被识别,最小有效维度定义为阈值,下面的指纹被认为无效的和过滤掉由于缺乏信息。

图6(一)显示该阈值对分类精度的影响。和表1显示有效的设备指纹总数的比例不同的值的最小有效维度,这显示了设备标识的交通覆盖率。


最低有效特征维度	验证设置	测试集

1	100.00%	100.00%
2	89.58%	90.43%
3	82.98%	81.66%
4	75.94%	74.85%
5	70.57%	68.99%
6	63.73%	62.08%

(一)布尔类型指纹

(b)数值类型的指纹

从图6(一)和表1,我们可以看到,验证集和测试集的分类精度逐渐增加的最小有效维度爬。三个模型的分类精度值测试集的所有高原接近80%时,最小有效尺寸是6。然而,尽管最高精度,只有62.08%的设备在测试设置保留指纹。相比之下,当最小有效尺寸降低到4,多项朴素贝叶斯的分类精度和逻辑回归测试集是高于75%,和74.85%的设备在测试设置保留指纹。考虑到最小有效维度对指纹分类精度的影响和交通覆盖率,最小有效维度4确定的阈值过滤指纹数据。自从logistic回归模型的表现相对更好的验证集和测试集,逻辑回归模型选为在线指纹识别模型布尔类型设备。

5.3.2。培训和验证指纹分类模型数值类型的设备

数值类型设备指纹识别,首先训练随机森林参数相同。结果如图所示4 (b)。当全国矿工工会是100和深度是30,随机森林模型的分类效果最好。自特定值的每个特性有重要影响的分类结果多项朴素贝叶斯分类模型,我们需要执行频率(TF)变换公式所示(2为每个特性值)。

为进一步实现数值类型设备指纹,我们培养多项朴素贝叶斯分类模型和分类logistic回归模型,分别计算的分类精度验证集和测试集,结果如图所示5 (b)。我们也验证最低有效维度的影响分类精度,如图6 (b)。通过比较数据5(一个)和5 (b),图6(一)和图6 (b)分别,我们可以发现,布尔和数值类型的演出设备指纹基本上是相同的,既能实现较高的设备识别精度。然而,由于数值类型的指纹可能波动特性值,我们只有利用布尔类型设备指纹测试设备的在线识别精度。

5.4。在线用户设备的识别

在线识别用户设备使用布尔类型设备指纹和逻辑回归模型作为分类模型。实验是基于滑动窗口机制,模拟了在线识别过程重演网络流量测试集的23天。滑动窗口有两个重要的参数:windows幻灯片和大小。

预测是由迭代时向后滑动窗口的幻灯片在窗口滑动的距离。窗户大小的范围完全覆盖了流数据。当我们想做一个预测,我们需要读取特性数据的时间范围内从当前时刻之前的窗口大小。用户设备的在线识别准确率是算作设备总数的比例正确的指纹分类的设备总数指纹在所有的窗户。

摘要窗口滑动和窗口大小的值设置为1分钟,2分钟,5分钟,10分钟,20分钟,30分钟,分别和60分钟。通过调整值,我们分析这两个参数如何影响在线识别用户设备的准确性。图7显示结果当最低有效尺寸1和4,分别。

(一)设置的最低有效特征尺寸为1

(b)设定的最低有效的特征尺寸4

从图可以看出,在线识别准确率几乎没有受到windows幻灯片的变化,虽然以一种积极的相关反应的增加窗口大小。窗口尺寸越大,越准确识别。窗口大小是60分钟时,识别准确率达到68.93%的最大价值。如果我们过滤数据较低的信息内容通过设置最小有效维度4,最大的在线识别精度将会增加到77.03%。

6。用户识别基于网络行为的指纹

6.1。基本思想

在入侵检测的场景中,如果一些入侵者占有授权设备,我们不能检测到入侵识别技术通过使用设备。所以它具有十分重要的实际意义来识别用户跨多个设备。为此,我们试着分析用户的行为习惯和生成指纹,这是由与设备无关的Web访问记录,DNS域名信息,和HTTP用户代理。除了特征选择,其他步骤类似于设备标识。具体识别过程和验证步骤如下。

6.2。特征选择和指纹生成

用户的网络行为习惯是主要反映在他的访问记录,和属性,如操作系统和浏览器的HTTP用户代理可以在某种程度上也反映了用户的偏好。因此,我们使用Web访问记录从应用程序中提取协议识别单元,IP地址和域名之间的映射关系从DNS分析结果,获得和信息类型的浏览器版本,和操作系统类型通过HTTP用户代理检测,生成用户的在线行为指纹识别的网络用户。

行为指纹提取特征向量生成的流量捕获在一个单位时间。目标IP地址在Web访问的记录,我们将它与基于DNS域名响应记录,对所有的IP地址和域名一样一个属性下的子域的向量。

域名确定的特点之后,结合信息包含在HTTP用户代理领域,网络用户的行为生成指纹,指纹向量构成的用户行为在一个单位时间。

用户行为指纹向量的维数是57593。根据特征属性的值类型,行为指纹也可以分为两种类型:布尔和数值类型。然而,我们可以看到从设备的指纹分类结果没有明显的区别这两种类型的指纹的分类精度,和布尔类型的分类精度为机器设备制造数字指纹是略优于数值类型的指纹。因此,我们将测试网络用户的识别精度与布尔类型行为指纹。

6.3。离线模型的训练和验证

以来的整体维度行为指纹向量很大,我们选择多项朴素贝叶斯和随机森林来执行并比较它们的性能来选择更好的在线网络用户的识别。

本文收集到的网络流量包含118个用户的数据。数据收集过程持续53天。通过提取每个指纹生成每个用户的网络数据每小时。注意,指纹与零特征值的完整列表被丢弃。总之,我们得到54107指纹。整个指纹分类分为两组。一组包含32217个行为指纹收集前30天,用于离线的训练和验证模型。另一组包括剩余的21890行为指纹收集以下23天,用于测试网络用户的识别精度。

此外,当训练离线模式,第一组的行为指纹随机分为训练集和验证集,其中70%的行为使用指纹作为模型的训练集训练,剩下的30%是用于验证。其余的行为收集指纹作为评估的测试集的分类精度。两个离线模式,朴素贝叶斯和随机森林,分配相同的训练数据集。

首先,训练随机森林模型。它的全国矿工工会和深度考虑到参数。训练得到的分类精度和测试在不同的值全国矿工工会和深度如图8。从图可以看出,当全国矿工工会40,深度是30,随机森林模型达到最好的分类精度。

那么多项朴素贝叶斯分类模型的训练,和分类精度评价,验证集和测试集。图9显示了分类精度验证集和测试集的执行两个模型。这些结果表明,随机森林模型远比这两个数据集的多项式朴素贝叶斯模型的分类精度。

最后,最小有效维度对分类效果的影响和有效的行为比指纹测试。结果如图所示10和表2,分别。


最低有效特征维度	验证设置	测试集

1	100.00%	100.00%
2	92.39%	93.70%
3	91.77%	90.54%
4	89.34%	86.72%
5	87.98%	84.22%
6	86.53%	81.03%
7	83.18%	78.36%
8	80.45%	76.42%
9	79.03%	74.87%
10	77.07%	73.43%
11	73.67%	72.16%

从图可以看出10的积极影响多项朴素贝叶斯模型在测试集上逐步扩大最低有效尺寸增加。当最低有效尺寸设置为3,测试集的分类准确率已经高于75%。当最低有效尺寸是9,测试集的分类精度最高,达到80.70%,可覆盖74.87%的行为指纹。

相比之下,随机森林模型的分类效果不仅是相对贫穷,但也不够稳定。因此,我们使用多项朴素贝叶斯分类算法来实现在线用户标识。此外,在全面考虑最低有效维度的影响行为的分类精度和覆盖指纹,9的价值作为过滤条件无效的行为选择指纹。

6.4。在线用户识别

在线识别的网络用户也可以执行滑动窗口方式,和在线过程模拟重现真实网络流量的测试集23天。步长和滑动窗口的窗口大小变化找出对用户识别精度的影响。本文的步长值设置为1分钟,2分钟,5分钟,10分钟,20分钟,30分钟和60分钟所以窗口大小的值。图11显示结果当最低有效尺寸1和9,分别。

(一)设置的最低有效特征尺寸为1

(b)设定的最低有效的特征尺寸9

从图可以看出,滑动窗口的步长很小影响在线用户识别的准确性。当最低有效尺寸是1,精度随着滑动窗口大小的增加。当窗口大小是60分钟,最多识别准确率达到72.58%。实验结果还表明,当窗口大小的滑动窗口是20分钟,识别准确率已经达到71.42%。因此,在线用户识别的时间窗口大小可以控制在20分钟。

最低有效尺寸是9时,识别准确率首先滑动窗口的增加而增加。窗口大小增加到5分钟时,精度基本上仍维持在79.51%。当窗口大小20分钟,精度达到81.37%。当窗口大小是60分钟,利率是80.74%。因此,在线用户识别的时间窗口大小可以进一步缩短为5分钟。

7所示。性能测试和结果

7.1。测试环境

在上面我们已经评估和证明设备标识的有效性和用户识别不同的算法和参数,分别。本节主要识别方法的性能测试。测试环境如下:

安装7.1.1。硬件

(我)1主节点:戴尔PowerEdge R730 (CPU: 2 6-core e5 - 2620 v2, 2.1 ghz,内存:96 GB,外部存储器:3.6结核病)。(2)14从节点:戴尔PowerEdge C6220 II (CPU: 2 6-core e5 - 2620 v2, 2.1 ghz,内存:64 GB,外部:8 tb)。(3)网卡:英特尔82599 es 10 g,支持多达64硬件队列。

7.1.2。操作系统

(我)操作系统:Red Hat Enterprise Linux 7。(2)内核版本:3.10.0-123.20.1.el7.x86_64。

7.2。测试结果

这部分测试的性能三个模块:数据包捕获、分布式数据包处理和在线识别模块。测试结果说明如下:

7.2.1。数据包捕获率

首先,网络流量是由tcpreplay生成工具(34)和英特尔的数据包捕获率测试82599 es 10 g网卡。网卡支持最多64硬件队列和硬件队列的数量可以根据需要自由配置。然而,由于我们实验的CPU计算节点只有12个物理核心和包捕获速度不能被极大地增强了如果多个数据包捕获线程位于同一个物理核心,最多12个硬件队列是在这个实验中启用。

在这篇文章中,数据包的流量捕获测试速度与不同网卡硬件队列的长度和数量,分开。获得的结果如表所示3。结果获得通过计算平均总数字多个网卡硬件队列的数据包捕获在10秒。相应的数据包捕获率如表所示4。从表3和4我们可以得出结论,包长度在捕获率有很大的影响。当数据包长度是1000字节,NIC的终极速度可以达到(9.76 gbps)只是消耗两个硬件队列。如果包长度减少到100字节,数据包捕获加息网卡硬件队列的数量增加到峰值速度达到5.02 gbps。长度是更改为200字节时,最大捕获率是8.94 gbps。数据包长度是500字节时,最大数据包捕获率是9.61 gbps。


数据包长度(字节)	的物理核心数量
数据包长度(字节)	1	2	4	8	12

One hundred.	1329465	1566371	3206383	5936376	6272835
200年	1130613	1734582	2917599	5352853	5586074
500年	922524年	1155344	2384589	2385555	2402127
1000年	852867年	1219714	1219109	1230260	1229943


数据包长度(字节)	的物理核心数量
数据包长度(字节)	1	2	4	8	12

One hundred.	1.06	1.25	2.57	4.75	5.02
200年	1.81	2.78	4.67	8.56	8.94
500年	3.69	4.62	9.54	9.54	9.61
1000年	6.82	9.76	9.75	9.84	9.84

上述实验结果表明,使用Linux PFQ内核模块可以捕获数据包具有高速度和健壮的系统的可扩展性。

7.2.2。分布式处理的数据包的速度

当测试的速度分布式处理框架,本文使用KafkaProducer写网络流量捕获的数据包捕获模块为每个卡夫卡分区,然后计算框架的处理速度的阅读和分析卡夫卡的数据分区。

KafkaSpouts的数量与卡夫卡分区的数量一致,具有重要影响的速度分布式处理框架。表5显示的速度分布式处理框架在不同卡夫卡分区号。我们可以看到,最大处理速度基本上是卡夫卡分区的数量成正比。值得注意的是它超过10 gbps卡夫卡分区号是3。


卡夫卡分区的数量	最大处理速度

1	3.76 gbps
2	6.68 gbps
3	10.01 gbps
4	13.35 gbps

7.2.3。在线应用程序识别的响应速度

本文使用60分钟的最大窗口大小来测试在线识别模块的响应速度。这个模块包含两个部分:网络设备标识基于运行时环境和网络用户识别基于网络行为的指纹。通过统计在线识别模块的时间消耗10试验,计算平均值的响应速度在线识别模块。的时间消耗10在线识别收集表6。通过平均,得到响应速度为7362 ms。这个值远小于识别窗口的最小步长(1分钟),因此可以认为在线识别处理速度可以满足性能的要求。


#	耗费时间的在线识别(女士)

1	9074年
2	8256年
3	7480年
4	8188年
5	6566年
6	6780年
7	6643年
8	6503年
9	8047年
10	6080年

8。结论

在入侵检测领域,它是越来越重要的检测可疑的实体和潜在威胁。在本文中,我们引入了网络实体的识别技术来检测潜在的入侵者。为了实现网络实体识别在高速环境下,我们使用PFQ内核模块捕获高速网络数据包和使用风暴分布式实时流数据处理技术来实现网络流量的在线分析。

未经授权的设备的监控网络,我们设计一个在线设备标识技术基于运行时环境分析。961的特性,比如应用程序,操作系统,和HTTP用户代理领域,构成了设备选择指纹。然后是逻辑回归算法应用于滑动窗口的方式。入侵者占有的情况下授权设备和掩盖了自己作为一个授权用户,我们提取Web访问记录,DNS域名,用户行为的指纹和HTTP - agent字段构成。然后用户在线确定滑动窗口的方式使用多项朴素贝叶斯模型。实验结果表明,流量分析框架和识别方法提出了实用性很高,因为他们在短时间内可以达到令人满意的识别准确率。对于未来的研究,我们打算设计一个自动化的应用识别工具,以确定一个大型的应用程序,提高识别精度。

数据可用性

网络流量数据用于支持本研究的发现没有提供,因为它们含有很多的隐私信息。

信息披露

任何意见,结果,结论和建议,本文是作者的,不一定反映资助机构的意见。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作支持在2018年中国国家重点研发项目的一部分yfb0803400和2017 yfb1003000,中国国家自然科学基金资助下61572130,61502100,61532013,61632008,,江苏省科技成果转让基金BA2016052,江苏省重点实验室的拨款BM2003201下网络和信息安全,计算机网络和信息集成的重点实验室中国教育部拨款93九年制义务下,和协同创新中心的新软件技术和产业化。

引用

g .佩德罗·T·d·Jes·sE V, m·加布里埃尔F和诉恩里克,“Anomaly-based网络入侵检测:技术,系统和挑战,”电脑安全页18-28 18-28,28(1 - 2日,2009。视图:谷歌学术搜索
m·h·Bhuyan d . k . Bhattacharyya, j . k . Kalita“网络异常检测:方法、系统和工具”IEEE通信调查和教程,16卷,不。1,第336 - 303页,2014。视图:出版商的网站|谷歌学术搜索
r . j .彭日成b .格林斯坦Gummadi, s .珊和d . Wetherall“802.11用户指纹,”《第13届ACM移动计算和网络国际会议ACM,页99 - 110年,2007年9月。视图:出版商的网站|谷歌学术搜索
x y, m .杨顾,p .锅和z凌,《2018年国际会议上先进的云计算和大数据,兰州,中国,2018。
b . Danev d·扎内蒂,s . Capkun“无线设备的物理层的识别,”ACM计算调查,45卷,不。1,第6条,2012。视图:出版商的网站|谷歌学术搜索
t . Kohno a . Broido克赖夫和c K,将网络“远程物理设备指纹”第26届IEEE学报》研讨会上安全和隐私(SP 05)2005年美国伯克利分校CA。视图:谷歌学术搜索
r·格迪斯·t·丹尼尔斯,m .米娜和s . Russell”设备通过模拟信号指纹识别:匹配滤波器的方法,”《第13届网络和分布式系统安全座谈会会议(nds 06年)2006年美国圣地亚哥CA。视图:谷歌学术搜索
e·d·托马斯·j·a·范·Randwyk e·j·李et al .,“被动数据链路层802.11无线设备驱动程序指纹”第15届USENIX安全研讨会会议的程序公元前,温哥华,、加拿大。视图:出版商的网站|谷歌学术搜索
谢t .日圆,y, f . Yu, r . Yu和m . Abadi”主机网络指纹识别和跟踪:隐私和安全问题,”学报第19届网络和分布式系统安全座谈会(nds的12),2012年。视图:谷歌学术搜索
t .长铁楔,m . Frank j·施密特,Martinovic,“你同步你是谁?“在《第六届ACM会议p。7日,布达佩斯,匈牙利,2013年4月。视图:出版商的网站|谷歌学术搜索
p .利”的独特之处在于web浏览器如何?“在隐私增强技术:10国际研讨会,2010年宠物,柏林,德国,2010年7月研讨会。诉讼卷,6205在计算机科学的课堂讲稿施普林格,页队,柏林,德国,2010年。视图:出版商的网站|谷歌学术搜索
Mowery, k . d . Bogenreif s Yilek, h . Shacham“在JavaScript实现指纹信息,”学报2011年Web 2.0安全和隐私(W2SP 11奥克兰,加利福尼亚,2011年。视图:谷歌学术搜索
j·梅耶和j·米切尔,“第三方web跟踪:政策和技术,”美国第33 IEEE研讨会上安全和隐私(SP的12)美国,旧金山,CA, 2012。视图:谷歌学术搜索
g . Acar m .华雷斯:Nikiforakis et al .,“FPDetective:除尘fingerprinters web,”学报2013 ACM SIGSAC计算机和通信安全会议上,CCS 2013,页1129 - 1140,德国,2013年11月。视图:谷歌学术搜索
n . Nikiforakis a . Kapravelos w . Joosen c .克鲁格尔f . Piessens和g .豇豆属“无cookie怪物:探索生态系统网络设备的指纹,”美国第34 IEEE研讨会上安全和隐私,SP 2013美国,页541 - 555,2013年5月。视图:谷歌学术搜索
n . Nikiforakis a . Kapravelos w . Joosen c .克鲁格尔f . Piessens和g .豇豆属“网络设备的工作原理和当前实践指纹,”IEEE安全与隐私,12卷,不。3、几个,2014页。视图:谷歌学术搜索
p . Laperdrix w . Rudametkin, b . Baudry”《美女与野兽》:将现代Web浏览器浏览器构建独特的指纹,”学报2016年IEEE研讨会上的安全与隐私,SP 2016美国,页878 - 894,2016年5月。视图:谷歌学术搜索
a·库尔茨h .吹牛的人,t·贝克尔,k . Rieck和f . Freiling“指纹识别移动设备使用个性化配置,”程序对隐私增强技术,卷2016,不。1,4-19,2016页。视图:出版商的网站|谷歌学术搜索
j . w . Wu, y, z,和m .杨“高效Fingerprinting-Based Android设备认同Zero-Permission标识符,“IEEE访问4卷,第8083 - 8073页,2016年。视图:出版商的网站|谷歌学术搜索
y曹,s·李和e . Wijmans”(交叉)浏览器指纹通过操作系统和硬件水平特征,”《24日年度网络和分布式系统安全座谈会,教你们圣地亚哥CA。视图:出版商的网站|谷歌学术搜索
r . v . Yampolskiy和诉Govindaraju行为生物识别技术:调查和分类”国际期刊的生物识别技术,1卷,不。1,第113 - 81页,2008。视图:出版商的网站|谷歌学术搜索
n .郑a . Paloski h·王,“通过鼠标移动,一个有效的用户验证系统”学报18 ACM关于计算机和通信安全的会议ACM,页139 - 150年,2011年10月。视图:出版商的网站|谷歌学术搜索
美国Douhou和j·r·马格努斯”通过击键力学用户身份验证的可靠性,”Statistica Neerlandica。荷兰统计和运筹学学会杂志》上,卷63,不。4、432 - 449年,2009页。视图:出版商的网站|谷歌学术搜索|MathSciNet
n . v .佛得角g . Ateniese e·加l . v .曼奇尼和a . Spognardi”没有NAT用户留下:指纹识别用户在NAT NetFlow单独记录,”学报2014年IEEE第34国际会议在分布式计算系统中,ICDCS 2014西班牙,页218 - 227年,2014年7月。视图:谷歌学术搜索
b . Padmanabhan y杨,网上Clickprints:有签名在网页浏览数据,2006,http://knowledge.wharton.upenn.edu/papers/1323.pdf。
杨y”,网络用户行为分析用户识别、”决策支持系统卷,49号3、261 - 271年,2010页。视图:出版商的网站|谷歌学术搜索
m . Kumpošt诉Matyaš,“用户分析和鉴定:大学的网络分析,”信任、隐私和安全在数字业务卷,5695在计算机科学的课堂讲稿海德堡,页1 - 10,激飞柏林,柏林,海德堡,2009年。视图:出版商的网站|谷歌学术搜索
d·赫曼c·戈贝尔,c . Banse和h . Federrath”分析主机访问模式特征鉴定的Web用户会话,”信息安全技术的应用程序卷,7127在计算机科学的课堂讲稿海德堡,页136 - 154,激飞柏林,柏林,海德堡,2012年。视图:出版商的网站|谷歌学术搜索
c . Banse赫曼·d·h·Federrath,”在互联网上跟踪用户行为模式:它的实际可行性,评价”信息安全与隐私的研究卷,376联合会信息和通信技术的进步海德堡,页235 - 248,激飞柏林,柏林,海德堡,2012年。视图:出版商的网站|谷歌学术搜索
d·赫尔曼,c . Banse和h . Federrath”行为的跟踪:利用DNS流量特征模式,”电脑与安全39卷,17-33,2013页。视图:出版商的网站|谷歌学术搜索
d . w . Kim和j·张,“你是如何查询:推导行为从DNS流量,指纹”在通信网络安全和隐私卷,164课堂讲稿的计算机科学研究所、社会信息和通信工程,页348 - 366,施普林格国际出版,可汗,2015年。视图:出版商的网站|谷歌学术搜索
x顾,m·杨,z, j·罗,“一种新型攻击来追踪用户行为模式的基础上,“并发性和计算:实践和经验,2016年。视图:出版商的网站|谷歌学术搜索
Blockmon,“cnplab / Blockmon,”https://github.com/cnplab/blockmon。视图:谷歌学术搜索
Tcpreplay”Tcpreplay发展正在由AppNeta,”URL的http,http://tcpreplay.synfin.net。视图:谷歌学术搜索

安全性和通信网络

入侵检测和预防在云、雾和物联网

文摘

1。介绍

2。相关工作

3所示。总体设计的指纹

4所示。收集和分布式处理的高速网络流量

4.1。高速网络流量的集合

4.2。分布式处理的网络流量

4.2.1。准备流数据的输入

4.2.2。数据包分析和过滤

4.2.3。应用协议识别

4.2.4。应用程序标识

4.2.5。HTTP用户代理检测

4.2.6。DNS解析和Web访问记录

4.3。网络流量数据的分布式存储

5。设备标识基于运行时环境分析

5.1。基本思想

5.2。特征选择和指纹生成

5.3。离线模型训练和验证

5.3.1。布尔类型的分类模型的训练和验证设备指纹

5.3.2。培训和验证指纹分类模型数值类型的设备

5.4。在线用户设备的识别

6。用户识别基于网络行为的指纹

6.1。基本思想

6.2。特征选择和指纹生成

6.3。离线模型的训练和验证

6.4。在线用户识别

7所示。性能测试和结果

7.1。测试环境

安装7.1.1。硬件

7.1.2。操作系统

7.2。测试结果

7.2.1。数据包捕获率

7.2.2。分布式处理的数据包的速度

7.2.3。在线应用程序识别的响应速度

8。结论

数据可用性

信息披露

的利益冲突

确认

引用

版权

更多相关文章

相关文章