一种有效的数据分析框架进行网络安全处理

文摘

工业云安全、物联网安全代表网络空间安全的最重要的研究方向。大多数现有的研究传统的云数据安全分析都集中在检查云中的数据块存储的技术。没有人考虑问题,多维在线云中的临时数据分析可能出现连续和快速流和可伸缩的分析规则是连续在线规则生成的深度学习模型。为了解决这个问题,在本文中,我们提出一个新的LCN-Index数据安全分析框架对大型可伸缩的规则在工业云。LCN-Index使用MapReduce计算范例部署大规模的在线数据分析规则:在映射阶段,它将每个属性划分为一批分析谓词集,然后部署到一个映射节点使用间隔谓词的索引。在降低阶段,它合并的结果映射节点使用多属性散列索引。通过这样做,一个流元组可以有效地评估通过LCN-Index框架。实验证明该方法的效用。

1。介绍

工业云安全服务近年来吸引了越来越多的关注。广泛的工业应用和在线工业控制业务使用cloud-fog计算作为他们基本解决前所未有的问题的数据量(1- - - - - -5]。

尽管传统的云的成功,现有传统云保护服务仅仅是专注于设计可伸缩检查云中的静态块数据的技术。网上许多新兴工业保护应用程序在云中数据的形式通常是多维连续临时tuple流,和迫在眉睫的是开发可扩展的基于流的计算云安全检查技术。

例1。让我们考虑一个在线交通管理和检查系统如图1。系统的基本目标是分析安全周边交通信息为所有连接的用户。在此系统中,一方面,所有流量在街道上的摄像机和监控的数据上传到云中的分析节点;另一方面,所有的连接用户可以在线连续从云通过检查所有周围的交通安全信息查询。注意,不同的用户可以根据自己的规则不同级别的安全服务或查询。
(1)在线分析查询可能非常庞大而复杂的云。就业推荐的应用程序,例如,通常有超过一百万名求职者和每个申请人可能超过一百属性物品。(2)查询集动态变化。例如,在在线网络监控、网络大师可能需要添加新的查询来查询和删除过时的查询。(3)及时响应要求对所有查询,即使流数据是非常复杂的。例如,在web监视应用程序,通常情况下,元组有超过40个字节的大小和流动速度比10⁶元组每秒,系统应该返回所有匹配的元组监控查询。
前面的上述新特点的基于流的查询在云中,我们如何有效地评估所有即将到来的元组对所有注册的查询呢?传统上,在数据流查询系统中,一个集中的索引结构将建在一个主服务器。之后,对于每一个即将到来的元组,系统遍历集中回答查询的索引结构。然而,这样的一个集中的方法不能用于我们的新问题。这是因为索引结构的大小随查询号码。除此之外,还会有系统响应的一个瓶颈。因此,在云系统,我们无法建立一个集中的索引结构统一所有的可伸缩的和复杂的查询。
另一方面,在云中,传统的分布式方法也是不切实际的。这是因为我们可能需要频繁注册新查询在云中(或删除过时的查询),这使得它很难决定应该分配给多少计算能力的云。传统分布式方法有明显的缺点缺乏弹性。
鉴于现有方法的局限性,为了解决流数据流查询问题,应解决以下三个挑战:(1)可伸缩性:传统的数据流处理的研究(6- - - - - -10通常做一个假设,查询号码是不超过二千,而在云中经常查询数量超过一百万。(2)弹性计算能力:传统分布式流处理解决方案(6- - - - - -10)通常预先确定的数量计算节点,而在云中非常困难,因为查询数据的动态变化。(3)实时处理:有必要以实时的方式处理所有的查询。
根据上述挑战,在本文中,我们设计一个新的LCN-Index云中的数据流在线安全分析框架。LCN-Index使用MapReduce计算范例部署所有的连续查询。在映射阶段,每个属性分解成一批谓词集,然后部署到一个映射节点使用间隔谓词的索引。在降低阶段,它合并所有的中间结果映射节点使用多属性散列索引。如果流处理检测到过载时,主人将从电力供应商请求更多的节点。通过这样做,一个流元组可以有效地评估通过LCN-Index框架。实验证明该方法的效用。剩下的纸是组织如下。部分2介绍了LCN-Index框架。部分3,4,5从理论上研究了工作流、结构和LCN-Index的关键分析过程。部分6介绍了相关工作,部分7进行实验和比较来演示LCN-Index的有效性。我们在部分总结本文8。

2。LCN-Index框架

2.1。LCN-Index的Map函数

2.2。LCN-Index Reduce函数

3所示。的工作流LCN-Index框架

论文的基本目标是开发一个有效的指标框架,可以支持可伸缩和云中的复杂的查询。

3.1。体系结构

整个系统架构如图2。在脱机过程中,云流查询之前,连续查询分解和索引。查询集分解模块负责将所有查询分解为不同的谓词集根据属性。Mapper谓词集然后索引的索引生成器和减速器指数构建器。Mapper指数构建器负责构建间隔谓词指数(LCN-Index)。减速器指数构建器负责建立多属性索引。我们的方法适用于任何现有的索引方案区间谓词,例如,(11,12]。在运行时,给定一个元组,LCN-Index映射器用于检索匹配谓词,多属性指数吗增加er用于检索所有满足查询通过合并所有匹配谓词。此外,对于每一个元组,映射器评估者的工作是使用LCN-Index检索匹配谓词。减速器的工作评估者是验证是否可以满足谓词的检索查询映射器评估者。部分3描述LCN-Index的结构映射器,而部分4描述了有效的合并算法在减速机采用多属性索引。

图2

在线云流查询的执行。我们的查询流项划分为两个阶段:映射阶段和减少阶段。对于每一个流项目,我们首先将项目划分为根据的属性键/值对。然后,在映射阶段,我们派遣键/值对不同LCN-Indexes搜索满足谓词。所有这些中间满足谓词都打乱减速器根据流ID。最后,在降低阶段,我们使用有效的算法合并所有中间结果来计算所有满足查询和输出。

3.2。工作流

图2显示了云流的处理流程。更具体地说,我们将查询集问谓词集,建立隔离LCN-Index谓词集。使用这些LCN-Indexes Mapper评估者在地图节点(图3)。我们还构建基于多属性索引查询和谓词之间的映射信息。减速机使用的多属性索引评估者检索所有满足查询。为每个流元组,我们整合过程程序和MapReduce模型。更特别,输入元组首先被派往不同的LCN-Indexes(映射器评估者)根据属性。LCN-Index用于检索匹配谓词。结果匹配根据元组标识符,并送到被打乱减速机评估者。然后,减速器评估者使用多属性索引合并所有中间匹配查询和检索结果满意。在Mapper评估者模块,LCN-Index间隔谓词索引用于找出所有满足谓词属性/值对:可伸缩性、弹性延迟。

图3

在线数据分析框架:我们MapReduce模型集成查询索引策略有效地支持云数据流查询。特别是在我们的指标框架,构建LCN-Index Mapper和减速器上建立多属性索引。我们关注的是高亮显示的组件,当地LCN-Index在减速器的映射器和多属性索引匹配。节3中,我们将介绍LCN-Index模式。节4中,我们将介绍多属性索引算法。

我们开车云流查询的应用程序,应用程序必须支持数百万每天连续查询和数十亿元组。为了解决可伸缩性,我们查询集分解成独立谓词集,容易使分布式索引到云。为了解决弹性,Map和Reduce节点与主服务器保持性能状态心跳。如果流处理检测到过载,主人将请求更多的节点从电力供应商(1图1)。否则,主人将释放underusage节点。解决延迟,为每个传入的元组,我们结合流查询过程和MapReduce (4)模型。MapReduce提供大规模、高效的功能键/值过程框架。正如上面提到的,加速的关键想法每一个输入项的查询过程结合MapReduce (4与我们的指数模型框架。

下面的内容部分4描述LCN-Index的细节。部分5描述了有效的合并算法减速机评估者通过使用多属性索引。

4所示。索引策略

在本节中,我们将首先介绍的基本工作流和指数模式LCN-Index云数据流查询系统中部分4.1。具体地说,我们的重点是搜索和插入操作。因此,我们讨论的搜索操作部分4.2。插入和删除操作也在附录中介绍。

在云数据流查询问题,大规模的连续数据流查询可以登记的经营范围。通常,一个高效的主要基于内存的指标是必要的,特别是云流快速。我们建议LCN-based指数进行高效处理连续查询在云流环境。LCN-Index是围绕一组预定义的虚拟containment-encoded间隔。区间谓词用于分解然后粗加工的高效的搜索操作。事实上,LCN-Index是出于CEI-Index [12]。它们之间的主要区别如下:(1)LCN-Index主要有增强的搜索功能,特别是支持所有谓词与质量表达式,而只CEI-Index旨在指数简单间隔谓词(2)CEI-Index问题[12)关注单一间隔谓词的查询,而LCN-Index旨在复杂查询的索引在哪里是一个结合区间谓词的条款

索引间隔谓词的本机方法是比较谓词的所有边界保持在索引中。这种方法通常是成本o(日志n)。n是谓词的数量。相反,我们使用间接指数区间谓词的索引方法。它是基于标准区间单元(SIU)的概念。我们预先确定和一组标准区间单位。我们每个谓词分解为一个或多个siu。我们给每一个谓词唯一的ID, PredId命名。我们将PredId插入ID列表与分解siu相关联。给定一个目标点的值X,搜索过程非常简单;我们通过siu进行间接的搜索过程。这是不必要的比较值X与任何谓词的界限。通过谓词区间分解,搜索结果是联盟所有siu的ID列表。我们证明只有少数siu封面随机值X。因此,搜索时间独立于谓词的号码。在本文的其余部分中,我们假设连词的查询谓词,我们假设谓词是间隔Int类型的谓词。可以转移到其他类型Int类型。

4.1。LCN-Index的结构

图4显示了一个示例当地的ID标签对应一个间隔谓词。假设连续属性的范围是[0,r)。首先,我们分区r成r/l段的长度l,在那里l是2的幂。每一段都是表示年代_我,在那里我= 0,1,…(r/l−1)。在这里,我们假设r是一个的倍数l。如果不是,很容易扩展r。段的值范围年代_我是(伊尔,(我+ 1)l]。我们对待边界部分的指导文章。对于每一个部分,我们定义了一个2 l−1标准区间单元(SIU)如下:(1)构建1 SIU长度l,对应于整个段(2)构建2 siu长度l/ 2段划分成两块(3)建立4 siu长度l/ 4段划分成四块(4)建立分区过程,直到每个SIU的长度是1

例如,有1 SIU长度8 2 SIU长度4,4 SIU长度2和8 SIU长度是1。所有2l−1 siu定义它们之间有特殊的关系。长度是1中包含的siu siu长度为2,依次包含在siu长度4等等。

在这个段落中,我们介绍了标签在这些siu一段过程。每个SIU都有一个惟一的ID是由两部分组成:段ID和当地的ID。每段分配一个惟一的ID作为全球标识符在所有领域。段的段ID年代_我,在那里我= 0,1,…(r/l)−1,只是定义为l+ 2伊尔,在那里l当地的ID。当地的标签ID分配遵循长官二叉树。SIU的长度l被分配到1。siu的长度l/ 2,分别分配给2和3。图4展示了当地的分配过程在一段ID。注意,我们指定2l在每一段当地的id。

通过这种方式,所有在同一段siu被组织为一个完美的二叉树。SIU当地ID 1是这棵树的根节点,其中包含两个子SIU长度l分别为/ 2;所有叶节点1的长度。ID列表结构不仅在所有叶节点存储的ID谓词,但还存储识别标签,表明此谓词是否平等谓词。图5显示了一个段的级长二叉树图4。最左边的叶子节点图5显示了ID列表结构。我们可以很容易地确定满足谓词是否平等通过谓词对应的标签ID谓词。完美的二叉树在一段有很多高效的特性,这使得LCN-Index更高效的搜索操作。我们将在下一小节中介绍搜索和插入算法。

4.2。映射器的搜索操作

搜索操作用于有效地找到所有实时满足谓词为每个属性/值对来了。算法1显示搜索算法的细节。为每个属性/值对 ,在哪里一个是用来表示属性ID和值,搜索算法首先计算段ID使用吗

	输入:查询设置问,流年代
	步骤1:分区问进一批谓词集P。
	步骤2:构建间隔索引和基于多属性索引P。
	步骤3:Mapper和减速器上部署这些索引
	步骤4:为每个传入的元组t←流年代
	而t! =空做
(1)	搜索区间指数映射器;
(2)	合并所有映射器和输出满意的查询结果;
	P= LCN−Index.search (v); / /搜索LCN-Index v;

然后,该算法使用(2)来计算左边的单位长度SIU的当地ID。

基于完全二叉树的性质,我们可以简单地检查准确(k+ 1)siu重叠数据值。因此,这些搜索结果合并成ID列表(ksiu + 1)。我们可以简单地定位(k+ 1)siu当地ID单位长度除以2。搜索算法是有效和简单。我们加快搜索算法通过将所有复杂的浮动点转换成整数。当地ID的划分是由逻辑完成转变。索引的搜索算法是独立的谓语的数。

图6显示了一个示例输入值的搜索算法。我们的算法首先计算当地的单位长度SIU ID重叠。在这种情况下,它是年代₅随着k被设置为2。然后,我们计算剩下的本地idksiu。在这种情况下,年代₂和年代₁。最后,我们计算的搜索结果合并这三个siu所有ID列表(年代₅,年代₂,年代₁)。图7也确实包含验证结果P₁,P₂,P₃。

(一)

(b)

5。数据流查询处理

在本节中,我们展示了如何合并所有搜索结果LCN-Indexes对应不同的属性。在本节中,我们专注于减速器的合并算法。多属性索引可以应用于过程中间搜索结果合并。图2显示数据流查询流程的细节。对于每一个来流项目,我们把项目分成单独的属性/值对。每一对对应的关键属性包含在流。如图2,我们整合MapReduce编程模型与数据流处理,将每个流项的流程分为两个阶段:Map和Reduce。在映射阶段,不同的搜索键-值对LCN-Indexes和所有中间结果打乱减速器根据流标识,导致相同的流的所有中间结果项处理相同的减速器。在降低阶段,我们中间搜索的结果合并到减速器。给定一个流项目,保证结果的完整性,我们需要检索所有可能的谓词IDs刺伤的任何属性值映射器。为了实现这一目标,提出了有效的算法将谓词的结果合并到减速器。在本节中,我们专注于有效的合并算法在减少函数定义。在本文的其余部分中,我们假设LCN-Indexes的输入值是不同的搜索结果。通过洗牌计划MapReduce,所有中间搜索结果与相同的流ID可以派遣到相同的减速器。节5.1的计划中,我们将介绍多属性指数用于有效地合并所有中间搜索结果LCN-Index映射器。有效的合并算法的细节将在部分4.2。

5.1。指数在减速机的方案

最重要的两个方案在减少如下:(1)选择最常见的平等或不平等谓词作为触发器谓词;(2)建立多属性指数基于这些触发与查询谓词和映射这些谓词。更准确地说,给定一组的查询问流中包含的属性设置C的属性C可分为两类:(1)离散和(2)连续的。首先,我们选择所有谓词离散属性的谓词集。然后,我们集群所有谓词到根据属性不同,它的受欢迎程度。最后,通过使用多属性散列函数,我们根据这些谓词集建立索引。为每一个中间结果来自Mapper,合并会带来多属性的每个哈希表查找索引找到触发谓词。

我们考虑触发谓词定义为一起平等或不平等的谓词。一个触发器谓词由一对< id, pred定义>,在那里id是一个标识符,pred是一组e -质量或不平等谓词的两两不同的属性。发生的一组属性pred叫做散列的组合。让TP组访问谓词。为了测试这些谓词对传入的事件流项我们使用多属性散列函数来建立索引。每个索引的目的是检查触发谓词有一定的模式。更准确地说,一个多属性索引超过一组的谓词定义为一对<一个,h >,在那里一个是一组等式谓词和属性h是一个哈希函数将未来事件条目并返回触发器谓词。

5.2。减速器的合并算法

Reduce阶段负责合并所有中间的搜索结果映射器。减速器中的合并算法使用一组多属性索引谓词结果位向量,事件列表,和一个向量的引用查询集群列表,查询集群。合并算法中使用的数据结构是描绘在图8。多属性指数是用来计算组查询满足给定的输入映射器的搜索结果。我们建立多属性指数基于谓词的分配属性注册平等表达。等式谓词之间共享一个或多个查询选择插入多属性索引。我们称这些等式谓词触发谓词。一个触发器谓词是关联到一个列表的查询集群。触发一个等式谓词时,我们需要检查每个查询的查询集群与触发关联谓词。多属性的索引用于合并算法将在下一小节中介绍。谓词结果位向量用于记录所有谓词的结果。查询集群是用来检查所有满足查询共享相同的谓词。在降低阶段,我们首先建立多属性索引在减速器和部署它。然后,对于每个中间搜索结果来自映射器,我们检查其属性ID和搜索的多属性索引检查所有查询集群。如果所有在集群查询谓词的查询结果是真的,我们说这个查询的方法是匹配和输出它的ID。

图8为查询提供了一个详细描述查询集群拥有相同的平等谓词。一个查询集群是一个向量的集合查询结构。每个查询的查询结构组织如下:它包含所有谓词结果的集合,表示查询标识符。条目(我,j)查询的集群包含一个位向量引用我_th谓词的j_th查询在查询集群。如果所有位向量条目引用的列j是真的,我们说的吗j_th查询在查询集群是正确的。最重要的问题是如何从映射器合并所有中间结果。算法2提供的细节合并过程的属性/值对。如上所述,多属性的索引是建立基于离散属性的所有等式谓词。的离散属性/值对一个流项直接派往减速器节点根据其流ID。多属性的离散值对搜索索引来触发谓词检查。算法2显示所有谓词映射器的结果合并的细节。我们表示每个谓词搜索结果为一个事件e。合并算法每次执行一个新的中间搜索结果。首先,谓词位向量被初始化为“虚假的结果。“然后,合并算法开始一个两步过程。第一步使用多属性索引计算满足触发谓词,算法设置为true谓词中的所有相应的比特位向量。我们说的事件e满足一个查询问如果每个谓词的状态问触发事件后满意吗e过来了。因此,合并结果问题如下:给定一组谓词的搜索结果事件e和一组查询问,发现所有查询满足事件集。该算法数据结构描述在图6。回想一下,一个查询问由一个ID和一组定义谓词。一个事件的一个实例e。算法3显示了减少函数的整个过程。首先,我们使用谓词之间的关系查询和集群每个触发所有查询谓词。一个谓词也可能与引用的列表查询集群。我们说谓词是一个触发的所有查询谓词查询集群列表吗。我们保证集群列表中查询触发需要检查当且仅当是满意的。在集群列表,查询分为查询集群大小。其次,对于每一个即将到来的事件e,我们执行结果合并算法。结果合并算法首先检查标识符;如果它是第一个谓词流条目的搜索结果,我们就像图分配一个数据结构7对于这一新的流元组和初始化所有的位向量谓词为0。第三,对于当前触发谓词ID,我们检查所有相关的查询中查询集群。如果我们找到所有谓词的查询结果正确,然后我们将所有这些查询的ID添加到输出(算法4和5)。

	输入:流项IDid,所有满足谓词P
	输出:索引文件f
	如果bLoadIndex !然后
	区间指数我←LoadIndex (f)
	P←I.search(价值);/ /调用搜索算法来得到所有满足查询;

	输入:流项ID标识,所有满足谓词P
	输出:索引文件f
	如果!bLoadIndex然后
	多属性散列索引我←LoadIndex(f)
	P←I.search(值);/ /调用搜索算法来得到所有满足查询;

	输入:属性/值对
	使用方程(2)来计算年代_id;
	使用方程(3)来计算ID_l;
	如果ID_l! =零然后
	foreach每一层我从0 k做
	c= 2∗年代_id∗l+身份证_l;/ /计算全球的ID
	当前SIU;
	如果列表(c]! =零然后
	输出(列表(c]);
	ID l / = 2;

	输入:即将到来的事件e
	如果e是开始的一个流项然后
	P=scan_index(e)。;
	如果P为非空然后
	E=get_entry(P);
	添加IDe事件的列表l;
	ClearBitResult ();
	其他的
	set_bitResult(e);;
	如果find_id (e.ID)然后
	foreach查询问与E做
	insepect_result(问);
	如果所有谓词的结果是正确的然后
	输出的ID问;

本文补充思想开发的云数据管理、发布/订阅系统中,查询和数据流。

6.1。云数据管理

在云端(2,3)提出了一个数据管理系统史诗构建可伸缩的数据存储系统。然而,我们的工作与他们的不同,我们的工作着重于云流查询问题,大规模查询是连续的,而他们的工作(2,3)重点分析工作在云计算的大规模数据集。最近,存在一些云流处理工作,例如,(13,14),(13)试图把MapReduce和IBM的流处理系统年代。他们提出了推断,作为一个新的中间件支持MapReduce模型。在演绎,他们提供语言支持削减流处理数据流到MapReduce程序。然而,他们的工作与我们的不同。特别是,我们的工作着重于索引可伸缩的连续查询加速流的查询过程,而演绎关注简单的工作流切成MapReduce程序。文献[14)提出了一种新的处理框架支持大规模数据流在云中,而专注于如何将查询支持并行化,而不是索引这些扩展查询。

6.2。发布/订阅系统

发布/订阅系统是一个活跃的研究领域11,15]。订阅表达用户兴趣事件不断评估对出版物代表事件。数据格式的方法是有区别的,他们的过程和算法设计。普遍的方法是匹配基于出版的决心处理。一个布尔表达式使用两种类型的原语:∈和<谓词,和查询发布/订阅系统中往往是析取范式(DNF)或合取范式(CNF)的布尔表达式,它是不同于我们的查询表达式选择∗∗∗的地方。

6.3。数据流查询

每个最新的流记录,数据流查询模型遍历所有的连续查询来验证记录的键/值对。文献[7)旨在加快连接操作符为每个传入的流项;在他们的流系统,他们总是假定查询的数量不超过2000年,这是不切实际的用他们的方法解决云流查询问题。然而,一行索引方法在过去的几十年里已经提出的索引文本,图像,和微簇对随时查询和数据流聚类,例如,(12,16- - - - - -19]。特别是,(16,17,19)关注多维索引策略,12)重点是只在一个单一属性区间指数。然而,没有一个现有的工作考虑的问题为可伸缩的云流查询索引。我们的工作可以作为一个先锋工作在这个方向。

7所示。实验

在本节中,我们将进行广泛的合成和真实世界数据流实验评价指标框架的性能和可伸缩性云中的每个最新的流记录。我们的测试基础设施包括16个Hadoop机器来模拟云计算平台相连在一起。节点之间的通信带宽是1 Gbps。每台机器都有一个3.00 GHz Intel酷睿2处理器,4 g内存和500 g硬盘。机器运行Red Hat 5.2应用服务器操作系统。不同大小的云计算系统可以模拟由我们的基础设施。我们10进行模拟实验,从100个节点,1500个节点。每一次,100个节点被认为是添加到云计算系统。在我们的指标框架,使用一台机器扮演主人的角色和分派不同的云数据流的属性/值对。其他15个机器模拟100到1500个节点。

7.1。基准数据

为了测试的效率LCN-Index框架中,我们使用三个真实世界数据集来自互联网。表1列出了数据集的信息。特别是,股票数据集是来自股票分析网站(http://www.econ.yale.edu/shiller/data.htm),这是用来模拟云股票流监控应用程序。垃圾邮件检测和恶意URL检测数据集从应用程序级路由器爬到模拟云网络流量监控应用程序。我们所有的查询都使用Zip生成f分布,这是众所周知的适合在基于文本的搜索关键字受欢迎。与邮政f分布的流行我_th最受欢迎的谓词其地位成反比我,也就是说,p_我oc 1 /我^一个。这三个真实世界数据集的查询号码是10000000。


的名字	连续	查询	离散

股票数据分析	400年	10000000	200年
垃圾邮件检测	800年	10000000	210年
恶意网址检测	1200年	10000000	320年

7.2。基准的方法

比较的目的,我们实现一个分布式r - tree索引中描述(17]。我们使用“DistributeRTree”表示该指数。DistributeRTree,每个查询都作为一个多维矩阵和插入到DistributeRTree。通过网络DistributeRTree维护一个大r - tree。然而,DistributeRTree的搜索成本可能更高的流处理当我们插入更多的查询。因此,查询总数DistributeRTree小于我们的系统。

7.3。测量

将使用两个重要的测量。(1)时间成本。通过使用一个索引框架,集成了LCN-Index和MapReduce划分根据属性查询索引,LCN-Index应该实现更低的计算开销,而DistributeRTree是基于传统数据流处理过程的想法,这是比LCN-Index应该达到一个更高的成本。(2)可伸缩性。的框架LCN-Index查询组分为不同的谓词集根据属性,比DistributeRTree LCN-Index支持更多的可伸缩的查询。

7.4。实验结果

我们比较不同参数下的两种索引策略。例如,不同的查询号码n,不同的节点,不同属性、不同l查询,不同的宽度。除非特别提到,参数设置如下。默认查询号码设置为100000。默认节点号设置为100。

7.4.1。查询数量的影响

图9显示性能比较DistributeRTree指数策略在不同的现实世界中数据流的查询规模集。查询号码是最重要的参数来评估性能。通过比较这些数据集,我们LCN-Index总是优于DistributeRTree。查询规模扩大时,吞吐量DistributeRTree明显降低r - tree搜索成本的性质。在LCN-Index流项并行处理不同映射器,而在DistributeRTree,我们不能应用并行搜索算法,因为查询作为矩阵和节点随机分布的云。因此,很明显,LCN-Index将极大地支持大规模的连续查询。

(一)

(b)

7.4.2。属性的影响

云数据流查询问题,只LCN-Index索引平等或不平等的减速机与分配相关联的谓词属性,所以问题是离散属性和连续属性的影响。要回答这个问题,我们进行了一系列的实验,不同属性的数字。图7显示属性数量的影响。从结果中,我们可以观察到LCN-Index框架将降低当我们增加离散属性,因为我们需要做更多的索引扫描的合并算法减少阶段,而连续属性的数量不会影响LCN-Index的性能,因为我们LCN-Index绝对支持并行化。

7.4.3。查询宽度的影响

LCN-Index调查查询的宽度是否影响效率,我们比较LCN-Index DistributeRTree框架和一些著名的标准数据集。从图10,我们可以得出重要结论:(1)LCN-Index可以显著降低流查询成本。例如,在垃圾邮件检测数据流,当宽度= 7,LCN-Index需要487146 ms过程流项,而DistributeRTree需要1397197 ms。(2)当我们增加宽度 ,LCN-Index和DistributeRTree的查询成本增加,但成本比LCN-Index DistributeRTree增加更快。这是因为一个映射器的LCN-Index只保留查询谓词组属于同一属性,和增加宽度只影响减速器的合并算法。相比之下,随着宽度的增加,DistributeRTree成本上升更快,因为更多的节点分裂和部署在网络,这使得搜索算法更昂贵。

(一)

(b)

(c)

7.4.4。的影响l

在本部分中,我们比较的影响l在三个数据集。我们使用l在LCN-Index表示线段的长度。所有LCN-Indexes Mapper构建和部署。当我们增加l索引存储总成本降低。这是因为更多的谓词都存储在小塘。搜索时间增加l变得更大。这是因为当我们需要检查更多siu列表l增加。的米LE-Tree和GE-Tree方法的值被设置为30。从结果中,我们可以观察到:比DistributeRTree LCN-Index执行。例如,在Syn-10数据集,LE-Tree比DistributeRTree快近三倍。因此,我们可以安全地说,DistributeRTree框架相比,LCN-Index更适合云数据流查询。很明显,LCN-Index的性能,通过索引查询根据属性来支持并行化,将更加可伸缩比DistributeRTree简单分配网络中的r - tree进行处理。

8。结论

工业云安全是一个新的挑战。本文提出了一种新的弹性云数据分析系统,支持可伸缩的多维连续查询检查。在线数据分析框架中,我们提出了一种新的索引模式有效地处理每个传入的在线数据元组。数据分析的关键理念MapReduce框架集成模型和工业通信元组过滤过程。实验合成和真实世界工业流显示我们的在线数据分析框架是高效、弹性、可伸缩的。

数据可用性

没有数据被用来支持本研究。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的共同基金,国家自然科学基金(批准号U1936111)。

引用

d . Abouzeid k Bajda-Pawlikowski, a . s . Hadoopdb”架构的混合地图减少和DBMS技术分析工作,”VLDB学报2009年8月,里昂,法国,。视图:谷歌学术搜索
h . s . j . Wang Wu高,j . Li和b .下巴Oo,“索引多维数据在云系统,”《SIGMOD美国印第安纳波利斯,在2010年6月。视图:谷歌学术搜索
吴,d .江,b .下巴Ooi K.-L。吴”,高效云数据处理、基于b -树索引”《VLDB2010年9月,新加坡,。视图:谷歌学术搜索
j·迪恩和s . g . Mapreduce“简化数据处理大型集群”《OSDI美国,旧金山,CA, 2004年10月。视图:谷歌学术搜索
中国。时,b·詹金斯和j .周”范围:简单和高效的大规模并行处理的数据集,”《VLDB2008年8月,奥克兰,新西兰。视图:谷歌学术搜索
r . Avnur j . h .漩涡,“不断自适应查询处理,”《SIGMOD2000年5月,美国达拉斯,TX。视图:谷歌学术搜索
美国先生和j·w·Streamon“流查询处理,自适应引擎”《SIGMOD2004年6月,巴黎,法国,。视图:谷歌学术搜索
j·w·克里斯Olston和j .江”,自适应滤波器对分布式数据流,连续查询的”《SIGMOD美国圣地亚哥CA, 2003年6月。视图:谷歌学术搜索
j . Chen d·j·德威特f .田和y . Wang”Niagracq:一个可伸缩的网络数据库、连续查询系统”《SIGMOD2000年5月,美国达拉斯,TX。视图:谷歌学术搜索
a . r .刘甄和美国的高”算法算法共享数据流系统的筛选评价,”《SIGMOD温哥华,加拿大,2008年6月。视图:谷歌学术搜索
皮鞭和h·莫利纳,“索引布尔表达式,”《VLDB2009年8月,里昂,法国,。视图:谷歌学术搜索
k·l·吴和p . s . Yu“区间查询索引有效的流处理,”《CIKM美国,华盛顿特区,2004年11月。视图:谷歌学术搜索
K.-L。Vibhore Kumar和h·安德拉德的推断:在十字路口地图减少和流处理,”发债公司的诉讼2010年3月,瑞士洛桑。视图:谷歌学术搜索
m . p . Vincenzo Gulisano和r . Jimenez-Peris作品“Streamcloud:大规模数据流系统,”《ICDCS2010年6月,意大利热那亚。视图:谷歌学术搜索
a . Machanavajjhala e v字形,m . Garofalakis和j . Shanmugasundaram“可伸缩排名发布/订阅”《VLDB2008年8月,奥克兰,新西兰。视图:谷歌学术搜索
p .彼得m .髌骨、p .泽兹拉和M-tree,”一个高效的访问方法度量空间的相似性搜索,”《VLDB1997年8月,雅典,希腊,。视图:谷歌学术搜索
a .格特曼“r - tree:空间搜索的动态索引结构,”《SIGMOD美国,波士顿,MA, 1984年6月。视图:谷歌学术搜索
t . Sellis c . n . Roussopoulos和c·凯利斯,”r +树:多维对象,动态指数”《VLDB1997年8月,雅典,希腊,。视图:谷歌学术搜索
t . Sellis: Roussopoulos和c·凯利斯,”r∗树:一个高效、可靠的访问点和矩形的方法,”《SIGMOD美国,新泽西州大西洋城,1990年5月。视图:谷歌学术搜索

计算机网络和通讯》杂志上

文摘

1。介绍

2。LCN-Index框架

2.1。LCN-Index的Map函数

2.2。LCN-Index Reduce函数

3所示。的工作流LCN-Index框架

3.1。体系结构

3.2。工作流

4所示。索引策略

4.1。LCN-Index的结构

4.2。映射器的搜索操作

5。数据流查询处理

5.1。指数在减速机的方案

5.2。减速器的合并算法

6.1。云数据管理

6.2。发布/订阅系统

6.3。数据流查询

7所示。实验

7.1。基准数据

7.2。基准的方法

7.3。测量

7.4。实验结果

7.4.1。查询数量的影响

7.4.2。属性的影响

7.4.3。查询宽度的影响

7.4.4。的影响l

8。结论

数据可用性

的利益冲突

确认

引用

版权

相关文章

相关文章

计算机网络和通讯》杂志上

一种有效的数据分析框架进行网络安全处理

文摘

1。介绍

2。LCN-Index框架

2.1。LCN-Index的Map函数

2.2。LCN-Index Reduce函数

3所示。的工作流LCN-Index框架

3.1。体系结构

3.2。工作流

4所示。索引策略

4.1。LCN-Index的结构

4.2。映射器的搜索操作

5。数据流查询处理

5.1。指数在减速机的方案

5.2。减速器的合并算法

6。相关工作

6.1。云数据管理

6.2。发布/订阅系统

6.3。数据流查询

7所示。实验

7.1。基准数据

7.2。基准的方法

7.3。测量

7.4。实验结果

7.4.1。查询数量的影响

7.4.2。属性的影响

7.4.3。查询宽度的影响

7.4.4。的影响l

8。结论

数据可用性

的利益冲突

确认

引用

版权

相关文章

更多相关文章

更多相关文章

相关文章