性能评价小说Hadoop和火花的图像检索系统巨大的集合

文摘

一种新型的图像检索系统,提出了基于Hadoop和火花,。管理和从大数据中提取信息是一个具有挑战性的和基本的任务。由于这些原因,该系统具有可扩展性,它被设计成能够管理的小型集合图像以及巨大的图像集合。Hadoop和火花是基于MapReduce框架,但他们有不同的特点。提出系统的目的是利用这两种技术。提出系统的性能评估和分析的计算成本为了理解上下文可以成功地使用它。实验结果表明,该系统是有效的为小型和巨大的集合。

1。介绍

由于可用的戏剧性增长图像和视频和社交网络的传播,监控摄像头,和卫星图像,一个重要的挑战是如何有效地管理这些数据的计算和存储需求(1]。许多核心处理器和多处理器系统的趋势是被开发应用程序的复杂性,有效地利用他们(2]。有很多方法可以从集合中检索图像。在医疗行业,例如,最近的研究已经确定了CBIR(基于内容的图像检索)系统一个非常有效的技术。在这些系统中,输入是由图像和输出包含在数据库中包含的所有类似的图像(3,4]。CBIR系统通常通过三个步骤操作:(1)提取的特征表示图像集合中(例如,小波变换和伽柏过滤器银行);(2)提取的特征代表了查询图像;(3)比较查询图像与图像的收集利用特征提取。通常,这些技术已被证明是随着图像数量的增长不足。许多研究表明使用MapReduce (5然而,技术可以大大加快图像处理(6,7虽然Hadoop有利于实现可伸缩性(8]。这些性能改进必须支付的数据访问模式的约束,RAM共享刚性框架,主要设计和算法。此外,一组杂交过程的原始MapReduce框架(9)可以有效地索引管道跨分布式集群规模的机器(10- - - - - -12]。目的来填补这一缺口之间复杂的现代架构和新的图像处理算法这项工作旨在产生一个高性能的图像检索系统能够隐藏软件复杂性的研究人员,让他们能够把精力集中在设计创新的图像处理算法。该系统嵌入一个特性来证明其有效性,还有许多其他特性可以嵌入因为系统考虑为一个抽象对象的特性。系统中使用的技术是选择满足每个特定的任务的需求。评估的有效性提出了系统性能,计算成本,评估不同的集合的大小。剩下的纸是组织如下。节2MapReduce框架解释说,在部分3该系统使用的技术。系统的架构描述的部分4。节5实验结果报告,结论是在部分6。

2。MapReduce

MapReduce框架引入了由谷歌(13为了让一个分布式处理服务器集群。尽管传统的分布式处理框架,数据推到属于集群的节点,负责加工、MapReduce系统的方法是不同的10]。在这种情况下,数据分布在节点和任务推到存储数据的特定节点。MapReduce框架由两个步骤组成:Map和Reduce,整个框架是基于关键的概念,值对(14]。Map函数,也称为映射器,接收对作为输出作为输入,并生成一个文件列表: 自从键映射器不能发出独特,Reduce函数,称为减速器,群体的价值观完全为每一个独特的关键: 根据MapReduce框架的实现,减速机也可以产生多个键,值对作为输出。有很多优势在使用MapReduce框架相关的数据存储和处理方面。实际上,文件系统块复制节点,确保这样一个伟大的宽容失败的节点。此外,该框架管理块为了减少网络数据流量。关于表演,框架的节点分配任务不繁忙,以这种方式平衡节点之间的负载。最后,该框架是可伸缩集群中的节点的数量只取决于特定情况下的使用。在图像检索中,MapReduce框架可以使用主要在两个方面:单一图像处理(15,16)或图像集合处理(5]。尽管它甚至可以结合这两种方法,在拟议的架构已经采用第二种方法。

3所示。技术

该系统主要基于两种技术,Hadoop和火花,在这一节中描述。虽然这些技术都是基于MapReduce框架,为许多方面他们非常不同,他们都是用于拟议的系统。为了利用他们的潜力,这两种技术被用在系统的不同部分。Hadoop和火花是部分中描述3所示。1和3所示。2,分别。

3.1。Apache: Hadoop

Hadoop,由Apache软件基金会,是一个开放源代码框架由Doug切割和迈克Cafarella 2005年(18]。其目的是提供一个框架,用于分布式存储和分布式处理。由Hadoop框架的主要模块如下:(1)Hadoop常见:此模块包含库和工具。(2)Hadoop分布式文件系统(HDFS):原来这是Google文件系统。这个模块是一个分布式文件系统作为分布式存储的数据;此外,它提供了一个访问数据和高吞吐量。(3)Hadoop纱(MRv2):此模块负责管理集群的工作调度和资源。(4)Hadoop MapReduce:原来谷歌的MapReduce,这个模块是一个系统,根据纱,并行处理的数据。有许多有关Hadoop项目,如Mahout、蜂巢,Hbase和火花。的一个主要方面描述Hadoop的HDFS高容错硬件故障。事实上,它能够自动处理和解决这些事件。此外,HDFS,属于集群的节点之间的交互,来管理数据,例如,重新平衡他们(19,20.]。处理的数据存储在HDFS上执行的MapReduce框架。尽管Hadoop是主要是在Java和C语言编写的,它是由许多其他编程语言访问。MapReduce框架允许分裂属于集群的节点上的任务必须完成。Hadoop的主要缺点是缺乏执行有效地实时任务。然而,这不是一个重要的限制,因为这些特定方面可以使用其他技术。

3.2。Apache:火花

Hadoop,火花是Apache软件基金会的项目,最初由AMPLab加州大学伯克利分校。关于表演,引发的主要优势是它优于Hadoop;确实是快100倍的内存磁盘操作的操作和快10倍。火花采用MapReduce范式,它可以通过使用不同的API编程语言(比如Scala、Java和Python)。系统的核心是由一组强大的库,目前包括parkSQL,引发流,MLlib, GraphX。火花分为各种独立层每一个与特定的职责:(1)Scala解释器:它负责创建一个操作符图通过抽样(即。职责驱动的设计)和应用操作符。(2)DAG调度程序:操作符图分为阶段。每一个阶段的任务是由基于输入数据的分区。DAG调度程序管道运营商工作优化图。(3)任务调度器通过集群管理器:它激活的任务。(4)工人:一个奴隶(即执行任务。,the machine on which the Executor program runs).火花可以运行Hadoop集群纱,它能够访问HDFS;这允许一个简单、高效的Hadoop和火花在同一个系统的集成。

4所示。建议的体系结构的系统

本文的目的是提出一个系统的体系结构原型能够管理海量的图像和深入分析其性能的计算成本,而不是回忆,精度,检索速度,等等,因为在这种情况下这些方面并不重要。该系统能够管理海量的图像由于其可伸缩性。它是基于两个重要的技术的使用大数据背景下:Hadoop和火花;他们使用MapReduce框架。在前面的部分中,MapReduce框架(部分2)以及Hadoop(部分3所示。1)和火花(部分3所示。2)是描述。

大致说来,系统由客户端和服务器端(见图1)。客户端允许用户和系统之间的交互的web页面。事实上,它使用用户提供的查询图像和由系统来显示结果。处理和高计算成本的所有操作都在服务器端执行。因此需要优化和有效地设计为了管理巨大的图像集合。系统的体系结构,只考虑到服务器端,可以认为是由两个主要部分:使用索引阶段,另一个用于检索阶段,如图1。然而,他们都是基于一个Hadoop文件系统层。索引和检索阶段阶段有不同的要求,然后分别设计。索引阶段需要写索引文件到文件系统,还必须处理所有图片的集合。Hadoop成功以最优的方式来满足这些需求。另一方面,检索阶段应该尽可能快;然后应该做的操作在内存中;由于这些原因引发比Hadoop任务。结合这两种技术的系统可以利用其积极的方面,尽量减少负面的影响表现。第一部分(即。, the indexing phase), it makes use of the Hadoop technology and it stores the result (i.e., the index files) in the Hadoop file system. Based on the HIPI project [5),一个图像列表分配给每个映射器和处理活动的结果与从图像中提取特征索引文件(21]。一旦所有的图片都被处理,减速器合并创建的索引文件映射器并生成最终的索引文件。显然,计算成本,表示随着时间的推移,这个操作在哪里(我) 的总时间索引阶段;(2) 仅是时间相关的处理图像的集合;这是由时间组成的从每一个花了映射器;(3) 从系统所花费的时间,严格相关建议的体系结构(例如,管理的映射器和减速器上的读/写操作Hadoop文件系统)。在本文中,我们集中我们的注意力。系统的第二部分(见图1)负责检索阶段是基于火花技术,但它利用Hadoop文件系统读取索引文件。系统执行使用一个图像作为查询检索操作。从索引文件执行所需的信息与查询图像加载到内存和分配到每个映射器的图像列表,与他们的特性,计算相似性与查询图像。这些任务,年底减速器计算最终的排名基于查询图像和图像之间的相似度计算在索引文件中。和前面的系统的一部分,计算成本,及时表达, 在哪里(我) 的总时间检索阶段;(2) 只有比较相关的时间集合的查询图像的图像;这是由时间组成的从每一个花了映射器;(3) 从系统所花费的时间,严格相关建议的体系结构(例如,管理的映射器和减速器,阅读Hadoop文件系统上的索引文件,进行排名,和处理查询图像)。是很重要的分析计算成本的最后一个组件。最后,在这种背景下的颜色特性及其比较指标,描述和使用22,23),被认为是。这不是一个限制,因为可以部署在任何功能系统,将它们添加到相同的索引文件或创建一个新的索引文件的,这取决于特定情况下的使用。显然,当图像属于集合的排名是基于更多特性,储存成相同的索引文件更有效率。否则,如果排名是基于一个特性,该系统更高效的索引文件只存储时的特性。此外,计算每个图像的处理成本取决于哪些功能,但这并不影响本文的表演评价对象。事实上,本文介绍的计算成本的系统分析。

5。实验结果

节4系统的体系结构;此外方面,本文分析了突出显示。说在前面的部分中,本文的目的是探讨引入的计算成本系统两个部分,第一个基于Hadoop,索引相关操作,并根据火花,第二个相关检索操作。节5。1深感描述来解释执行的实验报告的表演部分5。2。

5.1。上下文的实验

虽然使用的技术系统,描述的部分3可伸缩的,被设计成用于集群的机器,实验不进行集群,但在单个机器上。我们的目标是分析计算引入的成本提出了系统为了理解其局限性的图像检索方案。我们的分析并非集中在技术工作或系统在效率方面的总体表现或检索率;事实上只是颜色特性被认为是。分析是集中在引入的复杂性提出了系统背景下,沉重的计算成本,如图像检索。操作相关的索引执行阶段和相关检索阶段通过使用不同的集合与不断增长的规模。特别是集合组成的100,1 K, 10 K, 100 K, 500 K的图像。在下一节中描述的结果和表现是广泛。

5.2。表演

性能分析的结果提出系统的介绍了表1和2。特别是,关于索引结果阶段,基于Hadoop,展示在表1和这些有关检索阶段,提出了基于火花,在桌子上2。我们的目标是调查和了解该系统的行为与不同大小的集合。在我们的分析计算成本,严格相关特征提取和特征比较,是孤立的。这些方面影响演出的检索速度,精度和召回,但不计算成本的分析工作。特征提取算法和特征比较算法相对简单,然后计算成本很低。这个功能已经选择了这个原因,因为这是最坏的情况下使用的系统。粗略地说,如果该系统是有效的在这种情况下,使用更复杂的功能,换句话说,更高的计算成本,更为方便。


数量的图片	索引时间,	时间来处理所有图片,	体系结构时间,	的百分比建筑时间

One hundred.	29日	28	1	3.45%
1000年	285年	280年	5	1.75%
10000年	2820年	2800年	20.	0.71%
100000年	28297年	28000年	297年	1.05%
500000年	165661年	140000年	25661年	15.49%


数量的图片	检索时间,	时间来处理所有图片,	体系结构时间,	的百分比建筑时间

One hundred.	0.559	0.245	0.314	56.17%
1000年	0.625	0.262	0.363	58.08%
10000年	1.140	0.367	0.773	67.81%
100000年	4.603	1.472	3.131	68.02%
500000年	22.635	9.230	13.405	59.22%

表1显示计算成本时,由于系统的架构变得相关的收集是由500 K图像。这也突出显示在图中所示的图2。自将节点添加到集群的影响只在图像处理时间,这方面必须面对当收集大小是500 K或更高。重要的是要注意到的建筑时间百分比与时间来处理图像,像之前说的,很小的选择功能。在任何情况下,一个可能的解决方案是将收集为了减少建筑的影响。

关于检索阶段,架构的百分比时间可比任何集合大小,如图形如图所示3。这就是相关流程查询图像和阅读时间的索引文件Hadoop文件系统,并把它写进内存。虽然这个操作可以开发更高效的实现,这是一个必要的操作,以利用引发的技术。例如,索引文件可以加载到内存只有一次当应用程序启动时,或者当比较方法。利用这一技术可以将节点添加到集群,以减少所需的时间,使之间的对比查询图像和图像索引文件。这方面变得比较时基本算法是复杂的检索率最大化的表现。总结,结果表明,这两个阶段,该系统可以有效地使用小的集合(例如,100张图片)以及巨大的集合(例如,500 K图像),即使选择特性计算成本很低。显然,建筑时间减少的影响更加复杂,高效,功能是用来表示图像集合中。

在图4索引和检索时间之间的比例,对集合大小,显示。这是图像检索系统的一个重要方面,因为它应该尽可能高。实际上,因为索引时间种植以及集合大小的增长,检索时间应该有界为了不惹恼用户。此外,索引阶段只执行一次,执行检索阶段更加倍。这个比例,提出系统,系统获得的价值高于价值,仅基于Hadoop,提出在17]。图5是指一组由160 K的图片,和的最大值比当集群由30节点。同样,在这种情况下,比低于比提出系统的同一集合的大小,如图4,尽管该系统已经在单个机器上测试;这意味着比率可能会增加,如果节点添加到集群中。这表明结合Hadoop和火花的图像检索系统,在该系统,可以提高整个系统的效率。

6。结论

在这工作一个系统来管理海量的图像,基于MapReduce框架,提出了。使用的技术,Hadoop和火花,使系统完全可伸缩和降低计算成本比例到集群中的节点。Hadoop已经使用索引阶段,而火花被用于检索阶段。的表演,计算成本,而不是在检索速度方面,评估。一个相对便宜的特性的计算成本,对于算法的提取和比较,一直采用以分析最坏的情况下。此外,表演已经评估通过使用集合组成的100人,1 K, 10 K, 100 K, 500 K图像。关于索引阶段,结果表明,建筑的时间百分比很低的异常由500 K的图像集合。这不是一个限制,因为这个比例减少当使用更复杂的功能;而且它可以减少分裂成更小的subcollections集合。关于检索阶段,另一方面,建筑的时间百分比相当恒定的所有集合,但可以减少和更高效的实现。 Future work should be focused on improving these two critical aspects and on testing the system behaviour on a cluster with a variable number of nodes. Finally, the performances show that the system is efficient for small collections (e.g.,100张图片)以及巨大的集合(例如,500 K图像),即使是一个简单的特性。此外,结果表明,提出的效率系统,基于两种技术的组合(即。Hadoop和火花),高于系统只基于Hadoop的效率。

利益冲突

作者宣称没有利益冲突有关的出版。

引用

C.-W。蔡,张炳扬。赖,H.-C。曹国伟,a . v . Vasilakos“大数据分析:一项调查,”《大数据,卷2,不。1,2015。视图:出版商的网站|谷歌学术搜索
b .白色t .叶、j·林和l·戴维斯,“网络级计算机视觉对多媒体数据挖掘使用mapreduce,”学报第十届国际研讨会在多媒体数据挖掘(MDMKDD 10)页,9:1-9:10 ACM,华盛顿特区,2010年7月美国。视图:出版商的网站|谷歌学术搜索
s . Jai-Andaloussi a . Elabdouli a . Chaffai n . Madrane和a . Sekkaki”医疗使用Hadoop框架,基于内容的图像检索”诉讼20电信国际会议(ICT的13)摩洛哥卡萨布兰卡,页1 - 5、IEEE, 2013年5月。视图:出版商的网站|谷歌学术搜索
美国方、r . Wong和a . Vasilakos”加速pso群搜索特征选择数据流挖掘大数据,”IEEE服务计算,2015年。视图:出版商的网站|谷歌学术搜索
刘小抒情曲,j·劳伦斯,l, c·斯威尼Hipi-hadoop图像处理界面,http://hipi.cs.virginia.edu/about.html。
d·莫伊兹d Shestakov、g . Gudmundsson和l . Amsaleg“索引和搜索100图像使用映射-规约模式”学报》第三届ACM国际多媒体检索会议上(13)美国德克萨斯州,页17-24,达拉斯,2013年4月。视图:出版商的网站|谷歌学术搜索
l .周n, l ., a . Vasilakos和s。杨”,上下文感知中间件在异构网络多媒体服务,“IEEE智能系统,25卷,不。2,40-47,2010页。视图:出版商的网站|谷歌学术搜索
y燕和l .黄”大规模图像处理研究云”学报》第五届国际会议上云计算、网格,云计算和虚拟化(14)威尼斯,意大利,2014年5月。视图:谷歌学术搜索
m . h .歌女,“云hadoop map降低遥感图像分析,“新兴的趋势在计算和信息科学杂志》上,3卷,不。4、637 - 644年,2012页。视图:谷歌学术搜索
j·s·海尔、美国Samangooei和p h·刘易斯,“实际可伸缩图像分析和索引使用Hadoop,”多媒体工具和应用程序,卷71,不。3、1215 - 1248年,2014页。视图:出版商的网站|谷歌学术搜索
d . Dahiphale r . Karve a . v . Vasilakos et al .,”一个高级mapreduce:云mapreduce,增强和应用,“IEEE网络和服务管理,11卷,不。1,第115 - 101页,2014。视图:出版商的网站|谷歌学术搜索
李z, a . v . Vasilakos, g .西蒙和w .你,”信息为中心的网络:研究的挑战和机遇。”网络和计算机应用》杂志上52卷,1 - 10,2015页。视图:出版商的网站|谷歌学术搜索
j·迪恩和美国格玛沃特,“Mapreduce:简化数据处理大型集群,”ACM的通信,51卷,不。1,第113 - 107页,2008。视图:出版商的网站|谷歌学术搜索
n . k . Alham m . Li y . Liu和美国哈穆德,“MapReduce-based分布式SVM算法自动图像标注,“计算机和数学与应用程序,卷62,不。7,2801 - 2811年,2011页。视图:出版商的网站|谷歌学术搜索
山本m和k金子,”并行图像数据库处理mapreduce和绩效评估在伪distribuited模式中,“国际电子商务研究杂志》上,3卷,不。2、2012。视图:出版商的网站|谷歌学术搜索
s . m . Banaei h·k·穆贾达姆,“Hadoop和它的作用在现代图像处理”,开放的海洋科学杂志》上,4卷,不。4、239 - 245年,2014页。视图:出版商的网站|谷歌学术搜索
d .阴和刘“基于内容的图像基于Hadoop重审,”数学问题在工程ID 684615条,卷。2013年,7页,2013。视图:出版商的网站|谷歌学术搜索
h . Karau学习火花:闪电般的大数据分析O ' reilly Media,塞瓦斯托波尔,加州,美国,2015年。
a·谢诺Hadoop解释Packt出版,2014年。
t .白色,Hadoop:明确的指南O ' reilly, 2012年。
h . Kocakulak和t . t . Temizel hadoop弹道图像分析和识别,解决方案”《国际会议上手持电脑的高性能计算和仿真(11)IEEE,页836 - 842年,伊斯坦布尔,土耳其,2011年7月。视图:出版商的网站|谷歌学术搜索
l . Costantini p .悉l . Capodiferro a .内里,”拉盖尔高斯分析基于颜色纹理的图像检索,”小波应用在工业处理七世卷,7535学报学报2010年美国,加州圣何塞。视图:出版商的网站|谷歌学术搜索
l . Capodiferro l . Costantini f . Mangiatordi, e . Pallotti“SVM对历史运动视频分类,”学报第五届国际研讨会上通信控制和信号处理(ISCCSP 12),页1 - 4,罗马,意大利,2012年5月。视图:出版商的网站|谷歌学术搜索

多媒体的发展

文摘