JS 杂志上的传感器 1687 - 7268 1687 - 725 x Hindawi出版公司 10.1155 / 2015/834217 834217年 研究文章 可伸缩的架构和实现传感器数据存储和使用云计算和大数据技术分析系统 一位 Galip Hallac 伊丽 Karakus Betul 斯坦 Sergiu丹 计算机工程系 Firat大学 23100年埃拉泽 土耳其 firat.edu.tr 2015年 30. 3 2015年 2015年 06 02 2015年 20. 02 2015年 30. 3 2015年 2015年 版权©2015 Galip艾登et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

传感器正变得无处不在。从几乎任何类型的工业应用到智能汽车、智能城市的应用程序,和医疗应用程序中,我们看到一个稳定增长的使用各种类型的传感器。增加的速度由这些传感器产生的数据量更戏剧性的因为传感器通常持续生产数据。就这些数据存储以供将来参考的关键要分析和寻找有价值的信息,如故障诊断信息。在本文中,我们描述一个可伸缩的分布式体系结构的传感器数据收集、存储和分析。系统使用多个开放源代码技术和运行在一个虚拟服务器集群。我们使用GPS传感器数据源和运行机器学习算法进行数据分析。

1。介绍

传感器通常用于测量和报告的一些性质的环境安装,如温度、压力、湿度、辐射,或天然气的水平。传统上这些测量收集并存储在一个数据存储,然后找到任何特别的处理情况。然而在这种情况下,像智能城市应用大量的传感器安装、存档和处理的数据量成为一个重要的问题。因为当数据的体积超过几个g的传统关系数据库不支持这样的卷或面临的性能问题(见[ 1)比较的数据库大小限制)。存储和查询非常大量的数据需要额外的资源;有时为此数据库集群安装。然而存储和检索并不是唯一的问题;真正的瓶颈是能够分析大数据量和提取有用信息,如系统故障和诊断信息。

另外近年来更要求应用程序正在开发中。传感器是在关键任务应用程序真正的或非实时干预。例如,在某些情况下,预计从传感器应用程序检测系统故障之前发生。

传统的数据存储和分析方法不能满足预期的新类型的传感器应用领域的体积和速度数据以前所未有的速度增长。结果,就必须适应新技术,即大数据技术,能够应对这些问题。

本文概述了小说的体系结构和实现,分布式的、可伸缩的传感器数据存储和分析系统,基于现代云计算和大数据技术。系统使用开源技术来提供端到端传感器数据生命周期管理和分析工具。

2。背景、相关的概念和技术 2.1。传感器、物联网,NoSQL

到处都是传感器数据的大小和种类他们生产快速增长。连续,新概念正在成为传感器的类型和使用稳步扩大。例如,统计数据显示,在互联网上的东西远比在互联网上的用户数量( 2]。这个推理定义了物联网(物联网)随着互联网有关的事情。在物联网“东西”这个词,第一次使用1999年由阿什顿( 3),是一种愿景,包括物理对象。这些对象,收集信息并将其发送到网络自主,RFID标签,传感器、GPS、相机和其他设备。物联网和互联网之间的联系使人与人之间的沟通和对象,对象之间,如wi - fi和人们之间自己连接,RFID, GPRS, DSL,局域网和3 g。这些网络生成大量的数据,难以与传统的数据库技术存储和分析。

物联网使人们之间相互作用、对象和网络通过远程传感器。传感器设备,它可以监控温度、湿度、压力、噪声水平,和照明条件和检测速度,位置和大小的一个对象( 4]。传感器技术最近已经成为一个蓬勃发展的领域包括许多工业、医疗保健、和消费应用程序(如家庭安全系统、工业过程监控、医疗设备、空调系统、智能洗衣机、汽车安全气囊、手机、和车辆跟踪系统。

由于传感器技术的飞速发展,传感器和传感器数据的数量的数量已经增加了难以置信的利率。处理和分析这样的大数据需要巨大的计算和存储成本与传统的SQL数据库。因此,传感器数据存储平台解决方案的可伸缩性和可用性需求导致NoSQL数据库的使用,能够有效地分配数据在许多服务器和动态添加新属性数据记录( 5]。

NoSQL数据库,主要是开源的,可以分为以下类别。

键值存储。这些数据库系统存储索引的键值。这类的例子 复述,、项目 伏地魔, Riak,日本内阁。

文档存储。这些数据库系统存储和组织文件的集合,其中每个文档都指定了一个惟一的键。这类的例子 Amazon SimpleDBMongoDB, CouchDB。

宽栏商店。这些数据库系统,也称为扩展记录存储,存储数据表的可扩展的记录,可以跨多个节点分区的垂直和水平。这一类的例子有HBase,卡桑德拉,HyperTable。

键-值等不同类别的NoSQL数据库、文档,和宽栏商店,提供高可用性、性能和可伸缩性大数据。文献[ 6)提出了双层架构与数据模型和替代移动web映射解决方案使用CouchDB的NoSQL数据库,可以在几乎所有的操作系统。

et al .(范德维恩准备研究 7]讨论了可能性使用NoSQL数据库如MongoDB和卡桑德拉在大规模传感器网络系统。结果表明,尽管卡桑德拉是最好的选择对于大型关键传感器应用,MongoDB的最佳选择是一个小型或中型的非关键传感器应用程序。另一方面,MongoDB有温和的性能在使用虚拟化;相比之下,卡桑德拉的读性能严重影响虚拟化。

2.2。大数据

在大量使用传感器的结果在大容量的数据存储和处理。数据是有价值的信息提取和使用。信息提取需要工具和算法来识别有用的信息,如故障信息或系统诊断信息收集的数据从传感器中深埋。可以使用数据挖掘和机器学习等任务。然而大数据分析需要非传统的方法,统称为大数据。

的名字是大数据的集合理论,算法和框架,处理非常大量的数据的存储和分析。换句话说“大数据”是一个术语成熟随着时间的推移,大量的数据难以储存,管理,使用传统的数据库和软件技术和分析。近年来,大数据分析已经成为最受欢迎的主题在这世界,吸引了学术界和业界人士的兴趣。规模的快速增长,各种数据和速度力量开发人员构建新平台来管理这种极端大小的信息。国际数据公司(IDC)称,数字宇宙中数据的总量将在2020年达到35 zb 8]。IEEE Xplore指出,“在2014年,最受欢迎的搜索和下载IEEE Xplore是:大数据,数据挖掘、云计算、物联网、网络安全、智能电网和明年创无线(5克)”( 9]。

大数据有很多挑战等几个方面不同,体积,速度,准确性,和价值。品种是指等不同形式的非结构化数据信息,社交媒体对话,视频和照片;指的是大量的数据量;速度是指以多快的速度数据生成和速度需要分析;真实性指的是数据的可信度;价值,最重要的V大数据,指的是价值的数据存储在不同的组织 10]。为了促进更好的理解大数据挑战5 v,描述图 1显示了不同类别对大数据进行分类。

大数据分类(基于[ 52])。

在大数据的类别分类,大数据地图可以在七个方面:(i)数据来源,(2)数据类型,(iii)内容格式,(iv)数据存储,(v)分析类型,(vi)基础设施和(七)处理框架。

数据来源包括以下几点:(一)人为的数据从Facebook和Twitter等社交媒体数据或短信、互联网搜索,博客,评论,和个人文件;(b)业务事务数据,如银行记录、信用卡、商业交易,和医疗记录;(c)从物联网机器生成的数据如家庭自动化系统移动设备和计算机系统日志;(d)各种类型的传感器,如流量传感器、湿度传感器、和工业传感器。

2.3。Hadoop MapReduce和

来自网络的数据量、传感器、卫星,和许多其他来源克服了传统的数据分析方法,为新类型的MapReduce编程模型等。2004年,谷歌发布了MapReduce文献[ 11),展示了一种新型的分布式编程模型,便于高性能并行程序运行在大数据使用硬件。基本上MapReduce程序由两个主要模块,地图和还原剂,用户定义的项目由使用MapReduce API实现。因此MapReduce工作是由几个过程,如分裂和分发数据,映射和减少代码,结果写入到分布式文件系统。有时使用MapReduce分析数据可能需要运行不止一项工作。工作可以是相互独立的,也可能是链接对于更复杂的场景。

MapReduce范式效果如图 2:MapReduce工作由一个主控制节点和分裂成两个函数调用Map和Reduce。Map函数将输入数据划分为一组键值对,每个地图的输出任务是按他们的关键。Reduce函数合并成最终结果的值。

Map和Reduce步骤的概述。

MapReduce,谷歌的大数据处理模式,已经在开源项目中实现像Hadoop 12]。Hadoop一直是最受欢迎的MapReduce实现和使用许多项目从大数据行业的所有领域 13, 14]。所谓的Hadoop生态系统还提供了许多其他大数据工具比如Hadoop分布式文件系统( 15),用于存储数据集群,猪 16),一个引擎对Hadoop并行数据流执行,HBase [ 17),谷歌的大桌子像非关系分布式数据库,蜂巢( 18),在Hadoop数据仓库软件和数据分析软件像Mahout 19]。

Hadoop MapReduce框架的主要优点是可伸缩性、成本效率、灵活性、速度、和韧性失败( 20.]。另一方面,Hadoop并不完全支持复杂的迭代算法进行机器学习和在线处理。

其他MapReduce-like系统是Apache火花和鲨鱼 21],HaLoop [ 22),和捻线机 23]。这些系统提供更好的支持某些类型的迭代统计和复杂的算法在MapReduce-like编程模型,但仍缺乏大多数关系数据库系统的数据管理功能 24]。通常这些系统还利用以下几点:(1)与功能和并行编程语言功能比如Scala、Java、Python或;(2)NoSQL存储;(3)MapReduce-based框架( 25]。

Hadoop使用Hadoop分布式文件系统(HDFS),这是谷歌的开源版本文件系统( 26]。HDFS中的数据存储每个块为基础。第一个文件分割成块,然后在Hadoop集群分布。HDFS中的每个块在默认情况下是64 MB,除非块大小是由用户修改 15]。如果文件大于64 MB的HDFS分裂从一条线文件大小不超过最大的块大小和其余的线(文本输入)是搬到一个新的块。

Hadoop使用主从架构。名字节点和工作跟踪主节点而数据节点和任务跟踪器从集群中的节点。输入数据划分成块,这些块放入名称节点拥有的元数据块的Hadoop系统知道哪块存储在数据节点。如果一个节点没有它不破坏的完成工作,因为Hadoop知道那些块存储的副本 27]。工作跟踪和任务跟踪器跟踪的执行流程。他们有一个类似与名字节点和数据节点。任务跟踪负责运行工作跟踪的任务和发送消息。工作跟踪与任务运行的进程的跟踪并保持记录。如果就业跟踪系统检测到一个任务跟踪系统失败或无法完成其工作的一部分,它计划缺少执行另一个任务跟踪器( 14]。

2.4。云计算

有效地运行Hadoop大数据需要建立集群。虚拟化技术的进步有显著降低的成本建立这样的集群;然而他们仍然需要重大的经济投资,在大多数情况下许可费用,人工干预。云计算提供了一个成本效益的方式提供大数据的计算和处理设施,也作为服务模型来支持大数据的技术。

一些开源云计算框架如OpenStack [ 28],OpenNebula [ 29日],桉树[ 30.),和Apache CloudStack允许我们建立和运行基础设施即服务(iaas云模型)。我们可以建立平台即服务(PaaS)比如Hadoop之上这对大数据处理基础设施。

Hadoop集群可以设置在服务器上安装和配置必要的文件。但是它可以是一个艰巨的和具有挑战性的工作当有数百甚至数千台服务器作为Hadoop集群中的节点。云计算系统提供的基础设施,这是易于规模和易于管理网络和存储和提供容错功能。Gunarathne et al。 31日)显示在云环境中运行MapReduce的优势和挑战。他们国家,尽管云计算提供了存储和其他服务满足分布式计算框架的需要,它是不可靠比“传统集群同行,不提供所需的高速互联框架如MPI”( 31日]。

Hadoop平台为本研究创建如图 3

OpenStack云+ Hadoop集成和架构。

有几个选项,设置一个Hadoop集群。云系统(比如Amazon EC2提供支付EMR [ 32)集群运行MapReduce工作。在EC2云输入数据可以通过上传文件分发到Hadoop节点主节点。因为价格在云是一个支付的基础上,客户不需要支付空闲节点。亚马逊工作完成后关闭租来的实例。在这种情况下,从系统的所有数据将被删除。例如,如果用户想要运行另一份工作在preused数据他/她必须上传一遍。如果数据存储在Amazon Simple Storage Service (Amazon S3) [ 32用户可以使用它,只要他/她支付存储费用。亚马逊也提供了一些工具,用于监视工作Hadoop的工作。

2.5。大数据分析

分析大数据需要使用数据挖掘和机器学习算法。有许多友好的机器学习框架如RapidMiner [ 33]和Weka [ 34]。然而,这些传统的框架不扩展到大数据由于其内存限制。几个开放源码大数据项目实现了这些算法。这些框架之一是Mahout [ 19),这是一个分布式机器学习框架和Apache软件基金会许可下的。

Mahout提供各种协同过滤算法从分类和聚类,可以并行运行在集群。Mahout的目标是建立一个可扩展的机器学习库使用Hadoop ( 35]。这样,整个任务分析大型数据集可以分为许多子任务和结果的组合的所有子任务的结果。

Ericson和Palickara比较各种分类和聚类算法的性能在两个不同的处理系统使用Mahout库:Hadoop和颗粒 36]。他们的研究结果表明,颗粒实现的处理时间是快于Hadoop,这花大部分的处理时间从文件加载状态,每一步 k 则,模糊 k ——、狄利克雷和LDA(潜在狄利克雷分配)聚类算法。他们看到增加的标准差为朴素贝叶斯和互补的贝叶斯分类算法实现颗粒。Esteves et al。 37评估的性能 k 聚类算法则在Mahout使用一个大型数据集。测试运行在Amazon EC2实例,证明Mahout的执行时间或聚类时间减少,随着节点数量的增加和性能提升的达到从6%到351%,当数据文件大小从66 MB增加到1.1 GB。因此,Mahout演示了糟糕的性能并没有获得文件小于128 MB。另一项研究中所描述的( 37)提出了两种不同的聚类算法的性能分析: k 使用Mahout框架,则意味着转变。实验结果表明 k ——比均值漂移算法算法具有更好的性能,如果文件的大小超过了50%。

MLLib [ 38),一个模块的火花( 21),一个in-memory-based分布式机器学习框架在伯克利AMPLab发达,也许可在Apache Mahout软件许可证。这是一个快速和灵活的迭代计算框架,旨在创建和分析大型数据驻留在内存中。它还提供了高级的api在Java、Python和Scala使用类似于Hadoop分布式数据和解决方案提供Hadoop提供了一个内存处理。火花支持四个集群中运行模式如下:

独立的部署模式,使火花集群上运行一个私人使用一组部署脚本;另外所有火花进程运行在同一Java虚拟机(JVM)进程独立的本地模式;

Amazon EC2,使用户能够启动和管理火花集群;

Apache便,在火花之间动态地提供共享资源和其他框架;

Hadoop纱是通常被称为Hadoop 2,火花司机可以运行的应用程序的主人。

当机器学习算法进行分布式框架使用MapReduce两种方法是可能的:所有迭代结果可以写入磁盘和从磁盘读取(Mahout)和所有迭代结果可以存储在内存中(火花)。这一事实本身处理数据从内存会比从磁盘,火花提供显著的性能改进相比Mahout / Hadoop。

火花提出了一种新的分布式内存抽象,称为弹性分布式数据集(抽样),它提供了一个数据结构的内存计算大型集群。抽样可以实现容错,这意味着如果一个给定的任务失败,由于一些原因,如硬件故障和错误的用户代码,数据丢失可以自动恢复和重建的剩余的任务( 39]。火花更强大的和有用的迭代计算比现有的集群计算框架,通过数据抽象编程包括抽样、广播变量和蓄电池( 21]。最近发布的火花,许多丰富的工具,如数据库(SQL火花而不是鲨鱼SQL),机器学习库(MLLib),和一个图形引擎(GraphX)也被释放。MLLib [ 38)是一个火花组件实现机器学习算法,包括分类、聚类、线性回归,协同过滤,分解。由于火花,迅速改善MLLib最近吸引了更多的关注和支持来自开源社区的开发人员。

火花和Hadoop表演的比较结果提出的( 40)表明,火花优于Hadoop在执行简单的项目如WordCount和Grep。在另一个类似的研究( 41),它已被证明 k 则算法火花MapReduce大约5倍;数据的规模非常小。相反,如果数据集不断变化过程中,引发MapReduce失去了优势。劳森( 42)提出了一个分布式乘数法名叫交替方向法(小组ADMM)来解决优化问题使用Apache火花。另一项研究的结果( 43],它倾向于实现MapReduce的火花而不是提出分布式方法由于效率低下的迭代算法,证明了分布式牛顿法是有效的培训与容错逻辑回归和线性支持向量机提供的火花。Hadoop的性能比较,火花,DataMPI使用 k 则和朴素贝叶斯的基准中所描述的工作负载( 44]。结果表明,DataMPI和火花可以更有效地使用CPU比Hadoop 39%和41%的比例,分别。几个相似的研究也指出,火花是适合迭代计算和可扩展的机器学习应用程序的其他优点,相比,分布式机器学习框架基于MapReduce范式。

3所示。系统架构

我们已经创建了一个端到端的传感器数据生命周期管理和使用上述技术分析系统。系统使用开源软件,并提供一个分布式和可伸缩的基础设施支持尽可能多的传感器。

提出系统的概述如图 4。系统架构包含三个主要部分:(1)数据采集子系统,(2)数据存储子系统,和(3)数据分析子系统。系统中使用的应用程序平台是太阳火X4450服务器24处理核心英特尔的3.16 GHz CPU和64 GB的内存,使用Ubuntu 14.04作为主机操作系统。

系统架构。

在这项研究中我们使用GPS传感器作为数据生成器;然而系统体系结构是适合其他类型的传感器网络由于数据采集子系统可以收集任何类型的传感器数据通过TCP或UDP渠道发布。

3.1。传感器数据采集子系统

GPS是一种最常用的位置检测技术,这是一个太空卫星导航系统提供全球接收器的时间和位置信息( 45]。它在1995年开始全面运作,自那以来一直用于许多工业和学术项目。

一个主要使用GPS车辆跟踪应用程序。在这项研究中我们使用一个叫Naviskop商用车辆跟踪系统( 46),开发的Firat科技园,埃拉泽,土耳其。Naviskop已经使用了将近一年,作者积极协作的发展系统。我们使用GPS传感器安装在45种车辆。司机和车辆的身份不是研究中使用。

GPS传感器主要用于实时跟踪对象的位置以及检查过去的历史位置。然而在大多数GPS应用程序数据没有分析。在本研究中我们使用车辆的定位数据发现隐藏的有趣的信息。例如,通过应用机器学习算法,GPS数据可以揭示个人的驾驶习惯,最受欢迎的地方,人们访问他们的车辆,和交通密度在一段时间内。一些学术研究调查的使用位置数据与数据挖掘和机器学习算法( 47- - - - - - 50]。

GPS接收器安装在车辆上有能力通过GPRS报告自己的位置。传感器到TCP服务器打开一个连接在每100米位置等情况变化或每30度。

我们使用QuickServer,一个开源的Java库的快速创建健壮和多线程,multiclient TCP服务器应用程序和功能强大的服务器应用程序( 51]。QuickServer支持multiclient TCP服务器应用程序和安全连接像SSL和TLS,每个客户端线程,非阻塞通信,等等。它有一个远程管理的界面称为QSAdminServer可以用来管理服务器软件的每一个方面。

QuickServer用于收集GPS发送的实时数据服务器。我们创建了一个数据过滤和解析程序在服务器上立即提取有用的信息并将它插入到数据库中。

3.2。传感器数据存储子系统

从传感器收集的数据通常存储在一个数据存储解决方案。然而随着传感器的数量,因此增加的数据量就变成一个重要的任务,不断储存它。传统的传感器数据存储解决方案建议存储数据只有特定的一段时间。然而从传感器收集的数据是有价值的,因为它们可能携带隐藏图案错误或诊断信息。出于这个原因,我们已经创建了一个可伸缩的、分布式数据存储子系统用于存储传感器数据,直到他们进行了分析。

开源NoSQL数据库提供有效的替代大量的传感器数据存储。在本研究中我们使用MongoDB,一个流行的开源NoSQL数据库( 53]。MongoDB是一个面向文档的数据库支持存储JSON-style文档。它提供了高性能、高可用性和可伸缩性。文件存储在MongoDB可以映射到编程语言的数据类型。动态模式支持多态性容易实现。MongoDB服务器可以自动复制主故障转移。规模的数据库,自动聚类(分片)将数据收集分布在机器上。

MongoDB已在数个研究中调查,被用于各种类型的商业和学术项目( 54- - - - - - 58]。

使用MongoDB的主要原因在我们的实现中是提供高性能支持QuickServer写。它还允许我们轻易规模的数据库使用情况下,大量的传感器。

3.3。传感器数据分析子系统

无限期地存储传感器数据是系统的一个非常重要的特性。然而传感器数据必须进行分析找到重要的信息如预警信息和故障信息。数据分析可以通过简单地使用统计方法以及通过使用更复杂的数据挖掘和机器学习算法。在这项研究中,我们已经创建了一个可伸缩的、分布式数据分析子系统使用大数据技术。我们的目标是能够运行先进的机器学习算法在传感器数据寻找有价值的信息。

大数据处理需要处理能力以及存储支持通常提供的计算集群。集群通常使用多个服务器创建;然而虚拟化允许我们最大化创造集群资源利用率,降低成本。虚拟化能够帮助我们在一个物理机器上运行多个操作系统进而可以用作集群节点。另一方面,由于大多数虚拟化软件需要高许可费或广泛的专业背景,我们利用开源云计算软件OpenStack呼吁创建Hadoop集群的计算节点。

OpenStack的流行的云计算技术提供了许多机会大数据处理可伸缩的计算集群和先进的数据存储系统应用和科学研究人员( 28, 59- - - - - - 61年]。云计算堆栈可以分类三种服务模型:基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS), IaaS是最灵活和基本的云计算模型。IaaS提供了访问和管理电脑硬件,存储,网络,与一个可配置的虚拟服务器和操作系统( 62年]。IaaS提供商包括Amazon EC2、Rackspace的云,和谷歌计算引擎(GCE)。OpenStack,在这项研究中,使用的是一个iaas云计算软件项目基于Rackspace和NASA开发的代码。OpenStack提供了一个可伸缩的、灵活的和开源的云计算管理平台。的比较研究 60)表明,OpenStack是最好的开源云计算的参考解决方案。OpenStack为管理提供了一个基于web的GUI系统和创建/删除虚拟机。图 5显示了我们OpenStack安装的资源使用情况的概述。

OpenStack概览屏幕。

在这项研究中,我们创建了一个私有云使用OpenStack和6运行虚拟机实例(主节点操作工人)Hadoop集群节点(见图 6)。

OpenStack GUI屏幕截图显示了集群节点规范。

4所示。传感器数据分析结果

分析上述数据架构我们使用分布式机器学习算法。Apache Mahout和MLLib Apache火花是开源分布式框架进行大数据分析。我们使用两个框架实现GPS传感器数据聚类分析。聚类结果可用于道路规划或解释为找到最拥挤的地方在城市或最受欢迎的游客目的地,交通密度在某些时间段,等等。我们的地图数据存储在HDFS集群节点上运行MongoDB。

GPS传感器为我们提供一些重要的信息如纬度,经度,和高度的对象被跟踪,时间,和地面的速度。这些测量可用于各种目的。在本研究中我们使用经度和纬度数据从车辆GPS传感器。

几项研究证明使用机器学习和数据挖掘算法在空间数据 63年- - - - - - 66年]。然而数据的大小是一个重要的限制对于这些算法运行以来的大部分算法计算复杂,需要大量的资源。大数据技术可以用来分析空间数据集非常大。

我们使用 k 则算法聚类二维GPS定位数据。 k 算法则是一个非常受欢迎的无监督学习算法。它的目标是将对象分配给组。所有的对象分组需要用数值表示特性。这项技术迭代分配 n 指出 k 集群使用距离作为相似性因素,直到没有变化属于集群。

k 聚类则在几个研究已经应用于空间数据。文献[ 67年)描述了集群水稻统计数据来自印度的农业统计数据。然而空间数据聚类使用 k 则无法在低端电脑点数量超过数百万。

在这项研究中,我们使用我们的架构集群与数以百万计的大型数据集点。性能结果如图 7, 8, 9表明,该系统能够高效集群非常大量的点。

k ——性能与Weka。

k 性能与火花,则达到500万点。

k 性能与火花,则达到1亿点。

1显示了测试中使用的数据文件的大小。

输入数据大小。

数量的点(百万) 文件大小
1 14 MB
10 134 MB
20. 268 MB
30. 401 MB
50 668 MB
One hundred. 1.4 GB

作为参考,我们首先在台式机上运行Weka 8 GB的RAM和英特尔i5 - 3470 CPU。表 2和图 7显示结果。Weka [ 68年)是一个著名的数据挖掘和机器学习的软件,已在很多研究中使用。

Weka k ——集群性能结果。

数量的点 执行时间(秒)
100.000 2,34
200.000 8日,23
300.000 11日,29日
400.000 16日,67
500.000 20日23
公司创收 46岁,08年
1.500.000 67年,33
2.000.000 内存不足
3.000.000 内存不足

如表 2显示了数据与Weka展示了良好的性能相对较少的坐标。然而随着点数量的增加Weka的性能减少了200万点,给出了内存溢出异常。通过改变Java堆大小,这种限制可以增加,但总会有一个上限取决于电脑的规格。

3显示了执行时间 k 聚类在我们的系统则使用火花500万坐标。表显示了系统演示性能下降的少量的点,但在合理的时间可以处理500万点。

k ——集群性能结果与火花1。

数量的点 执行时间(秒)
100.000 32
500.000 46
公司创收 72年
5.000.000 192年

然而使用分布式算法的真正优势表中可以看到 4,性能结果的火花 k 聚类则为大量的点所示。

k ——集群性能结果与火花2。

数量的点 执行时间(秒)
10.000.000 241年
20.000.000 307年
30.000.000 532年
50.000.000 743年
100.000.000 1664年

如图 9显示了火花集群上执行时间线性增加,系统可以分析数以百万计的坐标没有任何性能问题。

5。结论

在本文中,我们展示了体系结构和分布式传感器测试结果数据收集、存储和分析系统。架构可以被扩展以支持大量的传感器和大数据大小。它可以用来支持地理上分布的传感器和收集传感器数据通过一个高性能的服务器。测试结果表明,该系统可以执行计算复杂的数据分析算法和显示与大型高性能传感器数据。作为一个结果,我们表明,使用开源技术,现代云计算和大数据框架可以用于大规模的传感器数据分析的需求。

利益冲突

作者宣称没有利益冲突有关的出版。

关系数据库系统的比较, http://en.wikipedia.org/wiki/Comparison_of_relational_database_management_system 新闻 G。 物联网的数字:市场估计和预测, http://www.forbes.com/ 艾什顿 K。 2015年,“物联网”的事情,, http://www.rfidjournal.com/articles/view?4986 Akyildiz i F。 W。 Sankarasubramaniam Y。 Cayirci E。 无线传感器网络:一项调查 计算机网络 2002年 38 4 393年 422年 10.1016 / s1389 - 1286 (01) 00302 - 4 2 - s2.0 - 0037086890 卡特尔 R。 可伸缩的SQL和NoSQL数据存储 ACM SIGMOD记录 2010年 39 4 12 27 10.1145/1978915.1978919 2 - s2.0 - 79956072588 滚柱式 M。 Medak D。 Odobašić D。 两层网络架构与NoSQL数据库映射沙发DB 地理空间的十字路口GI论坛 2011年 11 62年 71年 van der Veen j·S。 van der Waaij B。 梅耶尔 r . J。 传感器数据存储性能:SQL或NoSQL、物理或虚拟 《IEEE五云计算国际会议(云”12) 2012年6月 IEEE 431年 438年 10.1109 / cloud.2012.18 2 - s2.0 - 84866773389 Gantz J。 Reinsel D。 从宇宙的混沌状态中提取价值 2011年 IDC(国际数据公司) IEEE XPLORE 年评:在IEEE Xplore热门搜索词 http://ieeexplore.ieee.org/Xplore/ 开特 一个。 Wazid M。 Goudar r·H。 大数据:问题、挑战、工具和良好的实践 当代计算机学报第六届国际会议上(IC3的13) 2013年8月 诺伊达,印度 IEEE 404年 409年 2 - s2.0 - 84886540532 10.1109 / ic3.2013.6612229 迪安 J。 格玛沃特 年代。 MapReduce:简化数据处理大型集群 ACM的通信 2008年 51 1 107年 113年 10.1145/1327452.1327492 2 - s2.0 - 37549003336 Hadoop官方网站 2015年, http://hadoop.apache.org/ 斯威尼 C。 l 小抒情曲 年代。 劳伦斯 J。 论文 b S。 HIPI: Hadoop为基于图像的图像处理界面Mapreduce任务 2011年 美国弗吉尼亚州夏洛茨维尔 维吉尼亚大学 白色的 T。 Hadoop:明确的指南 2009年 O ' reilly媒体 Borthakur D。 HDFS架构指南 2008年 Apache Hadoop项目 Olston C。 里德 B。 斯利瓦斯塔瓦 U。 库马尔 R。 服饰品牌 一个。 拉丁语:not-so-foreign语言数据处理 诉讼的ACM SIGMOD国际会议管理数据(SIGMOD 08年) 2008年6月 ACM 1099年 1110年 10.1145/1376616.1376726 2 - s2.0 - 55349148888 乔治 l HBase:明确的指南 2011年 O ' reilly媒体 Thusoo 一个。 Sarma j·S。 耆那教徒的 N。 蜂巢:仓库解决方案通过使用映射-规约模式框架 美国养老 2009年 2 2 1626年 1629年 10.14778/1687553.1687609 欧文 年代。 阿尼尔 R。 邓宁 T。 弗里德曼 E。 Mahout在行动 2011年 曼宁的出版物 Nemschoff M。 大数据:5 Hadoop的主要优势, http://www.itproportal.com/ Zaharia M。 Chowdhury M。 富兰克林 m·J。 Shenker 年代。 斯托伊卡 我。 火花:集群计算工作集 第二届USENIX大会在云计算的热点话题 2010年 Y。 B。 Balazinska M。 恩斯特 m D。 HaLoop:高效迭代数据处理大型集群 美国养老 2010年 3 1 - 2 285年 296年 10.14778/1920841.1920881 Ekanayake J。 H。 B。 Gunarathne T。 英国宇航系统公司 工程学系。 J。 福克斯 G。 捻线机:迭代mapreduce运行时 诉讼ACM国际研讨会上的高性能分布式计算(- - - HPDC 10) 2010年6月 ACM 810年 818年 10.1145/1851476.1851593 2 - s2.0 - 78650003594 马登 年代。 从数据库大数据 IEEE网络计算 2012年 16 3 4 6 10.1109 / mic.2012.50 2 - s2.0 - 84860443491 Kourtesis D。 Alvarez-Rodriguez j . M。 Paraskakis 我。 基于语义的QoS管理云系统:当前状态和未来的挑战 未来一代计算机系统 2014年 32 1 307年 323年 10.1016 / j.future.2013.10.015 2 - s2.0 - 84891596562 格玛沃特 年代。 Gobioff H。 s T。 google文件系统 19 ACM学报》研讨会上操作系统原理(SOSP ' 03) 2003年10月 29日 43 2 - s2.0 - 21644437974 Bialecki 一个。 Cafarella M。 切割 D。 奥马利 O。 Hadoop:运行应用程序的框架在大型集群硬件造的 2005年 维基 http://lucene.apache.org/hadoop OpenStack 2015年, http://www.openstack.org 2015年OpenNebula网页, http://www.opennebula.org 桉树,2015, https://www.eucalyptus.com/eucalyptus-cloud/iaas Gunarathne T。 T.-L。 J。 福克斯 G。 MapReduce云的科学 第二届IEEE国际会议上云计算技术和科学(CloudCom 10) 2010年12月 IEEE 565年 572年 10.1109 / cloudcom.2010.107 2 - s2.0 - 79952394502 2015年亚马逊网络服务, http://aws.amazon.com RapidMiner预测分析,2015年, https://rapidminer.com/ 福尔摩斯 G。 Donkin 一个。 威滕 i . H。 Weka:机器学习工作台 第二届澳大利亚和新西兰会议智能信息系统 1994年12月 澳大利亚布里斯班 357年 361年 10.1109 / ANZIIS.1994.396988 Mahout 一个。 可扩展的机器学习和数据挖掘库 http://mahout.apache.org/ Ericson K。 Pallickara 年代。 在高维数据聚类和分类算法的性能 未来一代计算机系统 2013年 29日 4 1024年 1034年 10.1016 / j.future.2012.05.026 2 - s2.0 - 84863770788 斯特维斯 r·M。 《国家 R。 C。 首家建构超大云Mahout的k - means聚类测试 IEEE车间学报》国际会议上先进的信息网络和应用程序(WAINA 11) 2011年 IEEE 514年 519年 火花MLLib可扩展的机器学习库, https://spark.apache.org/mllib/ Zaharia M。 Chowdhury M。 达斯 T。 弹性分布式数据集:内存中的集群计算的容错抽象 学报》第九届USENIX大会网络系统设计与实现(NSDI 12) 2012年 USENIX协会 Shahrivari 年代。 超越批处理:对实时和流大数据 电脑 2014年 3 4 117年 129年 10.3390 / computers3040117 H。 B。 年代。 B。 研究决策树的纱使用16 MapReduce和火花 学报2014年世界国会在计算机科学、计算机工程、计算和应用 2014年 拉斯维加斯,内华达州,美国 劳森 D。 乘数的交替方向方法实现使用Apache火花 2014年 彭译葶。 学术界。 C.-P。 C.-J。 大规模逻辑回归和线性支持向量机使用火花 《IEEE国际会议上大数据 2014年10月 美国华盛顿特区 519年 528年 10.1109 / bigdata.2014.7004269 F。 C。 X。 Z。 与BigDataBench DataMPI性能优势:一个案例研究 大数据标准、性能优化和新兴的硬件 2014年 8807年 可汗、瑞士 施普林格国际出版 111年 123年 在计算机科学的课堂讲稿 10.1007 / 978 - 3 - 319 - 13021 - 7 - _9 维基百科 全球定位系统 http://en.wikipedia.org/wiki/Global_Positioning_System Yonca哥伦比亚广播公司 Naviskop车辆跟踪系统 2015年, http://www.naviskop.com/ J。 Koperski K。 假摔 N。 GeoMiner:空间数据挖掘的系统原型 ACM SIGMOD记录 1997年 26 2 553年 556年 10.1145/253262.253404 莫兰 c·J。 中方通过 e . N。 为增强土壤地图空间数据挖掘模型 国际地理信息科学杂志》上 2002年 16 6 533年 549年 10.1080 / 13658810210138715 2 - s2.0 - 0036734422 Ng r·T。 J。 Clarans:一个对象的空间数据挖掘的聚类方法 IEEE工程知识和数据 2002年 14 5 1003年 1016年 10.1109 / tkde.2002.1033770 2 - s2.0 - 0036709106 Shekhar 年代。 P。 Y。 空间数据挖掘 数据挖掘和知识发现手册 2005年 施普林格 833年 851年 10.1007 / 0 - 387 - 25465 - x_39 快速的服务器 2015年2月, http://www.quickserver.org/ Divakar迈索尔 美国K。 耆那教徒的 年代。 大数据架构和模式,第1部分:介绍大数据分类和体系结构 2013年 IBM大数据和分析,技术图书馆 Membrey P。 Plugge E。 霍金斯 D。 MongoDB的指南:云计算和桌面计算的noSQL数据库 2010年 然后 Boicea 一个。 Radulescu F。 Agapin l . I。 MongoDB和oracle数据库比较 学报》第三届国际会议上新兴智能数据和Web技术(EIDWT 12) 2012年9月 330年 335年 10.1109 / eidwt.2012.32 2 - s2.0 - 84870735992 黛德 E。 Govindaraju M。 甘特 D。 佳能 r S。 Ramakrishnan l 绩效评估MongoDB和Hadoop科学数据分析平台 第四届ACM学报科学研讨会上云计算(ScienceCloud 13) 2013年6月 ACM 13 20. 10.1145/2465848.2465849 2 - s2.0 - 84880078900 Y。 Y。 Y。 研究改进MongoDB自动分片在云环境 学报》第七届计算机科学与教育国际会议(ICCSE 12) 2012年7月 澳大利亚墨尔本 IEEE 851年 854年 2 - s2.0 - 84868142073 10.1109 / iccse.2012.6295203 帕克 Z。 年代。 Vrbsky s V。 nosql mongodb比作一个sql数据库 美国第51 ACM东南会议 2013年4月 ACM 10.1145/2498328.2500047 2 - s2.0 - 84881631965 Wei-Ping Z。 仲裁员 l 黄ydF4y2Ba C。 使用MongoDB实现教材管理系统代替MySQL IEEE学报》3日国际会议通信软件和网络(ICCSN 11) 2011年5月 IEEE 303年 305年 10.1109 / iccsn.2011.6013720 2 - s2.0 - 80053152144 杰克逊 K。 OpenStack云计算食谱 2012年 Packt出版有限公司 Sefraoui O。 Aissaoui M。 Eleuldj M。 OpenStack:向一个开源云计算解决方案 国际期刊的计算机应用程序 2012年 55 3 38 42 10.5120 / 8738 - 2991 程ydF4y2Ba c·P。 彭译葶。 数据密集型应用程序、挑战、技术与科学:关于大数据的调查 信息科学 2014年 275年 314年 347年 2 - s2.0 - 84900800509 10.1016 / j.ins.2014.01.015 年代。 l W。 Janowicz K。 Y。 构建基于Hadoop从自愿地名表大地理信息 电脑、环境和城市系统 2014年 10.1016 / j.compenvurbsys.2014.02.004 2 - s2.0 - 84895597100 布鲁克 年代。 克拉克 年代。 Njagi j·K。 波兰人 年代。 Mugo B。 Estambale B。 Muchiri E。 Magnussen P。 考克斯 J。 疟疾的空间聚类和相关的风险因素在肯尼亚西部的高地地区流行 热带医学与国际卫生 2004年 9 7 757年 766年 10.1111 / j.1365-3156.2004.01272.x 2 - s2.0 - 3242679558 T。 霍沃思 J。 Anbaroglu B。 Tanaksaranond G。 J。 时空数据挖掘 区域科学手册 2014年 柏林,德国 施普林格 1173年 1193年 年代。 H。 空间数据挖掘:大数据的角度来看 国际期刊的数据仓库和采矿业 2014年 10 4 50 70年 Akhila y . J。 奈克 一个。 对冲基金 B。 谢蒂 P。 莫汉 a·j·K。 SD miner-a空间数据挖掘系统 国际期刊的研究 2014年 1 5 563年 567年 沙玛 R。 阿拉姆 m·A。 王妃 一个。 k - means聚类在空间数据挖掘使用weka接口 国际期刊的计算机应用程序 2012年 26 30. 学报》国际会议交流和计算技术的进步(ICACACT 12) 大厅 M。 弗兰克 E。 福尔摩斯 G。 Pfahringer B。 Reutemann P。 威滕 i . H。 数据挖掘WEKA软件:一个更新 ACM SIGKDD探索通讯 2009年 11 1 10 18 10.1145/1656274.1656278