可伸缩的架构和实现传感器数据存储和使用云计算和大数据技术分析系统

文摘

传感器正变得无处不在。从几乎任何类型的工业应用到智能汽车、智能城市的应用程序,和医疗应用程序中,我们看到一个稳定增长的使用各种类型的传感器。增加的速度由这些传感器产生的数据量更戏剧性的因为传感器通常持续生产数据。就这些数据存储以供将来参考的关键要分析和寻找有价值的信息,如故障诊断信息。在本文中,我们描述一个可伸缩的分布式体系结构的传感器数据收集、存储和分析。系统使用多个开放源代码技术和运行在一个虚拟服务器集群。我们使用GPS传感器数据源和运行机器学习算法进行数据分析。

1。介绍

传感器通常用于测量和报告的一些性质的环境安装,如温度、压力、湿度、辐射,或天然气的水平。传统上这些测量收集并存储在一个数据存储,然后找到任何特别的处理情况。然而在这种情况下,像智能城市应用大量的传感器安装、存档和处理的数据量成为一个重要的问题。因为当数据的体积超过几个g的传统关系数据库不支持这样的卷或面临的性能问题(见[1)比较的数据库大小限制)。存储和查询非常大量的数据需要额外的资源;有时为此数据库集群安装。然而存储和检索并不是唯一的问题;真正的瓶颈是能够分析大数据量和提取有用信息,如系统故障和诊断信息。

另外近年来更要求应用程序正在开发中。传感器是在关键任务应用程序真正的或非实时干预。例如,在某些情况下,预计从传感器应用程序检测系统故障之前发生。

传统的数据存储和分析方法不能满足预期的新类型的传感器应用领域的体积和速度数据以前所未有的速度增长。结果,就必须适应新技术,即大数据技术,能够应对这些问题。

本文概述了小说的体系结构和实现,分布式的、可伸缩的传感器数据存储和分析系统,基于现代云计算和大数据技术。系统使用开源技术来提供端到端传感器数据生命周期管理和分析工具。

2.1。传感器、物联网,NoSQL

到处都是传感器数据的大小和种类他们生产快速增长。连续,新概念正在成为传感器的类型和使用稳步扩大。例如,统计数据显示,在互联网上的东西远比在互联网上的用户数量(2]。这个推理定义了物联网(物联网)随着互联网有关的事情。在物联网“东西”这个词,第一次使用1999年由阿什顿(3),是一种愿景,包括物理对象。这些对象,收集信息并将其发送到网络自主,RFID标签,传感器、GPS、相机和其他设备。物联网和互联网之间的联系使人与人之间的沟通和对象,对象之间,如wi - fi和人们之间自己连接,RFID, GPRS, DSL,局域网和3 g。这些网络生成大量的数据,难以与传统的数据库技术存储和分析。

物联网使人们之间相互作用、对象和网络通过远程传感器。传感器设备,它可以监控温度、湿度、压力、噪声水平,和照明条件和检测速度,位置和大小的一个对象(4]。传感器技术最近已经成为一个蓬勃发展的领域包括许多工业、医疗保健、和消费应用程序(如家庭安全系统、工业过程监控、医疗设备、空调系统、智能洗衣机、汽车安全气囊、手机、和车辆跟踪系统。

由于传感器技术的飞速发展,传感器和传感器数据的数量的数量已经增加了难以置信的利率。处理和分析这样的大数据需要巨大的计算和存储成本与传统的SQL数据库。因此,传感器数据存储平台解决方案的可伸缩性和可用性需求导致NoSQL数据库的使用,能够有效地分配数据在许多服务器和动态添加新属性数据记录(5]。

NoSQL数据库,主要是开源的,可以分为以下类别。(我)键值存储。这些数据库系统存储索引的键值。这类的例子复述,、项目伏地魔,Riak,日本内阁。(2)文档存储。这些数据库系统存储和组织文件的集合,其中每个文档都指定了一个惟一的键。这类的例子Amazon SimpleDBMongoDB, CouchDB。(3)宽栏商店。这些数据库系统,也称为扩展记录存储,存储数据表的可扩展的记录,可以跨多个节点分区的垂直和水平。这一类的例子有HBase,卡桑德拉,HyperTable。

键-值等不同类别的NoSQL数据库、文档,和宽栏商店,提供高可用性、性能和可伸缩性大数据。文献[6)提出了双层架构与数据模型和替代移动web映射解决方案使用CouchDB的NoSQL数据库,可以在几乎所有的操作系统。

et al .(范德维恩准备研究7]讨论了可能性使用NoSQL数据库如MongoDB和卡桑德拉在大规模传感器网络系统。结果表明,尽管卡桑德拉是最好的选择对于大型关键传感器应用,MongoDB的最佳选择是一个小型或中型的非关键传感器应用程序。另一方面,MongoDB有温和的性能在使用虚拟化;相比之下,卡桑德拉的读性能严重影响虚拟化。

2.2。大数据

在大量使用传感器的结果在大容量的数据存储和处理。数据是有价值的信息提取和使用。信息提取需要工具和算法来识别有用的信息,如故障信息或系统诊断信息收集的数据从传感器中深埋。可以使用数据挖掘和机器学习等任务。然而大数据分析需要非传统的方法,统称为大数据。

的名字是大数据的集合理论,算法和框架,处理非常大量的数据的存储和分析。换句话说“大数据”是一个术语成熟随着时间的推移,大量的数据难以储存,管理,使用传统的数据库和软件技术和分析。近年来,大数据分析已经成为最受欢迎的主题在这世界,吸引了学术界和业界人士的兴趣。规模的快速增长,各种数据和速度力量开发人员构建新平台来管理这种极端大小的信息。国际数据公司(IDC)称,数字宇宙中数据的总量将在2020年达到35 zb8]。IEEE Xplore指出,“在2014年,最受欢迎的搜索和下载IEEE Xplore是:大数据,数据挖掘、云计算、物联网、网络安全、智能电网和明年创无线(5克)”(9]。

大数据有很多挑战等几个方面不同,体积,速度,准确性,和价值。品种是指等不同形式的非结构化数据信息,社交媒体对话,视频和照片;指的是大量的数据量;速度是指以多快的速度数据生成和速度需要分析;真实性指的是数据的可信度;价值,最重要的V大数据,指的是价值的数据存储在不同的组织10]。为了促进更好的理解大数据挑战5 v,描述图1显示了不同类别对大数据进行分类。

在大数据的类别分类,大数据地图可以在七个方面:(i)数据来源,(2)数据类型,(iii)内容格式,(iv)数据存储,(v)分析类型,(vi)基础设施和(七)处理框架。

数据来源包括以下几点:(一)人为的数据从Facebook和Twitter等社交媒体数据或短信、互联网搜索,博客,评论,和个人文件;(b)业务事务数据,如银行记录、信用卡、商业交易,和医疗记录;(c)从物联网机器生成的数据如家庭自动化系统移动设备和计算机系统日志;(d)各种类型的传感器,如流量传感器、湿度传感器、和工业传感器。

2.3。Hadoop MapReduce和

来自网络的数据量、传感器、卫星,和许多其他来源克服了传统的数据分析方法,为新类型的MapReduce编程模型等。2004年,谷歌发布了MapReduce文献[11),展示了一种新型的分布式编程模型,便于高性能并行程序运行在大数据使用硬件。基本上MapReduce程序由两个主要模块,地图和还原剂,用户定义的项目由使用MapReduce API实现。因此MapReduce工作是由几个过程,如分裂和分发数据,映射和减少代码,结果写入到分布式文件系统。有时使用MapReduce分析数据可能需要运行不止一项工作。工作可以是相互独立的,也可能是链接对于更复杂的场景。

MapReduce范式效果如图2:MapReduce工作由一个主控制节点和分裂成两个函数调用Map和Reduce。Map函数将输入数据划分为一组键值对,每个地图的输出任务是按他们的关键。Reduce函数合并成最终结果的值。

MapReduce,谷歌的大数据处理模式,已经在开源项目中实现像Hadoop12]。Hadoop一直是最受欢迎的MapReduce实现和使用许多项目从大数据行业的所有领域13,14]。所谓的Hadoop生态系统还提供了许多其他大数据工具比如Hadoop分布式文件系统(15),用于存储数据集群,猪16),一个引擎对Hadoop并行数据流执行,HBase [17),谷歌的大桌子像非关系分布式数据库,蜂巢(18),在Hadoop数据仓库软件和数据分析软件像Mahout19]。

Hadoop MapReduce框架的主要优点是可伸缩性、成本效率、灵活性、速度、和韧性失败(20.]。另一方面,Hadoop并不完全支持复杂的迭代算法进行机器学习和在线处理。

其他MapReduce-like系统是Apache火花和鲨鱼21],HaLoop [22),和捻线机23]。这些系统提供更好的支持某些类型的迭代统计和复杂的算法在MapReduce-like编程模型,但仍缺乏大多数关系数据库系统的数据管理功能24]。通常这些系统还利用以下几点:(1)与功能和并行编程语言功能比如Scala、Java、Python或;(2)NoSQL存储;(3)MapReduce-based框架(25]。

Hadoop使用Hadoop分布式文件系统(HDFS),这是谷歌的开源版本文件系统(26]。HDFS中的数据存储每个块为基础。第一个文件分割成块,然后在Hadoop集群分布。HDFS中的每个块在默认情况下是64 MB,除非块大小是由用户修改15]。如果文件大于64 MB的HDFS分裂从一条线文件大小不超过最大的块大小和其余的线(文本输入)是搬到一个新的块。

Hadoop使用主从架构。名字节点和工作跟踪主节点而数据节点和任务跟踪器从集群中的节点。输入数据划分成块,这些块放入名称节点拥有的元数据块的Hadoop系统知道哪块存储在数据节点。如果一个节点没有它不破坏的完成工作,因为Hadoop知道那些块存储的副本27]。工作跟踪和任务跟踪器跟踪的执行流程。他们有一个类似与名字节点和数据节点。任务跟踪负责运行工作跟踪的任务和发送消息。工作跟踪与任务运行的进程的跟踪并保持记录。如果就业跟踪系统检测到一个任务跟踪系统失败或无法完成其工作的一部分,它计划缺少执行另一个任务跟踪器(14]。

2.4。云计算

有效地运行Hadoop大数据需要建立集群。虚拟化技术的进步有显著降低的成本建立这样的集群;然而他们仍然需要重大的经济投资,在大多数情况下许可费用,人工干预。云计算提供了一个成本效益的方式提供大数据的计算和处理设施,也作为服务模型来支持大数据的技术。

一些开源云计算框架如OpenStack [28],OpenNebula [29日],桉树[30.),和Apache CloudStack允许我们建立和运行基础设施即服务(iaas云模型)。我们可以建立平台即服务(PaaS)比如Hadoop之上这对大数据处理基础设施。

Hadoop集群可以设置在服务器上安装和配置必要的文件。但是它可以是一个艰巨的和具有挑战性的工作当有数百甚至数千台服务器作为Hadoop集群中的节点。云计算系统提供的基础设施,这是易于规模和易于管理网络和存储和提供容错功能。Gunarathne et al。31日)显示在云环境中运行MapReduce的优势和挑战。他们国家,尽管云计算提供了存储和其他服务满足分布式计算框架的需要,它是不可靠比“传统集群同行,不提供所需的高速互联框架如MPI”(31日]。

Hadoop平台为本研究创建如图3。

有几个选项,设置一个Hadoop集群。云系统(比如Amazon EC2提供支付EMR [32)集群运行MapReduce工作。在EC2云输入数据可以通过上传文件分发到Hadoop节点主节点。因为价格在云是一个支付的基础上,客户不需要支付空闲节点。亚马逊工作完成后关闭租来的实例。在这种情况下,从系统的所有数据将被删除。例如,如果用户想要运行另一份工作在preused数据他/她必须上传一遍。如果数据存储在Amazon Simple Storage Service (Amazon S3) [32用户可以使用它,只要他/她支付存储费用。亚马逊也提供了一些工具,用于监视工作Hadoop的工作。

2.5。大数据分析

分析大数据需要使用数据挖掘和机器学习算法。有许多友好的机器学习框架如RapidMiner [33]和Weka [34]。然而,这些传统的框架不扩展到大数据由于其内存限制。几个开放源码大数据项目实现了这些算法。这些框架之一是Mahout [19),这是一个分布式机器学习框架和Apache软件基金会许可下的。

Mahout提供各种协同过滤算法从分类和聚类,可以并行运行在集群。Mahout的目标是建立一个可扩展的机器学习库使用Hadoop (35]。这样,整个任务分析大型数据集可以分为许多子任务和结果的组合的所有子任务的结果。

Ericson和Palickara比较各种分类和聚类算法的性能在两个不同的处理系统使用Mahout库:Hadoop和颗粒36]。他们的研究结果表明,颗粒实现的处理时间是快于Hadoop,这花大部分的处理时间从文件加载状态,每一步则,模糊——、狄利克雷和LDA(潜在狄利克雷分配)聚类算法。他们看到增加的标准差为朴素贝叶斯和互补的贝叶斯分类算法实现颗粒。Esteves et al。37评估的性能聚类算法则在Mahout使用一个大型数据集。测试运行在Amazon EC2实例,证明Mahout的执行时间或聚类时间减少,随着节点数量的增加和性能提升的达到从6%到351%,当数据文件大小从66 MB增加到1.1 GB。因此,Mahout演示了糟糕的性能并没有获得文件小于128 MB。另一项研究中所描述的(37)提出了两种不同的聚类算法的性能分析:使用Mahout框架,则意味着转变。实验结果表明——比均值漂移算法算法具有更好的性能,如果文件的大小超过了50%。

MLLib [38),一个模块的火花(21),一个in-memory-based分布式机器学习框架在伯克利AMPLab发达,也许可在Apache Mahout软件许可证。这是一个快速和灵活的迭代计算框架,旨在创建和分析大型数据驻留在内存中。它还提供了高级的api在Java、Python和Scala使用类似于Hadoop分布式数据和解决方案提供Hadoop提供了一个内存处理。火花支持四个集群中运行模式如下:(我)独立的部署模式,使火花集群上运行一个私人使用一组部署脚本;另外所有火花进程运行在同一Java虚拟机(JVM)进程独立的本地模式;(2)Amazon EC2,使用户能够启动和管理火花集群;(3)Apache便,在火花之间动态地提供共享资源和其他框架;(iv)Hadoop纱是通常被称为Hadoop 2,火花司机可以运行的应用程序的主人。

当机器学习算法进行分布式框架使用MapReduce两种方法是可能的:所有迭代结果可以写入磁盘和从磁盘读取(Mahout)和所有迭代结果可以存储在内存中(火花)。这一事实本身处理数据从内存会比从磁盘,火花提供显著的性能改进相比Mahout / Hadoop。

火花提出了一种新的分布式内存抽象,称为弹性分布式数据集(抽样),它提供了一个数据结构的内存计算大型集群。抽样可以实现容错,这意味着如果一个给定的任务失败,由于一些原因,如硬件故障和错误的用户代码,数据丢失可以自动恢复和重建的剩余的任务(39]。火花更强大的和有用的迭代计算比现有的集群计算框架,通过数据抽象编程包括抽样、广播变量和蓄电池(21]。最近发布的火花,许多丰富的工具,如数据库(SQL火花而不是鲨鱼SQL),机器学习库(MLLib),和一个图形引擎(GraphX)也被释放。MLLib [38)是一个火花组件实现机器学习算法,包括分类、聚类、线性回归,协同过滤,分解。由于火花,迅速改善MLLib最近吸引了更多的关注和支持来自开源社区的开发人员。

火花和Hadoop表演的比较结果提出的(40)表明,火花优于Hadoop在执行简单的项目如WordCount和Grep。在另一个类似的研究(41),它已被证明则算法火花MapReduce大约5倍;数据的规模非常小。相反,如果数据集不断变化过程中,引发MapReduce失去了优势。劳森(42)提出了一个分布式乘数法名叫交替方向法(小组ADMM)来解决优化问题使用Apache火花。另一项研究的结果(43],它倾向于实现MapReduce的火花而不是提出分布式方法由于效率低下的迭代算法,证明了分布式牛顿法是有效的培训与容错逻辑回归和线性支持向量机提供的火花。Hadoop的性能比较,火花,DataMPI使用则和朴素贝叶斯的基准中所描述的工作负载(44]。结果表明,DataMPI和火花可以更有效地使用CPU比Hadoop 39%和41%的比例,分别。几个相似的研究也指出,火花是适合迭代计算和可扩展的机器学习应用程序的其他优点,相比,分布式机器学习框架基于MapReduce范式。

3所示。系统架构

我们已经创建了一个端到端的传感器数据生命周期管理和使用上述技术分析系统。系统使用开源软件,并提供一个分布式和可伸缩的基础设施支持尽可能多的传感器。

提出系统的概述如图4。系统架构包含三个主要部分:(1)数据采集子系统,(2)数据存储子系统,和(3)数据分析子系统。系统中使用的应用程序平台是太阳火X4450服务器24处理核心英特尔的3.16 GHz CPU和64 GB的内存,使用Ubuntu 14.04作为主机操作系统。

在这项研究中我们使用GPS传感器作为数据生成器;然而系统体系结构是适合其他类型的传感器网络由于数据采集子系统可以收集任何类型的传感器数据通过TCP或UDP渠道发布。

3.1。传感器数据采集子系统

GPS是一种最常用的位置检测技术,这是一个太空卫星导航系统提供全球接收器的时间和位置信息(45]。它在1995年开始全面运作,自那以来一直用于许多工业和学术项目。

一个主要使用GPS车辆跟踪应用程序。在这项研究中我们使用一个叫Naviskop商用车辆跟踪系统(46),开发的Firat科技园,埃拉泽,土耳其。Naviskop已经使用了将近一年,作者积极协作的发展系统。我们使用GPS传感器安装在45种车辆。司机和车辆的身份不是研究中使用。

GPS传感器主要用于实时跟踪对象的位置以及检查过去的历史位置。然而在大多数GPS应用程序数据没有分析。在本研究中我们使用车辆的定位数据发现隐藏的有趣的信息。例如,通过应用机器学习算法,GPS数据可以揭示个人的驾驶习惯,最受欢迎的地方,人们访问他们的车辆,和交通密度在一段时间内。一些学术研究调查的使用位置数据与数据挖掘和机器学习算法(47- - - - - -50]。

GPS接收器安装在车辆上有能力通过GPRS报告自己的位置。传感器到TCP服务器打开一个连接在每100米位置等情况变化或每30度。

我们使用QuickServer,一个开源的Java库的快速创建健壮和多线程,multiclient TCP服务器应用程序和功能强大的服务器应用程序(51]。QuickServer支持multiclient TCP服务器应用程序和安全连接像SSL和TLS,每个客户端线程,非阻塞通信,等等。它有一个远程管理的界面称为QSAdminServer可以用来管理服务器软件的每一个方面。

QuickServer用于收集GPS发送的实时数据服务器。我们创建了一个数据过滤和解析程序在服务器上立即提取有用的信息并将它插入到数据库中。

3.2。传感器数据存储子系统

从传感器收集的数据通常存储在一个数据存储解决方案。然而随着传感器的数量,因此增加的数据量就变成一个重要的任务,不断储存它。传统的传感器数据存储解决方案建议存储数据只有特定的一段时间。然而从传感器收集的数据是有价值的,因为它们可能携带隐藏图案错误或诊断信息。出于这个原因,我们已经创建了一个可伸缩的、分布式数据存储子系统用于存储传感器数据,直到他们进行了分析。

开源NoSQL数据库提供有效的替代大量的传感器数据存储。在本研究中我们使用MongoDB,一个流行的开源NoSQL数据库(53]。MongoDB是一个面向文档的数据库支持存储JSON-style文档。它提供了高性能、高可用性和可伸缩性。文件存储在MongoDB可以映射到编程语言的数据类型。动态模式支持多态性容易实现。MongoDB服务器可以自动复制主故障转移。规模的数据库,自动聚类(分片)将数据收集分布在机器上。

MongoDB已在数个研究中调查,被用于各种类型的商业和学术项目(54- - - - - -58]。

使用MongoDB的主要原因在我们的实现中是提供高性能支持QuickServer写。它还允许我们轻易规模的数据库使用情况下,大量的传感器。

3.3。传感器数据分析子系统

无限期地存储传感器数据是系统的一个非常重要的特性。然而传感器数据必须进行分析找到重要的信息如预警信息和故障信息。数据分析可以通过简单地使用统计方法以及通过使用更复杂的数据挖掘和机器学习算法。在这项研究中,我们已经创建了一个可伸缩的、分布式数据分析子系统使用大数据技术。我们的目标是能够运行先进的机器学习算法在传感器数据寻找有价值的信息。

大数据处理需要处理能力以及存储支持通常提供的计算集群。集群通常使用多个服务器创建;然而虚拟化允许我们最大化创造集群资源利用率,降低成本。虚拟化能够帮助我们在一个物理机器上运行多个操作系统进而可以用作集群节点。另一方面,由于大多数虚拟化软件需要高许可费或广泛的专业背景,我们利用开源云计算软件OpenStack呼吁创建Hadoop集群的计算节点。

OpenStack的流行的云计算技术提供了许多机会大数据处理可伸缩的计算集群和先进的数据存储系统应用和科学研究人员(28,59- - - - - -61年]。云计算堆栈可以分类三种服务模型:基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS), IaaS是最灵活和基本的云计算模型。IaaS提供了访问和管理电脑硬件,存储,网络,与一个可配置的虚拟服务器和操作系统(62年]。IaaS提供商包括Amazon EC2、Rackspace的云,和谷歌计算引擎(GCE)。OpenStack,在这项研究中,使用的是一个iaas云计算软件项目基于Rackspace和NASA开发的代码。OpenStack提供了一个可伸缩的、灵活的和开源的云计算管理平台。的比较研究60)表明,OpenStack是最好的开源云计算的参考解决方案。OpenStack为管理提供了一个基于web的GUI系统和创建/删除虚拟机。图5显示了我们OpenStack安装的资源使用情况的概述。

在这项研究中,我们创建了一个私有云使用OpenStack和6运行虚拟机实例(主节点操作工人)Hadoop集群节点(见图6)。

4所示。传感器数据分析结果

分析上述数据架构我们使用分布式机器学习算法。Apache Mahout和MLLib Apache火花是开源分布式框架进行大数据分析。我们使用两个框架实现GPS传感器数据聚类分析。聚类结果可用于道路规划或解释为找到最拥挤的地方在城市或最受欢迎的游客目的地,交通密度在某些时间段,等等。我们的地图数据存储在HDFS集群节点上运行MongoDB。

GPS传感器为我们提供一些重要的信息如纬度,经度,和高度的对象被跟踪,时间,和地面的速度。这些测量可用于各种目的。在本研究中我们使用经度和纬度数据从车辆GPS传感器。

几项研究证明使用机器学习和数据挖掘算法在空间数据63年- - - - - -66年]。然而数据的大小是一个重要的限制对于这些算法运行以来的大部分算法计算复杂,需要大量的资源。大数据技术可以用来分析空间数据集非常大。

我们使用则算法聚类二维GPS定位数据。算法则是一个非常受欢迎的无监督学习算法。它的目标是将对象分配给组。所有的对象分组需要用数值表示特性。这项技术迭代分配指出集群使用距离作为相似性因素,直到没有变化属于集群。

聚类则在几个研究已经应用于空间数据。文献[67年)描述了集群水稻统计数据来自印度的农业统计数据。然而空间数据聚类使用则无法在低端电脑点数量超过数百万。

在这项研究中,我们使用我们的架构集群与数以百万计的大型数据集点。性能结果如图7,8,9表明,该系统能够高效集群非常大量的点。

表1显示了测试中使用的数据文件的大小。


数量的点(百万)	文件大小

1	14 MB
10	134 MB
20.	268 MB
30.	401 MB
50	668 MB
One hundred.	1.4 GB

作为参考,我们首先在台式机上运行Weka 8 GB的RAM和英特尔i5 - 3470 CPU。表2和图7显示结果。Weka [68年)是一个著名的数据挖掘和机器学习的软件,已在很多研究中使用。


数量的点	执行时间(秒)

100.000	2,34
200.000	8日,23
300.000	11日,29日
400.000	16日,67
500.000	20日23
公司创收	46岁,08年
1.500.000	67年,33
2.000.000	内存不足
3.000.000	内存不足

如表2显示了数据与Weka展示了良好的性能相对较少的坐标。然而随着点数量的增加Weka的性能减少了200万点,给出了内存溢出异常。通过改变Java堆大小,这种限制可以增加,但总会有一个上限取决于电脑的规格。

表3显示了执行时间聚类在我们的系统则使用火花500万坐标。表显示了系统演示性能下降的少量的点,但在合理的时间可以处理500万点。


数量的点	执行时间(秒)

100.000	32
500.000	46
公司创收	72年
5.000.000	192年

然而使用分布式算法的真正优势表中可以看到4,性能结果的火花聚类则为大量的点所示。


数量的点	执行时间(秒)

10.000.000	241年
20.000.000	307年
30.000.000	532年
50.000.000	743年
100.000.000	1664年

如图9显示了火花集群上执行时间线性增加,系统可以分析数以百万计的坐标没有任何性能问题。

5。结论

在本文中,我们展示了体系结构和分布式传感器测试结果数据收集、存储和分析系统。架构可以被扩展以支持大量的传感器和大数据大小。它可以用来支持地理上分布的传感器和收集传感器数据通过一个高性能的服务器。测试结果表明,该系统可以执行计算复杂的数据分析算法和显示与大型高性能传感器数据。作为一个结果,我们表明,使用开源技术,现代云计算和大数据框架可以用于大规模的传感器数据分析的需求。

利益冲突

作者宣称没有利益冲突有关的出版。

引用

关系数据库系统的比较,http://en.wikipedia.org/wiki/Comparison_of_relational_database_management_system。
g .出版社,物联网的数字:市场估计和预测,http://www.forbes.com/。
k·阿什顿,“物联网”的事,2015年,http://www.rfidjournal.com/articles/view?4986。
i . f . Akyildiz w·苏y Sankarasubramaniam,大肠Cayirci,“无线传感器网络:一项调查,”计算机网络,38卷,不。4、393 - 422年,2002页。视图:出版商的网站|谷歌学术搜索
r·卡特尔“可伸缩的SQL和NoSQL数据存储,”ACM SIGMOD记录,39卷,不。4,12日到27日,2010页。视图:出版商的网站|谷歌学术搜索
m·米莱尔,d . Medak, d . Odobašić”两层网络架构与NoSQL数据库映射沙发DB,”地理空间的十字路口GI论坛11卷,第71 - 62页,2011年。视图:谷歌学术搜索
j·范·德·维恩·b·范德Waaij和r·j·梅耶尔”传感器数据存储性能:SQL或NoSQL、物理或虚拟,”《IEEE五云计算国际会议(云”12)IEEE,页431 - 438年,2012年6月。视图:出版商的网站|谷歌学术搜索
j . Gantz和d . Reinsel从宇宙的混沌状态中提取价值,2011年IDC(国际数据公司)。
IEEE XPLORE“年回顾:在IEEE XPLORE热门搜索词,“http://ieeexplore.ieee.org/Xplore/。视图:谷歌学术搜索
答:开特、m . Wazid和r·h·Goudar”大数据:问题、挑战、工具和良好的实践,“当代计算机学报第六届国际会议上(IC3的13)IEEE,页404 - 409年,诺伊达,印度,2013年8月。视图:出版商的网站|谷歌学术搜索
j·迪恩和美国格玛沃特,“MapReduce:简化数据处理大型集群,”ACM的通信,51卷,不。1,第113 - 107页,2008。视图:出版商的网站|谷歌学术搜索
Hadoop官方网站,2015年,http://hadoop.apache.org/。
c·斯威尼l .刘小抒情曲,j·劳伦斯和理学学士论文,HIPI: Hadoop为基于图像的图像处理界面Mapreduce任务美国弗吉尼亚州,夏洛茨维尔的弗吉尼亚大学,2011。
t .白色,Hadoop:明确的指南O ' reilly Media, 2009。
d . BorthakurHDFS架构指南Apache Hadoop项目,2008。
c . Olston b·里德斯利瓦斯塔瓦,r·库马尔和a·汤姆金斯”拉丁语:not-so-foreign语言数据处理,”诉讼的ACM SIGMOD国际会议管理数据(SIGMOD 08年)ACM,页1099 - 1110年,2008年6月。视图:出版商的网站|谷歌学术搜索
l·乔治,HBase:明确的指南O ' reilly Media, 2011。
a . Thusoo j . s . Sarma n . Jain et al .,“蜂巢:仓库解决方案通过使用映射-规约模式框架中,“美国养老,卷2,不。2、1626 - 1629年,2009页。视图:出版商的网站|谷歌学术搜索
美国欧文,r·阿尼尔·t·邓宁,e·弗里德曼Mahout在行动曼宁出版物,2011。
m . Nemschoff大数据:5 Hadoop的主要优势,http://www.itproportal.com/。
m . Zaharia m . Chowdhury m·j·富兰克林,美国Shenker,斯托伊卡,“火花:集群计算工作集”第二届USENIX大会在云计算的热点话题,2010年。视图:谷歌学术搜索
布鲁里溃疡y, b .豪、m . Balazinska和m·d·恩斯特”HaLoop:高效迭代数据处理大型集群,”美国养老,3卷,不。1 - 2、285 - 296年,2010页。视图:出版商的网站|谷歌学术搜索
b . j . Ekanayake h . Li Zhang et al .,“捻线机:迭代mapreduce运行时,”诉讼ACM国际研讨会上的高性能分布式计算(- - - HPDC 10)ACM,页810 - 818年,2010年6月。视图:出版商的网站|谷歌学术搜索
美国马登,”从数据库大数据”,IEEE网络计算,16卷,不。3,4 - 6,2012页。视图:出版商的网站|谷歌学术搜索
d . Kourtesis j . m . Alvarez-Rodriguez, Paraskakis,“基于语义的QoS管理云系统:当前状态和未来的挑战,”未来一代计算机系统,32卷,不。1,第323 - 307页,2014。视图:出版商的网站|谷歌学术搜索
格玛沃特,h . Gobioff s t梁,“google文件系统,”19 ACM学报》研讨会上操作系统原理(SOSP ' 03)2003年10月,页29-43,。视图:谷歌学术搜索
a . Bialecki m . Cafarella d切割,O . O ' malleyHadoop:运行应用程序的框架在大型集群硬件造的,2005岁的维基http://lucene.apache.org/hadoop。
OpenStack, 2015,http://www.openstack.org。
2015年OpenNebula网页,http://www.opennebula.org。
桉树,2015,https://www.eucalyptus.com/eucalyptus-cloud/iaas。
t . Gunarathne T.-L。吴,j .秋和g·福克斯,“云MapReduce的科学,”第二届IEEE国际会议上云计算技术和科学(CloudCom 10)IEEE,页565 - 572年,2010年12月。视图:出版商的网站|谷歌学术搜索
2015年亚马逊网络服务,http://aws.amazon.com。
RapidMiner预测分析,2015年,https://rapidminer.com/。
g . Holmes a Donkin,即h·威滕“Weka:机器学习工作台,”第二届澳大利亚和新西兰会议智能信息系统,页357 - 361,布里斯班,澳大利亚,1994年12月。视图:出版商的网站|谷歌学术搜索
a . Mahout”可扩展的机器学习和数据挖掘库”,http://mahout.apache.org/。视图:谷歌学术搜索
k . Ericson和s Pallickara”在高维数据聚类和分类算法的性能,”未来一代计算机系统卷,29号4、1024 - 1034年,2013页。视图:出版商的网站|谷歌学术搜索
r·m·斯特维斯r·派斯,c .荣“首家建构超大云Mahout的k - means聚类测试”IEEE车间学报》国际会议上先进的信息网络和应用程序(WAINA 11)IEEE,页514 - 519年,2011年。视图:谷歌学术搜索
火花MLLib可扩展的机器学习库,https://spark.apache.org/mllib/。
m . Zaharia m . Chowdhury t Das et al .,“弹性分布式数据集:内存中的集群计算的容错抽象,”学报》第九届USENIX大会网络系统设计与实现(NSDI 12)USENIX协会,2012。视图:谷歌学术搜索
s . Shahrivari“超越批处理:对实时流媒体大数据,”电脑,3卷,不。4、117 - 129年,2014页。视图:出版商的网站|谷歌学术搜索
b . h . Wang吴、杨s和b . Wang”研究决策树的纱使用16 MapReduce和火花,”学报2014年世界国会在计算机科学、计算机工程、计算和应用美国内华达州,拉斯维加斯,2014年。视图:谷歌学术搜索
d·劳森乘数的交替方向方法实现使用Apache火花,2014年。
彭译葶。林,学术界。蔡,C.-P。李,C.-J。林,“大规模逻辑回归和线性支持向量机使用火花,”《IEEE国际会议上大数据,页519 - 528,华盛顿特区,2014年10月美国。视图:出版商的网站|谷歌学术搜索
f .梁,c .冯、陆x和z,“DataMPI性能优势:一个案例研究与BigDataBench”大数据标准、性能优化和新兴的硬件卷,8807在计算机科学的课堂讲稿,页111 - 123,施普林格国际出版,可汗,瑞士,2014。视图:出版商的网站|谷歌学术搜索
维基百科,“全球定位系统”,http://en.wikipedia.org/wiki/Global_Positioning_System。视图:谷歌学术搜索
Yonca哥伦比亚广播公司“Naviskop车辆跟踪系统”,2015年,http://www.naviskop.com/。视图:谷歌学术搜索
j·汉、k . Koperski和n .假摔”GeoMiner:空间数据挖掘系统原型,“ACM SIGMOD记录,26卷,不。2、553 - 556年,1997页。视图:出版商的网站|谷歌学术搜索
c·j·莫兰和e . n .中方通过增强土壤地图造型,空间数据挖掘”国际地理信息科学杂志》上,16卷,不。6,533 - 549年,2002页。视图:出版商的网站|谷歌学术搜索
r·t·Ng和j·汉,“Clarans:空间数据挖掘对象的聚类方法,”IEEE工程知识和数据,14卷,不。5,1003 - 1016年,2002页。视图:出版商的网站|谷歌学术搜索
s . Shekhar张平,黄y“空间数据挖掘,”数据挖掘和知识发现手册施普林格,页833 - 851年,2005年。视图:出版商的网站|谷歌学术搜索
快速的服务器,2015年2月,http://www.quickserver.org/。
s . k . Divakar迈索尔和耆那教的,大数据架构和模式,第1部分:介绍大数据分类和体系结构,IBM大数据和分析,技术图书馆,2013年。
p . Membrey大肠Plugge d·霍金斯,MongoDB的指南:云计算和桌面计算的noSQL数据库然后,2010年。
a . Boicea f . Radulescu, l . i Agapin“MongoDB vs oracle数据库比较,”学报》第三届国际会议上新兴智能数据和Web技术(EIDWT 12)2012年9月,页330 - 335。视图:出版商的网站|谷歌学术搜索
e·黛德m . Govindaraju d·冈特r . s .佳能和l . Ramakrishnan,“绩效评估MongoDB和Hadoop的科学数据分析平台,”第四届ACM学报科学研讨会上云计算(ScienceCloud 13)2013年6月,页13-20 ACM,。视图:出版商的网站|谷歌学术搜索
王y, y, y,”研究改进MongoDB自动分片在云环境中,”学报》第七届计算机科学与教育国际会议(ICCSE 12)IEEE,页851 - 854年,墨尔本,澳大利亚,2012年7月。视图:出版商的网站|谷歌学术搜索
z帕克、s波和s . v . Vrbsky“nosql mongodb比作一个sql数据库,”美国第51 ACM东南会议2013年4月,ACM,。视图:出版商的网站|谷歌学术搜索
z Wei-Ping、l .仲裁员和c .欢”使用MongoDB实现教材管理系统代替MySQL,”IEEE学报》3日国际会议通信软件和网络(ICCSN 11)IEEE,页303 - 305年,2011年5月。视图:出版商的网站|谷歌学术搜索
k·杰克逊,OpenStack云计算食谱Packt出版有限公司,2012年。
o . Sefraoui、m . Aissaoui和m . Eleuldj”OpenStack:对云计算的开源解决方案,“国际期刊的计算机应用程序,55卷,不。3,38-42,2012页。视图:出版商的网站|谷歌学术搜索
c·p·陈和彭译葶。张:“数据密集型应用程序,挑战,技术和技术:大数据的调查,“信息科学卷,275年,第347 - 314页,2014年。视图:出版商的网站|谷歌学术搜索
美国高,l . Li w·李,k . Janowicz y张,“构建基于Hadoop从自愿地名表大地理信息,“电脑、环境和城市系统,2014年。视图:出版商的网站|谷歌学术搜索
美国布鲁克,克拉克,j·k·Njagi et al .,“疟疾空间聚类和相关的风险因素在流行病在肯尼亚西部的高地地区,”热带医学与国际卫生,9卷,不。7,757 - 766年,2004页。视图:出版商的网站|谷歌学术搜索
t . Cheng j .霍沃思b . Anbaroglu g . Tanaksaranond和j·王,“时空数据挖掘”区域科学手册施普林格,页1173 - 1193年,柏林,德国,2014年。视图:谷歌学术搜索
小王和h .元,“空间数据挖掘:大数据的角度来看,“国际期刊的数据仓库和采矿业,10卷,不。4、50 - 70年,2014页。视图:谷歌学术搜索
Naik y . j . Akhila a、b .对冲基金·谢蒂和a·j·k·汉“SD miner-a空间数据挖掘系统,”国际期刊的研究,1卷,不。5,563 - 567年,2014页。视图:谷歌学术搜索
r·夏尔马·m·a·阿拉姆,王妃,“k - means聚类在空间数据挖掘使用weka接口,“国际期刊的计算机应用程序,2012年,页26 - 30日学报》国际会议通讯和计算技术的进步(ICACACT 12)。视图:谷歌学术搜索
m·霍尔·e·弗兰克,g .福尔摩斯b . Pfahringer p . Reutemann和i . h .威滕”WEKA数据挖掘软件:一个更新”,ACM SIGKDD探索通讯,11卷,不。1,10 - 18,2009页。视图:出版商的网站|谷歌学术搜索

杂志上的传感器

可伸缩的架构和实现传感器数据存储和使用云计算和大数据技术分析系统

文摘

1。介绍

2.1。传感器、物联网,NoSQL

2.2。大数据

2.3。Hadoop MapReduce和

2.4。云计算

2.5。大数据分析

3所示。系统架构

3.1。传感器数据采集子系统

3.2。传感器数据存储子系统

3.3。传感器数据分析子系统

4所示。传感器数据分析结果

5。结论

利益冲突

引用

版权

相关文章

相关文章

杂志上的传感器

可伸缩的架构和实现传感器数据存储和使用云计算和大数据技术分析系统

文摘

1。介绍

2。背景、相关的概念和技术

2.1。传感器、物联网,NoSQL

2.2。大数据

2.3。Hadoop MapReduce和

2.4。云计算

2.5。大数据分析

3所示。系统架构

3.1。传感器数据采集子系统

3.2。传感器数据存储子系统

3.3。传感器数据分析子系统

4所示。传感器数据分析结果

5。结论

利益冲突

引用

版权

相关文章

更多相关文章

更多相关文章

相关文章