实现云计算的二次指数NoSQL数据库大数据环境

文摘

介绍NoSQL数据库的结合HBase和企业搜索平台Solr,以解决这一问题的二次指数函数与快速查询。为了验证该方法的有效性和效率,评估使用性价比可能已经完成了几个竞争性基准数据库和拟议中的一个。因此,我们建议的方法优于其他数据库,实现二次指数函数与快速查询在NoSQL数据库。此外,根据横断面分析,提出结合HBase和Solr数据库能够执行一个优秀的查询/响应在一个大数据环境。

1。介绍

关于大数据存储(1,2),快速和容易的NoSQL数据库中数据查询是一个关心的问题。一般来说,NoSQL计划(3,4是能够支持不同的数据格式存储过程;然而它牺牲索引搜索功能。HBase是NoSQL数据库作为Hadoop生态系统的一部分。它通常被称为键值的方案和商店MapReduce执行的结果出来。HBase特性高可伸缩性和高灵活性,交付一个高IO性能的大数据。Solr是极快的开源企业搜索引擎,可以快速创建索引,进行强大的全文搜索。在这篇文章中,我们可以将HBase和Solr增强HBase的二次指数函数。这种组合的成功后,我们进行一系列的压力测试使用几个测试项目,然后使之间的性能比较,提出了一个和其他基准数据库。最后,一个叫性价比可能成本效益评价(c p比值)(5为各种各样的数据库)已经完成。结果,评估对c p比率将所有数据库的分析和讨论中提到的。基于横截面数据分析(6),它将探索NoSQL数据库中数据访问的性能在大数据环境。

键-值数据库,它允许应用程序数据存储在一个非模式化的方法。数据可以存储在一个数据类型的编程语言或一个对象。不需要一个固定的数据模型。键值存储分为很多类别,如最终一致(总是保持最新的结果如果没有更新),层次(可以使用父母的属性),RAM缓存(键值存储在内存中,散列存储在缓存中,和哈希索引键值;时间复杂度是O(1)),固态或旋转磁盘(如Google Bigtable用于固态磁盘提高IO访问速度),并命令(键-值对可以排序键或值)。表格数据库,这个数据库是结构化以表格形式。它安排列数据元素在垂直和水平行。每个单元由一个列的交叉点和行。每行和每列是唯一编号的有序和高效。这种类型的数据库有一个几乎无限范围的大规模数据存储。 Structuring data in tabular form may be the oldest method used. It is also simple. Tabular database has several properties. They share the same set of properties per record. This means that every row has the same set of column titles. They access records through identifiers. Each table in a tabular database contains a particular set of related information that is connected with the database subject through key fields, which describe each record (row) so that, in the event of a query, the system can quickly locate the record. There are several famous databases of this type, like Google Bigtable, Apache Accumulo, Apache HBase, and Hypertable. For column store database, it stores data tables as sections of columns of data rather than rows of data. For RDBMS, rows are commonly used; the column store database has the advantage of aggregating computed data over large numbers of similar data items. Column store is used in data warehouse and CRM system. Using column store database, the system can evaluate which columns are being accessed and retrieved only if values are requested from the specific columns. For NoSQL database, each mechanism has different uses, and a famous database can have many properties, like Google Bigtable. It owns solid state disk key-value type and tabular type. For this study, HBase is a column-store database. It has an easy method to use, and its performance as well as the scalability is better than the others. Table1解释每种类型的数据库/ 5的性能标准。


数据库	性能	可伸缩性	灵活性	复杂性	功能

键值存储	高	高	高	低	变量
列存储	高	高	温和的	低	最低
文档存储	高	变量	高	低	变量
图形数据库	变量	变量	高	高	图论
关系数据库	变量	变量	低	温和的	关系代数

本文的以下段落排列如下。节2,NoSQL数据库和企业搜索平台将被描述。系统评价的方法是在部分3。将获得的实验结果和讨论部分4。最后,我们画了一个简短的结论部分5。

2。NoSQL数据库和企业搜索平台

本文研究如何结合HBase和Solr运行在大数据环境下基于云计算平台。所有的应用程序被安装在一个基于linux的操作系统。HBase是放置在Hadoop的HDFS系统。因此,HBase可以被附加到Hadoop在Hadoop的核心部件被安装在一个物理机器如MapReduce和HDFS。Solr可以独立运作,没有任何其他应用程序的支持。与公司Solr, HBase可以很容易地创建索引。另一方面,Solr是能够为用户提供GUI界面的操作。程序建立的组合两个应用程序可以列出如下。(1)安装Linux O / S在每台主机上,通过SSH连接在一起,并部署JVM每台主机上实现一个Linux集群环境。(2)建立主、从节点和开始。主节点部署Hadoop从节点。这Hadoop在每台主机上完成在集群环境中(7- - - - - -9]。(3)部署Hadoop和饲养员集群后,我们需要确认启动Hadoop和饲养员服务。我们能够给jps指令终端检查服务是否运行正常。在那之后,我们建立HBase服务(10- - - - - -13在Hadoop]。(4)当过程# 3已经完成,使用web浏览器来查看启动Hadoop和HBase服务。关键在http://localhost: 50030 /, 50040年、50070年和60010年是用来检查每个节点是否运转正常。(5)Solr开始之前,我们需要修改在solrconfig执行参数。xml,这是一个配置文件中。/ solr-version / / solr /文物/ conf /例子。我们必须确定Solr是否设置输入字串作为索引,内容存储和数据格式。Apache Solr需要http web容器开始,例如,Apache Tomcat或Jetty。在这里,我们选择了码头,因为默认设置。设置后,我们在“java jar开始,jar”关键在终端启动Solr。最后,我们得到了Solr的地址,它是http://localhost: 8983 /。(6)因为HBase不能支持自动生成的行键,几大数据文件应当提前修改。我们需要设计一个独特而复杂的rowkey对应于一个大的行数(一千万行)。在这项研究中,我们选择美国黄页作为数据源。我们的数据组合是“rowkey-category-shop name-telephone-province-address”共有6列。这些数据文件必须转化为CSV格式,和”、“符号用于单独的每一列。(7)CSV文件被上传到Hadoop文件系统,这些文件导入到HBase作为全文通过特殊输入工具,“批量加载工具”(14]。我们需要检查数据完整性在HBase数据导入。(8)然后,我们使用HBase输出API和Apache HTTP API来将文档从HBase Solr (15- - - - - -17]。传输后,索引创建和Solr的内容保存在内存中,也就是说,模式定义,如图1。我们可以使用web浏览器来检查的数量在Solr文档。行表示一个文档中的数据。我们可以使用查询功能,搜索关键字(二级索引或更多),相对地在Solr搜索主索引。我们可以应用过滤功能来改善搜索结果的精度。(9)完成的设置提出了系统后,我们选择了其他一些与提议的一个基准比较实验。实验后,我们能够提供一种评估,比如成本效益评估。在图2一起,流程图代表HBase Solr实现二级索引操作。

3所示。系统评估

在绩效评估方面,我们已经开始测试的时间数据读/写各种各样的数据库,例如Apache HBase,卡桑德拉,华为HBase Solandra,莉莉项目。接下来,数据传输的时间从上述数据库Solr必须被记录下来。最后,查询的响应时间函数中执行Solr需要测量。根据四个测试数据编写、数据读取、文件传输和查询/响应任何数据库的如上所述,首先我们要测量一个数据访问时间采取不同的数据大小所示(1),代表一个数据访问时间,为一个单一的运行代表测量总时间为一个特定的数据大小在一个特定的数据库,和意味着一个特定的数据大小。在(2),代表一个数据访问和的平均时间代表各自的重量因素。规范化的性能指标为一个特定的数据库在一定测试可以获得所示(3),代表一个规范化的性能指标。之后,我们评价规范化的加权平均性能指标和结果的性能指标18为每个数据库中所示()4),代表性能指标,代表比例因子# 1,是各自的重量,意味着一个规范化的性能指标。为了评估成本效益评估,我们需要计算所有权的全部成本(19)(5),显示资金支出的NoSQL数据库二次指数函数的实现,提出了硬件成本,代表软件成本,意味着维修保修费用后,停机时间成本,解释了额外的升级成本。所有权的总成本可能不同的货币价值与位置,市场,和税收。因此,可获得更高的成本,例如,在美国在台湾和更低的成本。系统的评估,一个典型的成本效益评估称为c p比率一直在这里介绍做评估(6),是c p比,代表比例因子# 2,意味着所有权的总成本以及下标代表不同的数据中心和代表一段时间。考虑以下: 在哪里,,, 在哪里,,, 在哪里和, 在哪里,,,, 在哪里和, 在哪里,,

为了检查NoSQL数据库二级索引函数的稳定性和可靠性,压力测试的数据检索Solr已在大数据环境中。技术上来说,这个测试生成20线程(20 windows)应对10到1000查询和我们同时检查延迟时间(时间间隔)。每个查询的关键指标是不同的,如图3。显然,结果将显示查询的响应时间在Solr和解释之间的相关性的窗户和延迟。

4所示。实验结果和讨论

有一些实验和讨论下面。

4.1。数据传输和数据完整性检查

关于实现过程如图4,这表明数据传输从HDFS HBase和/或HBase Solr,在转换过程中有丢失数据的风险。我们必须验证数据完整性在HBase内部表和Solr的输入文档。对于检查HBase,我们检查内部表使用命令“扫描表名”CLI如图5。在图6,Solr文档从HBase使用CLI中的命令。用于检查Solr,我们检查输入文档数量在Solr中使用web界面如图6。此外,在绩效评估方面,数据写/读的时间在每一个数据库被测量是列在表2和3。数据传输时间从每个数据库被记录为Solr列在表中4。


数据大小	HBase + Solr	卡珊德拉	华为HBase	Solandra	莉莉项目

10⁴	23	110.4	23	120年	23
10⁵	23.2	1109.2	23	1215年	24
10⁶	123.4	11211.3	125年	11253年	137年
10⁷	388.5	113157.7	390年	113189年	412年


数据大小	HBase + Solr	卡珊德拉	华为HBase	Solandra	莉莉项目

10⁴	27.2	27.6	30.	29日	27
10⁵	266.5	270.7	269年	288.5	273年
10⁶	2572.2	2614.2	2589.7	2735年	2566年
10⁷	24312年	24701年	24479年	24988年	24385年


数据大小	HBase + Solr	卡珊德拉	华为HBase	Solandra	莉莉项目

10⁴	109年	120年	115年	123年	115年
10⁵	1121年	1130年	1125年	1154年	1130年
10⁶	11105年	11286年	11173年	11330年	11186年
10⁷	108055年	112806年	112347年	113105年	112395年

HBase谈到数据导入,我们采取了批量加载工具使用MapReduce计算原始文件转移到HBase因为这个工具能够处理大量数据的快速、顺利转移。Solr,程序在Solr与特定端口和指定的HBase API激活快速传输文件从HBase Solr在java客户机访问Solr称为Solrj已经登录到http服务器,Solr,迅速响应并提供在线文档的连接到http服务器。这也展示了一种有效的方式实现快速文件传输大量的基于客户机-服务器模型数据。或者,另一个选择是,HBase协处理器可能发射过程进行批量更新频繁。然而,HBase协处理器是不稳定的,因为它仍在开发阶段。

4.2。查询功能和性能指标

一旦文档从HBase Solr被完全完成,Solr的数据,我们可以检查在Solr文档,如图7。为了验证二次指数在HBase和Solr的组合函数,我们推出了Solr如图中的查询测试8,我们可以检查相关的信息在网络上操作。Solr提供了正常搜索,过滤搜索空间搜索和其他更多的搜索功能。例如,我们做了一个搜索使用字号字段包括“食品”为关键字,和1000年业绩出现过滤标签与“纽约。“我们键入“shopname:食品”在“q”字段中,输入“省:纽约”在“fq”字段,并给1000行字段。图8显示查询的操作。在表5查询的响应时间函数在Solr还被执行。此外,平均耗时的读/写数据,文件传输和查询功能是最终获得表中列出6。之后,根据(4),我们可以评估每个数据库的性能指标超过5年的时间如表所示7。


数据大小	HBase + Solr	卡珊德拉	华为HBase	Solandra	莉莉项目

10⁴	0.15	0.91	45	2	1
10⁵	0.5	11.12	288年	7	5
10⁶	2	143.1	547年	15	10
10⁷	10	2011.13	1867年	60	45


操作	HBase + Solr	卡珊德拉	华为HBase	Solandra	莉莉项目

数据写	0.000673563	0.011164768	0.0006735	0.011680475	0.00067955
数据读取	0.0025971	0.002637825	0.0026819	0.0027547	0.002608625
文件传输	0.011005125	0.01146665	0.011289425	0.011620125	0.011306375
查询/响应	0.00000575	0.000136603	0.002028425	0.00007275	0.000041125


数据库	性能指标

HBase + Solr	99年
卡珊德拉	51
华为HBase	73年
Solandra	50
莉莉项目	77年

4.3。评估

系统的评估,我们首先分析所有权的全部成本(TCO)根据几个项目,如硬件成本、人员成本、软件成本、维修成本保修后,停机时间成本和额外的升级成本。TCO的摘要见表7。我们估计,两台计算机硬件成本是2666美元。然后,我们认为维护法案是13000美元每年Hadoop HBase一起,Solr维护成本大约是每年300美元,和卡桑德拉是每年10300美元。因此,我们所做的相同的维修估计上述Solandra和莉莉申请项目,因为他们只是上面的组合应用程序。所有的软件成本是完全免费的开源。后硬件维护保修,我们假设所有的设备有同样的故障的风险,因此第四年设备故障的几率是25%,而在5年50%的几率。软件的升级成本,没有因为开源的。关于停机时间成本,我们假设一个应用程序将花费20美元每年,总成本将取决于软件的数量。表8给出了总结本研究的总体拥有成本。系统的评估、c p比评估根据(6)所有的数据库将产生的摘要中列出那些在5年时间内表9。


数据库	1年	二年级	第三年	4年	5年

HBase + Solr	16393.3	13726.7	13726.7	13804.1	13877.9
卡珊德拉	16020年	13353.3	13353.3	13430.8	13504.6
华为	16040年	13373.3	13373.3	13450.8	13629.9
Solandra	13040年	10373.3	10373.3	10450.8	10524.6
莉莉项目	16393.3	13726.7	13726.7	13804.1	13877.9


数据库	1年	二年级	第三年	4年	5年

HBase + Solr	61.00	72.85	72.85	72.44	72.06
卡珊德拉	31.94	38.32	38.32	38.10	37.89
华为	45.92	55.07	55.07	54.76	54.04
Solandra	38.85	48.84	48.84	48.48	48.14
莉莉项目	47.27	56.46	56.46	56.14	55.84

4.4。压力测试和讨论

NoSQL数据库的稳定性和可靠性问题二次指数函数一直担心,因此压力测试的数据检索Solr已在大数据环境。在该测试中,有20线程(20 windows)用于接受查询的数量从10至1000年,在此期间的延迟(时间间隔)。每个查询的关键指标是不同的,如图3。表10已经上市的延迟和我们检查结果的汇总。在测试从统计的角度来看,打开窗户的数量显然并不影响延迟的长度发生在Solr中查询。NoSQL数据库二级索引函数的稳定性和可靠性验证,因为所有的查询在5秒内压力测试作出了回应。


查询	赢了。	赢了。	赢了。	赢了。	赢了。	赢了。	赢了。	赢了。	赢了。	赢了。

	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10

10	0.15	0.1	0.2	0.2	0.1	0.15	0.16	0.15	0.2	0.2
One hundred.	1	1	0.8	1	1	0.8	1	1	1	1
1000年	3	4	3	4	3	4	3	4	5	4

	# 11	# 12	# 13	# 14	# 15	# 16	# 17	# 18	# 19	# 20

10	0.15	0.15	0.15	0.15	0.2	0.2	0.16	0.15	0.2	0.2
One hundred.	1.2	0.8	1.1	1	1.1	1	1.2	1	1.1	1.2
1000年	3	4	3	4	5	4	4	4	5	5

它指出,五个数据库的性能指标已列在表中7定常。在图9所有权的总成本,我们建议的方法已经从每年不同,大幅下降,在5年时间内上升缓慢。因此,建议的方法的c p比突然上升,几乎保持同一水平之后,如图10。因此,根据c p比,我们建议的方法优于其他在此期间,表中列出9。这已经证实我们建议的方法已成功实现,表现明显NoSQL二次指数函数和快速查询。

有四个测试函数的数据读、写数据,文件传输和查询/响应,如前所述本文衡量单个数据访问的平均时间在一个特定的数据库表中列出2来4。我们感兴趣的是确定一个数据访问的平均时间可能随数据大小或不为这些函数。如图11横截面数据分析(6)给它要花最少时间查询/响应的功能,比较与其他功能。的平均时间大幅减少随着数据量的增加,因为数据检索的命中率上升迅速在内存中缓存和并发响应时间大幅减少。这个图说明NoSQL数据库二次指数函数可以实现一个性能优良的查询/响应特定的数据库,尤其是在大数据环境。

5。结论

介绍NoSQL数据库的结合HBase和企业搜索平台Solr实现二次指数函数与快速查询。在评估、成本效益评价称为c p比已经完成多个竞争性基准数据库和拟议中的一个。因此,我们建议的方法优于其他数据库,实现二次指数函数与快速查询在NoSQL数据库。此外,压力测试已验证该方法的稳定性和可靠性。最后,根据横断面分析,提出结合HBase和Solr数据库能够执行一个优秀的查询/响应在一个大数据环境。

利益冲突

作者宣称没有利益冲突有关的出版。

承认

这项工作由科技部支持,台湾,中华民国,在批准号大多数103 - 2221 - e - 390 - 011。

引用

d·豪m . Costanzo的观点,p . Fey et al .,“大数据:biocuration的未来,”自然,卷455,不。7209年,47-50,2008页。视图:出版商的网站|谷歌学术搜索
a·雅各布斯“大数据的病态,”通信ACM-A盲人的交互技术,52卷,不。8日,36-44,2009页。视图:出版商的网站|谷歌学术搜索
r·卡特尔“可伸缩的SQL和NoSQL数据存储,”ACM SIGMOD记录,39卷,不。4,12日到27日,2010页。视图:出版商的网站|谷歌学术搜索
j . Pokorny“NoSQL数据库:数据库可伸缩性一步在web环境中,“国际期刊的网络信息系统,9卷,不。1,第82 - 69页,2013。视图:出版商的网站|谷歌学术搜索
b . r . Chang H.-F。蔡,C.-M。陈,张炳扬。黄”,分析虚拟云服务器共享存储和整合比估计和TCO / ROI,”工程计算没有,卷。31日。8,1746 - 1760年,2014页。视图:出版商的网站|谷歌学术搜索
c c。李和C.-P。常”,亚洲经济体的能源消费和经济增长:更全面的使用面板数据分析,“资源和能源经济,30卷,不。1、50 - 65年,2008页。视图:出版商的网站|谷歌学术搜索
周p . j . Lei, w .你们,“基于Hadoop MapReduce和大规模数据集的聚类,“计算信息系统杂志》上,7卷,不。16,5956 - 5963年,2011页。视图:谷歌学术搜索
j·k·蒋”,身份验证、授权和文件同步混合不确定性发展为中心的google apps, hadoop和linux本地主机,“互联网技术杂志》,14卷,不。7,1141 - 1148年,2013页。视图:出版商的网站|谷歌学术搜索
j . Leverich和c . Kozyrakis Hadoop集群的能源的效率,”ACM SIGOPS操作系统复习,44卷,不。1,第65 - 61页,2010。视图:谷歌学术搜索
t .白色,Hadoop:明确的指南O ' reilly Media,塞瓦斯托波尔,加州,美国,2009年。
n . DimidukHBase在行动曼宁的出版物,2012年英国的格林威治。
y江,HBase管理食谱Packt发布,伯明翰,英国,2012年。
c . Boja a Pocovnicu, l . Batagan”大数据分布式并行体系结构,”《经济学报》Informatica,16卷,不。2、116 - 127年,2012页。视图:谷歌学术搜索
j·迪恩和美国格玛沃特,“MapReduce:简化数据处理大型集群,”ACM的通信,51卷,不。1,第113 - 107页,2008。视图:出版商的网站|谷歌学术搜索
m . Hausenblas和j . Nadeau Apache钻:互动特别分析规模,”大数据,1卷,不。2、100 - 104年,2013页。视图:出版商的网站|谷歌学术搜索
r . KucApache Solr 4食谱Packt发布,伯明翰,英国,2013年。
t·格兰杰和t·波特,Solr在行动曼宁的出版物,2014年英国的格林威治。
b . r . Chang H.-F。蔡,C.-M。陈:“High-performed虚拟化在云服务企业资源规划系统,”信息隐藏和多媒体信号处理杂志》上,5卷,不。4、614 - 624年,2014页。视图:谷歌学术搜索
b . r . Chang H.-F。蔡,C.-M。陈”,虚拟机性能评估和虚拟化整合比在云计算系统中,“信息隐藏和多媒体信号处理杂志》上,4卷,不。3、192 - 200年,2013页。视图:谷歌学术搜索

科学的规划

文摘