开放获取
Rob Pike肖恩Dorward罗伯特•Griesemer肖恩•昆兰, ”解释数据:与Sawzall平行分析”,科学的规划, 卷。13, 文章的ID962135年, 22 页面, 2005年。 https://doi.org/10.1155/2005/962135
解释数据:与Sawzall平行分析
收到了
2005年12月30日
接受
2005年12月30日
文摘
非常大的数据集通常有平坦但常规结构和跨多个磁盘和机器。例子包括电话记录、网络日志和web文档存储库。这些大型数据集不适合研究使用传统的数据库技术,如果只能太大,因为他们适合在一个关系数据库。另一方面,许多分析完成可以使用简单的表达,容易分布式计算:过滤、聚合、提取统计,等等。我们提出一个系统等自动化分析。过滤阶段,一个查询使用新的过程式编程语言表达,发出数据聚合阶段。两个阶段都是分布在成百上千的计算机。结果然后整理并保存到一个文件中。设计——包括分离为两个阶段,编程语言的形式,聚合器的属性——利用固有的并行数据和计算分布在许多机器。
版权
版权©2005 Hindawi出版公司。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。