反复观察多个数据源使用多路连接在MapReduce

文摘

作为数据来源信息和数据积累规模升级它变得越来越难以维护这些数据集的正确性和有效性。因此,工具必须出现,以促进这一艰巨的任务。事实检查通常涉及到大量的数据源谈论同样的事情,但我们不确定该基金持有正确的信息或有任何信息对我们照顾的查询。全部或部分之间的一个连接数据源可以引导我们通过一个漏洞百出的过程。然而,当我们想执行这个在分布式计算环境中加入如MapReduce,这不是明显的如何分配有效数据源中的记录减少任务以加入任何的一个子集MapReduce工作。为此,我们提出一个有效的方法使用多路连接再确认这些数据源在一个圆的。

1。介绍

在许多应用程序中,我们需要从多个数据源中提取有意义的结论,提供信息看似相同的属性(虽然可能没有相同名称的属性,我们有理由相信,他们指的是同一个实体/信息)。不同的数据源提供的信息,可能会略有不同,互相矛盾,甚至是不完整的。例如,在后者的情况下,缺失数据问题是不常见存在丰富的社会科学领域的例子(1和临床研究2,3]。

不完整的医疗领域和缺失数据问题报告(4- - - - - -6]。这些问题研究等领域的知识发现,网页个性化,事实检查(7- - - - - -10]。为了有意义的数据,我们必须解决问题,如丢失或数据不一致问题,同时应对庞大的数据量给我们。典型的方法处理这些问题涉及使用统计方法解决问题的开创性的工作,如开始(11]向前移动数据挖掘(9)和数据集成技术(12]。我们间接处理缺失数据问题;而不是使用典型的缺失数据归责方法依赖于统计和概率方法(6缺失值)来推断,我们选择使用一个基本形式的多数票(11,12],结果代替缺失值与其他数据源之间的共同价值。在我们的方法,我们允许存在缺失值的元组属性和识别记录关于他们之间的相似常数协议属性。最后,当我们加入相似的价值观我们可以用结果来填充缺失的属性在最初的来源。结果将会是最常见的值在所有数据源。矛盾解决以同样的方式,包括最常见的值在数据来源。

的观点提出了重视将尽可能多的数据源到数据池。因为经常没有一个数据源提供了良好的所有潜在的信息查询,这将是有价值的结合和比较的信息来源提供并找到答案的我们的查询,是基于这样一个组合许多数据源可能部分可靠。并不少见,一些查询回答某些数据来源的可靠和其他一些从一组不同的数据来源。此外,与我们之前的工作(13),我们将利用这些数据来源的性质(即。,the presence of overlap between entities across different sources) by providing new experiments with different degrees of overlap. We also provide a more thorough description of problem and contribution. Moreover, we exploit our preestablished approach by introducing a preprocessing step which detects similarities between entities to treat inconsistencies caused by typing errors.

遵循一个例子的问题可以被视为一个实体的一部分解决问题(有些刻意为了简单起见)。

例1。假设我们有四个数据源提供电影和演员参与和人口信息关于演员的信息,如电话号码和地址。上钻在许多现代的应用程序(例如,小孔(14,15)所有这些信息被收集在一个与许多属性而不是在许多关系(如将这种情况,例如,在一个星型模式和一个事实表和几个较小的维度表)。也许我们有许多数据源提供类似的信息,因此,在几乎相同的属性,但不完全是。在我们演员的例子,让我们假设我们有四个关系, , , ,和在哪里在属性 , , ,和 , 在属性- - - - - - , , ,和 , 在属性 , , ,和 ,和在属性 , , ,和(还记得一些演员也可能是制片人)。因为来源是不完整的和不可靠的,如果我们想要汤姆·克鲁斯的电话号码,我们会查询所有可用的资源,找到一个数字或发现经常出现的数量。

在本文中,我们提供了一个解决问题的办法在上面的例子中可以实现MapReduce (16]的计算环境。特别是,我们表明我们可以分发许多大重叠关系属性的一种有效的方式在一个MapReduce工作的还原剂通过使用多路连接算法的17]。我们分发输入记录的关系,如果我们打算加入所有关系。然而,有效的分配关系元组,我们可以选择加入还原剂的任何子集关系我们找到适合特定的查询。我们再次引用上面的例子来说明我们可能受益于这一点。

例2。假设我们想要找到汤姆·克鲁斯的电话号码。然后在每个减速器加入所有包含电话号码的关系(关系的观察汤姆克鲁斯也可能包含一个引用,如果他是一个生产者),看看我们发现什么。选择电话。从R1和R2和R3和R4actor_name =汤姆·克鲁斯还是prod_name=汤姆克鲁斯如果输出是不令人满意的(例如,空的,这意味着一些tel.数字是错误的或有多个电话。数字,因此他们不加入),我们可以加入更少的关系在还原剂和想出答案。
当然,我们可以使用相同的分布来解决不同的查询;例如,找到安吉丽娜·朱莉的地址。因此我们使用相同的分布多个查询的还原剂以及解决查询通过选择加入哪个关系(不重新分配的额外开销的关系)。

以上是可行的因为一个非常重要的性质的多路算法(17),我们将在下一节中解释。

剩下的纸是组织如下。部分2指的是相关的工作。节3,我们回顾中所描述的多路算法17]。节4,我们检查密切的沟通成本多路连接在关系中加入了大量的共享属性以及与二进制多路连接,在连接两个关系之间发生的一个属性,因此认为在某些情况下,多路算法将有极好的性能(我们利用本文)而可能存在情况下,事实并非如此。节5,我们提供具有代表性的实验结果。节6我们提供一个直接的应用技术提出了。最后一节7提供了结论并简要讨论未来的工作和有意义的应用程序的工作。

在[18),不同类型的连接(等值连接,thetajoins相似,神经网络和最高)列出和MapReduce轮他们需要的数量相比,他们是否提供精确或近似解以及涉及到的数量关系,也就是说,二进制或多路。根据(18],现有方法计算相似性连接在MapReduce (a)局限于二进制连接(19- - - - - -24)和(b)最需要多个MapReduce轮(19- - - - - -23]。

在本文中,我们选择(24)作为一个圆算法计算相似性连接和使用17我们延长申请多路连接。此外,我们表明,在特定的用例的多路连接17)有效地分配数据异径接头避免大型复制率(见部分4.2)。

除了工作密切相关的技术文章的一部分,还有大量的工作反映同样的问题的检查,如(12,25]。冲突的数据源的数据集成研究(25),试图在数据源中找到真正的价值观冲突的价值观。在[12)依赖的概念被引入的一些数据源复制别人的。依赖和数据源的准确性由不同的概率评估模型和反复核查冲突时考虑数据源。

此外,在实体解析的上下文(ER)和记录链接(RL) [26,27),也称等其他名字对象匹配,重复数据删除,或引用和解,我们的目标在这工作有点相关。ER和RL是重要的步骤在数据清理解决错误。唯一的区别在于,ER和RL寻找相似的实体被视为潜在的真实世界的实体而我们重复的错误检测方法认为类似的实体作为潜在的数据录入错误或错误。

3所示。多路加入MapReduce算法

MapReduce是一个并行计算框架来处理大量的分布式数据。用户提供了一个实现的地图函数变换它的输入<键,值>对。这些对分布式系统和分配减少任务,每一个明显的标识关键价值。每一个减少reduce函数适用于任务值与每一个关键生产一个最终结果。

在多路连接算法17),地图阶段提供了一个有效的方式来分配关系元组来减少任务反过来执行实际的加入。我们演示了算法使用两个例子简单和更复杂。

例3。假设我们有以下3路链加入: 执行一个多路连接,地图任务将来自不同关系的元组赋给不同的键合并的目标匹配属性值的元组在减少的阶段。在这个例子中,在减少阶段我们需要关注两个加入属性:属性,共享之间的关系和 ,和属性 ,之间共享关系和。

为了执行MapReduce的正确多路连接在一个圆,我们必须确保任何匹配的三元组价值和值满足同时减少任务。在我们的例子中3,中间的元组关系应该匹配的元组 ,因此内的所有元组与必须在同一减速器,同样。为了实现这一点,中间的关系作为一个关键组成表明减速机接收发射<键,值>映射器。限制产生的任意大小的关键固定大小,实际主要由散列值反映一组桶对应数量的还原剂(见图1)。注意,还原剂/桶和桶/减速器关键指数可以交替使用表示同样的事情。

让的哈希函数的范围。每个桶都被一双在每一个 , 范围之间和。因此桶的数量。所有收到中间关系元组将散列桶吗而晃来晃去的元组和在桶将被复制所有的值和桶所有的值 ,分别。正如前面所提到的映射器发出的对<键,值>;的关键部分是桶的索引值部分是实际的元组包括关系的名称,例如, 。减速机然后遍历元组收到和合并成功匹配的元组和。

图1展示了一个例子假设关系的元组收到了和哈希函数。结果将会分布在桶对所有。同样的,假设一个元组是来自关系与和哈希函数 ,其结果将是分发给桶对所有。最后,如果,例如,一个元组收到是散列桶指数吗。

例4。假设现在我们想执行以下四大连锁加盟: 我们扩展相同的多路连接方法连接元组在一个圆的。在例子中3,所有中间关系将作为键。将包含三个属性的关键散列, 减少任务。请注意,现在图1成为一个三维数组的桶。因为所有三个属性不躺在相同的元组,地图任务必须按照属性的散列是可用的和复制。例如,一个元组的关键是 ,在那里是一个三维或第三散列索引值。同样地,元组的关键是 ,元组是和元组是。值的一部分<键,值>对发出的地图任务会像以前一样,这是关系名称以及实际的元组。

在一般情况下,哈希函数应用于属性是不同的每个属性的值(选择适当平衡偏态引入的不同大小的关系)。换句话说一个维度的桶在图的网格1可能扩大,以适应(平衡)特别是频率值。偏态并不在我们的论文,因为它需要处理预处理[中提供更多的细节17]。

桶的数量,某一个属性的值是散列叫做分享这个属性。产品的所有股票的数量应该等于还原剂。

沟通成本是一笔,每一项关系。每一项的产品关系的大小乘以股票属性缺失的关系。

在示例3例如, 沟通成本表达式在哪里大小的关系吗和是属性的份额。

在示例4例如, 沟通成本表达式

在[17),它是解释我们如何找到合适的减少沟通成本。

主导规则。显性的规则是在[发现17)这使得沟通成本的计算表达式简单和概括的直觉的例子3和4上面我们不包括属性的关键。

统治关系。我们说一个属性是主导通过另一个属性如果每个关系包含还包含。换句话说,总是出现在我们加入模式,而相反的可能不是真实的。

根据优势规则,如果一个属性是主导的股份数等于1。

4所示。反复核查“脂肪”关系在MapReduce

我们称之为超图连接的表示连接的模式,一个节点代表一个属性和一个hyperedge是一组节点代表参与加入的关系(28]。例如,在示例3, 超图将包括hyperedges , , (见图2)。

我们定义一个胖超图如下:修复一个比率。我们说一个超图如果每个hyperedge包含至少丰满属性/节点是属性的总数/节点图。然后我们决定一个阈值在我们定义一个加入一个胖超图有一个超图丰满的。

在此之后我们参考(滥用的术语)脂肪的关系意义的关系,因为他们出现在加入一个胖超图。

4.1。优化股票(例子)

我们将使用多路加入脂肪的关系。在下一个示例中,我们构造映射键和计算通信成本加入的表达式。

例5。我们假设以下脂肪的关系,形成了四大胖加入: 用优势法则对于这个查询,我们取中间的属性关系作为键。我们不需要中间的所有属性关系考虑,有些属性是由其他属性。请注意,是由 ,因为总是一起出现(在关系和)。同样的,是由。然而,这并非如此,例如,使用属性。属性伴随着和在和和在。因此,必须映射键,因为它不是主要的一部分。最后关键是组成的。
这个连接的沟通成本表达式(记得我们曾经约定大小的关系吗和是属性的份额)如下: 观察,如果所有的关系都是一样的大小,也就是说, 对称的,因为所有的股票是相等的, ,因为我们也有约束。

同时,注意到回到例子4大小相同的假设下,平等的关系,沟通成本最小化时,股票是以下几点: 和。

这不是一个巧合,因为加入的例子5分享两个属性映射键的关系,而在例子4关系和分享与映射键只有一个属性。这是一个迹象表明,记录从这两个关系将有很高的复制。我们使这一点更加正式的在接下来的小节。

事实上检查,我们建立的介绍,我们经常要从集合中提取信息的关系大重叠属性。可以通过加入全部或部分的关系。我们已经证明了我们可以在MapReduce实现这一通信成本低。因此,在本文中,我们提出一个有效的方式执行漏洞百出的任务。

4.2。加入脂肪优化股票的关系

在本节中,我们使用多路的检查成本方法的“脂肪”关系。这样的关系在许多属性重叠模式和每一个缺失是一样的小数量的属性。

我们定义对称的连接的连接关联超图的邻接矩阵具有以下属性:(a)它包含1行通过th条目 (对于一个给定的th条目这个连接)和0在所有其他条目,在哪里 mod -在哪里是一行的长度和(b)它包含吗行。因此,列的数量。

因此,对称连接的属性包括以下:(我)所有的关系都有相同的参数数量。(2)每个属性出现在完全关系。

让是所有属性的数量出现在连接查询和异径接头的数量。

因为对称每股是一样的:(所以它认为 )。

假设我们有关系和元组关系。如果每个参与的关系连接丢失2属性的连接键,然后每个关系的元组必须共享还原剂。因为有总沟通成本的关系。

通信负载/减速器

同样,如果有负载是缺失的属性

请注意,是我们表示我们的查询的输入大小 ,这样每个减速器沟通成本

记住,所有属性的数量和吗是失踪的数量在每个关系属性。当然,作为减少,重叠的程度增加,因为每个关系丢失更少的连接键的属性。

我们做出以下的观察:(我)如果是 , ;也就是说,几乎每个减速器的负荷成本在尴尬的情况下并行化。(2)如果接近 ,例如, ,只包含很少的关系映射键属性的存在,那么每个减速器上的负载是几乎所有的输入。在这种情况下,元组需要复制到许多异径接头,这是不可取的。(3)在一般情况下,负载为每个减速器的递减函数。

5。实验评价

我们刚刚证明(见(12))的连接关系高重叠在它们的属性每减速器进行良好的沟通成本。

我们进行了两个实验两个截然不同的Hadoop集群。第一个集群是扩大规模,一个更强大的处理器计算节点4日。节点运行Core i5处理器(2.7 GHz) 4 GB的RAM每1 Gbps以太网。第二个集群是向外扩展的双核心(2.4 GHz) 8日与8 GB的RAM每个计算节点1 Gbps以太网。

关系在我们的数据集的属性被创建一个随机生成的一位数整数使用随机类(29日从java。util图书馆。这个类生成一个伪随机数,它使用一个均匀分布;也就是说,没有偏态存在于数据集。一位数有关小字母可能的值的属性。这将导致更多的属性之间的匹配和连接实现严格的评估。我们使用一个整数输入字符串而不是更容易管理和更快的数据处理。保留这些好处在处理字符串数据我们可以用字典编码和压缩技术将数据编码的字符串输入到数字和解码处理后后者。

还原剂的选择基于桶的数量作为成立之前(见图1)。因此如果哈希函数是国防部3和3的一个关键尺寸(三维)还原剂/桶的数量还原剂。同样如果哈希函数是国防部3和4的一个关键尺寸的数量缩减者/桶还原剂。

在第一组实验中第一个集群的评价我们假设两个加入4路脂肪关系加入重叠的程度是三分之二的相邻关系的属性(加入1所示)和4路二元关系(即。、脱脂)连接(连接2所示)来证明第一个执行更好的通信负载和墙上时钟的时间。

在第一个实验中,我们设计了一个实验,两个查询都关系元组映射器的分布式还原剂。然而,在第一个案例中,我们选择不执行实际的加入减少,为了有一个清晰的沟通成本的比较两个连接。我们称这个场景通过管道由于元组映射器只传递到减速器和没有工作的还原剂。见数据3(一个)和3 (b),处理时间都一直在加入有利于脂肪的关系,不管减少任务的数量。

(一)20000条记录管道通过

(b) 24000条记录管道通过

(d) 24000条记录

此外,我们发现这种优势实际上是放大当我们让还原剂加入他们的元组。虽然计算时间主宰连接查询的总评价时间,加入执行更好的脂肪关系(见图3 (c)和3 (d))。这是一个直接的产物低/减速器通信负载的情况下加入脂肪关系。减速机用更少的元组加入一直更少的工作要做;从而降低通信成本有遗留影响计算成本,使选择最小化前。

除了二进制连接和脂肪连接的比较你会发现,如果我们比较使用的还原剂数量为每个类型的加入,,尽管增加还原剂的数量到125年还原剂处理时间也增加了。这与寻找最优数量的还原剂。更多的还原剂不一定意味着更快的执行因其他因素影响产生的开销等处理时间设置减速机和平衡减少就业机会。还要注意在图3 (c)和3 (d)64还原剂处理时间低于27和125还原剂;这是一个直接的产物减速器工作每个节点的平衡。考虑到我们的集群由4个节点,偶数个还原剂将这些节点之间的平衡,也就是16日减少每个节点的工作。

在第二组实验中第二集群旨在比较执行速度关于程度的重叠,我们实验与另一个两个5维脂肪连接(见连接3和4)与更高程度的重叠包括前面的4路脂肪加入1。连接3和4相似程度的重叠(3属性重叠),但加入4是在某种意义上更稀疏和一些属性没有得到反复核对。例如,和所以他们仍然un-cross-checked只出现一次。另一方面加入3更密集,每个属性至少出现三次,从而必须匹配的三倍。不利的一面是,在加入3中,由于许多属性在几个关系,主导规则不会被有效地利用,以减少关键的大小,从而导致四个部分的关键尺寸( , , ,和)导致更多的复制。加入3相比,加入4将有一个两部分的关键( , )。

表1表明这两个新加入高重叠执行比加入1。同时,令人惊讶的是,加入4密集的表现好于稀疏的加入3尽管它会导致更多的复制(见图4):


		加入1:2/3的重叠			加入3:3的4重叠			加入4: 3的4 重叠
		#的还原剂
		27	64年	125年	9	16	25	81年

#的记录	24000年	490840年	351080年	446020年	38230年	44970年	61800年	51780年
	28000年	633200年	466330年	470890年	61010年	61200年	67680年	56420年
	32000年	1068060	767200年	694910年	99940年	95430年	95280年	60810年
	36000年	1687300	1174030	1026560	159570年	145420年	145860年	66490年
	40000年	2620760	1852560	1484280	268030年	245040年	291930年	74070年

6。利用我们的方法

计算相似度多路连接可能更贴近事实检查因为在处理多个来源我们并不指望他们可靠或不冲突。很少有工作,18),其中许多在多个轮MapReduce解决这个问题。在本节中,我们解释我们的方法可以利用添加预处理层能够计算相似性多路连接的输入错误。

打字错误或错误数据占用空间小是一种常见的烦恼在如今的web。这种错误是一个常数威胁我们试图理解丰富的数据提供给我们。这么小的偏差,通常意义,严重阻碍我们的算法性能。例如,拼写错误的名字汤姆·克鲁斯在不同的来源,然后试图把他们的贡献我们的知识将会毫无意义的方面的实体的名字永远不会满足。

在这一节中描述的场景,我们选择添加预处理层反复核查方法导致预先制定一个两步的方法。每一步都是一个单独的MapReduce。第一步将检测相似在单个属性类适应小打字错误的值,而在第二步中,我们考虑每个输入元组的多个属性,使用原始的技术描述部分4。

我们现在描述我们的方法(参见图5)。这是两个步骤。

步骤1。我们使用相似性与想法24,30.)来识别相似的值在一个属性,即价值观,只有根据某一指标不同距离,例如,编辑距离。例如,一个常见的拼写错误的名字汤姆·克鲁斯是汤姆克鲁斯和这两个值之间的编辑距离。我们使用一个算法,发现双相似的价值观,如(30.]。现在,因为在我们的场景中,我们关心常见的拼写错误,我们做以下假设:(我)对发现在每个减速器形式几乎不相交的类没有相似的价值观在类。这是一个合理的假设,因为我们不希望,例如,这类为汤姆·克鲁斯和安吉丽娜·朱莉将共享相同的值,否则,汤姆·克鲁斯的名字将配合的一种变体的一个变体安吉丽娜·朱莉的名字。
我们要限制类的数量形成了因为我们希望拼写字典的大小以适应分布式缓存。我们实现这一目标(我)操纵编辑距离的门槛 ;(2)考虑到相对数量变化的类成员的总数;(3)考虑到一个类的意义,也就是说,这个类的成员数量。我们可以选择一些或所有上述条件适用。
给定一组固定长度的输入字符串在一些字母,我们发现对字符串内的距离 ,也就是说,不同的位置。锚点的算法描述使用一组锚点的字符串,字符串的长度在距离的锚点。该算法运行每个锚点通过创建一个减速器。每个字符串映射器发送在距离每个锚点的减速器从。每个减速器然后搜索字符串在远处字符串中,它已经收到了。虽然不总是最好的算法,30.)表明,对于一些输入和参数,锚点算法是最好的已知的算法之一。

步骤2。我们发送到每个映射器的第二轮中的原始数据和类的步骤1和各自的和意义指标。以来,我们认为,这类的数量不是很大在大多数情况下我们认为,此信息可以分发给每个映射器使用分布式缓存Hadoop框架的机制。

7所示。结论和未来的工作

我们演示了一种有效的方式来匹配来自不同数据源的信息。归功于我们能够执行的多路连接算法匹配在单个MapReduce工作。除了算法执行非常好由于数据源之间存在的重叠。实验结果表明,有一个特殊的增益在执行速度重叠程度增加。而且如果被反复核对的属性具有密集的整个关系参与加入这也会导致额外增加的速度执行(见图4)。建筑上的这个方法我们打算改进重复检验的数据。下面是可能的方法来实现:(我)晃来晃去的记录,没有加入完全在减速机可以部分匹配或指的是完全不同的实体。对于前者,我们可能决定降低加入使用小map-keys阈值。然而,这有我们前面讨论的低效部分4.2。(2)通过计算匹配的记录数量从每个源数据源,我们可以测量的权威数据源。数据源的权威是我们相信它有多少的一个指标。了解来源的可信度,我们将描述事实。(3)记录,加入还原剂匹配关键属性(映射键)。我们可以假设他们也应与其他属性。例如,演员姓名和年龄匹配可能有稍微不同的电话号码不是实体匹配的先决条件。这样我们可以纠正错误的减速器采用相似技术。(iv)https://Data.gov(31日]声称有400000数据集。我们的方法可以非常有用的因为这些数据有缺失值和字符。(v)我们可以再确认结果与RDF数据,但是因为HDFS只存储和控制平面文件,RDF三元组必须转换成表格形式。

信息披露

本文明显扩展的版本以前的工作发表在《东欧会议进展数据库和信息系统(ADBIS 2015) (13]。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

f·t·贾斯特和j·p·史密斯”,提高经济数据的质量:小时的教训和未来,“美国统计协会杂志》上,卷92,不。440年,第1278 - 1268页,1997年。视图:出版商的网站|谷歌学术搜索
j·w·格雷厄姆,”缺失的数据分析:使它工作在现实世界中,“年度回顾的心理学,60卷,第576 - 549页,2009年。视图:谷歌学术搜索
a . c .翘起的“处理缺失值,”婚姻与家庭》杂志上,卷67,不。4、1012 - 1028年,2005页。视图:出版商的网站|谷歌学术搜索
a . Holzinger m .德,i Jurisica”知识发现和交互式数据挖掘在bioinformatics-state-of-the-art,未来的挑战和研究方向,”BMC生物信息学,15卷,不。6、1 - 9,2014页。视图:出版商的网站|谷歌学术搜索
s . f . Messner”探索跨国研究不稳定数据报告的后果在杀人,”定量犯罪学杂志》,8卷,不。2、155 - 173年,1992页。视图:出版商的网站|谷歌学术搜索
a . m ., i r .白色,和s g·汤普森缺少足够的处理结果数据?回顾主要医学期刊发表的随机对照试验,”临床试验,1卷,不。4、368 - 376年,2004页。视图:出版商的网站|谷歌学术搜索
j . w . Grzymala-Busse和m .胡”,比较几种方法的缺失属性值在数据挖掘,”粗糙集,计算当前的趋势施普林格,页378 - 385年,2001年。视图:谷歌学术搜索
b . Padmanabhan z郑,s . o . Kimbrough“个性化不完整的数据:你不知道会伤害,”第七届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 01)ACM,页154 - 163年,2001年8月。视图:谷歌学术搜索
m·马格纳尼”技术处理缺失数据的知识发现任务,”Obtido,15卷,不。1,第2007条,2004。视图:谷歌学术搜索
x, x l .董k·w·孟,里昂和d·斯利瓦斯塔瓦,“真理发现深层网络:问题解决了吗?”美国养老》第六卷,没有。2、97 - 108年,2012页。视图:谷歌学术搜索
a . p .法官:m . Laird, d·b·鲁宾”最大似然从通过EM算法,不完整的数据”英国皇家统计学会杂志》:系列B(统计方法),39卷,不。1,1-38,1977页。视图:谷歌学术搜索|MathSciNet
x l, l . Berti-Equille d·斯利瓦斯塔瓦,“集成冲突数据:来源依赖的角色,”美国养老,卷2,不。1,第561 - 550页,2009。视图:谷歌学术搜索
f . Afrati z Momani, n . Stasinopoulos“反复核查数据源在MapReduce,”数据库和信息系统的新趋势卷,539通信在计算机和信息科学,页165 - 174,施普林格国际出版,可汗,瑞士,2015。视图:出版商的网站|谷歌学术搜索
f . n . Afrati d . Delorey m . Pasumansky和j·d·Ullman“存储和查询树状结构记录上钻在小孔,”美国养老,7卷,不。12日,第1142 - 1131页,2014年。视图:出版商的网站|谷歌学术搜索
s . Melnik得到消息,j。j长et al .,“Dremel:互动网络级数据集的分析,ACM的通信,54卷,不。6,114 - 123年,2011页。视图:出版商的网站|谷歌学术搜索
j·迪恩和美国格玛沃特,“MapReduce:简化数据处理大型集群,”ACM的通信,51卷,不。1,第113 - 107页,2008。视图:出版商的网站|谷歌学术搜索
f . n . Afrati和j·d·Ullman“优化连接在使用映射-规约模式环境下,”学报》第13次国际会议上扩展数据库技术:数据库技术的进步(发债公司的10)ACM,页99 - 110年,2010年3月。视图:出版商的网站|谷歌学术搜索
c . Doulkeridis和k Nørvag”,大规模的调查分析查询处理在MapReduce,”VLDB日报,23卷,不。3、355 - 380年,2014页。视图:出版商的网站|谷歌学术搜索
r . Vernica m·j·凯莉和c·李,“有效的并行使用MapReduce set-similarity加入,”ACM SIGMOD管理国际会议的程序数据(SIGMOD 10)ACM,页495 - 506年,2010年6月。视图:出版商的网站|谷歌学术搜索
y金姆和k .垫片,“平行top-k相似性连接使用MapReduce算法,”IEEE学报》28日数据工程国际会议(ICDE 12)IEEE,页510 - 521年,2012年4月。视图:出版商的网站|谷歌学术搜索
a . Metwally和c·凯利,“V-smart-join:一个可伸缩的mapreduce框架全对多重集和向量的相似性连接,”美国养老,5卷,不。8,704 - 715年,2012页。视图:谷歌学术搜索
r . Baraglia g . De Francisci莫拉莱斯,c . Lucchese“文档相似性和MapReduce自连接,”学报第十届IEEE国际会议数据挖掘(ICDM 10)IEEE,页731 - 736年,2010年12月。视图:出版商的网站|谷歌学术搜索
y . n .席尔瓦,j·m·里德和l . m . Tsosie“MapReduce-based相似性度量空间加入,”云情报学报第一国际研讨会2012年8月,p。3, ACM,。视图:出版商的网站|谷歌学术搜索
f . n . Afrati公元Sarma, d . Menestrina a . Parameswaran和j·d·Ullman“模糊连接使用MapReduce,”IEEE学报》28日数据工程国际会议(ICDE 12)IEEE,页498 - 509年,华盛顿特区,2012年4月。视图:出版商的网站|谷歌学术搜索
x l .董e . Gabrilovich g . Heitz et al .,“从数据融合到知识融合,”美国养老,7卷,不。10日,页。881 - 892年,2014年6月。视图:出版商的网站|谷歌学术搜索
l·科尔布和e·拉姆”与dedoop平行实体解析”,Datenbank-Spektrum,13卷,不。1,23-32,2013页。视图:出版商的网站|谷歌学术搜索
l·科尔布,a·托尔和e·拉姆”不匹配两次:redundancy-free MapReduce的相似度计算,”第二届研讨会在云中数据分析2013年6月,页1 - 5,ACM,。视图:出版商的网站|谷歌学术搜索
h . Garcia-Molina j . d . Ullman, j . Widom教授数据库系统完整的书培生教育,第二版,2009年版。
甲骨文、类随机Java文档https://docs.oracle.com/javase/7/docs/api/java/util/Random.html。
f . n . Afrati公元Sarma, a .拉p .规则,s . Salihoglu和j . Ullman“锚点的汉明和编辑距离算法使用mapreduce,”17学报》国际会议对数据库理论(ICDT 14)学报》第4 - 14页,雅典,希腊,2014年3月。视图:出版商的网站|谷歌学术搜索
美国总务管理局、美国政府的公开数据,2013年,http://www.data.gov/。