子图匹配大图已经成为图像分析领域的一个热门研究课题,具有广泛的应用程序包括问答和社区检测。然而,传统的切边策略破坏不可分割的结构知识在一个大的RDF图。在负载均衡的前提下在子图分割,dominance-partitioned策略提出了将一个大RDF图知识结构的前提下。首先,dominance-connected模式图提取模式图构建dominance-partitioned模式超图,划分图模式为多个都子图模式。其次,dominance-driven谱聚类策略是用来收集子图模式到多个集群。第三,dominance-partitioned子图匹配算法设计进行所有cluster-partitioned RDF图的同构子图。最后,实验验证评估复杂查询的策略具有更高的效率,它有一个更好的可伸缩性在多个机器上和不同的数据尺度。
子图匹配问题是一个根本的问题在图搜索,这是一个np完全问题[
尽管知识结构的复杂性和多项式时间的子图匹配问题,最近的现有的研究取得了很大的进步在改善子图匹配的性能在大知识图在分布式环境中。
一个方面是将RDF数据封装到triple-based关系表(
确保完整性的不可分割的知识基于格式,大多数研究人员致力于模式图形分解成异形子图。StarMR [
在本文中,我们致力于有鱼形图案图分解为子图,考虑到由于和RDF图的拓扑结构。然后,有子图是集群和用于指导大型RDF的分区图。最后,子图匹配算法设计进行所有分区的RDF子图同构子图。我们的贡献说明如下:
我们提出了一个占主导地位的模式连接图来提取模式的支配关系图,包括节点和节点内涵外延的关系的关系。节点外延和内涵的关系模式中发现的主导和semidominant节点图。然后,都有模式子图通过主导node-centered扩张。
我们设计一个dominance-partitioned模式超图模型都有子图模式。每个hypernode指都有子图模式,每个hyperedge表示之间都有共同的子图子图模式。
我们采用dominance-driven谱聚类策略收集都有子图到多个集群模式。dominance-partitioned加权矩阵是第一个由dominance-partitioned超图模式。然后,谱聚类策略是用来收集hypernodes到多个集群基于加权矩阵。
我们设计一个状态转换模型来描述的过渡状态改变的候选人,由三个州和六个转变规则。基于状态转换模型,我们分析的影响改变了候选人相邻地区和设计我们的增量维护的策略。
我们提出一个dominance-partitioned子图匹配算法进行所有cluster-partitioned RDF图的同构子图。
本文的其余部分组织如下:部分
在本节中,RDF图的定义和子图匹配首先得到的是。然后,介绍了相关的研究。
资源描述框架(RDF) [
RDF图是一个有向标记图,形成<我nl在e-formula>
一个RDF图的标签被列为instance-label, relation-label, attribute-label,根据资源类型标签和interresource RDF数据的关系。RDF三元组<我nl在e-formula>
考虑到RDF图在图
一个模式是一个有向图标记图,形成<我nl在e-formula>
考虑图在图模式
子图匹配问题是搜索所有可能的数据图的子图<我nl在e-formula>
给定一个数据图<我nl在e-formula>
一个查询图<我t一个l我c>
问我t一个l我c>是子图同构数据图吗<我nl在e-formula>
的<我t一个l我c>
k我t一个l我c>分区问题RDF图所示定义
给定一个RDF图<我nl在e-formula>
RG-KP问题在这篇文章中,我们的研究着重于dominance-partitioned策略划分图的拓扑和树状结构模式。然后,dominance-driven谱聚类是用来收集dominance-partitioned模式子图到多个集群。最后,dominance-partitioned子图匹配算法设计进行所有cluster-partitioned RDF图的同构子图。
在本文中,我们专注于直接标记图。这两个<我t一个l我c>
问我t一个l我c>和<我nl在e-formula>
在本节中,我们主要回顾相关工作triple-based关系和在分布式环境中基于遍历策略。
大部分RDF系统存储和索引RDF数据作为一组三表在关系数据库中。SW-store [
分布式系统H-RDF-3X [
减少拓扑查询图的复杂性,查询分解模型,称为TwinTwig [
是基于遍历策略了RDF数据存储在本地图格式,重点建设数据索引和修剪多余的中间结果的规则。
大型数据图的构造指数被用来缩小候选中间结果的搜索空间。BitMat [
修剪规则的研究被用来减少冗余处理的中间结果子图匹配,比如三一。RDF (
大多数现有的研究都致力于确保不可分割的知识的完整性。徐et al。
在本文中,我们把模式图形分解成部分减少聚合操作的时间消耗的子图。我们的研究动机是由前面的研究发现一个特殊的结构模式的图。第一个现有研究StarMR [
受益于之前的研究,dominance-partitioned子图模式的目的是封装的拓扑图形和属性的结构模式。然后,大RDF图可以分割的援助dominance-partitioned模式子图,并介绍了分区RDF图的框架详细
在本节中,一个dominance-partitioned子图匹配框架提出了对大数据进行查询图的子图映射图。首先,dominant-connected模式从一个模式获得的图是图。其次,大数据图分区是基于模式谱聚类的方法。最后,在分区的查询图的子图映射数据图进行迭代。
DP-SM的伪代码描述的算法
dominant-connected模式子图<我nl在e-formula>
给定一个图模式<我nl在e-formula>
考虑图模式<我nl在e-formula>
在本文中,我们探索的特点<我nl在e-formula>
给定一个DCPG<我nl在e-formula>
(定理
节点发现的内涵关系是顶点semidominant关系图模式。一个DCPG<我nl在e-formula>
给定一个最小DCPG<我nl在e-formula>
最小DCPG指DCPG生成至少主导模式的节点图。DCPG<我nl在e-formula>
在本节中,dominance-partitioned模式超图的方法(简称DPPG)是第一个构建主导节点和控制关系。然后,dominance-driven谱聚类的方法被用来划分图作为一个模式<我t一个l我c>
k我t一个l我c>子图。dominance-partitioned模式超图中定义的定义
给定一个最小DCPG<我nl在e-formula>
hypernodes和hyperedges DPPG表示模式的几何图形<我nl在e-formula>
节点的几何是一个有子图<我nl在e-formula>
考虑到模式图<我nl在e-formula>
因此,<我t一个l我c>
k我t一个l我c>分区图模式问题可以转化成鸿沟<我t一个l我c>
k我t一个l我c>超图的子图<我nl在e-formula>
Dominance-partitioned子图模式。(一)(<我t一个l我c> u我t一个l我c>15年代ub>)。(b) (<我t一个l我c> u我t一个l我c>3年代ub>)。(c) (<我t一个l我c> u我t一个l我c>9年代ub>)。
给定一个dominance-partitioned超图模式<我nl在e-formula>
在哪里<我nl在e-formula>
在本文中,我们使用缩写词(<我nl在e-formula>
鉴于pattern-clustered子图<我nl在e-formula>
(引理
dominance-pattern加权矩阵模型的相似性pattern-partitioned子图通过其双向邻接矩阵<我nl在e-formula>
pattern-partitioned子图的子图成本评估的三元组映射到模式三元组的数据量。一个pattern-partitioned子图(<我t一个l我c>
u我t一个l我c>)被认为是和子图的成本(<我t一个l我c>
u我t一个l我c>)是数据三元组映射到所有三元组模式的数量(<我t一个l我c>
u我t一个l我c>),形成<我nl在e-formula>
的<我t一个l我c>
k我t一个l我c>分区用于图形DCPG切成<我t一个l我c>
k我t一个l我c>子图不连接到对方。我们定义的设置<我t一个l我c>
k我t一个l我c>主导节点<我nl在e-formula>
对于占主导地位的节点集<我t一个l我c>
C我t一个l我c>
因此,对于主导节点集<我t一个l我c>
C我t一个l我c>1年代ub>、…<我t一个l我c>
C我t一个l我c>
在本节中,k-partition算法是用来把大数据图multiple-distributed子图。我们第一次给DPPG的构造算法
DFS (<我t一个l我c>
u我t一个l我c>]=<我t一个l我c>
我我t一个l我c>+ +,继续<我t一个l我c>
u我t一个l我c>
删除<我t一个l我c>
u我t一个l我c>从<我nl在e-formula>
初始化加权矩阵<我nl在e-formula>
第一个DPPG建设的核心工作是选择一个模式的根节点图。凭直觉,我们倾向于选择最小的节点本地匹配结果和最大程度作为根节点。查询顶点进行最小的匹配结果意味着最小的网络传输成本,和最大程度的手段最大概率修剪-节点对。根节点的计算公式中描述以下方程:
建设DPPG算法所示
第一个模块是编码顺序独特的每个顶点的数量<我nl在e-formula>
第二个模块是确定的semidominant节点<我nl在e-formula>
第三个模块是最小化的主导<我nl在e-formula>
第四模块获得DPPG dominance-partitioned模式子图()17 - 21行区间。一个节点的主要节点<我t一个l我c>
u我t一个l我c>添加到树各种子图(<我t一个l我c>
u我t一个l我c>),联盟(<我t一个l我c>
u我t一个l我c>)和(<我t一个l我c>
u我t一个l我c>更新)(<我t一个l我c>
u我t一个l我c>)(17 - 18行)。考虑dominance-partitioned模式子图(<我t一个l我c>
u我t一个l我c>)和(<我t一个l我c>
u我t一个l我c>′)如果(<我t一个l我c>
u我t一个l我c>)∧(<我t一个l我c>
u我t一个l我c>′)≠∅,hyperedge (<我t一个l我c>
u我t一个l我c>,<我t一个l我c>
u我t一个l我c>′)构造<我nl在e-formula>
DPPG建设见图的一个例子
DFS-based dominance-partitioned子图模式。(一)(<我t一个l我c> u我t一个l我c>15年代ub>)。(b) (<我t一个l我c> u我t一个l我c>6年代ub>)。(c) (<我t一个l我c> u我t一个l我c>3年代ub>)。(d) (<我t一个l我c> u我t一个l我c>9年代ub>)。
根节点是第一选择<我t一个l我c>
u我t一个l我c>1年代ub>由公式(
第二个模块是确定的semidominant节点<我nl在e-formula>
第三个模块是最小化的主导。考虑主导节点<我t一个l我c>
u我t一个l我c>∈<我nl在e-formula>
的dominance-driven k-partition中描述的算法
第一个模块是构建一个类似矩阵的dominance-partitioned模式超图(1 - 4行)。dominance-pattern加权矩阵初始化的相似性pattern-partitioned子图通过其双向邻接矩阵<我nl在e-formula>
第二个模块是通过积累程度来计算矩阵元素相似矩阵的每一行(5 - 6行)。然后,图拉普拉斯算子的方法被用来计算特征矩阵,令人满意<我t一个l我c>
l我t一个l我c>= (<我nl在e-formula>
最后,第三个模块是生成<我t一个l我c>
k我t一个l我c>分区的数据通过映射数据图的子图<我t一个l我c>
k我t一个l我c>集群(9 - 11行)。考虑pattern-clustered子图<我nl在e-formula>
每个子图是作为hypernode dominance-partition模式<我nl在e-formula>
在服务器上划分模式子图和分区RDF图。(一)子图划分模式。在服务器1 (b)分区图。在服务器2 (c)分区图。
在本节中,我们介绍了子图匹配算法上<我t一个l我c>
k我t一个l我c>分区的RDF图。给定一个查询图<我t一个l我c>
问我t一个l我c>和一个数据图<我nl在e-formula>
流动特性对应一个模式的图在这篇文章中,我们用一个虚拟根附加查询图<我nl在e-formula>
精制查询图。(一)<我t一个l我c> 问我t一个l我c>1。年代ub>(b)<我t一个l我c> 问我t一个l我c>2年代ub>。
DFS-based主导节点的选择。
支配关系图模式仍适用于精确查询图,证明的定理
给定一个图模式<我nl在e-formula>
(定理
关于改进查询的图表<我t一个l我c>
问我t一个l我c>1年代ub>和<我t一个l我c>
问我t一个l我c>2年代ub>在图
受益于支配关系定理的可行性
给定节点对<我nl在e-formula>
(引理
进一步说,一个有趣的特征可以从正面和负面的节点对开采。一对节点被称为作为一个积极的节点对当且仅当它满足候选人验证,所示的定义
一对节点<我nl在e-formula>
在哪里<我nl在e-formula>
节点对占主导地位的<我nl在e-formula>
(引理
因此,我们首先使用一个圆形组合匹配以指导子图匹配的迭代处理。考虑提炼查询图<我t一个l我c>
问我t一个l我c>1年代ub>包含一个真正的根<我t一个l我c>
u我t一个l我c>1年代ub>在图
我们设计的RDF图的物理存储加速triple-based RDF数据的采集。之前我们的物理存储的引入,字典编码映射表首先设计编码RDF三元组为整数的字符串。
字典编码映射表包含数据和语义词典。数据字典对应instance-labels RDF三整数独特的数字和语义词典对应谓词,type-labels, attribute-labels RDF三整数独特的数字。
考虑到RDF图在图
字典编码映射表。
| v-id |
|
dir | |
|---|---|---|---|
| 0索引 | 0谓词 | 0 | |
| 1 Person_A | 1 advisorBy | 9 ResearchAssistant | 1 |
| 2 Person_B | 2 teachingOf | 10 FullProfessor | |
| 3 Publication_A | 3 takesCourse | 11日出版 | |
| 4 Department_A | 4 memberOf | 12个部门 | |
| 5 University_A | 5工作吧 | 13所大学 | |
| 6 Course_A | 6个子高挑 | 14个课程 | |
| 7 Course_B | 7 pubAuthor | 15 GraduateCourse | |
| 8 123 @163.com | 8 rdf: type | 16 hasEmail | |
关于数据的划分RDF图
物理存储分区的RDF图。
的子图匹配<我t一个l我c>
k我t一个l我c>分区RDF图中描述的算法
继续<我t一个l我c>
u我t一个l我c>
子图匹配算法是原始的<我nl在e-formula>
迭代处理插入的节点对ℳ(7 - 11行)。考虑选择查询顶点<我t一个l我c>
u我t一个l我c>
在子图匹配算法中,我们使用一个圆形组合第一次匹配以指导子图匹配的迭代处理。一个命令查询图如图
命令查询图。
在本节中,我们验证算法的有效性和可伸缩性合成和真实数据集上进行实验,实验,我们主要分析当前基于内存分布式SPARQL查询处理策略。
所有的实验都进行分布式集群包括六个相同的计算节点。每个计算节点使用一个英特尔(R) (TM)核心i7 - 7700 @3.60 GHz 8核处理器,和节点通信是部署在1000 Mbps的以太网。16 GB的物理内存,硬盘的大小是1 T。
实验评价采用合成数据集的生成四个尺度LUBM(利哈伊大学基准)和实际数据集YAGO2(另一个伟大的本体2)。数据集的相关信息如表所示
数据集的相关信息。
| 数据集 | #<我t一个l我c> T我t一个l我c>(M) | #<我t一个l我c> 年代我t一个l我c>(M) | #<我t一个l我c> O我t一个l我c>(M) | #<我t一个l我c> P我t一个l我c> |
|---|---|---|---|---|
| YAGO2 | 120年 | 10 | 54 | 99年 |
| LUBM-40 | 5。3 | 0.8 | 0.55 | 17 |
| lubm - 160 | 21 | 3所示。5 | 2.5 | 17 |
| lubm - 640 | 85年 | 14 | 10 | 17 |
| lubm - 2560 | 346年 | 55 | 41 | 17 |
合成数据集LUBM [
我们比较我们DP-SM算法的查询性能与三合会(
实验评估分成两组的查询图,见图
算法对数据集的平均匹配时间lubm - 2560。
查询图的第二组L4、L5和16种对应于扩展Q2, Q1, Q7 [
平均在YAGO2数据集评估在图匹配的时间
数据集YAGO2平均匹配时间的算法。
算法的可扩展性是评估基于机器的数量和数据集的大小。
基于机器的数量的可伸缩性是评价图
DP-SM算法的性能在不同的集群节点的数量。
基于数据集的大小的可伸缩性LUBM评价图
DP-SM算法的性能在不同的数据集LUBM尺度。
在本文中,我们提出一个dominance-partitioned子图匹配大RDF图。首先,dominance-connected模式图提取模式图构建dominance-partitioned模式超图,划分图模式为多个都子图模式。其次,dominance-driven谱聚类策略是用来收集子图模式到多个集群。第三,一个dominance-partitioned子图匹配算法设计进行所有cluster-partitioned RDF图的同构子图。最后,实验评价验证复杂查询的策略具有更高的效率,并在多个机器上更好的可伸缩性和不同尺度的数据。
LUBM数据用于支持这项研究的结果已经存入网络存储库(
作者宣称没有利益冲突有关这篇文章的出版。
这项工作得到了国家自然科学基金(批准号61976032)。