异构信息网络科学工作流的建议对于复杂的应用程序

文摘

科学工作流是一个有价值的工具,用于各种复杂的大规模数据处理应用程序。近年来,越来越多越来越多的科学流程需要推荐技术的发展提供自动对造型的科学工作流的支持。本文借助异构信息网络(HIN)和标签的科学工作流,我们组织科学工作流欣和提出一个新颖的科学工作流基于metapath相似度计算方法。此外,峰值密度聚类(DPC)算法引入到推荐过程和科学工作流名为HDSWR提出建议方法。我们的方法的有效性和效率评估通过大量实验与真实世界的科学工作流。

1。介绍

科学工作流是一种有效和重要的手段处理数据密集型计算密集型,和collaboration-intensive科学问题在许多大型复杂的系统或应用程序域如物理学、天文学、化学、生物信息学、生命科学(1- - - - - -3]。在实践中,许多科学工作流已经成功地部署和执行在云。最近,与聪明的用户设备和边缘计算的快速发展,许多研究已经进行了构建和执行工作流cloud-edge协作的方式(4,5]。

科学工作流建模中扮演一个重要的角色在复杂的科学工作流应用程序中,这是一个不仅复杂而且容易出错的过程。近年来,越来越多的科学工作流已经发布到Web和共享等某些存储库CrowdLabs,西瓦庄园,星系,myExperiment(6,7]。人们可以利用现有的科学工作流的一部分并将特定的复杂的应用程序,而不是从头开始构建新的。然而,科学工作流的数量的增长,找到合适的科学工作流的候选人成为一个新问题的科学家和工程人员。虽然过程检索方法可以帮助处理这个问题,从存储库中检索相似的科学工作流的片段,仍然需要手工工作。因此,提供更好的自动支持,有必要建立有效的科学工作流的推荐技术,是当前科学工作流的重用和重定位的基础。

在科学工作流库,可用于各种类型的数据建议,包括科学工作流结构和注释。然而,科学工作流的标签通常忽略了现有的科学工作流的推荐方法。事实上,科学工作流的标签包含有价值的信息和不同的底层逻辑科学工作流之间的关系可以通过他们探索。例如,许多标签的myExperiment由多个科学工作流和共享的库大大存在局部相似性之间的关系这些科学工作流。因此,集成标签和其他信息的科学工作流的承诺产生更准确的推荐。

另一方面,异构信息网络(HIN)已经被证明是一个强大的建模方法将各种异构类型的信息和它已成功应用于推荐系统8,9]。出于HIN-based推荐理念和科学工作流的数据特征库,我们计划将多种类型的科学工作流数据集成到欣的形式和使用metapath-based技术测量相似性和计算科学工作流之间的距离,可以结合多个metapaths语义的描述信息的科学工作流和更准确的相似度计算结果。

这些观察结果,在本文中,我们提出一个异构信息网络方法推荐科学工作流的科学家和工程人员。在我们的方法中,不同的数据对象和基本逻辑关系科学工作流组织欣,据科学工作流之间的相似性评估。此外,为了促进当前科学工作流的重用和重定位,峰值密度聚类(DPC)算法(10]介绍了和用于组织候选人到集群。总结我们的主要贡献如下:(1)我们提出一种新的表示形式的科学工作流基于欣,这是通过整合丰富的多种类型的数据,包括标签和逻辑关系的数据(2)我们建立一个metapath-based方法评估科学工作流之间的相似性,相似性的计算方法是根据对象的标签,描述,活动,和subscientific工作流参与科学工作流(3)我们提出一欣,DPC-based科学工作流的推荐方法命名HDSWR生成更精确的建议,在此基础上,以促进当前科学工作流的重用和重定位的科学家和工程人员(4)我们提供两个真实数据集和标记为实验科学工作流

本文的其余部分组织如下。部分2描述了相关的研究。部分3介绍了符号和基本定义中使用的纸。部分4提出了科学工作流相似性计算方法。节5,我们建议HDSWR方法。然后,我们评估我们的方法部分6。部分7本文总结道。

在本节中,我们简要回顾相关工作的工作流模型、工作流的建议,和欣。

工作流模型是各种工作流应用程序的基础。在实践中,工作流可以通过不同的建模工具,如有向无环图(无进取心的人),佩特里网、事件驱动的进程链(epc),业务流程执行语言(BPEL),或者相当复杂的业务流程建模符号(BPMN)语言,它有超过100个符号(11]。然而,建模工作流始终是一个知识密集型的和艰苦的任务。提高工作流建模方法,如工作流挖掘(12)提出了发现工作流模型的事件日志。然而,类似于检索过程,大量手工工作还涉及。

近年来,一些工作流程的建议方法。当前技术主要可以分为两种类型:业务流程(流程)的建议和科学工作流的建议。

在业务流程管理领域中,业务流程建模通常是与块结构包括顺序结构,选择结构,平行结构,和迭代结构。到目前为止,只有数量有限的业务工作流的推荐方法提出了服务于不同的目的,可分为推荐完整的流程和流程片段(节点)推荐(13]。例如,Zhang et al。14]杠杆工作流来源推荐一组节点部分工作流。李等人。15)采用最小深度优先搜索代码和字符串编辑距离为代表和推荐业务流程片段。邓et al。13)开发了一个推荐系统来生成一个排序候选节点集,使用子图挖掘方法提取过程的模式存储库。王等人。16]利用业务流程的属性库,提出了一种representation-learning-based推荐方法。

科学工作流是基于科学的自动化过程,通常由多个科研项目或Web服务。与业务工作流程相比,科学工作流有强烈的关注足够支持各种数据密集型应用程序的数据流,控制结构简单的描述了部分命令的任务。因此,科学工作流通常与非结构化装饰边模仿,在概念上使用一组节点和边,而不是复杂的块结构。然而,类似于业务流程建议,有两种类型的工作在科学工作流的建议。例如,Zhang et al。17)使用期限的工作单元(UoW)(即代表一组服务。,fragments of a scientific workflow) chained together, based on which a UoW-driven scientific workflow recommendation framework and three algorithms for UoW mining and recommendation are proposed. Cheng et al. [18,19]科学工作流转换为层次结构躺在一棵树的风格,在指定的层次关系科学工作流之间的联系,其subworkflows和活动。基于语义相似度计算算法,考虑到躺层次结构和描述的科学工作流提出了集群和推荐适当的科学工作流。Krzywucki和波兰语的20.)利用语义类型比较评估科学工作流的相似性。伯格曼et al。21)提出了一个语义工作流图论方法科学工作流相似性和开发了一个模型基于搜索的算法流程相似度计算。燕八哥et al。7]介绍了一层分解方法的比较和相似性搜索科学工作流。Mohan et al。22]开发了几个folksonomy-based科学工作流的建议策略和实现一个原型系统。

欣是一个新兴的方向推荐系统的准确性和适合改善建议。然而,我们所知,欣工作流推荐文献中通常是被忽视的。到目前为止,大部分的HIN-based推荐方法考虑metapath-based相似。例如,太阳et al。8欣)进行相似性搜索问题,介绍了metapath-based相似的概念。赵et al。23]介绍了metagraph将更复杂的概念语义HIN-based建议。施等。24)开发了一种metapath-based随机游走策略和提出了欣embedding-based推荐算法。另一方面,科学工作流库有丰富的标签信息,很少利用现有工作流程的建议方法。一些标签已经完成相关研究工作在服务计算领域25)和其他相关研究工作服务的建议进行了26]。我们以前的工作在27)初步利用科学工作流标记的建议。在这篇文章中,我们进一步组织科学工作流和他们的关系作为一个欣科学工作流的相似性计算和生成更精确的建议。

3所示。预赛

为了使我们的方法很好理解,我们在本节首先介绍欣和相关概念。我们将在本文中使用的符号是总结表1。


符号		解释

西南		科学工作流的列表
dsc		描述类型的对象
D		subscientific工作流类型的对象
一个		一个活动类型的对象
T		一个标签类型的对象
, , ,		不同类型的metapaths
SWT,SWA,社署		相邻矩阵标记的对象,活动,分别和subscientific工作流
, ,		特征向量的科学工作流在相邻矩阵SWT,SWA,社署分别
, ,		相似强度的科学工作流和在metapaths , ,和 ,分别
, , ,		权重系数

定义1。(科学工作流18])。科学工作流西南是一个元组(纳米,sw_dsc,sw_D,sw_A,sw_L,sw_T),纳米和sw_dsc的名称和文本描述吗西南,分别。sw_D是一组subscientific工作流西南调用。sw_A是活动的吗西南。sw_L表示一组链接连接的活动和subscientific工作流西南。sw_T是一组标签吗西南。
一般来说,subscientific工作流可以被视为一种科学工作流(7]。例如,在myExperiment存储库,subscientific工作流作为一个独立的科学工作流。

定义2。(异构信息网络24,28])。异构信息网络被定义为一个方向图 type映射函数和一个链接类型的映射功能 ,令人满意的。

定义3。(HIN-Based科学工作流表示)。科学工作流可以组织和表示为异构信息网络,其中包含五个对象类型:科学工作流(表示西南(表示),标签T(表示),活动一个(表示),subscientific工作流D(表示),以及描述dsc)。每个科学工作流可以用一组标记链接,一组活动,和一组subscientific工作流和描述。

例1。一个例子如图HIN-based科学工作流的表示1包括两个真实的科学工作流命名Chemical2URIs(https://www.myexperiment.org/workflows/97.html)(表示为 )和DFCUAM(https://www.myexperiment.org/workflows/4700.html)(表示 )。
的链接文本描述( ),三个标签(注释,chemspider和cheminformatics),两个活动(REST_Service和Xpath_Service),和两个subscientific工作流(CNTCI和workflow40)。
的链接文本描述( ),三个标签(cheminformatics,chemspider,代谢组学),和两个活动(SearchByMass和GetCompoundDetails)。
除此之外,和是联系在一起的两个标签(cheminformatics和chemspider),这是共享的和。同样,如果subscientific工作流的一些对象,活动,或描述由两个共享科学工作流,存在一些这两个科学工作流之间的链接关系。

定义4。(网络模式(24,28])。网络模式异构信息网络的元模板 type映射函数和链接类型映射功能 ,这是一个有向图吗定义了对象类型B和链接类型R。
根据定义4科学的工作流程,我们可以构造一个HIN-based表示模式,如图所示2。有五种类型的对象:科学工作流(西南),标签(T)、活动(一个),subscientific工作流(D),和描述(dsc)。此外,存在四种类型的对象来表示不同的关系之间的联系:(1)科学工作流之间的链接关系和一个标签。(2)一个链接一个科学工作流和活动之间的关系。(3)一个链接一个科学工作流和subscientific工作流之间的关系。(4)一个链接一个科学工作流和描述之间的关系。这样的链接关系是单行的,因为一个特定的文本描述属于一个特定的科学工作流。

定义5。(Metapath [8,24])。一个metapathp是一个路径上定义一个网络模式吗和的形式表示,从而定义了一个复合关系两个对象类型和 ,在哪里表示组成运营商关系R。
根据定义5和HIN-based科学工作流表示模式,我们可以构造四种metapaths,如图所示3:(1)Metapath :如果一个标签由两个共享科学工作流和 ,我们可以使用metapathSWTSW(科学工作流标签科学工作流)表明cotag关系和。(2)Metapath :如果一个活动由两个科学工作流共享和 ,我们可以使用metapathSWASW(科学工作流活动科学工作流)来表示一个coactivity关系和。(3)Metapath :如果subscientific工作流由两个共享科学工作流和 ,我们可以使用metapathSWDSW(科学工作流Sub-Scientific工作流科学工作流)表示之间的关系和subscientific工作流。(4)Metapath :如果是共享的两个科学工作流描述和 ,我们可以使用meta-pathSWdscSW(科学工作流dsc科学工作流)表示之间的关系和在描述。

4所示。相似度计算科学工作流

基于上述基本定义,我们提出一种新颖的科学工作流相似性计算方法在这一节中。它主要由四个步骤组成。步骤1:构造三个相邻矩阵标记的对象,活动,和subscientific工作流。根据标记的对象,活动,和subscientific工作流参与科学工作流,我们可以构造三个相邻矩阵,分别表示SWT,SWA,社署。一行相邻矩阵对应于一个特定的科学工作流。相邻的列矩阵SWT,SWA,社署对应于一个特定对象的标签,活动,分别和subscientific工作流。这三个相邻矩阵中的值可以是1或0,表示一个特定的对象是否属于一个特定的科学工作流。此外,为了方便计算,我们使用特征向量 ,科学工作流代表之间的关系所有对象所涉及的标签,对应于相邻的大学入学考试中的一行SWT。同样,我们使用特征向量和代表科学工作流之间的关系和所涉及的活动和subscientific工作流对象,分别对应于一个相邻矩阵的行SWA和社署,分别。步骤2:计算metapaths上的相似性。就像前面提到的3metapaths存在四种类型。因此,相似的力量和在meta-path可以由以下公式计算: 在方程(1),和两个特征向量的科学工作流吗和分别在标签。特征向量的转置。之间的共同标签数量越高和 ,更大的内积和 ,因此,更多的相似性和在标签上。符号的意义在方程(2)和(3在方程()类似于这些1)。同样,相似的力量和在metapaths和可以通过方程(2)和(3),分别,符号的意思是类似于下面的这些方程: 基于方程(1),我们也可以获得的值和。规范化有效相似的强度,我们利用之间的比率和最大的和代表科学工作流之间的相似性和关于metapath ,这是描述如下: 类似地,科学工作流之间的相似性和关于metapaths和描述如下: 步骤3:计算相似度值描述的科学工作流。doc2vec模型可以学习变长文本的固定长度的功能(29日]。因此,我们利用doc2vec模型形成段落向量和科学工作流的描述和 ,分别。另外,规范化的余弦相似性和计算作为相似性值描述的科学工作流和 ,它被描述为: 在方程(6),符号和代表段落向量的范数和 ,分别。第四步:总结不同的相似度值。有效地融合不同相似性的科学工作流通过以上步骤,我们引入加权机制,它被描述为: 在方程(7),α,β,γ,δ权重系数满足吗α+β+γ+δ= 1。

5。HDSWR方法

提高准确性和效率的科学工作流的建议,我们提出一个名为HDSWR的方法。在本节中,我们概述HDSWR和详细介绍它的相关函数算法。

5.1。HDSWR方法的概述

拟议中的HDSWR方法算法所示1,它包括四个步骤:步骤1(第1行):我们构建一个矩阵来表示列表中的科学工作流之间的相似度值西南,这可能来自一些科学工作流库。所有的科学工作流列表中西南组织作为相似性计算的欣。步骤2(第2行):我们采用密度峰值集群(DPC)算法(10)集团所有的科学工作流列表中西南到多个不同的集群,相似矩阵中的值被用作科学工作流和之间的距离表示一组集群科学工作流。步骤3(3 - 4行):根据文字描述的科学家和工程人员的要求,也就是说,requirement.dscs,我们搜索和选择适当的活动和subscientific工作流中涉及的对象列表西南,在那里和表示一组subscientific工作流和一组活动,分别。然后,HIN-based样本科学工作流可以构造(4号线)。步骤4(第5行):根据科学工作流示例 ,我们首先选择一个适当的科学工作流设置组之间的相似度值和不同的集群。然后,一个列表生成的建议,科学工作流的数量在列表中吗相关的参数rec_K。

输入:
(我)西南:科学工作流的列表。
(2)要求:一个造型要求,表示为( , ,dscs)。
(3) , , , :参数相似度计算。
(iv)rec_K:一个参数的数量推荐科学工作流。
输出:
(我) :科学工作流的推荐列表。
(1)	ComputeSimilarity(西南, , , , )
(2)	DPCClustering( ,西南)
(3)	GetActivity_SubWF(requirement.dscs)
(4)	科学工作流与构建一个示例 , ,要求。和要求。
(5)	RecommendSWs( , ,rec_K, )
(6)	返回

5.2。相似度计算

评估工作流相似性对工作流的建议很重要。它的主要目的是测量工作流之间的距离。基于科学工作流的相似性计算方法中引入部分4,函数ComputeSimilarity被描述为算法2。

输入:
(我)西南:科学工作流的列表。
(2) :权重系数。
输出:
(我) :最后的相似性矩阵西南。
(1)	SWT 构建的邻接矩阵西南标签对象
(2)	SWA 构建的邻接矩阵西南活动对象
(3)	社署构建的邻接矩阵西南sub-scientific工作流对象
(4)	为每个科学工作流在做
(5)	为每个科学工作流在做
(6)	获得 , , , 从SWT,SWA,社署
(7)	计算 , ,
(8)	计算 , ,
(9)	计算
(10)
(11)	结束了
(12)	结束了
(13)	返回

在算法2科学工作流名单上,三个相邻矩阵西南首先是构造(1 - 3行)。然后,科学工作流的特征向量和用于计算相似性优势metapaths由方程(1)- (3)(第6 - 7行),基于相似性和关于metapaths可以得到方程(4)- (6)(第8行)。最后,相似度值是通过方程(7)(第9行)并存储在这个矩阵为进一步聚类和建议(第10行)。

例2。科学工作流和在图1可以作为一个例子。正如图所示1,有四个标签(注释,chemspider,cheminformatics,代谢组学)参与科学工作流和。因此,如图4(一),相应的价值这四个标签在相邻矩阵SWT是1还是0对和 ,值0表示,这样的标签不属于一些科学工作流。同样,矩阵SWA在图4 (b)显示相应的值在科学工作流的活动和 ,和矩阵社署在图4 (c)subscientific工作流显示相应的值。此外,的特征向量 , ,和也说明了图吗4。

(一)

(b)

(c)

5.3。DPC-Based集群的科学工作流

提高效率的建议,我们引入聚类策略提出了(10,30.),科学工作流进行分组,分为不同的集群进一步建议。不同的工作(10,30.),我们选择密度峰值集群(DPC)算法(10)作为我们的聚类方法,因为它可以有效地识别具有不同的集群分布形状和很少受到噪声点的影响。基于DPC算法,功能DPCClustering可以被描述为算法3。

输入:
(我) :相似矩阵的科学工作流。
(2)西南:科学工作流的列表。
输出:
(我) :生成的科学工作流集群。
(1)
(2)	直流选择一个值这下面的值的数量大约是值的总数的2%
(3)	为每个科学工作流在做
(4)
(5)	为每个科学工作流在做
(6)	如果然后
(7)
(8)	如果
(9)	结束了
(10)	结束了
(11)	为每个科学工作流做
(12)
(13)	为每个科学工作流做
(14)	如果和然后
(15)
(16)	如果
(17)	结束了
(18)	结束了
(19)	集群科学工作流的DPC算法与当地的密度值等和相对距离值等
(20)	返回

在算法3,我们首先初始化矩阵根据矩阵矩阵(1号线)和启动截止距离的值直流根据经验法则的介绍(10)(第2行)。然后,我们计算科学工作流的局部密度值(3 - 10行)和它们的相对距离值(11到18门行)。最后,我们可以将DPC算法应用到科学工作流划分为不同的集群(19行),其中每个集群中可以表示为一组科学工作流的科学工作流作为集群中心。

5.4。检索适当的活动和Subscientific工作流

根据造型要求的科学家和工程人员,我们可以搜索在科学工作流列表并得到适当的活动和subscientific工作流,可用于构建一个示例科学工作流过程和指导建议。这样的过程执行的函数GetActivity_SubWF,它被描述为算法4。

输入:
(我)requirement.dscs:描述活动的列表和subscientific工作流。
(2)西南:科学工作流的列表。
输出:
	:一组subscientific工作流
	:一系列的活动
(1)
(2)	为每一个dsc在dscs做
(3)
(4)	为每一个西南在西南做
(5)	为每个活动一个在西南做
(6)	sim卡 cosine_sim(doc2vec (dsc),doc2vec (一个))
(7)	如果sim卡>然后
(8)
(9)
(10)	如果
(11)	结束了
(12)	为每个sub-scientific工作流d在西南做
(13)	sim卡 cosine_sim(doc2vec (dsc),doc2vec (d))
(14)	如果sim卡>然后
(15)
(16)
(17)	如果
(18)	结束了
(19)	结束了
(20)	如果然后
(21)	附加来
(22)	其他的
(23)	附加来
(24)	如果
(25)	结束了
(26)	返回

在算法4,因为描述requirement.dscs要求提供的相关活动或subscientific工作流,每个描述最匹配的结果requirement.dscs可能是一个活动或subscientific工作流。因此,我们计算相似度值和subscientific工作流活动,分别的工序功能cosine_sim行6和13是类似于方程(6)。

此外,对于每一个描述requirement.dscs,我们搜索最佳匹配的活动(第5 - 11行)和最佳匹配subscientific工作流(12 - 18行),然后我们选择更好的构建一个示例科学工作流(20 - 24行)。

5.5。代科学工作流的候选人名单

一旦样本构造科学的工作流程,我们可以生成一个最相关的科学工作流列表,这是描述为算法的整个过程5。

输入:
(我) :一个示例科学工作流。
(2) :科学工作流的设置集群。
(3)rec_K:hyper-parameter控制推荐数量的科学工作流。
(iv) :权重系数。
输出:
(我) :科学工作流的推荐列表。
(1)	在活动构造特征向量,标签和sub-scientific工作流。
(2)	和
(3)	为每一个做
(4)	选择集群中心的科学工作流
(5)	在活动构造特征向量,标签和sub-scientific工作流。
(6)	计算 , ,
(7)	计算 , ,
(8)	计算
(9)
(10)	如果 <然后
(11)
(12)
(13)	如果
(14)	结束了
(15)	选择顶部rec_K%最类似的科学工作流
(16)	返回

该算法5主要包括三个步骤。步骤1(第1行):作为之前介绍过的,我们可以构造特征向量样本的科学工作流活动的对象,subscientific工作流和标签。步骤2(3 - 14行):我们计算样本之间的相似性科学工作流和集群中心科学工作流(4 - 8行),根据方法在执行过程中引入部分4。然后,选择一个集群如果相似度值之间的集群中心是最大的在所有集群(第四行)。步骤3(15行):在集群决定,rec_K %科学工作流这是最相关的在相似性值选为候选科学工作流和推荐列表中。

5.6。一个例子在文本描述

到目前为止,研究建议整个科学工作流通常采用推荐的科学家的要求。例如,程et al。18]使用一层的层次结构对科学家的要求。在我们的方法中,我们主要采用文本描述关于科学家的要求。为便于说明,科学的工作流程在图1作为一个例子在文本描述。

例3。正如图所示1存在一个subscientific工作流命名CNTCI的缩写Chemical_Name_To_Chemspider_ID和一个subscientific工作流命名Workflow40在科学工作流。我们可以得到的文本描述 ,即。”,这个工作流将化学名称或标识符映射到统一资源标识符(uri)。首先ChemSpider web服务用于化学名称映射到ChemSpider标识符,然后通过开放PHACTS ChemSpider标识符映射到uri的平台。”
根据文本的描述 ,我们可以使用doc2vec模型学习subscientific工作流之间的序列关系CNTCI和Workflow40。此外,通过这种方式,类似的结构信息参与科学工作流还可以获得并用于检索适当的活动和subscientific工作流,其中一些可以执行的函数cosine_sim在算法4。同样,逻辑关系参与科学工作流的组件也可以清楚地描述在科学家的要求。因此,尽管这些结构特点是没有明确表达了欣的形式,它们是隐式地考虑,在我们建议的方法用于生成更精确的建议。

6。实验

在本节中,执行一系列的实验来回答两个问题:(1)与先进的科学工作流的推荐技术相比,我们的方法有更好的性能吗?(2)什么是我们HDSWR方法的性能在不同的参数和数据集用于推荐吗?

所有实验在计算机上执行与英特尔(R)的核心(TM) i5 - 7300总部CPU@ 2.50 GHz 2.50 GHz和8 GB内存运行窗口10,JDK 1.8.0和python 3.5。接下来,我们专注于实验的评价这两个问题。

6.1。数据集

的myExperiment是一种广泛使用的科学工作流支持科学工作流的发布和共享库。它还允许科学家科学工作流相关搜索他们的研究,然后重用和重新科学工作流根据他们不同的需求31日]。有各种类型的科学工作流myExperiment,如Tarvena1和Tarvena2。我们爬上的相关数据Tarvena2科学工作流的类型myExperiment并创建了两个数据集的命名SW # 80和SW # 236相应的行动。在我们的实验中使用的数据集是公开从GitHub通过访问网站:https://github.com/yixinxunwu/myExperiment。

如表2所示,SW # 80125年与229年数据集包括80个科学工作流活动,标签,和85年subscientific工作流,每个科学工作流中包含活动的数量在3 - 20。的SW # 236310年与430年数据集包括236个科学工作流活动,标签,和243年subscientific工作流,每个科学工作流中包含活动的数量在2到30。


#数据集	#科学工作流	#活动	#标签	# Sub-scientific工作流	#活动/工作流程

SW # 80	80年	229年	125年	85年	3 -
SW # 236	236年	430年	310年	243年	2 - 30

6.2。评价指标

评估效率的科学工作流的建议,我们采用精度和召回措施用于(18)和F₁分用于(16)作为评价指标,被描述为方程(8)- (10),分别为:

在方程(8)- (10),符号代表一个科学工作流列表由推荐算法,生成和符号代表了一个预期的科学工作流列表。类似的工作18),我们采用生成的一种手段 ,的顶部exc_K %最相似的科学工作流参与选择的数据集。此外,这些符号和表示数量的科学工作流和 ,分别。

6.3。方法用于实验

用于实验的科学工作流的推荐方法如下:(我)LH (18):这种方法科学工作流转换成层次结构早期地,这表现为科学工作流和subscientific工作流和活动之间的关系。因此,科学工作流之间的相似性评估变得之间的相似性评估层次结构。(2)LHWT [27]:这个方法将科学工作流转换成一个层次结构早期地,如[18]。考虑标记信息的科学工作流使标签的科学工作流的功能语义相似度计算。因此,利用标签信息科学工作流推荐这个方法。(3)HDSWR:这是我们提出的建议方法。在我们的实验中,一些参数HDSWR设置如下: , ,和。

6.4。比较科学的工作流程与相关建议

中描述的6.2节,是基于评价指标和 ,哪些是影响参数rec_K %和exc_K %我们的方法。因此,我们研究的影响rec_K %和exc_K %在不同的推荐方法SW # 80数据集。

调查的影响rec_K %科学工作流推荐精度和召回exc_K %设置为10%,rec_K %设置为4%,6%,…,分别为30%(步长是2%)。如数据所示5(一个)和5 (b)、方法和LHWT HDSWR执行比LH更高的精度和召回。这是由于一些功能被实现在某些科学工作流,没有提到在科学工作流的描述,但在标签(27]。结果,是具有挑战性的这些科学工作流收集到相应的集群。当标签的信息是,这些科学工作流reaggregated成适当的集群。这说明函数的语义标签对科学工作流的建议有很大的影响。除此之外,我们还发现HDSWR优于LHWT在精度和召回,因为HDSWR方法适用于metapaths捕捉弱科学工作流,从而达到高层语义之间的语义建议,相比LHWT方法。

(一)

(b)

(c)

(d)

当rec_K %将是一个相对较小的值(例如,4%,6%),我们检测的精度和召回几种方法非常接近。这表明这些科学工作流尤其是科学工作流的样品相似自然科学家建议,无论推荐方法。当rec_K %设置为一个相对较大的值,几种方法的精度大大降低,如图5(一个)。这是由于这样的事实,许多不相关的科学工作流是推荐,这根本不存在。与此同时,召回数相对稳定图方法5 (b),因为由exc_K %,exc_K %是一个固定值。此外,当rec_K %是14%,召回HDSWR是稳定的。这体现多数人预期的科学工作流通过HDSWR科学家发现和推荐。当rec_K %是18%,召回LHWT是稳定的,和LH是稳定的,直到的回忆吗rec_K %是22%。

学习的影响exc_K %科学工作流推荐精度和召回rec_K %设置为10%,exc_K %设置为4%,6%,…,30%。在数据5 (c)和5 (d)的精度和召回,我们发现HDSWR高于LH和LHWT。由于上述原因,当exc_K %设置一个相对较大的价值,科学的工作流程是丰富的,而科学工作流是固定的。因此,几种方法的精度是稳定的。然而,由于越来越多的差异和 ,召回所有方法一直在下降。

直观地显示科学工作流的推荐效率的差异,F₁应用于实现这一目标。学习的影响rec_K %或exc_K %推荐数据的效率6(一)和6 (b),LHWT HDSWR之间的差异和韩小(即前两组。的价值,rec_K %分别是4%和6%);这表明科学工作流最相似样本科学工作流推荐。的增加rec_K %或exc_K %,几种方法之间的区别变得截然不同,HDSWR和其他方法之间的差异是显而易见的。因此,这表明HDSWR能有效捕捉科学工作流之间的语义相似度,从而促进科学工作流的合理的聚类。当rec_K %超过24%,exc_K %超过22%,几种方法的差异变得稳定,这表明推荐所有方法的性能不能发挥作用而多余的科学工作流的建议。

(一)

(b)

6.5。建议的方法的详细分析

在这一部分,我们进行一系列的实验来分析我们的方法的细节。

6.5.1。聚类方法的影响

节中描述5。3HDSWR要求DPC聚类算法组科学工作流到适当的科学工作流集群和协助科学工作流的建议。因此,聚类算法的影响科学工作流的建议是值得研究的。在我们以前的工作(27),SNN(共享近邻)聚类算法(30.)是用于科学工作流的集群。在我们的研究中,DPC聚类算法是利用集群科学工作流到适当的科学工作流集群。在图7,两种聚类算法的性能比较DPC和SNN数据集SW # 80会显示出来。

(一)

(b)

推荐的整体性能排名如下:DPC > SNN,如图7。SNN表现不佳,因为它需要一些数据点密度阈值以下,其域内噪声点。与此同时,DPC执行比SNN更好的推荐性能。

6.5.2。数据集的大小的影响

研究数据集的大小的影响,推荐几种推荐方法的效率,我们用三种方法进行一系列的实验数据集SW # 236一个相对大的数据量。实验设置与数据集相同SW # 80。

如数据所示8(一个)和8 (b),HDSWR方法比其他方法更好的推荐性能,两个数据集SW # 80用少量的数据和数据集SW # 236相对较大的数据量。这证明HDSWR方法具有良好的鲁棒性,并可以有效地提高推荐性能考虑科学工作流的属性信息。此外,我们发现之间的区别的推荐效率LHWT和HDSWR方法在数据集SW # 236低于数据集SW # 80。

(一)

(b)

6.5.3。时间效率的比较

评估的时间效率HDSWR方法,我们进行一系列的实验数据集的SW # 236和# 80西南。表3显示了三种方法的实验结果在他们的平均运行时间(以秒为单位),有两个数据集。


方法	SW # 80	SW # 236

韩	806.68	42436.2
LHWT	852.7	42923.61
HDSWR	34.82	292.72

如表所示3,HDSWR方法比其他方法更好的运行时性能。事实上,相似度计算的操作占据大部分运行时间的三种方法,而他们的集群的操作需要一些时间。LHWT方法提出了基于LH的方法,它为相似性计算附加额外的标签信息。因此,LHWT方法比LH的方法需要更多的运行时间。相比之下,相似性计算操作HDSWR所采用的方法是基于欣,这是完全不同于其他方法。因此,有效地降低了运行时间的相似性计算的处理各种信息。

7所示。结论

在本文中,我们的目标是提供自动支持科学工作流的重用和造型。具体来说,我们利用异构信息网络的组织和代表之间的关系科学工作流和考虑标签的对象,描述,活动,和subscientific工作流科学工作流的建议。我们提出一个新颖的科学工作流基于metapath相似度计算方法。此外,我们提出一个科学工作流的推荐方法名叫HDSWR密度峰值的聚类算法采用分组科学工作流到集群和一系列科学工作流的排名,并建议根据科学家和工程技术人员的需求。作为未来的工作,我们会考虑如何运用机器学习方法来自动调整一些参数(32- - - - - -35]HDSWR并产生更好的性能。此外,我们将处理相关的隐私问题的最新研究[36- - - - - -41]。

数据可用性

公开的数据集实验是通过以下网站:https://github.com/yixinxunwu/myExperiment。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

摘要本研究支持中国国家重点研究和开发项目(2018 yfb1702600和2018 yfb1702602号),国家自然科学基金(61772193号,61402167,61872139,61876062),湖南省自然科学基金(2017 jj4036和2018 jj2139号),中国湖南省级教育部门和研究基金会(17 k033号和19 a174)。

引用

w·歌,f . Chen H.-A。雅各布森,x夏,c .你们,x,“科学工作流挖掘云,”IEEE并行和分布式系统,28卷,不。10日,2979 - 2992年,2017页。视图:出版商的网站|谷歌学术搜索
w·歌和H.-A。雅各布森,“静态和动态变化过程,”IEEE服务计算,11卷,不。1,第231 - 215页,2016。视图:出版商的网站|谷歌学术搜索
x的歌,w .窦,j·陈,“智能服务组合,一个工作流框架”未来一代计算机系统,27卷,不。5,627 - 636年,2011页。视图:出版商的网站|谷歌学术搜索
张x, x, h .高,y雪,l . Qi和w·窦”成为:blockchain-enabled计算卸载移动边界计算的物联网,”IEEE工业信息,16卷,不。6,4187 - 4195年,2019页。视图:出版商的网站|谷歌学术搜索
x, c, z, l .气Wan, a和m . z下榻的饭店”联合优化卸载工具和隐私边缘计算使物联网,”IEEE物联网,2019年。视图:出版商的网站|谷歌学术搜索
d . De Roure戈贝尔c,因此和r·史蒂文斯”的设计和实现工作流的社会共享虚拟研究环境,”未来一代计算机系统,25卷,不。5,561 - 567年,2009页。视图:出版商的网站|谷歌学术搜索
j .燕八哥s Cohen-Boulakia s Khanna s b·戴维森和莱塞,“有效的和高效的相似性搜索在科学工作流库”未来一代计算机系统,56个卷,第594 - 584页,2016年。视图:出版商的网站|谷歌学术搜索
严x y太阳,j·汉,和吴t, p . s . Yu”Pathsim:元基于路径top-k相似性搜索在异构信息网络,”美国养老,4卷,不。11日,第1003 - 992页,2011年。视图:出版商的网站|谷歌学术搜索
c .史,j . Zhang, y, y . Li郑胜耀菲利普,“异构信息网络的调查分析,IEEE工程知识和数据卷,29号1,17-37,2016页。视图:出版商的网站|谷歌学术搜索
a·罗德里格斯和a . Laio”集群的快速搜索和发现密度峰值,”科学,卷344,不。6191年,第1496 - 1492页,2014年。视图:出版商的网站|谷歌学术搜索
m . Weske“业务流程管理架构,”业务流程管理施普林格,页333 - 371年,柏林,德国,2012年。视图:出版商的网站|谷歌学术搜索
w·m·p·l·温j . Wang van der阿尔斯特,b·黄和j .太阳“采矿过程模型'看不见的任务,”数据与知识工程,卷69,不。10日,999 - 1021年,2010页。视图:出版商的网站|谷歌学术搜索
邓,d . Wang y李et al .,“推荐系统,以促进业务流程建模”,IEEE控制论卷,47号6,1380 - 1394年,2016页。视图:出版商的网站|谷歌学术搜索
j .张问:刘,k .徐”FlowRecommender:工作流过程出处,推荐技术”第八澳大拉西亚的数据挖掘Conference-Volume学报》101页55 - 61,澳大利亚计算机协会,Inc .,墨尔本,澳大利亚,2009年12月。视图:谷歌学术搜索
徐y, b .曹l . et al .,“一个有效的推荐方法,改善业务流程建模,”IEEE工业信息,10卷,不。1,第513 - 502页,2013。视图:出版商的网站|谷歌学术搜索
l . h . Wang温、l·林和j .王”RLRecommender: representation-learning-based推荐业务流程建模方法,”国际会议面向服务计算的程序施普林格,页478 - 486年,杭州,中国,2018年11月。视图:出版商的网站|谷歌学术搜索
r . j . Zhang m . Pourreza s Lee Nemani, t·j·李,“工作单元支持生殖科学工作流的建议,”国际会议面向服务计算的程序施普林格,页446 - 462年,杭州,中国,2018年11月。视图:出版商的网站|谷歌学术搜索
z z Cheng周,p . c .挂k Ning, L.-J。张“Layer-hierarchical科学工作流的建议”学报2016年IEEE国际会议上的Web服务(ICWS)IEEE,页694 - 699年,旧金山,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
z周、程z和y朱,“相似性评估科学工作流集群和建议,”中国科学信息科学卷,59号11日,ID 113101条,2016年。视图:出版商的网站|谷歌学术搜索
m . Krzywucki和波兰人,“工作流相似性分析,”计算和信息,30卷,不。4、773 - 791年,2012页。视图:谷歌学术搜索
r·伯格曼和y吉尔相似性评估和有效的语义检索工作流程”,信息系统40卷,第127 - 115页,2014年。视图:出版商的网站|谷歌学术搜索
答:汉、m . Ebrahimi和美国,“folksonomy-based社会科学工作流重用,推荐系统”学报2015年IEEE国际会议服务计算IEEE,页704 - 711年,纽约,纽约,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
h .赵问:姚明,j . Li y的歌,和d·l·李,“基于Meta-graph建议在异构信息网络融合,”第23届ACM SIGKDD学报》国际会议上知识发现和数据挖掘ACM, 644,页635 - 2017。视图:出版商的网站|谷歌学术搜索
赵c, b, w . x,和s . y .菲利普“异构信息网络嵌入的建议,”IEEE工程知识和数据没有,卷。31日。2、357 - 370年,2018页。视图:出版商的网站|谷歌学术搜索
l . Chen Yu, y . Wang z郑,和j .吴”WT-LDA:用户标签LDA对于web服务集群,增强”国际会议面向服务计算的程序施普林格,页162 - 176年,考艾岛,嗨,美国,2013。视图:谷歌学术搜索
l .气x, w .窦,j . Yu周z、x张,“Time-aware埃克斯波特学院服务推荐稀疏数据,”移动信息系统卷,2016篇文章ID 4397061, 12页,2016。视图:出版商的网站|谷歌学术搜索
j .侯和y温家宝“科学工作流的建议,利用标签”学报》国际会议应用程序和技术在网络安全和情报施普林格,页951 - 958年,淮南,中国,2019。视图:谷歌学术搜索
y, y Yu, j .汉”排名集群中异构信息网络的星形网络模式,”第十五届ACM SIGKDD国际会议程序知识发现和数据挖掘ACM,页797 - 806年,巴黎,法国,2009年6月。视图:出版商的网站|谷歌学术搜索
问:勒和t . Mikolov分布式表示句子和文件,”机器学习的国际会议,第1196 - 1188页,北京,中国,2014年6月。视图:谷歌学术搜索
l . Ertoz m·施泰因巴赫,诉Kumar“发现集群不同的大小、形状和密度在吵,高维数据,”学报2003年暹罗国际会议数据挖掘旧金山,页47-58、钙、美国,2003年5月。视图:出版商的网站|谷歌学术搜索
c . a . Goble j·巴加s Aleksejevs et al .,“我的实验:一个存储库和社交网络共享生物信息学工作流,”核酸的研究,38卷,不。suppl_2, W677-W682, 2010页。视图:出版商的网站|谷歌学术搜索
j . p . Wang黄、崔z l .谢和j·陈,“高斯误差修正与NSGA-II多目标定位模型,”并发性和计算:实践和经验,32卷,不。5,2019。视图:出版商的网站|谷歌学术搜索
耿蔡x, y妞妞,s . et al .,”一个采样的软件缺陷预测方法基于混合多目标布谷鸟搜索,“并发性和计算:实践和经验,32卷,不。5,2019。视图:出版商的网站|谷歌学术搜索
m·哈桑·m·Rehmani j·陈,“微分隐私的技术网络物理系统:一项调查,“IEEE通信调查和教程,22卷,不。1,第789 - 746页,2019。视图:出版商的网站|谷歌学术搜索
m·哈桑·m·Rehmani j·陈,“交易:私人拍卖不同区块链为基础的微型电网能源交易,”IEEE服务计算2019年出版社。视图:出版商的网站|谷歌学术搜索
c . l .气r . Wang, s .李问:他和徐x,“Time-aware分布式服务推荐与隐私保护,”信息科学卷,480年,第364 - 354页,2019年。视图:出版商的网站|谷歌学术搜索
l .温w·m·p·范德阿尔斯特j . Wang和j .太阳”与non-free-choice结构挖掘过程模型”,数据挖掘和知识发现,15卷,不。2、145 - 180年,2007页。视图:出版商的网站|谷歌学术搜索
w·m·p·l·温j . Wang van der阿尔斯特,b·黄和j .太阳”过程挖掘基于事件类型的新方法,”智能信息系统杂志》上,32卷,不。2、163 - 190年,2009页。视图:出版商的网站|谷歌学术搜索
美国邓、l·黄和g .徐”与信任增强社交网络服务的建议,”专家系统与应用程序第41卷。。18日,第8084 - 8075页,2014年。视图:出版商的网站|谷歌学术搜索
邓,l .黄g .徐吴x和z . Wu”对深度学习trust-aware建议在社交网络上,“IEEE神经网络和学习系统,28卷,不。5,1164 - 1177年,2016页。视图:出版商的网站|谷歌学术搜索
l .七张x, w .窦,c, c·杨和j·陈,“两阶段locality-sensitive基于哈希的方法保护隐私移动服务推荐在跨平台的优势环境,”未来一代计算机系统卷,88年,第643 - 636页,2018年。视图:出版商的网站|谷歌学术搜索

复杂性