一个高效的算法提取更实用的分层序列模式

文摘

更实用的序列模式挖掘(HUSPM)是数据挖掘的一个新兴的话题,在效用是用来测量序列的重要性或重量。然而,不同项目之间的层次结构关系的潜在信息知识在HUSPM被忽略,这使得HUSPM无法提取更有趣的模式。在本文中,我们将项目的层次关系HUSPM MHUH并提出两阶段算法,第一更实用的分层序列模式挖掘算法(HUHSPM)。在第一阶段扩展,我们使用现有的算法FHUSpan提出有效我早些时候一般更实用的序列( - - - - - -序列);我在第二阶段命名替换,我们特别更实用的序列与层次关系( - - - - - -序列),更实用的分层序列模式 - - - - - -序列。效率的进一步提高,MHUH需要一些策略如减少,投篮,PBS和小说上暴发户TSWU,这可以极大地减少搜索空间。大量实验真实和合成数据集来评估两阶段算法的性能MHUH运行时,数量的模式,和可伸缩性。结论可以从实验MHUH提取更有趣的模式与底层信息知识在HUHSPM有效。

1。介绍

序列模式挖掘(SPM) (1- - - - - -3)是一个有趣的和数据挖掘中的重要研究领域。根据问题的定义(4),大型数据库的客户交易有三个领域,即。客户id,事务时间,物品购买。每笔交易对应itemset,所有客户的交易要求通过增加事务时间序列称为客户序列。一个序列的支持客户序列包含的数量。如果一个序列的支持大于用户指定的最小支持,我们称之为一个频繁序列。序列模式挖掘算法发现频繁序列称为序列模式在所有序列。总之,序列模式挖掘的目的是发现所有频繁序列如序列模式,项目内反映潜在的连接,从一个序列数据库在给定的最小的支持。这样一个连续的模式的一个例子是,客户通常买一个手机,手机外壳,然后手机充电器。顾客买一些其他商品之间也支持这个顺序模式。在过去的几十年中,许多算法(1,5)已经提出了序列模式挖掘,这使得它被广泛应用于许多现实的场景(例如,消费者行为分析(6和web使用挖掘7])。然而,序列模式挖掘有两个明显的局限性。

首先,频率并不完全揭示的重要性(即。在很多情况下,利息)(8- - - - - -12]。事实上,许多罕见的但重要的模式可能会错过下frequency-based框架。例如,零售销售,电话通常比卖一瓶牛奶,给人们带来更多的利润,而手机销售的数量远低于牛奶(9),决策者往往强调高利润商品的序列组成,而不是那些频繁的商品序列。这个问题导致的出现更实用的序列模式挖掘(HUSPM) [8,12- - - - - -15]。代表模式的相对重要性,数据库中的每一项与一个值被称为外部工具(例如,表示一个客户购买的商品的单位利润)。此外,每个出现的项与一个叫内部工具的数量(例如,表示的数量单位的项目购买的一个客户在一个事务)。序列的效用计算通过效用函数在所有序列数据库中出现。更实用的序列模式挖掘的任务是发现所有更实用的序列模式(HUSPs,效用高的序列)从量化序列数据库与一个预定义的最小效用阈值。许多更实用的序列模式挖掘算法提出了在过去的几十年中13,16- - - - - -20.,更实用的序列模式能更有效地提取了一系列新颖的数据结构和修剪策略建议。此外,更实用的序列模式挖掘有很多实际应用程序(包括web日志数据21),移动商务环境下(22),和基因调控数据。

其次,在序列模式挖掘,层次关系(例如,产品关系和语义关系)之间不同的物品被忽略,所以一些基础知识可能会有遗漏。一般来说,个别项目的输入序列是自然地安排在一个层次结构(23]。例如,假设两个序列和序列是罕见的,那么似乎没有关联的三个商品。然而,我们可能会发现,序列频繁的从产品层次结构的角度来看,表明客户通常先买手机,然后买一个手机配件(包括“移动电源组”和“蓝牙耳机”)。也就是说,产品的客户事务序列可以安排在产品层次结构,移动电源组和蓝牙耳机可以推广手机配件。另一个例子是单个词在文本可以形成一个语义层次结构。驱动器和驱动的话可以概括他们共同的引理,进而推广到各自的动词词性标记。层次结构的概念(分类)为决定者提供了一个不同的角度来分析序列模式。更多的信息可以通过不能提取方法模式。此外,尽管从分层的角度可以陶醉的信息相对模糊,它减少了潜在的知识在一定程度上的损失。特别是不同项目之间的层次关系有时是固有的应用程序(例如,层次结构的目录或网页)或手动或者自动的方式构造(例如,产品关系)23]。图1显示了一个简单的例子,一个生物学的分类在真实的应用程序中。序列模式挖掘与层次关系可以追溯到这篇文章(6)的层次结构管理被纳入序列模式挖掘和GSP算法提取序列模式根据不同级别的层次结构。后来,序列模式挖掘与层次关系已经被广泛的研究在文献[24,25]。高效的算法提出了广泛的实际应用,如客户行为分析(6,26和信息提取27]。

然而,我们所知,没有相关工作正在考虑两个局限性。本文给出一个量化序列数据库(与外部效用表),一个用户定义的最小效用阈值,以及一系列的分类法表示层次关系,我们致力于寻找更实用的序列组成的所有物品(即与层次关系。、更实用的分层序列模式)。事实上,矿业等模式比更实用更复杂的序列模式挖掘序列模式挖掘和层次关系。首先,相比之下,更实用的序列模式挖掘,层次关系的引入导致消耗大量的内存和长期以来执行时间由于搜索空间的组合爆炸。其次,挖掘序列模式挖掘的方法不能直接应用的层次结构关系,为下载关闭属性(也称为先天属性)28)不是基于用途的框架下举行。

为了解决上述问题,我们提出一种新的算法称为MHUH(矿业更实用的分层序列模式)我更实用的分层序列模式(稍后定义)采取一些策略。本文的主要贡献如下。

首先,我们引入的概念层次关系更实用的序列模式挖掘和制定更实用的分层序列模式挖掘的问题(HUHSPM)。尤其是HUHSPM定义的重要概念和组件。

其次,我们提出一个两阶段算法叫MHUH(矿业更实用的分层序列模式),第一个更实用的分层序列模式挖掘算法。这样的底层信息知识层次不同项目之间关系都不能少,提取HUHPs提高效率,几个策略(即。、投篮,PBS和减少)和小说上暴发户TSWU建议。

第三,大量的实验进行了真实和合成数据集来评估两阶段算法的性能MHUH运行时,数量的模式,和可伸缩性。特别是,实验结果证明MHUH可以提取更多有趣的模式与底层信息知识在HUHSPM有效。

本文的其余部分组织如下。简要评述了相关工作2。我们描述HUHSPM的相关定义和问题陈述部分3。提出的算法部分4,和一个实验评价评估算法的性能部分所示5。最后,得出结论和未来工作中讨论部分6。

在本节中,讨论了相关工作。节简要讨论(1)序列模式挖掘的主要方法,(2)更实用的序列模式挖掘的以前的工作,和(3)先进的的序列模式挖掘算法和层次关系。

2.1。序列模式挖掘

Agrawal et al。28)提出了一种新颖的算法首先先天下载关闭属性关联规则挖掘。提出了先验的算法是基于候选人一代方法,多次扫描数据库生成和计算候选序列模式和李子这些罕见的。然后定义序列模式挖掘的问题在一个大型数据库的客户交易并提出了有效的算法AprioriSome和AprioriAll [4]。Srikant然后Agrawal提出GSP,类似于执行过程但AprioriAll AprioriAll极大地提高了性能。先天的继任者,采用一些技术包括时间限制,滑动时间窗口,分类法,GSP使用多程,候选人generation-and-test方法发现序列模式(6]。扎基(1]提出了有效铲,只需要三个数据库扫描。铁锹利用组合属性将原问题分解成更小的子问题,可以独立解决内存使用高效格子搜索技术和使用简单的连接操作。后,垃圾邮件是艾尔斯等人提出的。29日],它适用于数据库中的序列模式的情况下很长时间。为了解决大型问题的搜索空间和无效处理密集数据集,杨et al。30.]提出了一种新颖的算法用一个简单的想法,兔子最后已知位置的关键是判断是否延长候选序列模式。然后,他们开发了LAPIN-SPAM算法结合垃圾邮件,垃圾邮件优于三倍于各种数据集的实验。值得注意的是,房地产,用于垃圾邮件,兔子,LAPIN-SPAM,铁锹,superpatterns的支持总是小于或等于其支持的支持模式不同于先天属性用于GSP。总结以上各算法,它们都属于Apriori-based算法(2,3]。

众所周知,数据库扫描时将耗时发现序列模式。出于这个原因,一组模式增长序列模式挖掘算法能够避免递归扫描输入数据提出了。例如,汉et al。31日FreeSpan]提出了一种新颖、高效的算法,使用投影序列数据库限制子序列的搜索和增长。预计数据库可以大大降低数据库的大小。裴et al。7)设计了一种新颖的数据结构称为web访问模式树,或WAP-tree简而言之,在他们的算法。WAP-tree商店高度压缩和重要的信息,它让我访问模式有效地从web日志。然后,汉族et al。32)与两种数据库提出PrefixSpan预测分级投影和上下两层的投影。PrefixSpan项目只有相应的后缀子序列投影数据库,所以它运行速度大大快于GSP和FreeSpan。使用相关的预订,position-coded WAP-tree和提供一个位置代码的版本机制,PLWAP算法Ezeife等人提出的基于WAP-tree [33]。Sequence-Growth,最近的并行版本PrefixSpan算法,提出了梁和吴34],它采用一个辞典编纂的生成候选序列,避免穷举搜索在事务数据库。

有一些缺点模式增长序列模式挖掘算法。显然,它预计耗时建立数据库。因此,一些算法与早期修剪策略是提高效率。赵et al。35叫DISC-all)设计一个高效的算法。不同与以往算法,DISC-all采用盘策略修剪nonfrequent序列根据其他序列相同的长度,而不是频繁序列长度较短。最近,提出了一种更快速算法称为CloFAST矿山闭序列模式使用稀疏和垂直- lists。CloFAST结合了数据集的一个新的数据表示,其理论特性研究,以快速计算序列模式的支持,与小说一步技术检查顺序关闭和删除搜索空间(36]。它比以前更高效的方法。更多细节可以发现序列模式挖掘的背景在2,3]。

2.2。更实用的序列模式挖掘

解决这一问题,频率不完全揭示的重要性在很多情况下,utility-oriented模式挖掘框架,例如,更实用的项目集矿业(HUIM),提出了和广泛研究[12,37]。尽管HUIM算法可以提取有趣的模式在许多实际的应用程序,他们不能够处理序列数据库时间戳是嵌入到每个项目。许多更实用的序列模式挖掘算法提出了在过去的几十年中9,13,16,18,38,更实用的序列模式能更有效地提取了一系列新颖的数据结构和修剪策略建议。艾哈迈德et al。13]首先定义更实用的数据挖掘问题顺序模式,并提出了一个新颖的挖掘框架更实用的顺序模式。他们提出了两个新算法UL和我们找到更实用的顺序模式。UL算法,更简单,更直观,遵循候选生成方法(基于广度优先搜索),而美国算法遵循模式增长的方法(基于深度优先搜索)。他们都可以被视为两阶段算法。在第一阶段,他们找到一组high-SWU序列。在第二阶段,他们计算序列的效用通过扫描序列数据库输出high-SWU序列,只有那些效用不低于阈值minutil。

上面提到的两阶段算法有两个重要的局限性,特别是对于低minutil值(8]。一个限制是high-SWU序列的集合中发现第一阶段需要大量的记忆。另一个是,计算候选序列的效用可能非常耗时的当扫描序列数据库。而不是把算法分为两个阶段,Shie et al。22)提出了更实用的单阶段算法叫UM-Span序列模式挖掘。它提高了效率通过使用预测基于数据库的方法,以避免额外的数据库扫描检查实际的实用程序的模式。同样,名叫范围内的单阶段算法通过局域网和香港(39),采用一种有效的上限模型和一个有效的projection-based修剪策略。此外,索引策略也发展迅速找到相关序列前缀的开采,因此,可以减少不必要的搜索时间。

殷等人那么丰富的相关定义和概念更实用的序列模式挖掘。两个算法,USpan [9和摘要17),阴等人提出了矿业和最高——更实用的顺序模式更实用的序列模式,分别。USpan,他们介绍了词典量化序列树来表示搜索空间和设计串联机制效用的计算节点及其子有两个有效的剪枝策略。宽度修剪策略避免了构造LP-Tree无前途的模式,而深度修剪策略阻止USpan会更深的通过识别树的叶节点。基于USpan Alkan Karagoz和王et al .,分别提出HuspExt [16]和HUS-Span [38)增加采矿过程的效率。Zhang et al。18)提出了一个有效的算法命名FHUSpan(名为HUS-UT纸),采用一种新颖的数据结构命名Utility-Table存储序列数据库的内存和TRSU策略来减少搜索空间。最近,氮化镓等人提出了两种高效的算法叫ProUM [40]和HUSP-ULL [41),分别提高挖掘效率。前者利用投影技术生成工具数组,而后者采用一个词典 - - - - - -序列(lq)树和一个快速发现HUSPs utility-linked-list结构。更多的发展现状HUSPM可以指在文学评论8,14]。

2.3。序列模式挖掘与层次关系

序列模式挖掘与层次关系可以追溯到文章(6)的层次结构是纳入开采过程,和GSP算法提取序列模式根据不同级别的层次结构。有两个关键策略来提高效率在GSP。第一个是预先执行每一项的祖先,祖先没有任何候选人前经过数据。第二个策略是不计数序列模式包含项目和其祖先元素。然而,层次结构的深度极限算法的效率,因为它增加序列数据库的大小。代表项目之间的关系更加完整和自然的方式,陈和黄25勾勒出模糊多级序列模式的概念和提出FMSM算法和基于GSP CROSS-FMSM算法。每一项在层次结构可以有多个父与不同程度的信心在他们的论文中。

Plantevit et al。24)合并的概念层次多维数据库,提出了两阶段算法炒作扩展他们的前面方法提取多维 - - - - - -广义连续模式。首先,最大限度地提取特定项。其次,多维 - - - - - -广义序列是在进一步挖掘。访问器的炒作,然后提出(42提取多维和基于多级顺序模式。的方法不是不完整;换句话说,他们不要我所有频繁序列。同样应用模糊概念层次结构,黄43)之后,提出了基于分治策略的模式增长方法我这样模糊多层次模式。最近,Egho然后提出MMISP提取异构多维序列模式与层次关系和应用它分析照顾结肠直肠癌的轨迹。Beedkar et al。23),设计灵感来源于MG-FSM,第一个并行算法命名为睫毛高效挖掘序列模式与层次关系。MG-FSM第一分区数据,随后矿山每个分区独立和并行。借鉴MG-FSM的基本策略,采用一种新颖的,基于项目的hierarchy-aware变体分区,分区优化施工技术和高效的专用算法主序列矿工(PSM)呼吁挖掘每个分区。正如我们所知,序列数据库不仅包含丰富的特性(例如,发生数量、风险和利润)而且多维辅助信息,这在一定程度上是与层次结构的概念。最近,Gan et al。44)提出了一个新颖的框架命名MDUS提取多维utility-oriented顺序有用的模式。

还有几个层次频繁项集挖掘算法,它们或多或少类似于序列模式挖掘与层次关系。例如,Kiran et al。45)提出了一种分层聚类算法使用闭合频繁项集使用维基百科作为一个外部的知识提高文档表示。在生和加戈的研究(46),大的事务数据集生成销售数据集;然后,分布式多级频繁模式挖掘算法(DMFPM)实现生成平交路口频繁项集使用Hadoop Mapreduce框架。然后,多层次关联规则生成频繁项目集。

3所示。预赛和配方问题

3.1。定义

让是一组项目。一个非空的子集被称为itemset,象征吗表示的大小。一个序列有序列表项集,在哪里 ( )。的长度是和的大小是。一个序列的长度被称为一个 - - - - - -序列。的子序列 ,如果存在整数: 这。例如, 的子序列。

一个 - - - - - -项目(quantitative-item)是一个有序数组 ,在哪里和是一个正实数表示的数量吗。一个 - - - - - -项目集与 ——被表示为。一个 - - - - - -序列,表示为 ,是一组有序的项集。一个 - - - - - -序列数据库(例如,图2(一个))由一个元组的集合和,ID标识符是一个 - - - - - -序列。

(一)DE Quantitative-sequence数据库

(b)分类法

(c)外部效用表

不同项目的层次关系分类的形式表示这是一个树组成的物品在不同的抽象级别。我们假设每一项只与一个分类。图2 (b)显示了一个简单的例子的分类法。在分类,如果一个项目是一个祖先的项目吗 ,我们说一般比更具体的比 ,表示为。我们区分三种不同类型的项目:叶物品(最具体,没有后代),根项目(最一般,没有祖先)和中间产品。的后裔组成的成套项目表示为。例如,在图2 (b),是一个根项,是一个中间产品,叶项, 。在本文中,我们假定不同的物品属于相同的项目集/ - - - - - -itemset属于不同的分类法。

给定两个项集和 ,我们说更具体的比等于/一般大于或等于(表示为 ), 和这或。例如,在图2 (b), ; 。同样,鉴于两个序列的大小 , ,和 ,我们说更具体的比等于/一般大于或等于(表示 );如果 ,我们有 ,在哪里是th itemset的和是th itemset的。特别是,如果和 ,我们说更具体的比/一般比 ,表示为。例如,在图2 (b), 。

3.2。效用计算

每一项与外部效用(表示为 )这是一个正实数代表的重量。nonleaf项 ,它应该满足条件。每个条目的外部效用记录在一个外部效用表(例如,图吗2 (c))。

的效用 - - - - - -项被定义为。的效用 - - - - - -itemset / - - - - - -序列/ - - - - - -序列数据库的效用的总和 - - - - - -项目/ - - - - - -itemset / - - - - - -它包含序列。例如,在图2的效用第一项集是6 ( );1日itemset的效用16 ( );的效用 ,表示为 ,44 ( );的效用 ,表示为 ,是228 ( )。

鉴于itemset 和一个 - - - - - -项目集 ,我们说发生在 ,表示为 ,敌我识别存在不同的整数: 这或。的效用在被定义为如果 ;否则, 。例如,在图2,让 , ; ; ; ; ;和。

给定一个序列和一个 - - - - - -序列在哪里 ,我们做以下定义。我们说发生在(表示为 )在位置 : 敌我识别存在整数: 这。的效用在在 ,表示为 ,被定义为。例如,在图2, 发生在在位置 ; 。

很明显,可能发生在很多次了。的效用在 ,表示为 ,被定义为 ,的象征表示完整包含所有的位置在。的效用在一个 - - - - - -序列数据库 ,表示为 ,被定义为。例如,在图2, 发生在三次; ; ; 。更多细节可以找到效用计算的方法(8]。

给定一个最小效用 ,我们说序列是更实用的如果。特别是,最具体的模式,来吗 - - - - - -序列,敌我识别和 , 。同样,序列是最通用的模式,来吗 - - - - - -序列,敌我识别和。的 - - - - - -序列包含的潜在信息知识层次不同项目之间的关系,涵盖更少的无意义的信息与序列高度概括。因此,我们定义这些 - - - - - -序列更实用的分层序列模式(HUHSPs)中提取。

3.2.1之上。问题陈述

给定一个最小效用 ,一个实用程序层次序列数据库包括量化序列数据库 ,一组分类,和外部效用表,utility-driven矿业的问题更实用的分层序列模式挖掘(HUHSPM)由列举所有HUHSPs的总体效用值的数据库不少于指定的最小效用帐户。

4所示。提出HUHSPM算法:MHUH

在本节中,我们提出的算法MHUH HUHSPM。我们项目的层次关系合并到更实用的序列模式挖掘,这使得MHUH能够找到不同项目之间的层次结构关系的潜在信息知识忽略更实用的序列模式挖掘。换句话说,MHUH可以提取更多的有趣的模式。MHUH的挖掘过程主要包括两个阶段叫扩展和替换。MHUH发现现有的算法更实用的序列FHUSpan(也叫HUS-UT),我们提出了基于prefix-extension早些时候在第一阶段的方法。对于一个 - - - - - -序列 ,然后我们更具体的比生成所有序列进步的替代和商店 - - - - - -序列的集合在第二阶段。我们需要做的工作,可以直观地观察两个阶段的两个名字。采矿过程两个阶段确保底层信息的知识层次不同项目之间的关系将不会错过了。与此同时,它可以发现HUHSPs时提高效率。

没有普遍性的损失,在本节中,我们形式化的最小效用下的定理和实用的分层序列数据库(包括一个 - - - - - -序列数据库 ,分类法和外部效用表)。

4.1。减少:删除无用的物品

挖掘序列模式之前,MHUH采用数据预处理过程中的还原策略,删除无用的物品减少搜索空间。它主要包括两个点,消除的没有希望的项目 - - - - - -序列数据库,删除冗余项的分类法。

一个项目是不如果任何序列包含这个项目不是更实用。在这里,我们提出一种新颖的上界TSWU(分类Sequence-Weighted效用)基于SWU [13过滤掉没有希望的项目。

定义1。给定一个项目 ,我们定义作为 ,在哪里的根项目分类包含吗。

例如,在图2, ; ; 。

定理2。给定一个 - - - - - -序列 ,两个序列和 ,在哪里 , 。

证明。让。我们有。对于一个 - - - - - -序列 , , ,所以。此外, 。

定理3。对于任何序列包含项 , 如果。

证明。从定理3,我们知道 ,所以。如果 , 。

对于一个给定的 ,我们可以删除物品满意根据上述安全定理。例如,在图2,当 , 和可以安全地远离图了吗2(一个)。

我们说一个项目是多余的,如果(1)出现在分类,但没有出现在 - - - - - -序列数据库和(2)在分类最多一个孩子。例如,在图2,和是多余的物品。在实用方面,删除这些项目对正确性没有影响,这将被证明是在分段4.3。因此,我们可以安全地删除这些项。

4.2。扩展(第一阶段):找到 - - - - - -序列

在第一阶段扩展,我们使用现有的算法FHUSpan [18),我们提出了有效我早些时候一般更实用的序列( - - - - - -序列)。这一阶段的主要任务是提高效率大大穆胡和提取 - - - - - -序列为下一阶段做准备。

事实上,没有 - - - - - -序列将错过了基于投篮(从一般到特殊的)策略。为了证明这个结论的正确性,我们需要证明两点:(1)不存在 - - - - - -序列不能发现的投篮策略和(2)算法的正确性 - - - - - -基于给定的序列 - - - - - -序列。这里,我们证明的正确性(1)和(2)的证明是在接下来的小节。

定理4。给定两个序列和在哪里 , 。

证明。我们首先证明。从部分4.2( )和定理3, 。然后,我们证明。我们有如果 ,在哪里。。

推论5。给定一个 - - - - - -序列 , 。

定理4和推论5显示的正确性(1),我们假设是一个 - - - - - -序列,不能发现的投篮的策略。事实上,我们总是可以找到(取代项目与项目的祖先)序列在哪里和。因为不是 - - - - - -序列, 或。所以, 。然后,我们画一个收缩。因此,假设并不持有,确保(1)的正确性。

定理6。g-sequence是根项目中包含的所有项目。

证明。给定一个 - - - - - -序列 ,我们假设th项目不是根项。然后,我们可以找到一个序列在哪里。然后,我们画一个收缩不是 - - - - - -序列。因此,这个定理成立。

然后,我们介绍如何找到 - - - - - -序列。定理6显示我们仅仅需要考虑根项目的过程中发现 - - - - - -序列。因此,我们可以改变 - - - - - -序列转化为另一种形式,这样我们可以忽略在这个阶段的层次关系。我们通过一个例子说明这种转变。考虑在图2,我们把它变成 ,括号中的值是实用程序( )。显然,这种转变,挖掘 - - - - - -序列相当于矿业更实用的序列。因此,我们使用现有的更实用的序列模式挖掘算法FHUSpan [18),我们提出了早些时候 - - - - - -序列。

这里,我们简要介绍FHUSpan的挖掘过程,发现基于prefix-extension方法更实用的序列。它首先找到合适的项目(只有序列开始这些项目可能更实用的)。然后,对于每一个合适的项目,它构造一个序列只包含这个项目,扩展了序列递归直到所有序列从项目检查。特别是,使用两种扩展方法, - - - - - -扩展(附加itemset只包含一个条目的当前序列) - - - - - -扩展(附加一个项目的最后itemset当前序列)。它是基于该算法HUS-Span使用两种修剪策略,一些(前缀扩展工具)战略和RSU(减少序列效用)策略来减少搜索空间。小说名为Utility-Table数据结构和FHUSpan修剪用于终止扩展,这样就可以有效地发现更实用的序列。

4.3。替换(二期):找到 - - - - - -序列

我在第二阶段命名替换,我们特别更实用的序列与层次关系( - - - - - -序列) - - - - - -序列的PBS的策略。此阶段的主要任务是提取 - - - - - -有效的序列。

对于一个 - - - - - -序列 ,然后我们更具体的比生成所有序列进步的替代和商店 - - - - - -序列的集合。特别是,对于每一个替代,我们替换th项目儿童项目。例如,在图2,我们替换的第一项的子元素 ,和一个特定的序列。

算法1显示了进步的替代从th项的序列,基于DFS。首先,它检查如果当前序列避免重复已经访问过效用计算(第1行)。如果 ,我们有根据定理4,所以我们终止搜索(2 - 3行)。否则,它增加了成并删除更一般的序列从(第5行),然后它生成特定序列基于越多 ,它遵循从上到下的顺序(第9行),从左到右(10 - 12行)。详细,它首先发现这是一组包含的所有子元素替换。为每一个 ,它取代了th项目与生成。然后检查更特定的序列(第9行,从上到下)。在那之后,它会检查更特定的序列从左到右(10 - 12行),的长度是。

搜索特定的。
输入:年代:序列,k:开始指数,参观了G
1:如果visitedisfalse然后
2:如果u(年代)<ξ然后
3:返回
4:如果
5:G⟵过滤器(G∪年代)
6:如果
7:对所有r∈R(年代,k)
8:年代^”⟵取代(年代,k, r)
9:SearchForSpecific (年代,k,假,G)
10:为v=k+ 1⟶l做
11:SearchForSpecific (年代,v,真的,G)
12:结束了
13:结束了

我们也使用一个策略,PBS(之前修剪搜索),以减少搜索空间之前的算法1。这种策略背后的主要思想是只考虑项目在当前索引。换句话说,我们生成并查看更具体的序列在一个方向上(从上到下),以减少大小的分类法。

我们通过一个例子说明这一战略背景下的人物2。让 ,序列是一个 - - - - - -序列( )。我们构建的分类,表示 ,和 ,为th ( )项目。然后,我们减少的大小三个分类。为 ,我们有 (是一个冗余项和删除)。然后,我们生成通过替换第一个与 ,和。因此,我们保留。因为 ,然后我们考虑并生成。我们也保留 ,为。然后,我们继续检查孩子的物品。这样一个过程将继续,直到所有物品已经检查。最后,我们删除从 ,为。然后我们继续上述过程和 ,和处理分类正确的图所示3。此外,请注意,在算法1, 从加工分类法获得代替原来的分类法。

在上面的例子中,马克斯计数更特定的序列减少从107年( )11 ( )。事实上,对于一个 - - - - - -序列 ,这数减少来 ,在哪里和的尺寸是分别在原始和处理分类法是th项目。

在本节的其余部分,我们证明结论之前离开。我们首先证明移除多余的物品对正确性没有影响。

证明。对一个序列 ,我们假设th项目 , ,是一个冗余项。首先,如果叶项,我们可以安全地删除它,因为每个序列包含 ,我们有。其次,如果有一个孩子,我们生成序列通过替换的孩子。然后,我们有根据相关的效用定义(的效用在 )。因此,去除多余的物品不改变相关序列的实用程序,这意味着它没有影响的正确性。

然后,我们证明了结论的正确性发现的算法 - - - - - -基于给定的序列 - - - - - -序列。

证明。首先,PBS不会忽视基本的策略 - - - - - -序列。假设我们找不到 - - - - - -序列从分类处理PBS策略,那么我们拥有的 ,这违反了定理4。所以,假设不成立。其次,算法1不忽略任何 - - - - - -序列。算法1基于DFS框架,它可以确保算法的完整性。此外,算法1提前终止搜索基于定理4,所以它不会忽略任何 - - - - - -序列。总之,结论成立。

5。实验

我们做了实验,评估拟议的MHUH算法是在Java中实现。所有的实验都是在电脑上进行3.2 GHz Intel Core i7处理器,8 GB的内存,和Windows 10。

5.1。数据集

五个数据集,包括三个真实的数据集和两个合成数据集,被用于实验。DS1圣经,每个词的转换是一个项目。DS2的转换是古典小说叫做利维坦。DS3点击流数据集被称为BMSWebView2。这三个数据集可以获得从SPMF网站(47]。DS4和DS5是两个合成数据集。他们的特点是总结表1。参数表的值1如下:是序列的数量,是不同的物品的数量,的最大长度序列,平均长度的序列。


数据集					类型

DS1的	36369年	13905年	One hundred.	21.64	真正的(文本)
DS2	5834年	9162年	One hundred.	33.81	真正的(文本)
DS3	77512年	6120年	161年	4.62	真正的(点击流)
DS4	10000年	4000年	40	20.54	合成
DS5	60000年	5000年	20.	10.50	合成

注意,这些数据集不包含分类法。所以,对于每个数据集,我们根据它所包含的项目生成的分类法。最大深度和这些分类法是3度,这表明最大数量的叶子物品分类中包含的是27。公布的数据集和源代码将在作者的Github后接受出版。

5.2。绩效评估

我们评估算法的性能在不同的数据集时不同。为了简单起见,这里,我们计算作为 ,在哪里δ是一个小数在0和1之间,的效用吗 - - - - - -序列数据库(参见分段的概念3所示。2)。此外,我们还测试了PBS的影响策略,和修改MHUH算法并不需要MHUH_base PBS策略来标示。

MHUH的执行时间和MHUH_base DS1, DS3如图4。当增加,两个算法减少搜索空间减少了执行时间。结果证明PBS策略有效地减少执行时间,因为它大大减少了对这些数据集的搜索空间。此外,结果还表明,MHUH算法能够有效地提取 - - - - - -在一个较低的序列。

图5显示的分布在DS1, DS3 MHUH发现模式。这表明模式的数量/长度增加而减少。特别有趣的是,一些长模式可能会消失增加,这表明短模式可能有更高的效用。

5.3。效用与更实用的序列模式挖掘

我们进行了这个实验评估模式的效用区别MHUH发现的,发现的现有算法FHUSpan [18我们早些时候提出。

图6显示的最高效用总和#(取决于效用)模式由FHUSpan和MHUH发现从三个数据集。的 - - - - - -轴是指#的值, - - - - - -轴代表的效用之和最高#模式。例如,在DS1、效用之和最高1000模式提取MHUH高于FHUSpan发现的效用之和。图7显示顶部#模式的平均效用/长度在DS1, DS3(#设置为1000、700和600年,分别)。的 - - - - - -轴的长度是指模式, - - - - - -轴表示模式的平均效用相同的长度。例如,在DS1、前1000名的模式,模式的平均效用的长度8发现MHUH高于平均效用FHUSpan所发现的。从这两个数字,我们知道MHUH可以发现更高的效用模式与FHUSpan相比,表明MHUH可以找到更多的信息知识。

5.4。可伸缩性

我们进行了实验评估MHUH大规模数据集上的性能。对于每个数据集,我们增加了数据大小通过重复和执行MHUH算法不同。图8给出了实验结果。我们从图知道MHUH算法具有良好的可伸缩性的两个数据集,执行时间几乎是线性的数据大小。例如,MHUH的执行时间( )DS4几乎线性增加,当数据规模(数量 - - - - - -序列包含从10 k - 50 k)变化。它还表明MHUH可以有效地识别所需的模式从大规模数据集低。例如,DS5, MHUH成本300年代数据大小是300 k 。

6。结论和未来的工作

在本文中,我们把物品为更实用的序列模式挖掘的层次关系,提出一个两阶段算法MHUH,第一更实用的分层序列模式挖掘算法(HUHSPM)。在第一阶段扩展,我们使用现有的算法FHUSpan提出有效我早些时候一般更实用的序列( - - - - - -序列);我在第二阶段命名替换,我们特别更实用的序列与层次关系( - - - - - -序列) - - - - - -序列。提出MHUH算法需要一些新颖的策略(如减少,投篮,和PBS)和一个新的上界TSWU,所以它能够大大减少搜索空间并发现HUHSPs有效所需的模式。结论可以从实验MHUH提取更有趣的模式与底层信息知识在HUHSPM有效。

在未来,我们将概括该算法基于更完整的概念。此外,提出的几个扩展MHUH算法可以考虑,如提高MHUH算法基础上的效率更好的剪枝策略,高效的数据结构(40,41),和多线程技术2]。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突的存在。

确认

这项工作是在广东省自然科学基金的支持下,中国(批准号2020 a1515010970)和深圳研究委员会(批准号GJHZ20180928155209705)。

引用

m·j·扎基“铲:一个有效的频繁序列挖掘算法,”机器学习,42卷,不。1/2,31-60,2001页。视图:出版商的网站|谷歌学术搜索
w·甘,j . C.-W。林,p . Fournier-Viger H.-C。曹国伟,p . s . Yu”并行序列模式挖掘的调查。”ACM交易数据的知识发现,13卷,不。3,猴,2019页。视图:出版商的网站|谷歌学术搜索
p . Fournier-Viger j . C.-W。林,r . Kiran, y s Koh和r·托马斯“序列模式挖掘的调查”数据科学和模式识别,1卷,不。1,54 - 77年,2017页。视图:谷歌学术搜索
r . Agrawal和r . Srikant挖掘序列模式”95:ICDE第十一届国际会议上数据工程学报》上卷,95年,页3 - 14,台北,台湾,中国,1995年3月。视图:谷歌学术搜索
李y, h . Lu,μ,d . Wang h . Kim和s . Serikawa”运动异常检测无人机使用强化学习,”IEEE物联网,5卷,不。4、2315 - 2322年,2018页。视图:出版商的网站|谷歌学术搜索
r . Srikant和r . Agrawal挖掘序列模式:归纳和性能改进国际会议上扩展数据库技术,页1卷,施普林格,柏林,海德堡,1996年。视图:出版商的网站|谷歌学术搜索
j .贝聿铭j·汉、b . Mortazavi-Asl和h·朱“矿业访问模式有效地从web日志”亚太会议知识发现和数据挖掘施普林格,页396 - 407年,柏林,海德堡,2000年。视图:出版商的网站|谷歌学术搜索
t . Truong-Chi和p . Fournier-Viger调查高效用序列模式挖掘,”更实用的模式挖掘:理论、算法和应用程序施普林格,页97 - 129年,2019年。视图:出版商的网站|谷歌学术搜索
j .阴、郑z和l .曹”Uspan:一个有效的算法挖掘高效用序列模式,”18 ACM SIGKDD国际会议上知识发现和数据挖掘,第668 - 660页,北京,中国,2012年8月,ACM。视图:出版商的网站|谷歌学术搜索
h . m . y . h . Lu Li Chen Kim和s . Serikawa“大脑智力:超越人工智能,”移动网络和应用程序,23卷,不。2、368 - 375年,2018页。视图:出版商的网站|谷歌学术搜索
w·甘,j . Chun-Wei H.-C。曹国伟,S.-L。王,s . y .菲利普“隐私保护效用挖掘:一项调查,”2018年IEEE国际会议上大数据,第2626 - 2617页,西雅图,佤邦,美国,2018年11月,IEEE。视图:谷歌学术搜索
w·甘,j . C.-W。林,p . Fournier-Viger H.-C。曹国伟,陈宗柏。香港,h . Fujita“增量的调查更实用的项目集采矿、”威利跨学科评论:数据挖掘和知识发现,8卷,不。2篇文章e1242 2018。视图:谷歌学术搜索
c·f·艾哈迈德·s . k . Tanbeer和s。宋”,一个新的采矿方法更实用的序列模式在序列数据库中,“电子杂志,32卷,不。5,676 - 686年,2010页。视图:出版商的网站|谷歌学术搜索
w·甘,j . C.-W。林,p . Fournier-Viger H.-C。曹国伟、v . s .曾和p . s . Yu“utility-oriented模式挖掘的调查,2018年,http://arxiv.org/abs/1805.10511。视图:谷歌学术搜索
x t . Wang, a歌et al .,“有界输出和rbfnn-based位置跟踪和自适应控制安全远程手术,”ACM交易多媒体计算机通信和应用程序,ACM, 2020。视图:谷歌学术搜索
好Alkan和p . Karagoz,”克罗姆和huspext:提高效率很高的实用价值序列模式提取,”IEEE工程知识和数据,27卷,不。10日,2645 - 2657年,2015页。视图:出版商的网站|谷歌学术搜索
j .阴z郑,l .曹y的歌,和w·魏“高质高效采矿top-k效用序列模式,”2013年IEEE第13次国际会议上数据挖掘达拉斯,页1259 - 1264年,TX,美国,2013年,IEEE。视图:谷歌学术搜索
c . Zhang z谊文,j .聂,d,“两个有效的算法挖掘高效用序列模式,”17 IEEE国际研讨会上并行和分布式处理的应用程序厦门,中国,2019年,IEEE。视图:谷歌学术搜索
李·d·h·Lu Wang y et al .,“海洋Conet:认知网络,”IEEE无线通信,26卷,不。3、90 - 96年,2019页。视图:出版商的网站|谷歌学术搜索
吴x, h . y .李et al .,“动态和各向同性为隔振控制并行机制,”IEEE / ASME举办IEEE 2020。视图:出版商的网站|谷歌学术搜索
c·f·艾哈迈德·s . k . Tanbeer和s。宋”,挖掘高实用的web访问序列动态web日志数据,”2010年11日埃西斯软件工程国际会议上,人工智能,网络和并行/分布式计算,页76 - 81,伦敦,英国,2010年6月,IEEE。视图:出版商的网站|谷歌学术搜索
B.-E。Shie黄永发。程,K.-T。壮族,v . s .曾“高阶段采矿方法实用移动序列模式在移动商务环境中,”国际会议在工业、工程和应用智能系统的其他应用程序,页616 - 626年,柏林,海德堡,2012年。视图:出版商的网站|谷歌学术搜索
k Beedkar和r . Gemulla睫毛:大规模序列挖掘层次结构”学报2015年ACM SIGMOD国际会议管理的数据,页491 - 503,墨尔本,澳大利亚,2015年5月,ACM。视图:出版商的网站|谷歌学术搜索
m . Plantevit a·劳伦和m .泰塞尔”炒作:矿业分层序列模式”学报》第九届ACM国际研讨会上的数据仓库和OLAP美国弗吉尼亚州阿灵顿郡,页19-26,2006年11月,ACM。视图:出版商的网站|谷歌学术搜索
杨绍明。关铭陈和t . C.-K。黄”,一个新颖的知识发现模型挖掘模糊多级序列模式在序列数据库中,“数据与知识工程,卷66,不。3、349 - 367年,2008页。视图:出版商的网站|谷歌学术搜索
r . Srikant和r . Agrawal广义关联规则挖掘。”未来一代计算机系统,13卷,不。2 - 3、161 - 180年,1997页。视图:出版商的网站|谷歌学术搜索
l . v .问:安·m·格茨:“矿业时空模式的概念层次结构,”2012年IEEE 12国际会议数据挖掘研讨会,页765 - 772年,布鲁塞尔,比利时,2012年12月,IEEE。视图:出版商的网站|谷歌学术搜索
r . Agrawal r . Srikant et al .,“快速算法挖掘关联规则,”诉讼20 VLDB会议卷,1215年,第499 - 487页,1994年圣地亚哥。视图:谷歌学术搜索
j·艾尔斯j . Flannick j·耶尔克,t·姚“序列模式挖掘使用位图表示,”第八届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,页429 - 435年,阿尔伯塔省埃德蒙顿,加拿大,2002年7月,ACM。视图:出版商的网站|谷歌学术搜索
z杨、y . Wang和m . Kitsuregawa“兔子:有效的序列模式挖掘算法,最后位置感应密集的数据库,”数据库的发展:概念、系统和应用程序施普林格,页1020 - 1023年,2007年。视图:谷歌学术搜索
j .汉j .贝聿铭b . Mortazavi-Asl问:陈,新德里和M.-C。许,“Freespan: pattern-projected频繁序列模式挖掘,”第六届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,页355 - 359,美国马萨诸塞州波士顿,2000年8月。视图:出版商的网站|谷歌学术搜索
j .汉j .贝聿铭b Mortazavi-Asl et al .,“Prefixspan:由前缀映射模式挖掘序列模式有效地增长,”第17届国际会议上数据工程学报》上海德堡,页215 - 224年,德国,德国,2001年4月。视图:出版商的网站|谷歌学术搜索
刘陆c . i Ezeife y, y,“Plwap连续采矿:开源代码,”学报第一国际研讨会上开源数据挖掘:频繁模式挖掘的实现,页26 - 35周不等,美国伊利诺斯州的芝加哥,2005年8月。视图:出版商的网站|谷歌学术搜索
中州。梁和w . Shiow-yang Sequence-growth:一个可伸缩的和有效的大数据频繁项集挖掘算法基于mapreduce框架,”2015年IEEE国际国会大数据,页393 - 400,纽约,纽约,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
D.-Y。赵,中州。吴,a·l·p·陈,“一个有效的频繁序列挖掘算法通过一个新的策略没有计算支持,”工程20国际会议的程序数据,页375 - 386,波士顿,MA,美国,美国,2004年4月。视图:出版商的网站|谷歌学术搜索
f . Fumarola p . f . Lanotte m·塞西和d . Malerba”Clofast:闭序列模式挖掘利用稀疏和垂直- lists,”知识和信息系统,48卷,不。2、429 - 463年,2016页。视图:出版商的网站|谷歌学术搜索
c·f·艾哈迈德·s . k . Tanbeer Byeong-Soo桢,Young-Koo李,“有效的树结构对高矿业在增量数据库实用程序模式,”IEEE工程知识和数据,21卷,不。12日,第1721 - 1708页,2009年。视图:出版商的网站|谷歌学术搜索
J.-Z。王,J.-L。黄和研究。陈”,有效地挖掘高效用序列模式,”知识和信息系统卷,49号2、597 - 627年,2016页。视图:出版商的网站|谷歌学术搜索
G.-C。局域网,陈宗柏。在香港,v . s .曾和S.-L。王”,应用最大效用衡量效用序列模式挖掘,”专家系统与应用程序第41卷。。11日,第5081 - 5071页,2014年。视图:出版商的网站|谷歌学术搜索
w·甘,j . C.-W。林,j . Zhang H.-C。曹国伟,h . Fujita和p . s . Yu”Proum: projection-based效用序列数据挖掘,”信息科学卷,513年,第240 - 222页,2020年。视图:出版商的网站|谷歌学术搜索
w·甘,j . C.-W。林,j·张,p . Fournier-Viger H.-C。曹国伟,p . s . Yu”快效用序列数据挖掘,”IEEE控制论,2020年,页1 - 14。视图:出版商的网站|谷歌学术搜索
m . Plantevit a . Laurent d·劳伦特·m·泰塞尔和y . w .依Choong)“挖掘多维多级序列模式,”ACM交易数据的知识发现,4卷,不。1,1-37,2010页。视图:出版商的网站|谷歌学术搜索
t . C.-K。黄”,为矿业开发一种有效的知识发现模型模糊多级序列模式在序列数据库中,“模糊集和系统,卷160,不。23日,第3381 - 3359页,2009年。视图:出版商的网站|谷歌学术搜索
w·甘,j . C.-W。林,j . Zhang et al .,“效用挖掘多维序列,”2019年,http://arxiv.org/abs/1902.09582。视图:谷歌学术搜索
g . v . r . Kiran r . Shankar诉Pudi,“基于频繁项集的层次文档聚类使用维基百科作为外部知识,”国际会议和工程知识和智能信息系统,页11日至20日,威尔士的加的夫,英国,2010年9月。视图:谷歌学术搜索
d . j .所和美国Garg”地图减少基于多层次关联规则挖掘从概念层次的销售数据,”国际会议上的进步科学计算和数据施普林格,页624 - 636年,新加坡,2017年7月。视图:出版商的网站|谷歌学术搜索
p . Fournier-Viger”SPMF:开源数据挖掘库”,2019年6月,http://www.philippe-fournier-viger.com/spmf/。视图:谷歌学术搜索

无线通信和移动计算