基于二进制的小说DBSCAN当地敏感的哈希和Binary-KNN表示

文摘

我们重温经典DBSCAN算法提出了一系列的策略来提高其鲁棒性不同的密度和效率。与原来的DBSCAN不同,我们首先使用二进制当地敏感哈希(激光冲徊化),使区域查询快一个数据点的邻居。基于二进制数据表示方法社区然后提出数据集映射到汉明空间集群更快扩张。我们定义了一个核心观点基于二进制影响空间不同密度提高鲁棒性。此外,我们提出一个种子点选择方法,该方法是基于空间和影响社区相似度来选择一些种子点,而不是所有的邻居在集群扩张。因此,区域查询可以减少的数量。实验结果表明,改进的算法能够极大地提高聚类速度的前提下确保更好的算法聚类的准确性,特别是对大规模数据集。

1。介绍

聚类研究[1,2)扮演了一个重要的角色在许多领域包括数据挖掘和机器学习。聚类的目的是将数据集划分成不同的子类,这样在相同的子类对象的相似性最大化和最小化不同子类对象的相似之处。,density-based DBSCAN聚类算法(3,4),基本思想是连接相邻的高密度区域超过阈值。不同于——(5,6),这是基于分区策略,DASCAN最初不需要设置数据集群的数量;对噪音和可以识别任意形状的簇。然而,它使用全局参数和Minpts测量密度,以便它不执行当密度和阶级之间的距离分布不一致。如果该值的较高,在集群中的数据点与相对较低的密度定义为边界点,和稀疏集群将被分为几个类似的类。相反,如果我们给较低 ,它将把那些更接近集群与更大的密度。因此,DBSCAN只都在顺利进行着匀称的数据集。同时,找到核心点集群扩张,DBSCAN不断查询附近,有一个相当大的I / O成本特别是对大规模数据集。为了克服DBSCAN的缺陷,学者们做了大量研究并提出很多改进方法。朱et al。7)提出了侦察和重新调节方法基于密度比改进DBSCAN的限制在寻找不同密度的集群。但ReCon-DBSCAN使用密度估计()和ReScale-DBSCAN使用两个额外的参数( , ),增加了算法的参数来计算密度比的依赖。周Shui-geng等人提出PDBSCAN FDBSCAN算法来解决DBSCAN的缺陷,分别。PDBSCAN [8)将数据空间划分为几个穿制服的区域的直方图统计分析结果数据显示在一个或多个维度;然后它使用不同的不同地区解决各种密度的弱点。然而,PDBSCAN使用人机交互来实现数据分区;它不会使之在实际应用程序中,尽管聚类质量更好。FDBSCAN [9]算法只使用少量的代表点,而不是所有的社区核心点作为种子点来扩展集群。与DBSCAN FDBSCAN减少区域查询的执行频率,大幅减少了I / O开销。但它是聚类精度为代价,和区域查询的效率没有提高这意味着它仍有改进的余地。

有关DBSCAN来解决这个问题,本文提出了一种快速聚类算法基于collision-ordered BLSH-DBSCAN激光冲徊化和二进制最近的邻居。该算法使得以下贡献:

(我)使用二进制激光冲徊化查询最近的邻居,它可以大大提高查询的速度区域相比,传统的线性搜索。

(2)它构造一个binary-KNN表示方法将数据映射到汉明空间下聚类操作,极大地提高聚类的速度。

(3)它引入了一个核心观点区分方法影响空间和设计解决方案的基础上影响二进制数据集的空间来提高聚类速度。与此同时,由于密度的敏感性影响空间,这种改进方法具有更好的相比原来的DBSCAN聚类质量和效率。

(iv)它引入了一个种子点选择方法,基于空间和影响社区相似度来选择一些种子点,而不是所有的邻居在集群扩张。它可以减少区域查询的执行频率更快地实现集群操作。

剩下的纸是组织如下。

节2,我们提供一个解释的位置敏感哈希地区查询和如何使的binary-KNN表示一个点。一种改进density-based聚类算法开发的部分3。介绍了影响空间和它的解决方法以二进制数据集;同时,提出了种子点的选择方法。部分4实验结果报告。提供了讨论和结论部分5。

2。二进制位置敏感哈希和Binary-KNN表示

2.1。对DBSCAN算法

DBSCAN是一个典型的density-based空间聚类算法。它有两个重要的参数和Minpts。半径的定义数据对象的社区,和Minpts定义了最小数量的数据点包含在附近。DBSCAN给出以下定义。

假设我们有一个数据集。

定义1(直接密度可及)。如果是在附近的和是一个核心对象,那么对象直接密度可及。

定义2(密度可及)。一个点是密度从一个点可以吗 ,如果有一连串的点 , , ,这样直接密度可及( )。

定义3(密度连接)。一个点密度是连接到一个点 ,如果有一个点和两个和密度可以从。

定义4(核心)。在附近的点 ,如果点的数量直接从点密度可及大于Minpts,然后是一个核心问题。

定义5(边界点)。如果不是一个核心的观点,但是直接从一个核心密度可及点,然后呢是一个边界点。

定义6(噪声点)。如果点既不是一个核心观点也不是一个边界点,然后呢是一个噪声点。

找到集群,DBSCAN始于一个任意的对象在然后检索所有点密度可及关于和Minpts。如果是一个核心的观点,那么马克吗和它的社区作为一种新的集群。然后,DBSCAN继续检索集群中的其他点的附近,并增加了社区的核心指向当前集群,直到没有新的对象可以添加到集群中。当所有点都被划分为一个集群或被标记为噪声点,聚类的目的。

然而,邻居查询需要计算查询对象和其他对象之间的距离由班轮搜索和它有一个巨大的I / O开销。为了解决这个问题,我们提出以下改进:加快该地区查询,使用二进制激光冲徊化而不是线性搜索查询最近的点,使用邻居结构来表示数据点可以将高维数据集映射到汉明加快集群扩展的空间。

2.2。位置敏感哈希

激光冲徊化算法通常是快速查询的邻居。它包括两个步骤:查询索引结构和对象。在索引结构,通过一系列的哈希函数,it项目类似的数据点到相同的散列桶有更高的概率。在对象的查询,它使用一个filter-and-refine框架将数据散列到散列桶通过相同的哈希函数。采用哈希桶中的所有数据点作为候选人,用于计算相似性查询对象发现最近的邻居。

激光冲徊化的定义(见[10])。让两个距离满足距离函数。我们所说的哈希函数的家庭在每个函数敏感满足以下两个条件。(1)如果 , 。(2)如果 , ,

在哪里。

激光冲徊化使用不同的哈希函数的家庭不同的距离函数。在这篇文章中,二进制家庭基于哈希函数稳定分布,适用于下的欧几里得空间规范使用。对于每个高维数据点,哈希函数的家庭(11] 在哪里是一个随机向量,是吗稳定分布,相同的尺寸。

激光冲徊化的索引结构可以概括为以下两个步骤(12,13]:

(我)的哈希函数和一组向量 ,定义一个新的哈希函数的家庭。为向量和哈希函数在和 ,我们选择哈希函数执行和结构构造函数。

属于及其detailedness

(2)选择一个整数 ,然后随机选择哈希表从将数据点映射到哈希表中。

当使用二进制激光冲徊化对象查询时,为每个查询对象 ,它选择相同的哈希函数与指数结构计算冲突桶的数量。很明显,每一组函数可以相互冲突的桶的数量吗 ,这是作为。

基本激光冲徊化采用的所有数据对象有相同的冲突的桶数与查询对象作为候选人,然后比较候选人之间的相似性查询对象发现最近邻居查询的对象。

然而,在邻居DBSCAN的搜索,有更多的数据点密度高的区域。也就是说,计算复杂度会如此之大,比较之间的相似性查询对象和查询效率的所有候选人不会满足大规模数据集的需求。已经证明在10),类似的两个对象越多,越多他们会被映射到相同的散列桶与相同规模的激光冲徊化操作。因此,本文运用冲突数排序策略提出了(14),下行候选人数数量的冲突,选择第一个候选人的邻居查询对象。

2.3。Binary-KNN表示

我们都知道,你的邻居结构包含强大的数据类信息。可以有效地判断数据对象之间的相似度通过它(15,16]。在本节中,我们提出一种基于二进制表示方法最近的邻居。它表达了你的邻居结构二进制来表示数据点,它可以将复杂的高维数据集映射到汉明空间。很明显,在汉明空间聚类将大大减少DBSCAN的运行时。

细节可以描述如下。对于任何数据对象在数据集和它的社区( ,下标的吗th的邻居可以发现通过使用激光冲徊化提出了部分2.1;我们确定它的新表达式。当且仅当或 , ;否则,它的价值是多少。这样,我们得到的binary-KNN表示对象这是作为和thebinary-KNN表示数据集的thedataset最后。

不同于原来的DBSCAN,本文使用二进制激光冲徊化而不是线性搜索查询最近的邻居,可以提高你的邻居查询的效率。此外,它将一个数据点的邻居结构信息转换成二进制来表示数据,我们可以操作在汉明空间聚类。是更快的在汉明空间数据点划分为核心的点,边界点和噪声点的运行时集群扩张可以大幅减少。

3所示。改进DBSCAN聚类算法

3.1。影响空间二进制数据集

Density-based集群是找出区域密度超过阈值。在DBSCAN,它使用全局参数和Minpts测量密度,从而导致较低的聚类质量数据集各种密度。为各种密度提高其鲁棒性,我们引入一个核心点识别方法是基于影响binary-KNN数据集的空间和它的解决方法。由于当地密度敏感的特性影响的空间,我们的方法可以改进DBSCAN的鲁棒性与不同的密度数据集。同时,通过应用核心在二进制汉明空间点识别方法(部分2.3),效率将进一步提高。

为进一步解释,我们给出以下定义。

定义7 (-neighborhood-point集)。为 ,-neighborhood-point集是由最近的邻居的 ,这是表示为 (下标的吗th的邻居)。

定义8(核心)。为 ,如果是一个核心的观点,那么它满足以下方程:

定义9(边界点)。为 ,如果是一个边界点,那么它满足以下方程:

定义10(噪声点)。为 ,如果是一个噪声点,那么它满足以下方程: 在哪里是影响空间的 ,它包含的数据点吗谁的最近的邻居还包括。是点的数量影响空间。是权重系数,一般的价值是2/3。是邻居的数量。

影响空间首次提出了金等。17]估算附近密度。各密度,不同于DBSCAN是弱密度的变化是非常敏感的地区。通过使用空间的影响,可以提高聚类质量明显的数据集各种密度。

同时,计算以二进制数据集介绍部分2.2,我们设计一个简单的方法为如下方程: 在哪里需要的数据点的信息包含。

只是的交集和。与此同时,受益于影响空间的对称性,收购简单和快速。它首先需要一个换位的 ,然后是向量,在。一般来说,只需要一个步骤在计算空间的影响。它极大地简化了查询步骤和算法效率进一步提高。

3.2。代表对象的选择

为了提高算法的效率,一方面,我们需要提高你的邻居查询的效率,解决了激光冲徊化和binary-KNN表示2;另一方面,我们也可以减少你的邻居查询的频率。

集群中的DBSCAN的扩张,所有点选择在附近的种子查询下一个地区。然而,我们的核心点区分方法3所示。1基于影响空间中的数据点包含一个附近的社区还包括查询对象。为一个对象 ,它应该确定之间有重叠的和附近的点。当是一个核心的观点,的确,有更多的空间点的影响。从理论上讲,影响空间的点越多,更大的重叠区域。甚至有一个情况的对象完全是由附近的吗如图是哪一个1。虽然对象是一个核心对象,如果我们选择在周边国家的所有点为下一个集群扩张,这只会增加你的邻居查询的频率是不利于算法的效率。因此,我们需要选择部分数据点而不是核心的所有邻居点作为种子点集群扩张。

在本节中,我们介绍一个种子点选择方法基于影响空间和每个邻居之间的相似性。附近的一个核心观点,它提升的点在空间的影响相似性,然后只选择第一个几个点作为种子点为下一个集群扩张。详细的解释,我们首先给出的定义相似点。

定义11 (相似)。为 , ,相似之处如下: 它数量相同的邻居的两个物体在他们的社区。在binary-KNN表示数据集,相似之处如下: 详细解释如何选择种子点的的一个核心观点是以下三个步骤。

首先,我们提升的空间点的影响通过相似点。

对于第一点在排序影响空间,估计是核心。如果是一个核心的观点,把它作为第一个种子点,然后找到点谁有最低的影响空间相似的种子点已选中。否则,应采取任何行动。

重复步骤直到所有所需的种子点被发现或全部点处理。

在这里我们解释为什么我们选择最低的对象空间相似性的影响。种子点的选择是核心之间的权衡点和社区的重叠。对于一个种子点,我们希望更少的重叠社区与当前核心对象和更高的概率成为一个核心对象。目前,因为theoverlap社区之间的两个对象是衡量相似,很明显更低相似度可以直接减少社区的重叠和进一步减少查询的频率区域。同时,点的影响空间核心点的邻域包含核心点。他们可能有更高的概率的一个核心观点。因此,我们设计根据种子点的选择方法相似性和社区的影响空间减少时间查询。因此,算法的效率将进一步提高。

3.3。步骤BLSH-DBSCAN

改进算法的步骤如下:

数据输入:数据集。

索引和查询:所有数据点的构造指数在碰撞中使用二进制激光冲徊化秩序;然后查询每个点的邻居,保存。

Binary-KNN表示:根据资讯信息,表示数据点随着 ,当 , ;否则,该值。最后将数据集成。

计算的数据点它没有被分为一个集群或标记为噪声点,什么时候 ,建立一个新的集群C,并把的在集群C。

选择种子点并添加他们邻居在集群C。

重复步骤 ,选择种子点社区当前处理的核心观点,然后添加他们邻居C,直到没有新的点,可以添加。

重复步骤 , ,和 ,直到所有点都被分成一些集群或标记为噪声点。

流程图如图2。

4所示。实验和性能评估

评估我们的方法,我们在三个方面证明BLSH-DBSCAN的优越性,附近的查询时,聚类速度和合成数据集和真实数据集的聚类质量。所有的实验都是在MATLAB中实现windows操作系统下。在接下来的实验中,我们比较BLSH-DBSCAN DBSCAN和IS-DBSCAN。为什么我们选择比较的DBSCAN DBSCAN是原始的算法;伟大的意义,说明了改进方法的有效性通过比较聚类质量和速度。我们之所以比较算法IS-DBSCAN BLSH-DBSCAN在于它们都使用影响磁矩计算数据集的空间来提高鲁棒性。与IS-DBSCAN, BLSH-DBSCAN运作在汉明空间聚类,采用种子点选择策略来减少查询附近的频率。比较这两个算法可以进一步说明我们的改进策略的有效性。

4.1。查询时间比较

与DBSCAN查询附近的线性搜索,我们BLSH-DBSCAN使用二进制激光冲徊化查询每个点的最近的邻居。相互比较的查询时间,实验中所描述的合成数据集表中执行1。我们的合成数据集变化从5000年到60000点,生成基于multiple-Gaussian分布。我们记录的10倍查询时间线性搜索和激光冲徊化表的数据集1然后计算它们的平均值。


数据集	对象	维

合成数据集	5000年	5
合成数据集	10000年	5

合成数据集	60000年	5

图3是一个显示的图表与MATLAB的平均运行时间线性搜索和激光冲徊化与不同规模的数据集。从图可以看出3只有在数据集规模小,线性搜索有一个弱的优点。数据集的规模越大,差距越大他们的运行时间。数据集以60000分,线性搜索的查询时间几乎是200秒,但二进制激光冲徊化,它是稳定的几秒钟,变化不是很明显。这意味着它是可行的二进制激光冲徊化申请邻居查询来提高算法的效率。

4.2。聚类质量比较

BLSH-DBSCAN已经介绍了二进制影响数据集的空间来提高聚类质量各种密度。说明我们的改善策略的积极影响聚类的质量,我们进行一些合成实验数据集介绍了表2。


数据集	对象	维	标签	数据集的特点

数据集1	1502年	2	2	不同的形状
数据集2	1419年	2	7	不同的形状、大小和密度

由于DBSCAN使用全局参数和Minpts,在接下来的实验中,我们不断地调整和Minpts因此获得最好的聚类结果。BLSH-DBSCAN使用全局参数 ,我们继续调整的价值并最终找到最好的聚类结果。最好的结果在图所示4,第一行是最好的聚类结果数据集1,第二行显示最好的集群数据集2的结果。

第一行的数字4,我们可以看到,本文的改进算法显示了DBSCAN的优势可以识别任何形状数据集1的集群。第二行图4显示了两种算法的最佳聚类结果数据集2这是一个数据集有不同的形状、大小和密度。从聚类的结果中,我们可以看到,DBSCAN错误合并两个数据相互接近到一个集群。那是因为,DBSCAN使用全局参数和Minpts测量密度也不适合数据集2具有不同大小和密度的集群。如果我们设定一个更高 ,在集群中的数据点与相对较低的密度定义为边界点导致稀疏集群分为几个类似的类。如果我们给一个更低 ,它将把那些相互接近的集群与更大的密度。我们BLSH-DBSCAN可以准确地识别每个集群的数据集2。进一步显示了密度测量策略基于这一事实的影响空间可以在数据集各种改进DBSCAN的质量密度。

4.3。表现真实的数据集

在本节中,我们将比较聚类效率,在真实数据集的聚类精度。我们使用运行时代表聚类效率和集群正确速度代表了聚类精度。因为实验数据集的点都是机密,获得正确的率在本节中通过比较算法的聚类结果与原标签的数据点。

BLSH-DBSCAN采用多种策略来提高聚类速度。它使用二进制激光冲徊化,社区是一个快速查询算法加快该地区查询。它采用binary-KNN表示方法在汉明空间映射聚类操作。它也选择一些种子点而不是所有邻居集群扩张降低查询的频率区域。这些方法都在一定程度上提高了聚类效率。为了说明这些方法的效率,我们选择几个从UCI数据集的数据集,然后比较BLSH-DBSCAN的运行时间和聚类精度,DBSCAN, IS-DBSCAN。表3显示实验数据集的详细信息。这些数据集规模不同,尺寸和数量的集群,这样比较有说服力的。


数据集	对象	维	标签

虹膜	150年	4	3
避孕方法的选择	1437年	9	3
字母识别	20000年	16	26

表4和图5分别显示,DBSCAN聚类正确的速度和运行时间,IS-DBSCAN,虹膜和BLSH-DBSCAN UCI数据集,避孕方法的选择,和字母识别。它需要解释说,这三个算法的测试结果在不同的数据集是最好的测试结果通过调整参数。


	DBSCAN	ISB-DBSCAN	BLSH-DBSCAN

虹膜	69.33%	88%	89.33%
避孕方法的选择	42.70%	44.89%	42.70%
字母识别	50.2%	64.45%	64.425%

纠正率见表4是最好的聚类结果的三个算法通过调整参数。运行时显示在图5的平均10时使用相同的参数和参数是正确的比率是最高的。

从表4,我们可以看到IS-DBSCAN的聚类精度和BLSH-DBSCAN三个数据集是优于传统的DBSCAN,这进一步证明了核心的优越性一点区别方法是基于空间的影响。从图4,很明显,有很大的差距的三个算法的运行时间在不同的数据集。运行时的DBSCAN IS-DBSCAN总是超过。这是因为IS-DBSCAN使用影响区分核心空间点和计算比较复杂。因此,IS-DBSCAN需要更长的时间比DBSCAN运行时。然而,我们的改进算法没有利用虹膜数据集上运行时间。这是因为虹膜是一个典型的数据集规模小,我们可以看到从图2激光冲徊化的查询时间远远长于线性搜索。在避孕方法选择数据集,因为它的规模并不大,激光冲徊化的查询时间仍略超过线性查询。此外,从第二个图在图5,我们可以看到运行时间与DBSCAN BLSH-DBSCAN基本上是相同的,远低于IS-DBSCAN。它间接地说明了我们的改进策略的积极影响包括二进制影响空间和种子点选择方法减少算法的运行时间。大规模的字母识别数据集,优势非常明显,BLSH-DBSCAN更短的运行时间比其他两种算法。这表明我们的改进算法可以充分利用激光冲徊化,二进制的影响,种子点的选择。

总之,在小规模数据集,BLSH-DBSCAN可以极大地提高聚类精度正如IS-DBSCAN。在大规模数据集,与DBSCAN相比,它可以得到更高的精度和效率;与IS-DBSCAN相比,它可以大幅减少运行时间,同时保持相同的精度水平。

5。结论

在本文中,一种改进DBSCAN算法改进的鲁棒性不同的密度和聚类算法的效率。改进的策略包括使用二进制激光冲徊化代替线性搜索查询区域;设计一个基于二进制表示方法社区将集群映射到汉明空间;并引入一个种子点选择方法基于空间和影响相似性为集群扩张。通过比较改善与DBSCAN算法及其改进的变体,它表明改进算法的聚类精度高的小规模数据集和具有相当大的优势在聚类精度和效率在大规模数据集。因此,我们的改进算法特别适用于大规模数据集更快和更准确的聚类结果。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这部分工作是支持中国国家重点基础研究计划(973计划)(项目2015 cb856001)和贵州省级重点实验室的公共大数据(2017 bdkfjj002和2017 bdkfjj004);本研究也由项目贵州省级教育部门(肯塔基州[2016]124号)和项目部门的贵州省科技(LH[2014] 7628号)。

引用

a . k . Jain m . n . Murty p•j•弗林,“数据聚类:审查,”ACM计算调查没有,卷。31日。3、264 - 323年,1999页。视图:出版商的网站|谷歌学术搜索
许r和d . c . w . Ii, IEEE,聚类算法的调查中,“IEEE神经网络,16卷,不。3、645 - 678年,2005页。视图:谷歌学术搜索
m .酯惠普Kriegel, x,“density-based算法发现集群与噪音,大型空间数据库”学报》国际会议知识发现和数据挖掘231年,页226 - AAAI出版社,1996年。视图:谷歌学术搜索
y, h . Tan w·罗et al .,“MR-DBSCAN:一个有效的并行density-based聚类算法使用MapReduce,”《IEEE国际会议上并行计算和分布式系统,42卷,第480 - 473页,IEEE 2012。视图:谷歌学术搜索
t . Kanungo d·m·山:美国内塔尼亚胡,c, d . Piatko r·西尔弗曼和a . y .吴“k -均值聚类算法:一种有效的分析和实现,”IEEE模式分析与机器智能,24卷,不。7,881 - 892年,2002页。视图:出版商的网站|谷歌学术搜索
j·A·哈和m . A . Wong“k - means聚类算法”,应用统计学,28卷,不。1,第108 - 100页,1979。视图:谷歌学术搜索
朱y, k . m . Ting, m . j .运货马车的车夫,“基于密度比的聚类发现具有不同密度的集群,”模式识别,60卷,第997 - 983页,2016年。视图:出版商的网站|谷歌学术搜索
美国周、周A和j .曹”一个data-partitioning-based DBSCAN算法,”计算机研究与发展》杂志上,37卷,不。10日,1153 - 1159年,2000页。视图:谷歌学术搜索
周,周,w·金,y粉丝,“dbscan算法Fdbscan Fdbscan:快,”软件学报,15卷,不。6,735 - 744年,2000页。视图:谷歌学术搜索
p .迪克和r . Motwani近似最近的邻居:删除维度的诅咒,”《第13届ACM研讨会上的计算理论613年,页604 - ACM出版社,1998年。视图:谷歌学术搜索|MathSciNet
m·塔尔、n . Immorlica·迪克和v . s . Mirrokni“Locality-sensitive哈希方案基于p-stable分布,”在计算几何20年会论文集(SCG ' 04)34卷,第262 - 253页,ACM, 2004年6月。视图:谷歌学术搜索
问:Lv, w·约瑟夫森m . Charikar z . Wang和k·李,“Multi-probe激光冲徊化:有效的高维索引相似性搜索,”学报的第33届国际会议上非常大的数据基础VLDB养老,页950 - 961年,2007年9月。视图:谷歌学术搜索
f .沈c .沈w·刘,h·t·沈,“监督离散哈希,”学报IEEE计算机视觉与模式识别会议(CVPR 15)2015年6月,页37-45,。视图:出版商的网站|谷歌学术搜索
y . f . w . w . Wang Chen j·b·钱和h·h·陈,“LSH-based k最近邻搜索算法在大数据,”《电子学报》,44卷,不。4,第912 - 906页,2016年(中国)。视图:谷歌学术搜索
j .吴“平衡支持向量机在本地使用内核结构相似,”《亚太会议上的进步知识发现和数据挖掘卷,6634年,页112 - 123,施普林格,2011年。视图:谷歌学术搜索
沈,x, y, j .歌曲,h·t·沈和d .道,“通用二进制代码学习,快速优化方法”IEEE图像处理,25卷,不。12日,第5621 - 5610页,2016年。视图:出版商的网站|谷歌学术搜索|MathSciNet
w·金,a . k . h .东j .汉和w·王,“离群值排名使用对称的邻里关系,”2006年PAKDD:知识发现和数据挖掘的发展卷,3918在计算机科学的课堂讲稿施普林格,页577 - 593年,2006年。视图:出版商的网站|谷歌学术搜索

多媒体的发展

文摘