模糊系统的进步

在这一页上

文摘介绍结论确认引用版权相关文章

研究文章|开放获取

体积2016年| 文章的ID5206048| https://doi.org/10.1155/2016/5206048

半监督模糊Co-Clustering MMMs-Induced框架与虚拟样本

Daiji田中,¹ 大友本田 ,¹ 精生方,¹ 和彰Notsu¹

学术编辑器: 凯末尔科里奇

收到了 09年2月2016年

接受 2016年5月25日

发表 2016年6月23日

文摘

虽然聚类的目标是揭示从无标号数据集的结构信息,在这种情况下,部分结构监管,semi-supervised集群有望提高分区的质量。然而,在许多实际应用中,它可能导致额外的成本提供一个足够数量的监督对象和类标签。虚拟样本的方法是一种实用技术为提高分类质量semi-supervised学习,产生额外的虚拟样本的监督对象。在这个研究中,虚拟样本的方法是采用模糊co-clustering semi-supervised,目标是揭示object-item成对集群结构共存的信息。几个实验结果证明该方法的特点。

1。介绍

聚类或聚类分析是一种无监督分类的基本技术,其目的是揭示内在子结构不同大型无标号数据集。在某些应用程序中,但是,它是可能的利用子结构(部分知识1),如必须关联和cannot-link在一些对象(2- - - - - -4),类标签的一部分对象(5- - - - - -7),或预先定义的模糊隶属度8,9),预计分区质量可以显著提高利用这样的部分知识。在这项研究中,semi-supervision的情况是,我们有一些监督对象与它们的类标签。Semi-supervised集群(5,10)是一个实用的方法利用部分监督信息与质量改善的目标分区无监督分类。这样的部分知识可以用在两个阶段负责初始化和监督成员赋值(6,7]。

虽然分区质量与足够的semi-supervisions有望得到改善,在许多实际的应用程序中,往往很难利用足够的监督对象。例如,在许多web数据分析,各种开放数据是可用的,其中大部分是没有标记和它们的类标签无法提供没有沉重的代价。一个有前途的方法来提高分类质量semi-supervised学习是虚拟样本的方法,额外的虚拟样本的人工生成的多个监管对象(11- - - - - -13]。

摘要虚拟样本的方法是采用semi-supervised模糊co-clustering而传统模型(13)是专为semi-supervised分类在多维数据空间。模糊co-clustering总结相互共存的基本技术信息在文档对象和项目,如document-keyword频率分析(14)购买历史上和客户偏好分析(15]。co-clustering的任务是通过同时估计会员资格的对象和项目从一个同现矩阵的信息。引起的模糊co-clustering嗯概念(FCCMM) [16)是一种模糊co-clustering算法由多项式混合模型(嗯)17),统计模型是解释为混合物-means-type分类模型与正规化的目标函数。更新的迭代算法由两种类型的项目和对象的成员。在模糊co-clustering semi-supervised [18),部分知识利用的两个阶段负责初始化和监督对象成员赋值以类似的方式的框架(6,7]。在负责初始化,最初的项目生成会员使用标记对象。然后,在监督对象成员赋值会员的监督对象是前缀,而另一些则更新迭代算法。

本文的其余部分组织如下:部分2MMMs-induced模糊co-clustering提供了一个简短的回顾,然后结合半监督框架。一个人工的过程介绍了虚拟样本生成部分3。部分4给出了实验结果和部分5给出了总结的结论。

2。MMMs-Induced模糊Co-Clustering及其变体Semi-Supervised集群

2.1。嗯引起的模糊Co-Clustering模型的概念

假设我们有一个同现矩阵在对象和项目,在这代表同现的对象和项目。例如,可以是关键字的频率(项)在文档(对象)在文档的分析。在许多传统的结果,它已经表明,co-cluster结构分析是有用的总结内容如内在章或代表的许多文档关键字类别信息。在模糊co-clustering背景下,任务是减少的问题找到成对集群相互熟悉的对象和项目的目标是估计的模糊会员对象和项目,这样相互熟悉的对象和项目对大型会员在同一集群。

嗯(17co-clustering)是一种概率混合模型,每个组件的密度是多项式分布。二项分布的多项分布是一个multicategory延伸,在对象与项目同现的概率向量被定义为所有项目的联合概率的频率。嗯构造混合分布的迭代估计项目发生概率和生殖的先验概率分布结合评估对象之间的后验概率生成模型。

软聚类后的解释概率混合模型(19)、本田等。16嗯]引入了模糊co-clustering-based解释,pseudo-log-likelihood函数分解成一个object-item聚合测量和K-L信息化模糊性处罚。FCCMM [16)是一个MMMs-induced模糊co-clustering模型,对象的程度分区模糊性与可调点球重量可以通过调优K-L信息化点球。提取模糊co-clusters,最大化的目标函数定义为在哪里和对象的模糊会员吗和项目集群,分别。集群的数量吗这样。从嗯的角度来看,是类的后验概率给定对象应该限制。另一方面,对应的生成概率项在组件,应该。然后,主要负责独家对象分区仅仅是项目的典型性在生成模型。

是聚合对象和项目标准,措施熟悉对象的聚合度和项目,并成为更大时相互object-item对熟悉大吗拥有庞大的会员和在一个相同的集群。从的角度-means-type聚类对象成员,聚合标准本质上是一个(线性)硬聚类指标,和K-L信息项20.,21)负责评估对象的软隔断以同样的方式与高斯混合模型的软隔断性质(19]。曲调对象的模糊程度分区。当pseudo-log-likelihood函数,目标函数减少的嗯组件分布。然后,在的情况下,FCCMM带来模糊co-cluster分区比嗯而对象分区变得更脆。作为一个极值情况下,意味着脆co-clustering模型。结果表明,仔细调整模糊程度有助于改善分区嗯质量减少初始化和噪声敏感16]。

这些模型参数的更新规则聚类算法是3步这些更新规则组成的迭代过程。

FCCMM算法(1)让是集群的数量。选择模糊化的重量。(2)初始化:初始化对象成员,等随机值。(3)迭代过程:以下迭代过程直到收敛。(一)更新集群卷使用(3)。(b)更新项目成员使用(4)。(c)更新对象成员使用(2)。

2.2。Semi-Supervised模糊Co-Clustering和归纳分类

当一些对象有其内在的类标签,分区的无监督聚类质量有望改善与他们的支持(5,10]。一个可能的模糊co-clustering semi-supervised框架(18利用这些部分监督两个层次:负责初始化和监督成员赋值。假设我们有一个同现矩阵,只有对象的一部分,这样类标签,但其他人没有。一个框架semi-supervised模糊co-clustering给出如下(18]。

Semi-Supervised模糊Co-Clustering框架(1)让集群的数量,通常是相当于监督对象的类数。选择模糊化的重量。(2)初始化:初始化成员的监督对象这样标签类和在别人。无人监督的对象,,在那里是一个小的正数。(初始集群数量和项目成员估计,主要反映监督对象。)(3)迭代过程:以下迭代过程直到收敛。(一)更新集群卷使用(3)。(b)更新项目成员使用(4)。(c)更新会员无人监督的对象使用(2)。(会员的监督对象是前缀和不变。)

在初始化水平,合理的初始co-clusters估计只考虑监督对象。这里,这种方法只能如果监督对象的数量足够的估计cluster-wise项目偏好,和每个集群指数严格对应于固有类指数。监督不足,这个初始化步骤应该执行与传统随机分配程序,以避免过度拟合几监督对象。

接下来,在迭代优化级别,固定的对象成员被分配给每个监督对象反映它的类标签。部分监督有助于指导合理的co-clusters其他标记物。第二个水平预计将是有用的,即使我们只有几个监督对象。

一旦我们有co-cluster结构,我们可以进行归纳分类的新支持的(标记)对象co-cluster信息(18]。

归纳分类考虑模糊Co-Cluster结构(1)假设我们有co-cluster估计模型参数和。我们的目标是预测一个新的测试对象的类,这是与其共存的信息关联。(2)会员计算:计算模糊会员由(2)。(3)最大成员赋值:寻找最大的和输出它的类标签。

这种归纳分类方法被证明比监督对象的监督分类和少量只(18]。这意味着无标号对象来说可以促进有效地估计分布而非监督学习监管不足。

3所示。代的虚拟样本Semi-Supervised模糊Co-Clustering

虽然预计semi-supervised集群的性能改进标记对象的数量变得更大,它可能导致高成本产生足够数量的监管对象在真实的应用程序中。虚拟样本的方法是一种实用的策略提高分类质量semi-supervised学习没有额外的成本。在本文的剩余部分,虚拟样本的方法是采用semi-supervised模糊co-clustering。

Sassano [13)提出了两种方法生成虚拟样本文本分类基于以下假设:文档的类别不变,即使少量的单词被添加或删除。

因为属于同一类别的文档通常包含几个常见的关键词,删除或添加少量的单词预计分类质量产生严重的影响。在[13),两种策略删除和除了被认为是和在semi-supervised利用支持向量机学习的文本文档。在GenerateByDeletion、虚拟样本生成删除原始监督的部分文件和原始的被添加到类。另一方面,GenerateByAddition、虚拟样本生成通过添加少量的单词到原始的指导文件。这句话来自文件,添加的标签是一样的,原始文档。

本文介绍了两种生殖策略semi-supervised模糊co-clustering任务。假设向量在监督对象是共存的信息,在那里仅仅是外观/没有项目在对象。其虚拟副本作为一个额外的虚拟(监督)样本添加到部分监督后轻微的修改基于两种策略。

GenerateByDeletion(1)复制来。(2)为每个项目与,如果然后设置,在那里是一个函数生成一个随机数来,是一个参数决定有多少元素删除。

这个过程意味着每个虚拟对象是一个虚拟的原始拷贝监督对象拥有一个小数量的表象。虚拟对象几乎相当于原来的吗与而变得稀疏比较大。

在这里,详细的过程用一个玩具例子演示了使用一组6监督对象(表中所示)1向量,其中每个同现信息由十项()和两个监督的对象属于一个类()。注意,1级主要是相关的前5项,而二班与他人。

使用GenerateByDeletion1、类对象可以生成这样的虚拟对象,,或“1”的标签。2另一个类对象可以生成等,,或与标签“2”。

GenerateByAddition(1)构造所有监管对象的集合的类标签一样,并生成一组时间项组成的所有项目,出现在监督对象集。(2)复制来。(3)为每个项目与,如果然后随机选择项从颞项目集和集。

这个过程意味着每个虚拟对象是一个虚拟的原始拷贝监督对象有更多的表象。虚拟对象几乎相当于原来的吗与而变得致密比较大。

在玩具表的例子1,GenerateByAddition首先构造时间项集类1和二班。然后,1类对象可以生成这样的虚拟对象,,或“1”的标签。2另一个类对象可以生成等,,或与标签“2”。在这里,需要注意的是,总是如果项目没有出现在所有监管对象的类。

生成的虚拟对象添加到组监督对象和利用semi-supervision semi-supervised学习。

4所示。数值实验

semi-supervised分类质量的模糊co-clustering与虚拟对象在本节通过数值实验研究。

两个基准数据集CiteSeer数据集和科拉数据集使用,可从linq网页的统计关系学习小组(UMD格式http://linqs.cs.umd.edu/projects/index.shtml)。CiteSeer数据集由3312年科学出版物(对象,),每个所述0/1-valued词向量()表明缺乏/存在3703个独特的单词(项目,),分为六类()。科拉数据集也包括2708科学出版物(对象,)和1433个独特的单词(项目,),之一,每一个都是分为七类()。

分类质量调查通过5倍交叉验证方案。在应用模糊co-clustering semi-supervised,数据集第一次被划分为5个不相交的子集。四个子集用于训练集用于semi-supervised模糊co-clustering和剩下的一个子集是用于测试集验证分类能力。这种培训/测试试验5次迭代旋转不同的测试子集。集群的数量设置为实际的类数;也就是说,在CiteSeer数据集和在科拉数据集。模糊性的重量是设置为为CiteSeer数据集和为科拉数据集分别,这样稍微模糊模型,而不是嗯有利于更好的性能(16]。

4.1。初步的实验

首先,进行初步实验,目的是调查监督对象的数量的影响,semi-supervised框架实现没有虚拟对象。监督对象的数量,在训练数据是可用的,与不同比例的变化两个基准数据集,但其余的对象的类标签被扣留是未知的。”“与传统的非监督模式,利用没有监管。”“对应于充分监督模式,所有培训对象类信息co-cluster模型(cluster-wise项目成员)在每个类单独估计。co-cluster估计后,无人监督的培训对象的类预测最大的会员资格。测试对象的类也预测部分的归纳分类方案2。

认可率比较表2为CiteSeer数据集和表3为科拉数据集。”“训练数据丢失如图所示”——“因为没有无人监督的对象仍然在训练集。在这两个CiteSeer数据集和科拉数据集识别的无监督co-clustering率(监督)不如semi-supervised co-clustering。这些结果暗示semi-supervised co-clustering更有效比nonsupervised co-clustering当部分监管,和分区质量变得更好的监管比较大的数量。和认可率监督或更大几乎是比较时监督明显不如别人。然后,如果我们有监督,是很难以实现足够的认可率和我们需要改善质量分区的额外信息。

顺便说一下,在这些数据集,太多的监管,如超过,不可能有助于进一步改善的测试评估。可能是因为太多的监管可以带来的过度拟合训练样本,导致可怜的泛化能力。然后,semi-supervised学习将有助于提高泛化能力而不是完全监督学习。

在接下来的实验中,情况部分监督的目的是模拟部分知识不足情况下,目标是展示额外的虚拟部分监督的优势。

4.2。影响虚拟对象的调查

接下来,在semi-supervised虚拟对象的影响模糊co-clustering调查。在这个实验中,semi-supervised模糊co-clustering的分类能力的情况下有/没有虚拟对象进行比较。以上初步实验的结果后,监督对象包含在训练集semi-supervised co-clustering的模拟情况足够的监督对象是不可用的。从这些虚拟对象生成监督对象GenerateByDeletion和GenerateByAddition,然后他们加入训练集和利用额外的监管。支持的附加信息的虚拟对象,分区质量预计将提高,而不是原始的监督情况。

此外,虚拟对象的数量的影响也进行调查,在虚拟对象的数量增加了迭代生成过程。此外,还应用使用混合方法GenerateByDeletion和GenerateByAddition同时,。在这种混合方法,至少2虚拟对象产生一个监督对象。

培训和测试对象的认可率估计以同样的方式与初步实验。表4和5显示的结果CiteSeer数据集。表6和7显示的结果科拉数据集。大胆的表明改进的质量而不是原始类型监督情况下(没有虚拟对象)。“GBD”和“GBA”的意思GenerateByDeletion和GenerateByAddition分别和“GBD + GBA”是他们的混合方法。在这个实验中,虚拟对象/监督对象的数量是不同的采用不同的随机种子GenerateByDeletion和GenerateByAddition和不同的采用不同的随机种子混合方法。参数添加/删除率是不同的。

训练和测试用例,识别的semi-supervised co-clustering与虚拟对象是比那些没有虚拟对象时虚拟对象生成从监督对象的数量相对较小。这些结果表明,虚拟对象可以有助于提高分类能力semi-supervised模糊co-clustering当我们没有足够的semi-supervision数据集。

然而,似乎太多虚拟对象降低质量分区。在这个实验中,质量没有改进时5或更多的虚拟对象/监督对象生成。这表明,少量的虚拟对象可以有助于提高semi-supervision而太多的虚拟物体的质量带来负面影响semi-supervision的效果。可能是因为太多虚拟对象可以把虚拟对象的过度拟合,导致可怜的泛化能力。然后,它将生成一个适当的虚拟物体的体积很重要。

4.3。验证质量来说分区

最后,来说分区质量的有效性研究,最好的虚拟样本的方法的结果与原来的相比没有虚拟对象。最好的结果了的测试集CiteSeer数据集和的测试集科拉数据集,分别。

由于每个类的质量验证测量。在课堂上假定分类结果显示为表吗8。测量定义如下: 在哪里和精度和召回,分别如下: 精度意味着类标签与实际对象的比例分类的对象类。回忆意味着对类对象分类的比例与实际的类对象标签。的调和平均数是测量精度和回忆,大测量意味着更好的分类能力。支持5倍交叉验证方案,平均5试验比较。

表9和10显示每个类为测试对象的测量。“-”表示的失败测量计算缺失引起的或聚类模型,未能找到相应的类对象在审判后最大会员分类模糊的界限。这些表显示结果与虚拟对象是比那些没有虚拟对象对于大多数类除外代理和人机交互在CiteSeer数据集和Reinforcement_learning在科拉数据集。因此,虚拟对象主要是有助于提高分区质量的观点来说的认可。

5。结论

摘要虚拟对象的影响semi-supervised模糊co-clustering演示。在之前的研究(13),两个共存的新过程生成虚拟对象数据分析提出了和他们的效用是通过数值实验研究。在数值实验中有两个基准数据集的影响,虚拟物体与虚拟对象的数量的影响/原始监督对象进行比较,表明分类semi-supervised质量可以提高模糊co-clustering没有额外的费用产生监督对象通过添加多个虚拟对象而分类质量退化与太多的虚拟对象。

未来的工作包括改善虚拟样本的质量。例如,它可能会提高虚拟样本的质量通过评估额外的样品有一些集群的合理性有效性模糊co-clustering措施(22]。此外,除了简单的虚拟副本对象的虚拟副本物品可能是另一个可能的方向。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持部分由教育部,文化、体育、科技、日本,在科学研究补助金(没有。26330281)。

引用

p h .丁字裤和l . h的儿子“semi-supervised模糊聚类算法的概述,国际工程和技术杂志》上,8卷,不。4、301 - 306年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
w·Na l .夏和l . Xuehui Semi-supervised基于模糊c则具有成对约束”《IEEE国际联合会议上神经网络(IJCNN 08年)香港,页1098 - 1102年,2008年6月。
视图: 出版商的网站 | 谷歌学术搜索
宫本茂和a . Terami”Semi-supervised会凝聚的层次聚类算法与成对约束”《IEEE国际会议10模糊系统(模糊的)西班牙巴塞罗那,页1 - 6、IEEE, 2010年7月。
视图: 出版商的网站 | 谷歌学术搜索
y Hamasuna、y Endo和宫本茂,“Semi-supervised模糊c均值聚类使用基于clusterwise宽容的成对约束”《IEEE国际会议上细粒度的计算(GrC的10)圣何塞,页188 - 193年,加州,美国,2010年8月。
视图: 出版商的网站 | 谷歌学术搜索
n . Grira m . Crucianu, n . Boujemaa”无监督和semi-supervised集群:一个简单的调查,“欧洲卓越网络报告的肌肉,2005年。
视图: 谷歌学术搜索
美国巴苏,a . Banerjee和r·j·穆尼“Semi-supervised集群由播种”19国际会议的程序机器学习,页27-34,悉尼,澳大利亚,2002年。
视图: 谷歌学术搜索
C.-L。刘,郭宏源。常,h。李,“集群文件使用模糊semi-Kmeans标记和未标记文档,”模糊集和系统卷。221年,48 - 64年,2013页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
m . Yamashiro y Endo, y Hamasuna,宫本茂,“semi-supervised模糊c——集群”《IEEE国际会议上模糊系统,页1119 - 1124,济州岛,韩国,2009年8月。
视图: 出版商的网站 | 谷歌学术搜索
x阴,t .蜀,黄问:“Semi-supervised模糊聚类与度量学习和熵正则化,“以知识为基础的系统,35卷,第311 - 304页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
e·贝尔“Semi-supervised聚类方法,”威利跨学科评论:计算统计,5卷,不。5,349 - 361年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
b . Scholkopf c Burges诉Vapnik,“在学习支持向量机中加入不变性,”人工神经网络的国际会议,波鸿,德国,1996年7月,c . von der Malsburg w·冯·Seelen j . c . Vorbruggen和b . Sendhoff, Eds。卷,1112在计算机科学的课堂讲稿页,47-52施普林格,1996年。
视图: 出版商的网站 | 谷歌学术搜索
p .他f . Girosi方法,“之前将信息通过创建虚拟机器学习的例子,”IEEE学报》,卷86,不。11日,第2208 - 2196页,1998年。
视图: 出版商的网站 | 谷歌学术搜索
m . Sassano“虚拟示例文本分类的支持向量机,”会议的程序在自然语言处理的经验方法札幌,页208 - 215年,日本,2003年7月。
视图: 出版商的网站 | 谷歌学术搜索
k . Kummamuru a Dhawale, r . Krishnapuram“模糊co-clustering文件和关键字,”《IEEE国际会议上模糊系统,卷2,2003年5月,页772 - 777。
视图: 谷歌学术搜索
k .本田、a . Notsu和h . Ichihashi”协同过滤的顺序user-item co-cluster提取矩形关系数据,”国际期刊的知识工程和软数据模式,卷2,不。4 p。312年,2010年。
视图: 出版商的网站 | 谷歌学术搜索
k .本田美国押尾桑,a . Notsu”引起的模糊co-clustering多项式混合模型,”先进的计算智能和智能信息》杂志上,19卷,不。6,717 - 726年,2015页。
视图: 谷歌学术搜索
l . Rigouste o . Cappe, f . Yvon”多项混合模型的推理和评价文本聚类,“信息处理和管理,43卷,不。5,1260 - 1280年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
k .本田,生方,A . Notsu n .高桥和y石川,“半监督模糊co-clustering twitter数据分析,框架和应用程序”学报》国际会议信息、电子&愿景(ICIEV 15)IEEE,页1 - 4,2015年6月,日本福冈。
视图: 出版商的网站 | 谷歌学术搜索
r·j·海瑟薇,“另一种解释EM算法的混合分布,“统计和概率的信件,4卷,不。2,53-56,1986页。
视图: 出版商的网站 | 谷歌学术搜索 | Zentralblatt数学
h . Ichihashi k . Miyagishi和k .本田”模糊c——集群与正规化K-L信息”学报第十届IEEE国际会议上模糊系统,卷2,页924 - 927,IEEE,墨尔本,澳大利亚,2001年12月。
视图: 谷歌学术搜索
k本田和h Ichihashi”,正规化的线性模糊聚类和混合概率主成分分析模型,”IEEE模糊系统,13卷,不。4、508 - 516年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
k .本田,m . Muranishi a Notsu, h . Ichihashi”FCM-type集群验证模糊co-clustering和协同过滤的适用性,”国际计算机科学杂志和网络安全,13卷,不。1,24-29,2013页。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

907年

下载

907年

引用