文摘

虽然聚类的目标是揭示从无标号数据集的结构信息,在这种情况下,部分结构监管,semi-supervised集群有望提高分区的质量。然而,在许多实际应用中,它可能导致额外的成本提供一个足够数量的监督对象和类标签。虚拟样本的方法是一种实用技术为提高分类质量semi-supervised学习,产生额外的虚拟样本的监督对象。在这个研究中,虚拟样本的方法是采用模糊co-clustering semi-supervised,目标是揭示object-item成对集群结构共存的信息。几个实验结果证明该方法的特点。

1。介绍

聚类或聚类分析是一种无监督分类的基本技术,其目的是揭示内在子结构不同大型无标号数据集。在某些应用程序中,但是,它是可能的利用子结构(部分知识1),如必须关联cannot-link在一些对象(2- - - - - -4),类标签的一部分对象(5- - - - - -7),或预先定义的模糊隶属度8,9),预计分区质量可以显著提高利用这样的部分知识。在这项研究中,semi-supervision的情况是,我们有一些监督对象与它们的类标签。Semi-supervised集群(5,10)是一个实用的方法利用部分监督信息与质量改善的目标分区无监督分类。这样的部分知识可以用在两个阶段负责初始化监督成员赋值(6,7]。

虽然分区质量与足够的semi-supervisions有望得到改善,在许多实际的应用程序中,往往很难利用足够的监督对象。例如,在许多web数据分析,各种开放数据是可用的,其中大部分是没有标记和它们的类标签无法提供没有沉重的代价。一个有前途的方法来提高分类质量semi-supervised学习是虚拟样本的方法,额外的虚拟样本的人工生成的多个监管对象(11- - - - - -13]。

摘要虚拟样本的方法是采用semi-supervised模糊co-clustering而传统模型(13)是专为semi-supervised分类在多维数据空间。模糊co-clustering总结相互共存的基本技术信息在文档对象和项目,如document-keyword频率分析(14)购买历史上和客户偏好分析(15]。co-clustering的任务是通过同时估计会员资格的对象和项目从一个同现矩阵的信息。引起的模糊co-clustering嗯概念(FCCMM) [16)是一种模糊co-clustering算法由多项式混合模型(嗯)17),统计模型是解释为混合物 -means-type分类模型与正规化的目标函数。更新的迭代算法由两种类型的项目和对象的成员。在模糊co-clustering semi-supervised [18),部分知识利用的两个阶段负责初始化监督对象成员赋值以类似的方式的框架(6,7]。在负责初始化,最初的项目生成会员使用标记对象。然后,在监督对象成员赋值会员的监督对象是前缀,而另一些则更新迭代算法。

本文的其余部分组织如下:部分2MMMs-induced模糊co-clustering提供了一个简短的回顾,然后结合半监督框架。一个人工的过程介绍了虚拟样本生成部分3。部分4给出了实验结果和部分5给出了总结的结论。

2。MMMs-Induced模糊Co-Clustering及其变体Semi-Supervised集群

2.1。嗯引起的模糊Co-Clustering模型的概念

假设我们有一个同现矩阵 在对象 和项目 ,在这 代表同现的对象 和项目 。例如, 可以是关键字的频率(项) 在文档(对象) 在文档的分析。在许多传统的结果,它已经表明,co-cluster结构分析是有用的总结内容如内在章或代表的许多文档关键字类别信息。在模糊co-clustering背景下,任务是减少的问题找到成对集群相互熟悉的对象和项目的目标是估计的模糊会员对象和项目,这样相互熟悉的对象和项目对大型会员在同一集群。

嗯(17co-clustering)是一种概率混合模型,每个组件的密度是多项式分布。二项分布的多项分布是一个multicategory延伸,在对象与项目同现的概率向量 被定义为所有项目的联合概率的频率 。嗯构造混合分布的迭代估计项目发生概率和生殖的先验概率分布结合评估对象之间的后验概率生成模型。

软聚类后的解释概率混合模型(19)、本田等。16嗯]引入了模糊co-clustering-based解释,pseudo-log-likelihood函数分解成一个object-item聚合测量和K-L信息化模糊性处罚。FCCMM [16)是一个MMMs-induced模糊co-clustering模型,对象的程度分区模糊性与可调点球重量可以通过调优K-L信息化点球。提取 模糊co-clusters,最大化的目标函数定义为 在哪里 对象的模糊会员吗 和项目 集群 ,分别。 集群的数量吗 这样 。从嗯的角度来看, 是类的后验概率 给定对象 应该限制 。另一方面, 对应的生成概率项 在组件 ,应该 。然后, 主要负责独家对象分区 仅仅是项目的典型性 在生成模型。

是聚合对象和项目标准,措施熟悉对象的聚合度和项目,并成为更大时相互object-item对熟悉大吗 拥有庞大的会员 在一个相同的集群 。从的角度 -means-type聚类对象成员 ,聚合标准本质上是一个(线性)硬聚类指标,和K-L信息项20.,21)负责评估对象的软隔断以同样的方式与高斯混合模型的软隔断性质(19]。 曲调对象的模糊程度分区。当 pseudo-log-likelihood函数,目标函数减少的嗯 组件分布。然后,在的情况下 ,FCCMM带来模糊co-cluster分区比嗯而对象分区变得更脆 。作为一个极值情况下, 意味着脆co-clustering模型。结果表明,仔细调整模糊程度有助于改善分区嗯质量减少初始化和噪声敏感16]。

这些模型参数的更新规则 聚类算法是3步这些更新规则组成的迭代过程。

FCCMM算法(1) 是集群的数量。选择模糊化的重量 (2)初始化:初始化对象成员 , 等随机值 (3)迭代过程:以下迭代过程直到收敛 (一)更新集群卷 使用(3)。(b)更新项目成员 使用(4)。(c)更新对象成员 使用(2)。

2.2。Semi-Supervised模糊Co-Clustering和归纳分类

当一些对象有其内在的类标签,分区的无监督聚类质量有望改善与他们的支持(5,10]。一个可能的模糊co-clustering semi-supervised框架(18利用这些部分监督两个层次:负责初始化监督成员赋值。假设我们有一个 同现矩阵,只有对象的一部分,这样 类标签,但其他人没有。一个框架semi-supervised模糊co-clustering给出如下(18]。

Semi-Supervised模糊Co-Clustering框架(1) 集群的数量,通常是相当于监督对象的类数。选择模糊化的重量 (2)初始化:初始化成员的监督对象 这样 标签类 在别人。无人监督的对象 , ,在那里 是一个小的正数。(初始集群数量和项目成员估计,主要反映监督对象。)(3)迭代过程:以下迭代过程直到收敛 (一)更新集群卷 使用(3)。(b)更新项目成员 使用(4)。(c)更新会员 无人监督的对象 使用(2)。(会员的监督对象是前缀和不变。)

在初始化水平,合理的初始co-clusters估计只考虑监督对象。这里,这种方法只能如果监督对象的数量足够的估计cluster-wise项目偏好,和每个集群指数严格对应于固有类指数。监督不足,这个初始化步骤应该执行与传统随机分配程序,以避免过度拟合几监督对象。

接下来,在迭代优化级别,固定的对象成员被分配给每个监督对象反映它的类标签。部分监督有助于指导合理的co-clusters其他标记物。第二个水平预计将是有用的,即使我们只有几个监督对象。

一旦我们有co-cluster结构,我们可以进行归纳分类的新支持的(标记)对象co-cluster信息(18]。

归纳分类考虑模糊Co-Cluster结构(1)假设我们有co-cluster估计模型参数 。我们的目标是预测一个新的测试对象的类 ,这是与其共存的信息关联 (2)会员计算:计算模糊会员 由(2)。(3)最大成员赋值:寻找最大的 和输出它的类标签。

这种归纳分类方法被证明比监督对象的监督分类和少量只(18]。这意味着无标号对象来说可以促进有效地估计分布而非监督学习监管不足。

3所示。代的虚拟样本Semi-Supervised模糊Co-Clustering

虽然预计semi-supervised集群的性能改进标记对象的数量变得更大,它可能导致高成本产生足够数量的监管对象在真实的应用程序中。虚拟样本的方法是一种实用的策略提高分类质量semi-supervised学习没有额外的成本。在本文的剩余部分,虚拟样本的方法是采用semi-supervised模糊co-clustering。

Sassano [13)提出了两种方法生成虚拟样本文本分类基于以下假设:文档的类别不变,即使少量的单词被添加或删除。

因为属于同一类别的文档通常包含几个常见的关键词,删除或添加少量的单词预计分类质量产生严重的影响。在[13),两种策略删除除了被认为是和在semi-supervised利用支持向量机学习的文本文档。在GenerateByDeletion、虚拟样本生成删除原始监督的部分文件和原始的被添加到类。另一方面,GenerateByAddition、虚拟样本生成通过添加少量的单词到原始的指导文件。这句话来自文件,添加的标签是一样的,原始文档。

本文介绍了两种生殖策略semi-supervised模糊co-clustering任务。假设 向量在监督对象是共存的信息 ,在那里 仅仅是外观/没有项目 在对象 。其虚拟副本 作为一个额外的虚拟(监督)样本添加到部分监督后轻微的修改基于两种策略。

GenerateByDeletion(1)复制 (2)为每个项目 ,如果 然后设置 ,在那里 是一个函数生成一个随机数 , 是一个参数决定有多少元素删除。

这个过程意味着每个虚拟对象是一个虚拟的原始拷贝监督对象拥有一个小数量的表象。虚拟对象 几乎相当于原来的吗 变得稀疏 比较大。

在这里,详细的过程用一个玩具例子演示了使用一组6监督对象( 表中所示)1向量,其中每个同现信息 由十项( )和两个监督的对象属于一个类( )。注意,1级主要是相关的前5项,而二班与他人。

使用GenerateByDeletion1、类对象 可以生成这样的虚拟对象 , ,或 “1”的标签。2另一个类对象 可以生成等 , ,或 与标签“2”。

GenerateByAddition(1)构造所有监管对象的集合的类标签一样 ,并生成一组时间项组成的所有项目,出现在监督对象集。(2)复制 (3)为每个项目 ,如果 然后随机选择项 从颞项目集和集

这个过程意味着每个虚拟对象是一个虚拟的原始拷贝监督对象有更多的表象。虚拟对象 几乎相当于原来的吗 变得致密 比较大。

在玩具表的例子1,GenerateByAddition首先构造时间项集 类1和 二班。然后,1类对象 可以生成这样的虚拟对象 , ,或 “1”的标签。2另一个类对象 可以生成等 , ,或 与标签“2”。在这里,需要注意的是, 总是 如果项目 没有出现在所有监管对象的类。

生成的虚拟对象添加到组监督对象和利用semi-supervision semi-supervised学习。

4所示。数值实验

semi-supervised分类质量的模糊co-clustering与虚拟对象在本节通过数值实验研究。

两个基准数据集CiteSeer数据集科拉数据集使用,可从linq网页的统计关系学习小组(UMD格式http://linqs.cs.umd.edu/projects/index.shtml)。CiteSeer数据集由3312年科学出版物(对象, ),每个所述0/1-valued词向量( )表明缺乏/存在3703个独特的单词(项目, ),分为六类( )。科拉数据集也包括2708科学出版物(对象, )和1433个独特的单词(项目, ), 之一,每一个都是分为七类( )。

分类质量调查通过5倍交叉验证方案。在应用模糊co-clustering semi-supervised,数据集第一次被划分为5个不相交的子集。四个子集用于训练集用于semi-supervised模糊co-clustering和剩下的一个子集是用于测试集验证分类能力。这种培训/测试试验5次迭代旋转不同的测试子集。集群的数量设置为实际的类数;也就是说, CiteSeer数据集 科拉数据集。模糊性的重量是设置为 CiteSeer数据集 科拉数据集分别,这样稍微模糊模型,而不是嗯 有利于更好的性能(16]。

4.1。初步的实验

首先,进行初步实验,目的是调查监督对象的数量的影响,semi-supervised框架实现没有虚拟对象。监督对象的数量,在训练数据是可用的,与不同比例的变化 两个基准数据集,但其余的对象的类标签被扣留是未知的。” “与传统的非监督模式,利用没有监管。” “对应于充分监督模式,所有培训对象类信息 co-cluster模型(cluster-wise项目成员)在每个类单独估计。co-cluster估计后,无人监督的培训对象的类预测最大的会员资格。测试对象的类也预测部分的归纳分类方案2

认可率比较表2CiteSeer数据集和表3科拉数据集。” “训练数据丢失如图所示”——“因为没有无人监督的对象仍然在训练集。在这两个CiteSeer数据集科拉数据集识别的无监督co-clustering率( 监督)不如semi-supervised co-clustering。这些结果暗示semi-supervised co-clustering更有效比nonsupervised co-clustering当部分监管,和分区质量变得更好的监管比较大的数量。和认可率 监督或更大几乎是比较时 监督明显不如别人。然后,如果我们有 监督,是很难以实现足够的认可率和我们需要改善质量分区的额外信息。

顺便说一下,在这些数据集,太多的监管,如超过 ,不可能有助于进一步改善的测试评估。可能是因为太多的监管可以带来的过度拟合训练样本,导致可怜的泛化能力。然后,semi-supervised学习将有助于提高泛化能力而不是完全监督学习。

在接下来的实验中,情况 部分监督的目的是模拟部分知识不足情况下,目标是展示额外的虚拟部分监督的优势。

4.2。影响虚拟对象的调查

接下来,在semi-supervised虚拟对象的影响模糊co-clustering调查。在这个实验中,semi-supervised模糊co-clustering的分类能力的情况下有/没有虚拟对象进行比较。以上初步实验的结果后, 监督对象包含在训练集semi-supervised co-clustering的模拟情况足够的监督对象是不可用的。从这些虚拟对象生成 监督对象GenerateByDeletionGenerateByAddition,然后他们加入训练集和利用额外的监管。支持的附加信息的虚拟对象,分区质量预计将提高,而不是原始的 监督情况。

此外,虚拟对象的数量的影响也进行调查,在虚拟对象的数量增加了迭代生成过程。此外,还应用使用混合方法GenerateByDeletionGenerateByAddition同时,。在这种混合方法,至少2虚拟对象产生一个监督对象。

培训和测试对象的认可率估计以同样的方式与初步实验。表45显示的结果CiteSeer数据集。表67显示的结果科拉数据集。大胆的表明改进的质量而不是原始类型 监督情况下(没有虚拟对象)。“GBD”和“GBA”的意思GenerateByDeletionGenerateByAddition分别和“GBD + GBA”是他们的混合方法。在这个实验中,虚拟对象/监督对象的数量是不同的 采用不同的随机种子GenerateByDeletionGenerateByAddition和不同的 采用不同的随机种子混合方法。参数 添加/删除率是不同的

训练和测试用例,识别的semi-supervised co-clustering与虚拟对象是比那些没有虚拟对象时虚拟对象生成从监督对象的数量相对较小。这些结果表明,虚拟对象可以有助于提高分类能力semi-supervised模糊co-clustering当我们没有足够的semi-supervision数据集。

然而,似乎太多虚拟对象降低质量分区。在这个实验中,质量没有改进时5或更多的虚拟对象/监督对象生成。这表明,少量的虚拟对象可以有助于提高semi-supervision而太多的虚拟物体的质量带来负面影响semi-supervision的效果。可能是因为太多虚拟对象可以把虚拟对象的过度拟合,导致可怜的泛化能力。然后,它将生成一个适当的虚拟物体的体积很重要。

4.3。验证质量来说分区

最后,来说分区质量的有效性研究,最好的虚拟样本的方法的结果与原来的相比没有虚拟对象。最好的结果了 的测试集CiteSeer数据集 的测试集科拉数据集,分别。

由于每个类的质量验证 测量。在课堂上假定分类结果 显示为表吗8 测量定义如下: 在哪里 精度和召回,分别如下: 精度 意味着类标签与实际对象的比例 分类的对象类 。回忆 意味着对类对象分类的比例 与实际的类对象标签 的调和平均数是测量精度 和回忆 ,大 测量意味着更好的分类能力。支持5倍交叉验证方案,平均5试验比较。

910显示 每个类为测试对象的测量。“-”表示的失败 测量计算缺失引起的 聚类模型,未能找到相应的类对象在审判后最大会员分类模糊的界限。这些表显示结果与虚拟对象是比那些没有虚拟对象对于大多数类除外代理人机交互CiteSeer数据集Reinforcement_learning科拉数据集。因此,虚拟对象主要是有助于提高分区质量的观点来说的认可。

5。结论

摘要虚拟对象的影响semi-supervised模糊co-clustering演示。在之前的研究(13),两个共存的新过程生成虚拟对象数据分析提出了和他们的效用是通过数值实验研究。在数值实验中有两个基准数据集的影响,虚拟物体与虚拟对象的数量的影响/原始监督对象进行比较,表明分类semi-supervised质量可以提高模糊co-clustering没有额外的费用产生监督对象通过添加多个虚拟对象而分类质量退化与太多的虚拟对象。

未来的工作包括改善虚拟样本的质量。例如,它可能会提高虚拟样本的质量通过评估额外的样品有一些集群的合理性有效性模糊co-clustering措施(22]。此外,除了简单的虚拟副本对象的虚拟副本物品可能是另一个可能的方向。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持部分由教育部,文化、体育、科技、日本,在科学研究补助金(没有。26330281)。