文摘
分类是数据挖掘技术的最重要的任务之一,已被采用一些现代应用程序。缺乏足够的标签数据在大多数这些应用程序已经对使用semisupervised方法感兴趣。在这样的计划下,利用收集到的标记数据结合明显较小的一组标记会导致类似或更好的例子对监督算法分类精度,使用标签的例子只在训练阶段。一个新颖的方法来增加semisupervised分类使用级联分类器技术提出了。级联分类器策略的主要特点是使用一个基分类器增加了特征空间通过添加预测类或类的概率分布的初始数据。第二个层次的分类器是提供新的数据集和为每个实例提取的决定。在这项工作中,自学成才NBC4.5分类器算法,它结合了朴素贝叶斯的特点作为基分类器和C4.5的速度最终分类。我们进行了深入的比较与其他知名semisupervised分类标准的基准数据集上的方法和我们终于到达,在大多数情况下提出技术具有更好的精度。
1。介绍
从收集的大量数据集模式识别和数据挖掘过去几十年已经吸引了广泛的研究。越来越多的推荐系统在许多科学领域需求的高质量的信息提供准确的预测。最常见的应用程序,在这种情况下是分类的任务。分类的目的是建立一个模型,根据每次首选的基分类器,每个测试实例匹配到预定义的和不同的类中最高的在任何时间限制可能的准确性。类的性质取决于每个检查问题属于科学领域。此外,类的数目影响预期的分类精度,也决定了解释性预测。例如,一个简化的问题可能包括一些数据决定是否一个病人患有一种疾病。这个问题可以描述为一个二进制的问题,由于独特的两个类是“是”和“不。”另一方面,更深入的分析问题,这些类可以代表所有不同的疾病,患者可能会出现和预测应该在这种情况下,显然基于更广泛和更费时的过程。出现的两个重要的查询例子像前一个是首先如何准确分类任务当可用数据不存在,其次如何处理时间可以消除为了被视为可接受的与当前计算资源。
传统的分工理论包含监督和非监督分类方法。根据前,所有可用的分类数据用于建立一个合适的分类模型。因此,提供了一个初始数据集()给出明确的类向量,它可以被描述为广义的情况不同的类、监督方法构建一个映射()分配最可能的类的每个实例。相同的算法的另一个变体是条件分布概率向量的计算,其尺寸(),每个值的概率描述属于th实例th类(),。后一种方法是由缺乏知识的分类提供数据和类的数量。相反,这些算法试图从现有数据生成有用的信息通常使用一些随机假设获得一些初步的信息。这些算法操作和解释的条件下性能方面的监督学习算法。然而,最近已经提出一个新组的方法(1),通常称为semisupervised学习(SSL)算法和被认为是监督和非监督的混合算法。属性从原始的合并方法和生成新的semisupervised算法仍然是一个领域,吸引了许多研究者的兴趣。然而,所有这些方法的共同财产是寻找一个有效的组合几个带安全标签的数据时更无标号的增加他们的准确率和学习能力。此外,这些算法的精度性能改善与他们的祖先已注意到在许多科学领域强调semisupervised技术被称为一个伟大的工具,机器学习社区。
属性定义标记和未标记数据的定量关系称为标记率和计算的分数标记例子的数量除以所有的例子。的缩写标记率在以下文本。参数之间的依赖关系深度和不同算法的性能检查4。
考虑到很多实际应用和机器学习的概念受到实际困难收集足够的可靠的数据与未标记示例,在域像Web挖掘2)、说话人识别和目标检测(3很多,的值往往是小的。从这些领域的事实在最没有任何自动化程序正确标签新例子或此类程序的成本并不总是负担得起,semisupervised概念的解决方案似乎满足当前需求的真实场景(4]。
Triguero et al。5]引入了分类semisupervised告诉自己技术的学习,有一个广泛的适用性研究这些方法的分类概念。一些属性被用于建立这个分类标签的例子的数量的影响,每一个算法的时间要求。这两个扮演主要角色在现实生活中的问题。semisupervised学习算法的另一个通用评估最近由Schwenker和Trentin [6]。关于分类的概念,他们指的是四个不同类别的算法其行为是基于下列方法之一:(我)增量技术,(2)生成模型,(3)支持向量机,(iv)图表。Schwenker和Trentin6]介绍了部分或弱监督学习和表示这一科学领域的一些有前途的挑战。
最大的家庭学习任务的算法,如分类、整体学习计划。这一类背后的基本思想是多个分类器的组合对提高平均行为和任何涉及单一分类器的鲁棒性。另一个好处是避免冗长的调优过程或重调单个分类器为每一个不同的数据集。系综分类器的两个不同的体系结构能够满足顺序或级联结构和并行。投票,使用贝叶斯学习理论和叠加,这可以从通过单个metaclassifier 0分类器的预测,是最常见的方案。在1997年提出了级联泛化伽马和Bradzil7),它遵循的理论概括。根据这一点,提供了一个数据集描述原始特征向量的维度(),我们可以定义水平与。在每个层次中,一个或多个选择分类器检查独立数据集和输出他们的预测。这些预测被添加到初始数据集和传递到下一个水平。这一连串的分类标志如下: 结果,分类器的水平提供一个大数据集和其输出显然是引导和影响低水平决定。这种策略被称为增量学习批处理。提出了两种不同的方案在这个工作,和许多不同的算法进行比较。也存在一些说明性的例子和谈论的句法形式生成新功能空间。提到是很重要的级联分类器理论已仅用于监督概念(8- - - - - -10直到现在。
我们工作的目的是提出一个自学成才级联分类器算法和比较它与其他知名semisupervised分类标准的基准数据集上的方法。实际的应用程序被认为是由于时间要求和尊重复杂性的增加复杂的级联链,我们选择水平完成一个级联分类器的最小数量。同时,我们结合贝叶斯(NB) [11)和决策树分类器(C4.5) [12)诱导下快速响应一个计划。除了考试的分类准确率,我们进行统计比较,该方法(自学成才(NB与其他算法和C4.5)代表一个说明性的可视化记录每个算法的平均精度对其他不同的标记率。我们的开发技术提出了更好的准确性在大多数情况下,一个更好的整体性能在不同的场景中,渲染这个算法作为一个健壮的工具。该分类器,其特定的链如图1。
接下来的工作是组织如下。节2的简要描述semisupervised分类技术。节3该算法的演示。节4,该算法的比较结果与其他知名semisupervised分类标准的基准数据集上的方法。最后,提出了一些结论言论和未来研究的例子5。在附录中,有相应的链接工具实现我们的算法。
2。Semisupervised技术
许多变异的告诉自己技术提出了在过去几年,因为许多实际问题可以模拟标记数据和未标记数据存在的情况下(13]。任何标记的选择比例是被允许的,这导致了足够多的实验或模拟。唯一的限制是提供的有限数量的标签的例子在某些科学领域。更糟糕的是,可用的数据可能没有描述部分或全部问题充分的观点。检索的问题,例如,在一个噪音的检测噪声段应该在时间和频率域描述。但是,没有带安全标签的数据在一个域或域都将影响告诉自己方法的性能。一些方法,如提高,解决这些问题但不管理总是影响学习假说,尤其是在极端情况下。最有前途的战略提出了消除这种现象Triguero et al。14]。根据这一工作,生成新的合成带安全标签的数据似乎能够满足标签的数据分布。
有保证有几个标签的例子,告诉自己的实现方法展示了不错的效果。特别是,利用未标记数据的信息当他们结合标记已经足够证明修改子集学假说与监督场景相比获得的。在选择标签比,所有可用的数据()分成两个截然不同的子集:标签()和标记(),。通用表示形式的例子包括在每一个子集。当=,那么这个类是已知的和这些例子有助于训练阶段。另一方面,时的情况平等的,类是完全未知的。根据每个告诉自己的理论方法,这些子集与不同的方式进行交互。可能会有一个运动的例子来,或者迭代的权重例子分类,精度高,的例子,甚至多个子集的一代的分类的例子。
最知名的semisupervised技术方法是自我训练方法。它通常称为包装器方法及其简单吸引了许多研究者从不同的领域。其主要资产是短缺的限制的带安全标签的数据。这是因为它与假设在每个迭代中提取的信息是正确的,足以使自己更好的结果。该方案的整体功能,因为它涉及semisupervised分类(SSC)任务可以分开五个不同的步骤(3]。首先,有一个初始步骤期间,所有的停止标准描述和设置的程序。同样精度的阈值设置(AccT)接受的例子。在这之后,原始数据集()分为和子集,如前所述。第三,用户的选择是选择的分类器训练的例子子集,从随机挑出来的。在第四步中,标记的分类的例子发生,然后评估遵循的程序。更具体地说,每一个点,进了一个概率值超过或等于特定阈值(≥AccT)被认为是足够的增强算法的学习能力在接下来的训练阶段。在最后一步,所有这些高价值的例子上减去从子集并插入到初始训练集(以这种方式),增加其基数假设新的例子也正确地标记。这五个步骤组成的一个完整的一步简化自我训练计划。再培训的分类器是使用新的扩大训练集,直到停止标准得到满足。虽然自我训练遇到了巨大的成功在许多实际问题,观察其性能仍经常波动与类似监督算法。很好的解释这一事实,在训练阶段前算法,一些标记的例子不会得到标记,因为算法的终止将之前(6]。这一事实意味着总提供的信息通过数据集的一部分不会被利用在这个计划。
另一个临界点的自我训练计划必须评估的原则,高信心管理本身,可能会导致相反的结果15]。假设初始标记的质量数据,将由专家或专业采矿工具是穷人;最后的预测也会扭曲,没有提供一个完全正确的带安全标签的数据集。出于这个原因,添加了一些统计测试或其他标准,消除自我训练计划将继续表现出色,以这种方式形成的新算法。一个算法,主要来源于自我训练方案是编辑的自我训练(SETRED) [16]。著名的修改是建立相关的限制的接受或拒绝的例子算法评估值得信赖。这个限制源于图论的起源。因此,社区图维特征空间正在建造,而是行向量的维数特征。所有的候选实例被添加到初始训练集被过滤通过假设检验,只有这些,通过成功地测试最终添加到每次迭代结束前子集。SETRED的通用性能在许多数据集已认证的中级过滤阶段的需要告诉自己的方法。
Cotraining方法是另一种流行的通用方案下,一个家庭semisupervised算法形成了利用超过一个视图的任何问题,需要挖掘学习的任务。太阳(17)评论理论来描述多视图学习的特点。检验的基本思想是提高分类精度的机会获得来自多个源的例子从不同的特征向量特征。的两个理论,是阳光下的监督是典型相关分析(CCA),首次提出由霍特林et al。18,19),两个视图的情况下和cotraining方法的有效性。集成多个视图和编辑也被许了et al。19那些试图组织不同的策略,提出了对多视图学习。讨论的另一个同样重要的问题是构建多个视图及其评价的潜力。
Cotraining引入了布卢姆和米切尔(20.]。学习与自我训练方法方面相比单一视图和要求一个特征向量独立于其物理一致性,cotraining方法需要两个不同的特征向量中,每一个都代表一个不同的观点(13,14,17,21]。类似于自我训练理论,对于每一个不同的观点,weak-classifier是在相应的训练集训练。其目的是再次选择适当的例子可以被认为是足够可靠的测试案例和扩大与他们最初的训练集。所有执行本程序交替最大化共同协议的两个特征向量。停止条件也稍微修改捕捉这两个分类器的存在。尽管这种假设似乎更有效这两个特性的子集是来自不同的观点与一些明显的自然意义,尼噶,甘尼(22)实验表明,cotraining方案可以执行很好即使不同的观点来自随机分裂的一个原始特征向量。此外,许多特性集及其应用程序的连接单一视图方法会导致过度拟合现象,特别是在案件中,初始数据集的特点是低比率的标签。
的力量cotraining方法的函数初始训练集的大小被Didaci检查等。23]。录音的研究表明,cotraining设法完成高质量的结果即使在情况下所提供的算法,每个类很少的例子。这并不意味着没有任何弱cotraining计划的例子。杜et al。24),后执行一个大试验的实验,达到了,运行semisupervised算法基于小标记训练集不能保证多视图考虑假设的准确性。很多变异的基本cotraining计划开发努力改善cotraining性能。此外,由于误接受无标号的例子的风险仍然是可能的,可能恶化的分类准确性,多个内核学习(MKL)和基于子空间学习理论被用来过滤高可靠性的例子(19]。一种方法根据后者理论提出了太阳和金25]只信任的例子,同时满足高信心使用分类器和CCA的限制最终添加到初始训练集。另一个算法取得了巨大的成功在许多领域是Democratic-Co [26]这也遵循多视图的理论,但从另一个方面。而不是要求数据的多个视图,它使用多个算法产生必要的信息和采取投票的多数过程最后的决定。
系综分类器或委员会也可以使用分类器下semisupervised方案利用多于一个的力量薄弱的学习者(27]。在这种情况下,关键是包括分类器的多样性。许多人工的战术被注入多样性呈现在一组分类器当原多样性没有达到预期的水平。装袋也许是最受欢迎的策略实现这样的结果。在这种情况下,每个基分类器是由最初的训练集的随机样本。一个伟大的研究领域的系综分类器的性能是由Kuncheva和她的伙伴在过去的15年(28,29日]。江et al。30.]介绍了混合方法的权重两种不同的分类器的参与推动总精度对每个参与者的原子行为分类器。值得一提的是,合并后的分类器是朴素贝叶斯(NB)和支持向量机(SVM)生成分类器和歧视的分类器,分别。使用系综理论的代表方法是TriTraining方案,不需要任何多余的视图被应用(31日]。它是基于三个分类器的决策,每个测试实例进行分类根据多数投票。每个分类器的训练过程发生在一个不同的样本子集。TriTraining场景的一个增强的变体是改进的TriTraining算法(im-tri-training) [32]。特定的默认方案的缺点,如不合适的误差估计,得到解决和消除实现一个更加健壮的行为。
根据相似理论,李和周15]CoForest算法开发,大量的随机树的引导训练数据集的数据。这种技术继承了资产的整体方法的鲁棒性,即使可用的标记的例子的数量减少。这种行为严重的原因之一是广义的利用率是在多个数据集随机树分类器的随机抽样收集的标记数据。多数表决提取最终的预测。ADE-CoForest [33)来自前面的算法。其强大的资产是嵌入式编辑技术防止更进一步的例子来影响其学习能力。距离度量的解决方案也被应用与cotraining方案和最明确的产品之一是委员会已提出cotraining Hady和Schwenker34]。使用了三个系综方法(Co-Bag、CoAdaBoost CoRSM)来测试这些指标。这种方法不收回多视图的概念,仍然是一个单一视图的方法。
王等人。35]发达Rasco算法(co-training随机子空间法)此前系综理论,并试图产生其基分类器之间的差异。根据这个算法,随机分割的特征向量是适合训练一组不同的学习者。每个基分类器的训练完成后在随机选取的初始特征向量,增大训练集的未标记示例及其类的任务是过滤的决定基础的学习者。扩展原始Rasco理论是Rel-Rasco [36]。消除学习者动机Yaslan Rasco方法和产生的不准确Cataltepe建议一个算法产生相关的随机子空间然后semisupervised整体学习和无标号数据一起使用这些子空间。
3所示。算法
级联泛化可能被视为一种特殊情况的叠加泛化主要是由于分层学习结构。某些方面,使级联概括如下:(我)所有分类器可以访问原始属性。任何新的属性建立较低的层被认为是完全一样的原始属性。新的属性分类通过使用预测类或连续概率类分布的形式。(2)级联泛化的目标是获得一个模型,可以使用低水平表示语言的分类器。
级联分类器是特别有用的模型高度组合或计数规则(例如,类1如果完全两个特性是消极的,否则二班),不能不看所有的交互项。在级联分类器使连续的阶段逐步近似的组合性质分类或添加交互项分类算法不能表达一个阶段。
在我们的例子中为级联泛化,新的属性首先来源于类预测的朴素贝叶斯(NB)学习者。这个建设性的一步扩展了高水平learner-C4.5具象语言。提出了合奏可以象征NBC4.5算法的伪代码描述1。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
在这项工作中,我们提出一个自我训练方法,使用级联合奏的力量semisupervised任务。该算法(自学成才(NBC4.5)提出了算法2。自我训练过程会产生好的结果通过使用更精确的类NB的概率C4.5模型标记的例子。
|
||||||||||||||||||||||||||||||||||||
从有关数据示例并将其添加到的解释是,如果最可能的类的概率超过预定义的阈值T,那么这个实例分配一个标签。在该算法中,由作者的实验结果显示,一个很好的选择阈值参数的值为0.9,这给像样的结果无论数据集,分类精度而言。注意到,每个类只有少量的例子在每个迭代中满足上面的限制。的实现中,我们使用WEKA的开源环境37和龙骨5]。
4所示。实验
实验是基于标准分类数据集来自KEEL-dataset库(38覆盖范围广泛的科学领域。这些数据集的分区使用10倍交叉验证过程。为每个生成的褶皱,给定算法训练的例子中包含其他折叠(培训分区),然后测试当前的褶皱。每个培训分区分为两个部分:标记和未标记示例。为了研究的影响带安全标签的数据时,我们检查了四个不同的比例划分训练集:10%,20%,30%,40%。
随后,我们将该方法与其他先进的算法到龙骨工具(38如自我训练(C45) (3),自我训练(NB) [5],SETRED [16),co-training (C45) [13],Democratic-Co [26),TriTraining (C45) [31日),TriTraining (NB) [5),DE-TriTraining (C45) [39),DE-TriTraining (NB) [5],CoForest [15),Rasco (C45) [35),Rasco (NB) [35),Rel-Rasco (C4.5) [36),Rel-Rasco (NB) [36),Co-Bagging (C45) [34),Co-Bagging (NB) [5],ADE-CoForest [33]。对于所有的测试算法,龙骨的默认参数。每个测试算法的分类精度用10%,20%,30%,40%,标记率提出了表1,2,3,4,分别。最好的测试精度值的不同算法在每一个实验以粗体显示风格。在我们的实验中,我们使用40个数据集和上述19算法,包括self-NBC4.5。
这里,我们现在只有这些算法的最佳10,根据他们的分类精度。我们还提供一个更有代表性的可视化算法的平均精度能力与其余18算法相比,呈现在图2。在这个图中,我们有不同比例的映射标签的例子不同的颜色和线格式在雷达的阴谋。
上面的插图描绘的准确性之间的关系涉及到算法和不同的标记率的值。一个值得注意的结论是:增加(%)的平均精度并不独特意味着任何算法最终将被增加。例如,两个版本的Rasco和Rel-Rasco没有管理分数更好的精度在10%和20%之间提供标签的例子。类似的违规行为被发现TriTraining (NB)和Co-Bagging (NB),选择的地方导致更好的结果比40%。所有这些可以避免饱和现象可视化图中所示2。比较的表可以在网上补充excel文件(见补充材料http://dx.doi.org/10.1155/2016/5919717)。
统计比较的测试算法也已经应用到所有选中的值。为了完成这个任务,弗里德曼一起测试两个相似的事后统计测试中描述(河中沙洲/业务)(40)选择。弗里德曼关于测试,这是一种非参数的重复测量方差分析。它分别为每个数据集生成算法的排名和比较的平均排名算法。零假设,所有的算法是等价的,得到相同的平均排名在任何数据集。河中沙洲过程(1979)(41)是用于Demsar (2006) (42为多个分类器包括一个控制方法的比较。业务测试(1988)(43比福尔摩斯更有权力的过程,但它们之间的差异不是很明显的在考虑所有成对比较。这项研究的结果发表在表5和6。
对于事后考验,如果排序值迅速增加,业务程序的河中沙洲和给出相同的答案。从生产结果,更特别的平均精度基准数据集,如图2描绘,弗里德曼排名算法的测试,如表所示5和6,该算法给出更好的结果在所有的测试算法。这是由于概率更好的排名和更高的分类精度所诱导的系列朴素贝叶斯和C4.5分类器的组合。在这一点上我们不得不提到相同的算法研究了改性的一级分类器。更具体地说,我们改变了朴素贝叶斯分类器的输出级,附加原始数据集的特征向量分布向量。结果表明,有一个小的平均能力恶化有关最终的算法。
5。结论
它承诺实现技术,同时使用标记和未标记示例分类任务。可用带安全标签的数据时的短缺影响学习过程的准确性,自监督学习方法不能产生一个学习者与有价值的准确性。
相结合的策略使用级联分类器方法的平均行为似乎改善最终的系综分类器根据自我训练计划。在这项工作中,自学成才(NBC4.5算法已被提出。我们进行了比较与其他知名semisupervised学习标准的基准数据集上的方法和技术提供最好最准确的测试数据集。由于鼓励从这些实验结果,可以看出,该技术可以应用于实际分类任务给略好精度比传统的semisupervised方法。
这一事实没有以前的使用意味着告诉自己下的级联分类器技术可以开发一个新的家庭的算法实现增强学习效果。分类器的选择在每一步的数量水平()应该选择对的时间限制,通常是由现实问题。
尽管这些结果,没有通用的方法将总是工作。semisupervised方案的主要缺点是需要时间在训练阶段。一些技术,可以提高此属性通过节省宝贵的操作时间和计算资源的特征选择算法,搜索相关特性的一个子集通过删除信息特征的初始越少44]。
附录
一个java软件工具实现该算法可以找到和一些基本的运行指令http://www.math.upatras.gr/ ~索托斯/ SemiCascade-Experiment.zip。
利益冲突
作者宣称没有利益冲突有关的出版。
补充材料
补充excel文件提供的准确性检查每个测试算法在所有的数据集以及标注实例的四个不同的比率:10%,20%,30%,40%。