文摘
Semisupervised学习是一个地址的想法如何使用大量的标记样本和有限数量的标记样本一起学习决策知识。在本文中,我们提出一个多任务多视图semisupervised学习模型基于随机偏微分方程领域和希尔伯特独立标准图像属属性概率模型,即。、共享的语义。在类似影像属属性的框架模型中,来自不同数据源的数据生成的共享隐藏空间表示。与传统模式不同,本文利用希尔伯特独立标准记下隐藏的共享关系表达式。与此同时,利用标签在标签空间之间的相关性,本文采用随机偏微分方程领域题写的之间的相关性不同的标签标签空间和隐藏功能之间的相关性和标签。使用变分采用算法,整个生殖过程模型可以推断。为了验证模型的有效性,两个人工数据集和三个真实的数据集进行测试,和实验结果验证了算法的有效性。一方面,它不仅提高了分类精度multiclassification问题和multilabel问题;也输出之间的协会之间的结构不同的标签和隐藏的特性和标签。
1。介绍
数据包含丰富的价值,如今,在大数据时代,大规模高维数据的应用缺乏合适的手段。multilabel学习框架是解决这些multisemantic现象。在该框架中,每个数据对象被一个例子描述(特征向量),这可以属于多个类别。当机器学习和数据挖掘技术应用于高维multilabel数据,一个重要的问题是一个维度灾难。因此,multilabel特征选择技术已经出现。在过去的几年中,multilabel特征选择已经吸引了许多研究者的关注,出现了一些优秀的算法1]。然而,他们仍有一些难以解决的问题:(1)选择功能,现有特征选择算法通常采用这两种方法之一:选择一个共同的特征子集的所有标签区别的所有标签(共享功能)或单独为每个标签选择特征区别的自己(职业特性),这些重要特性标签识别过程中扮演着重要的角色,他们对所选特征的识别能力很重要;(2)探索和利用标签相关的特征选择是一个重要的理念来提高算法的性能;虽然现有的算法取得了良好的效果,有必要探索新的方法来提高算法的性能。此外,现有multilabel特征选择算法倾向于利用全球相关标签。然而,标签相关性通常是由当地区域的地方和共享数据集;(3)现有multilabel特性建模算法通常基于数据的原始标签信息;然而,这个标签信息不能完全表达的丰富语义对象;一方面,不同重要性的相关标签的例子,因为相关的标签的例子通常与不同程度描述它。另一方面,标签数据注释器不能直接提供的重要性。
在传统的监督学习中,学习者可以从大量的标记示例构建一个模型来预测未来标签的例子。这里的“标签”是相对应的输出例子,例子的类别在分类问题,和实值输出相应的回归问题中的示例。同时,数据收集和存储技术的快速发展,它已经成为很容易收集大量的未标记示例,而相对很难获得大量的标签的例子,因为获得这些标签可以劳动密集型2]。大量、低成本的无标号数据可以用于协助监督学习提高预测效率和精度以及降低预测成本。如果只有少量的标签的例子,往往很难训练学习系统具有较强的泛化能力;另一方面,如果只有少量的“昂贵”标签的例子是用来代替大量的“便宜”标记的例子,它是一个数据资源的浪费。另一方面,这是一个伟大的浪费如果只有一小部分数据资源“昂贵”标签的例子是用来代替大量的“便宜”标记的例子。因此,如何利用大量的未标记示例来改善学习性能有一些标签的例子已经成为最有关的问题在当前机器学习的研究(3]。在本文中,我们研究semisupervised协会学习方法基于偏微分方程的稀疏表示图像类属性,关注问题的解决semisupervised multilabel学习和semisupervised multiclassification学习。
2。相关工作
主要的传统机器学习是监督学习和无监督学习。监督学习的经典场景中有两个主要类别的分类和回归。Semisupervised学习,获得大量关注,在过去的十年左右的时间里,致力于利用大量未标记样本的手动补数量相对较小的标签样本,因此希望更准确的分类器训练比要是手动标记样本使用。
自我训练方法,提出了在文献[4),是第一个方法为监督学习使用样品无类标签。这类方法主要使用迭代的思想,不断重复监督学习,和由此产生的最佳标记结果应用于下一轮和添加到样本集的类标签继续迭代,迭代的监督。这种方法的优点是它的简单性和易于操作,但它是容易错误的错误从而导致恶性循环迭代。文献[5)首次提出“semisupervised”和可以使用semisupervised分类。在[6),结果表明,未标记样本的使用可以减轻“休斯”现象在小样本,和这一想法导致了广泛的未标记样本和semisupervised学习的兴趣。文献[7)提出了深semisupervised学习生成模型。第一个semisupervised距离度量学习方法提出了在文献[8]。文献[9)提出了一种基于粒子群优化算法semisupervised解决中文文本的分类问题的分类器。文献[10)提出了一个semisupervised散列方法处理大型图像的检索问题。文献首次提出最低分区操作符,在源节点是一个积极的标签样本实例和目标节点是一个负面标签样本实例,找到一组边缘,可以将源和目标节点删除后,这组边缘图,图也分成两个独立的部分。之后,还有其他的算法逐渐出现;文献[11研究了能量函数最小化和证实了图切割算法的效率高。文献[12)提出了比例削减法以及归一化方法。文献[13)总结了流线型semisupervised学习方法并提出了受欢迎的正则化方法。在那之后,文献[14提出在线流形状的正规化,提高了适用性的大规模数据流形状规则化。文献[15)使用强大的领域知识构建图,然后进行semisupervised学习基于图表的字符识别。边缘图的时间,颜色,和脸边缘,这样图反映了强劲的领域知识,深入了解问题的结构,以及如何使用未经数据。文献[16,17)改善的问题所属overadjustment AFCC算法,提出了一种改进的一类semisupervised模糊聚类算法。文献[18]研究了成对约束属性的影响semisupervised聚类的效果。
3所示。Semisupervised协会学习基于偏微分方程的图像的稀疏表示的属属性类
3.1。稀疏表示算法的基于偏微分方程的图像类的属性
稀疏表示的基于偏微分方程的图像类属性是解决问题的最优解能源广义函数的图像,这是一个不适定反问题,所以正则化理论应用于病态性问题转换成一个不适定问题。首次提出以下凸组合变分正则化模型(19]: 在哪里是定义领域的形象;降噪后的图像;是嘈杂的图像;梯度算子;正则化参数;和变分的顺序控制参数;等式的右边第一项是忠诚,第二项是正则化项,有舒缓的效果图片。在这一节中有以下情况的模型。(1)当 ,模型在本节中可以写成
此时,模型退化为一个电视模型的正则化算子作为一阶变化。在前面的小节中,很明显,模型具有良好的edge-preserving性能,但会产生“一步效应”。(2)当 ,模型在本节中可以写成 (3)当 ,模型在本节中类似于TVBH模型中,考虑一阶和二阶变量和融合的电视和BH模型
总之,参数的选择决定了过滤形式和过滤性能的新模型。参数通常试图勉强度日的大量的实验或经验获得的最佳值,这是一个粗糙的全球内容的评价,忽略了图像的地方特色。
接下来,图像的局部特性被认为是提高模型的自适应性在本节中,通过替换常数m一个边缘扩散函数 ,和variable-order变分模型,提出了优化在接下来的新模型形式(20.]。 其中
更好的检测的详细信息,比如边缘纹理图像中包含的特征检测的因素关于边缘扩散函数包含梯度和局部熵特征检测操作符。
3.1.1。图像梯度
梯度表特征变化的大小和方向的图像灰度值梯度模是常用来区分图像的边缘区域和nonedge区域。边缘地区的梯度较大,平面区域的梯度较小,但一些细节的梯度信息与平坦的地区,并没有太大的区别,梯度噪声点更大的边缘,因此梯度边缘检测算子会误判弱边缘地区和强噪声点在图像细节丰富,导致损失的详细信息或不完整的图像的降噪处理。
3.1.2。图像局部
局部熵特征如何大大局部区域的像素点的灰度值图像的变化,因此可以反映图像中包含的信息的丰富性。灰度图像的熵值的大小 被定义为 在哪里 表示像素的灰度值位于点( )的形象; 表示像素的灰度值概率分布在点( )在当地社区的大小 ; 表示图像的局部熵。通过当地的熵,可以有效地确定图像的地方特色,和局部熵值较大的边缘细节地区复杂的灰度分布和更小的平坦地区统一的灰度分布。此外,局部熵具有较强的噪声免疫力,和独立的噪声点影响甚微。因此,局部熵可以广泛应用于图像处理。
连续的第一、第二和四阶微分算子以及散射算子离散。此外,为了进一步提高师分割算法的速度计算,周期性边界条件用于使FFT算法适用于分割师。让是一个二维灰度图像区域的大小 ,和图像的坐标列和行方向用和 ,分别。在像素(前进的一阶差分 )在协调和方向是指出
一阶向后微分是指出
3.2。Semisupervised联想学习图像稀疏表示的基于偏微分方程的类属性
来自不同地区的数据,一代又一代,和个人的特点是大量的数据,还包含大量的信息。在新技术时代,迫切需要分析来自不同数据源的数据,并把它们有效地获取信息关于他们的内在结构。面对某些复杂的挑战,可以理解和分析解决问题的步骤和一个一分之一小个体的角度来看,这样原来的挑战是解决。比较无监督图像分类和受监视的影像分类过程基于深度学习如图1。近年来,深入学习算法不断更新最新的图像分类任务的性能结果,显示出强大的力量,但他们也面临一些特定的挑战,仍有改进的余地。除了常见的问题,如耗时的训练过程中,硬件要求标准高,在可移植性和困难,还有一些特定领域的问题(21]。
机器学习中的某些团队工作相关理论和算法semisupervised类似影像的稀疏表示属性的联想学习偏微分方程的基础上,将多个单一解决方案集成到一个全面的回答,所有观众产生一个令人信服的答案。它具有更好的精确性和鲁棒性,比使用一个特定的模型更稳定。这个模型已成功实现在几个方向。semisupervised联想学习的任务主要分为分类任务,聚类任务,和semisupervised学习任务,这尤其使具体的过程,如协同过滤,异常检测、分布式计算和多源数据融合,使其成为数据分析的有力工具。援助的一个学习模式,一个是探索未知的数据集从一个角度看,只能得到一个片面的学习结果,但是如果一个人可以集思广益,通过几个不同的角度探索未知世界的数据集的帮助semisupervised联想学习模型,然后可以同时执行多个学习过程,最终可以获得一个或多个学习结果。semisupervised联想学习的总体框架如图2。
Semisupervised集群主要是监督信息的引导下,传统的聚类算法,和这两种类型的监督信息类标签和成对约束。当引入监督信息,监督需要选择适当的信息,和有效的信息选择高,产生了积极的影响时间和结果在随后的聚类过程;同时,还需要识别和考虑监管信息是否可靠,避免错误的监督信息尽可能多或者太冗余的信息,如两个样品贴上必须关联约束,但两个样本的数量的信息即使无标号信息也在一个集群中,这将对结果没有任何影响,在这一点上,标签成本被认为是浪费。优化监督信息,学者们试图通过主动学习选择监督信息实现更准确的检测结果。两种典型算法,结合主动学习与semisupervised集群是APCKmeans算法和IASSCF框架。每个标记都有其原始特征,一个重要的角色和功能标记本身固有的属性,提供有力的证据存在的某些样本标记属性。因此,multitag学习可以更有效地执行通过类属性的研究。特征选择是通过类属性的研究;然而,通过class属性处理方法的一些特性可能仍有冗余,和冗余特征空间通过互信息理论可以有效地解决。互信息可以制定为一个主流的统计算法,基于信息理论和统计理论的延伸和扩展,它可以提供一个准确的描述之间存在相关性,大多数样本和类别。 First, a sparse representation of class attributes is performed. However, for the features processed through the class genus attributes, there may still exist a certain redundancy; therefore, combining information entropy to all features in the new feature, space separately calculates their mutual information with the marker space based on the size of the mutual information the sequential arrangement of features obtains the relevant feature subset; and then further considers the redundancy of the feature space through the mutual information theory based on the study of the class genus attributes. This is more effective to improve the multitag classification accuracy.
最细粒度特性特点和重要信息的过程中图像的稀疏表示。进一步学习更有识别力的功能,局部地区有识别力的特性进一步本地化,细粒度特性,不同尺度和细粒度特征融合的分类。具体来说,首先,不同地区在不同大小的图像使用锚得分,和歧视的地方区域最初原始图像的过滤,和当地的区域用更少的信息过滤掉,以减少干扰的区域分类结果较差的有效信息,有效地减少计算成本。其次,放大后关键地区的图像过滤和定位他们歧视地区第二次使设计模型来捕获细特性在图像和获取更高质量的细粒度特征信息。最后,不同尺度的图像之间的权重,权重系数是用于不同尺度的细粒度图像信息融合提供丰富的决定最终的细粒度图像分类结果的基础。细粒度的不同尺度的图像信息,合作,共同对最终分类结果。细粒度的图像中,个别地方地区含有不同数量的信息,因此,他们贡献不同的各种细粒度的准确识别图像。信息丰富的本地区域含有更多的区别的特征信息,有利于提高模型的正确识别不同的细粒度图像。因此,对于最后的特征表示,分析关注的是细粒度特性,有效信息丰富的本地区域,而削弱当地区域的信息更少的信息。进一步提高模型的分类性能和有效的特征信息融合有识别力的地区在不同的尺度上,有必要约束的权重学习细粒度特性在不同的尺度上使用偏微分方程。
众所周知,成对约束信息的比例数据样本总量很小,所以我们把偏微分方程的概念来描述样本数据的约束和调整重量测量成对约束信息,并考虑集群的边界点的模糊划分,并迫使主动添加约束信息的模糊边界,并提出一种改进的偏微分equation-based活跃semisupervised模糊聚类算法,希望能改善传统SFCM算法和MEC算法。ASFCM-CE算法改进的主要来自两个方面:(1)self-information和约束信息由偏微分方程描述,和重量被添加到调整目标函数;(2)必须有成对约束控制聚类边界;即。,pairwise constraints are added actively for fuzzy boundary points. In general, the amount of labeled data in the dataset is much smaller than the amount of unlabeled data, and at this time, it is not enough to guide the pairwise constraints only by 。在这个时候,我们调整带安全标签的数据时,这样的权重约束信息可以更好地指导后继的迭代中。
拟议中的semisupervised协会学习算法过程基于稀疏表示的偏微分方程图像类属性分为三个主要阶段。第一,功能是随机选择从所有候选人特性形成一系列的随机特征子空间。第二,加权约束选择和约束投影上执行上面的子空间来提高聚类质量。第三,计划是专为集成的集群解决方案在每个子空间来获得一种更健壮的生成统一的集群解决方案。
4所示。实验设计和结论
来验证提出的集群效应偏微分equation-based semisupervised协会学习算法对稀疏表示的图像属性的聚类效果ARSCE方法在一些真实的数据集评估基于归一化互信息在本节中。以确保实验结果的有效性,避免机会的影响,该方法为每个实验运行20次,和20倍的平均值计算最终的实验结果。利用成对约束集的提取速度设置为0.2;即。,20.% of the real label set is extracted to construct must-link and cannot-link constraint sets.
采样率对集群性能的影响首先是探索的标准互信息(敝中断),抽样率确定的数量在每个子空间特性。这个实验数据集3日进行,即alizadeh - 2000 v3,阿姆斯特朗- 2002 v2,淋巴瘤。在这里,4和8之间的采样率是不同的。图3演示了采样率对集群性能的影响。从图可以看出,一般来说,性能提高采样率增加。这意味着越来越多的信息特征选择促进集群。然而,当采样率达到一定值,一个清晰的下行趋势在集群性能可以被注意到。一个可能的原因是冗余特性的选择在此设置中,这些对集群都有不利的影响。在大多数情况下,最优采样率在3和4之间,而对于阿姆斯特朗- 2002 v2数据集,最优值的采样率在2和3之间。通过另一种方式,不同的数据都有自己的理想的采样率。在这种情况下,需要选择最佳的采样率。从特征选择的角度来看,本文认为有必要探索更合理的策略构建一个随机特征子空间特性通过选择更有效的信息。因此,多个不同的聚类分区可以生成具有满意的性能。
接下来,探讨了成对约束聚类性能的影响增加的百分比成对约束。一般来说,一个更大比例的成对约束表明更多的监督信息可用来驱动更好的聚类性能的聚类方法。图4显示了成对约束性能的影响的六个数据集。从图中,可以观察到整个集群性能显示了一个增加的趋势在不同层次上成对约束的数量增加。这意味着这些成对约束提供了有效的管理信息,这有助于当发现clustering-friendly空间聚类过程。当成对约束的数量设置为10的宽容,与平均分配范围0 - 100,五个算法相比在大样本数据显示更高的整体精度比在小数据样本,与ASFCM-CE算法在五人中她最突出的。然而,当在大数据样本数据集,分别观察ASFCM-CE算法不稳定与其他算法相比,甚至还有几个例子SCE-SSC算法比ASFCM-CE算法更准确。虽然ASFCM-CE算法不稳定在0 - 100双,因为大型数据集,总体精度仍然显示越来越稳定的趋势如果除以0 - 300双。
验证不同的稳定multitag特征选择算法,算法的稳定性可以通过迭代表达验证。因为预测分类有很大变化的结果在不同的数据集使用不同的评估指标,1到10之间的结果都是归一化一般标准。最后,稳定指数所代表的标准化值。图5展示了六个六算法的稳定性数据集。在图中,LSFIE算法提供了一个非常稳定的解决方案5的数据集和稳定指数也在8.2和9.8之间。Genbase数据集,稳定指数也在7.3和8.4之间,也产生相当稳定的结果。总之,结果表明,LSFIE算法更好的稳定及其索引值不稳定波动,更好。LSFIE算法不稳定的结果数据集很少但更稳定,大多数数据集上略好。
本文也探讨了影响集群性能的综合会员的数量基于归一化互信息(敝中断),如图6。从图中,可以看出性能给出了一个集成成员数量的增加增加的趋势。这意味着更多的集成成员可以提供更多的信息和辅助信息更好的聚类。当成员的数量达到某一阈值时,它会降低性能的改善,符合边际效益递减规律,并达到相同的性能改进意味着增加成本,这个时候需要计算成本和性能之间的平衡的改善。
特征检测的影响因素聚类性能研究根据归一化互信息(敝中断),如图7。在这项研究中,的价值被改变它在0.1和0.9之间变化。它可以从图7,当增加,集群性能快速上升趋势显示了峰值之前,紧随其后的是不同程度的下降趋势。除了观察,可以发现,不同的数据集,有各自合适的 。这表明本文的方法是敏感的 ,用于控制体重关联图的分布在新学习的空间。平衡参数的最优值在0.4和0.6之间在大多数情况下,除了数据集nci9最优的价值在哪里在0.6和0.8之间。在本文中,我们认为数据样本的分布在不同的集群有点不同于其他数据集的分布。因此,有必要选择更优的价值学协会的调整权重图来获得更好的性能。
一般来说,成对约束的数量越多,聚类效果越好;然而,根据上述分析,集群效应PD-SSC和CE-SSC算法倾向于减少与增加的数量成对约束。这一现象可能的原因是,为了简化实验过程,选择一个固定的惩罚系数,当成对约束的数量增加,惩罚项的重量目标函数将会增加,影响聚类的效果。在这种情况下,罚款系数随着成对约束的数量增加,减少和惩罚项的重量减少了获得一个更好的聚类效果。iris-wine数据集作为一个例子,适当惩罚系数减少随着成对约束的数量增加,CE-SSC算法和惩罚系数是0.7和0.9的PD-SSC算法是成对的数量限制。惩罚系数调整后,PD-SSC算法的三个指标的值显示波动上升趋势,和聚类效果明显改善。在图8的索引值CE-SSC算法不断增加当成对约束的数量大于35;PD-SSC算法的索引值略有增加当成对约束的数量大于15;CE-SSC算法的索引值不断降低当成对约束的数量是20 - 80,然后略有增加。PD-SSC算法的索引值达到最大值的成对约束的数量,但总体趋势略有增加。这是其中一个原因引入semisupervised相关学习算法基于偏微分方程的图像稀疏表示的属性类。
此外,最近的比较结果semisupervised聚类集成方法和该方法进行了分析。齐次算法包括神经基于燃气聚类集成算法(NGCE),随机 - - - - - -bagging-based方法聚类集成算法(RSKE) ——聚类集成算法(BAGKE),层次聚类集成算法(HCCE),聚类集成算法利用约束传播(E2CPE),增量semisupervised聚类集成算法(ISSCE)和双加权semisupervised集成聚类算法(DCCP)。以下的观察可以得到:(1)E2CPE可以实现更好的性能与NGCE相比,RSKE, BAGKE,和HCCE方法因为E2CPE方法使用约束传播技术来更好地利用监督信息,这有助于指导聚类过程。这说明了成对约束的有效性提高聚类的质量。(2)约束加权和加权约束投影变换的特征子空间变成一个空间是友好的集群,产生高质量的集群解决方案有足够的多样性。这可以从这一事实ISSCE和DCECP取得更好的性能比E2CPE大多数数据集。(3)本文提出的方法达到最好的或者至少是更好的性能在所有的数据集,这表明使用自适应聚类集成的必要性将适当的权重分配给底层的集群解决方案,并将其组合在一起,形成一个更好的聚类分区。换句话说,它验证了扩散融合方法的有效性。
5。结论
摘要semisupervised联想学习基于偏微分方程的图像属属性系数表示作为研究背景,以及问题的偏微分方程图像属属性表示,解决semisupervised multilabel学习,和semisupervised multiclassification学习主要是学习。随着数据大小的增加和结构变得越来越复杂,一个新的semisupervised联想学习基于偏微分方程的图像融合方法类属性系数表示提出了更好地处理数据聚类问题。这些问题是很常见的在机器学习领域,还有大量的相关工作。与传统方法这些个人问题,本文从一个新的角度重新诠释这两个问题结合矩阵互补和生成模型,分别测试了几个模拟和实际数据集有效性。特征选择的目标是获得一个子集的特性,满足某些特定条件的评价指标标准,这本质上是一个综合优化问题的目标。计算的每个特性通常数量的信息进行特征选择,然后,所有功能都排名根据他们的信息大小,和所需的数量的特性被选中。在这篇文章中,当执行multitag特征选择,粗糙集理论可以有效地评估不准确和不稳定的数据,更有效地分析和处理数据,发现潜在的内涵,揭示了潜在的法律。根据最大相关性和最小冗余的原理,特性和标记之间的相关性计算基于粗糙集的关系,然后,肯德尔相关系数是用来衡量未经选择的特性和选择之间的冗余特性,最后,相关性和冗余计算的区别,排名和差异大小,选择所需的功能。最后,在多个数据集的实验结果说明了该算法的有效性。传统multitag学习、标签预计从相同的属性集,忽略标签本身的某些特征。 These unique attributes have strong discriminative power for the tokens, so strengthening the study of class attributes can be more effective for multitoken learning. The proposed algorithm in this paper, after a sparse representation of the class attributes, then computes the mutual information between the features and the token space, then ranks the features according to the magnitude of the mutual information, and selects the desired subset of features. The experiments also verify that the proposed algorithm is feasible.
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。
确认
这项研究得到了国家社会科学基金(批准号19 bty046)和湖北省教育委员会(批准号B2019197)。