协作深和浅Semisupervised学习框架移动应用分类

文摘

移动应用的快速发展,有必要对移动应用到预定义的类别进行分类。然而,有两个问题,使这个具有挑战性的任务。首先,手机应用程序的名称通常是短期和模棱两可的反映其真正的语义。第二,它通常是很难收集足够的标签样本训练好的分类器在一个定制的分类法的移动应用程序是必需的。对于第一个问题,我们利用网络知识丰富的移动应用程序的文本信息。对于第二个问题,主要运用的方法是semisupervised学习,利用未标记样本cotraining方案。然而,如何加强基础学习者最大化之间的多样性的力量cotraining方案,仍然是一个悬而未决的问题。针对这个问题,我们利用机器学习模式(即完全不同。学习和深度学习、浅),以确保更大程度的多样性。,为此,本文提出了Co-DSL协作深和浅semisupervised学习框架,为移动应用程序分类使用只有少数样本和大量的未标记样本的标签。实验结果证明的有效性Co-DSL,只能达到85%以上分类精度通过使用两个标签样本移动应用类别。

1。介绍

近年来移动设备的普及导致了快速增长的移动应用程序(表示为“应用”剩下的纸),扮演一个越来越重要的角色在移动用户的日常生活。例如,2017年,大约有640亿和280亿应用在苹果应用商店下载1和谷歌Android的玩2),分别。如此大量的应用,有必要对分类成预定义的语义类别支持各种智能服务,如应用程序搜索、应用推荐和用户分析(3- - - - - -5]。以用户分析为例,如果用户经常使用“愤怒的小鸟“B和用户通常使用“水果忍者“我们可以知道,他们都喜欢玩休闲游戏基于适当的应用分类。

有人可能会争辩说,大多数应用程序交付平台(例如,应用程序商店和谷歌玩)已经预定义的分类应用和分类每个应用程序的类别。然而,应用程序交付平台提供的应用分类有以下限制。首先,分类结果通常不能通过第三方服务。例如,Android开发平台只能访问应用程序名称和版本等信息,不包括类别从交付平台。第二,预定义的应用分类从交付平台是固定的,而用户可能通常需要定制的应用分类。例如,应用程序”故宫博物院”被列为“生活“在App Store,有时太一般理解它真正的使用,例如,一些特定的应用程序可能更喜欢标签为“之旅。”

因此,有必要设计一种方法,可以将应用程序分为定制类仅基于最容易访问的数据,即。,应用程序的名字。然而,它是一项具有挑战性的任务,因为应用程序名称通常太短,所包含的词太稀疏,以反映应用程序之间的相关性和语义类别(6]。例如,它几乎是不可能告诉应用程序”的类别YouTube“只看它的名称。针对这一挑战,大多数现有的作品丰富应用程序名称使用外部知识的语义信息(例如,Web搜索引擎)借这个想法从简短的文本分类7- - - - - -9),然后应用基于监督机器学习的分类器训练技术。然而,现有的应用分类方法基于监督机器学习技术仍有局限性,他们需要大量的标记样本训练分类器,特别是深度学习技巧。然而,它是一个昂贵的任务采集足够的标签样本在实践中,当需要一个定制的应用分类。

Semisupervised学习是一个著名的方法来解决这一问题的有限的标记样本通过学习从标记和未标记样本而无需人工干预10]。在semisupervised学习,一个有效的模式被称为disagreement-based semisupervised学习(11),多个基本训练学习者和他们互相学习共同提高性能通过利用它们之间的分歧。在disagreement-based semisupervised学习,基础学习者的多样性是关键需求(11]。大多数现有的方法确保多样性基于特征(即分裂。,使用不同的功能训练基地学习者)。然而,这个计划主要依赖于功能分割的策略。功能不正常分裂时,性能将大大退化(11]。在本文中,我们利用机器学习模式(即完全不同。,shallow learning and deep learning) to ensure a greater degree of diversity without feature split. Different from the existing disagreement-based semisupervised learning algorithms, we found that the greatest problem of fusing shallow learning and deep learning in a collaborative framework is that they have highly unbalanced and dynamically varied performance. For example, deep learning learners usually have stronger performance when there are adequate labeled samples. This problem would cause the stronger base learner to easily learn noises from the weaker base learner.

为此,本文提出了Co-DSL,协作深和浅semisupervised学习方法应用分类。首先,为了丰富应用的文本特点,我们利用网络搜索引擎获得片段应用程序通过使用其名称的查询关键字。第二,我们应用Co-DSL使用只有少数标签样本和大量的未标记样本,利用互补的辨别力的机器学习模式(即完全不同。学习,深入学习和浅)cotraining风格。具体来说,总结了本文的主要贡献如下。(1)我们提出一个方法自动应用分类。首先,它使用网络知识丰富的移动应用程序的文本特征。其次,它可以训练应用分类器使用非常有限数量的标签样本。基于实验结果,用只有两个标签样本每个应用程序类别,该方法可以达到超过85%的分类精度。(2)我们提出一个叫做Co-DSL semisupervised学习框架,下面的小礼品。第一,而不是使用特性,我们利用机器学习模式(即完全不同。学习和深、浅学习)分类器训练基地。第二,解决不平衡的基分类器的性能的问题,我们设计一个有偏见的抽样策略选择未标记样本(3.3.1节)和一个基分类器精度估算策略评估的基本分类器和一些标签样本(部分3.3。2在每一轮的培训。

本文的其余部分组织如下。部分2评审相关工作。部分3该方法的详细信息,包括基分类器和semisupervised学习框架。部分4实验结果报告。部分5总结了纸。

2.1。应用分类

自动应用分类的一个重大挑战是没有很多有效和明确的特性可用的应用程序由于有限的信息进行分析。在许多情况下,只有应用程序的名称是可用的。因此,现有的作品试图丰富信息的应用程序通过使用各种策略。

最基本的策略是基于Web的文本浓缩的知识。例如,马等。12]使用搜索引擎来获取一些文本片段丰富的文本信息提取的应用和词频向量作为特征来表示应用程序。李等人。13)也使用搜索引擎来丰富文本信息的应用程序,然后使用向量空间模型和主题模型提取的各种特性。加戈et al。14]爬应用描述从谷歌玩,并收养了两个主题模型来创建特征向量。

除了文本信息,一些研究人员利用各种类型的额外数据丰富的应用程序的信息。第一个类型是元数据。例如,贝拉尔迪的乳白色et al。15]聚集元数据(例如,文件大小,用户评级,评级数量)从应用程序交付平台和选择有效的特征构建应用分类器。陈等人。16)定义多个内核根据不同的元数据(例如,开发、更新和评论)学习的相似性度量不同的应用程序。Olabenjo [17)用履带提取各种属性(例如,是免费的或不购买并在应用程序)的应用程序从谷歌玩创建应用分类器。第二种类型是上下文相关的数据。例如,朱et al。6]发现,不同类型的应用程序通常是与现实世界的上下文(例如,业务应用程序可能会使用的工作地点),可用于应用程序分类。Radosavljevic et al。18)同时考虑时间序列的上下文应用程序安装和应用的描述和综合这些数据到一个嵌入框架。根据现有的工作,无论什么类型的额外的数据被认为是,文本信息从网络知识总是最有效的区分应用程序。

2.2。文本分类是基于Semisupervised学习

文本分类是一个研究的问题(19,20.]。然而,只有少数的作品考虑标签样本不足的问题。这个问题的主要利用方式是semisupervised学习,利用大量的未标记样本除了标签样本自动提高性能。例如,尼噶et al。21)提出了文本分类semisupervised学习框架。它使用一个迭代EM(期望最大化)技术利用标记和未标记样本。江和李22]提出IWNB, semisupervised基于朴素贝叶斯学习框架,用于文本分类。它使用分类器训练贴上样品标签和重量未标记样本,然后通过分类器在所有样本。约翰逊和张(23)提出了一个semisupervised学习框架与卷积神经网络(cnn)的文本分类。它从无标号样本学习文本区域的嵌入集成到一个监督CNN。

在semisupervised学习,一个有效的模式,被称为disagreement-based semisupervised学习(11),多个基本训练学习者,这些基础的学习者利用之间的分歧。例如,尼噶的[24]发现disagreement-based semisupervised学习算法(例如,Co-Training)比其他semisupervised学习算法时的自然分割特征的存在。湾(25)英语文档的使用特性和功能的中文翻译文件的两个独立的观点Co-Training算法利用中文文档标记。施等。26)构造一个分类器来逐步提高文本分类的性能。在disagreement-based semisupervised学习,基础学习者的多样性是提高性能的关键需求(11]。不同于现有的方法,利用基于特征的多样性,Co-DSL确保更大程度的多样性使用两个完全不同的学习模式(即。学习和深、浅学习)。因为我们探索semisupervised学习技术应用分类在这篇文章中,我们总结了现有semisupervised学习技术表1。


计划	原则	缺点	引用

生成semisupervised学习	它假设标记和未标记样本都来自相同的参数模型;然后,它把未标记样本的标签作为缺失值模型的参数	当参数模型的假设是不正确的,拟合模型利用未标记样本会导致性能下降	(21,27,28]

基于semisupervised学习	它构造图的节点是样品(包括标记和未标记样本)和边缘反映节点之间的关系(例如,功能相似);然后,利用传播的标签连接特点	首先,它遭受贫穷的可伸缩性;第二,很难构建样本之间的关系特性是复杂的	(29日- - - - - -31日]

Disagreement-based semisupervised学习	多个基本学习者最初标记训练样本,然后互相学习利用他们之间的分歧在标记样本	如何保证基础学习者之间的多样性是一个开放的问题吗	(25,32,33]

3所示。方法

3.1。概述

提出了应用分类方法包含两个主要阶段。在第一阶段,我们利用网络知识丰富应用的文本信息。具体而言,如图1,因为一个应用程序一个,我们首先提交一个“年代的名字到一个Web搜索引擎(如Google API在我们实验)。然后,我们获得米搜索片段并将它们集成到一个文档D_一个(我们称之为的应用程序文档一个)。搜索片段是一个抽象的Web页面作为相关返回提交应用程序的名字。为了确保质量的搜索片段,我们只有保持搜索片段从一些专业的移动应用程序网站(如谷歌玩,App Store,维基百科)。最后,我们进行预处理D_一个通过删除所有的停止词(如“的”、“的”)和正常化动词,名词,形容词(例如,“玩⟶玩,”“游戏⟶游戏,”和“更好⟶好”)。

在第二阶段中,我们使用Co-DSL训练分类器的应用程序。具体来说,如图2,我们首先训练两个初始基地应用分类器只使用几个标签样本基于浅层学习和深度学习技术,分别。然后,我们再培训和升级两个基础应用分类器利用大量未标记的样本cotraining风格。例如,假设我们有10000个样本应用程序,其中只有100是适当的标签;我们首先训练两个基地应用分类器基于100标签样本。然后,基础应用分类器可以互相学习cotraining风格基于Co-DSL使用9900未标记样本。

3.2。基分类器

3.2.1之上。浅的基本分类器的学习

肤浅的学习技术列车初始基分类器基于多种文本特征从应用程序中提取文件。文本特征提取两个方面,即。,the vector space model (VSM) features and the topic model features.

扫描仪的特性提取如下。在第一步中,我们提取N关键字为每个应用程序类别。具体地说,我们首先建立一个字典W包含所有的单词在所有应用程序文件。第二,我们计算每个单词的重量W为每个应用程序类别。词的重量为应用程序类别c_j基于计算的想法TF-IDF [34)方程(1),n(我,j)的计数在所有应用程序文件与应用范畴c_j和C是应用程序的集合类。第三,我们选择N独特的文字为每个应用程序类别权重最高的关键词:

在第二步中,我们将每个应用程序文档D_一个到一个词向量西弗吉尼亚州(一个)。的我th元素西弗吉尼亚州(一个)表示的重量我th关键字在D_一个(1≤我≤N×|C|),也是基于计算的想法TF-IDF方程(2),米(我,一个)的计数我th关键字在D_一个和D是应用程序的设置文件。在这里,西弗吉尼亚州(一个)被视为VSM的特征向量D_一个:

虽然扫描仪特征之间的相关性可以捕获应用文档和应用范畴的词分布,它不考虑背后的潜在语义含义的单词。例如,“歌”、“播放列表”和“艺术家”被视为完全不同元素VSM特征向量,但他们含蓄地反映同样的潜在语义话题”音乐。“先前的研究还发现,简称潜在语义主题是有用的文本分类(35]。因此,我们用LDA(潜在狄利克雷分配)主题模型(36)学习潜在语义主题和提取主题模型的特性。LDA的目的是确定每个主题的词分布和每个文档的主题分布通过分析大型语料库的文件以一种无监督的方式。学会了LDA模型后,应用程序文档D_一个可以表示为一个分布的话题吗 ,在哪里的概率是k存在于th话题D_一个。在这里,电视(一个)被认为是主题模型的特征向量D_一个。

为每个应用程序文档D_一个,我们将西弗吉尼亚州(一个),电视(一个)作为最终的特征向量。然后,我们训练一个基分类器特征向量映射到基于一个特定的机器学习算法的应用类别(例如,支持向量机)。

3.2.2。深度学习的基分类器

在本文中,我们应用卷积神经网络(CNN)提出(37]训练最初的基分类器,因为它显示了良好的分类精度和训练效率之间的平衡的文本分类任务。注意,培训效率尤为重要基分类器的训练以来,我们的方法将在Co-DSL多次执行。

CNN的架构图所示3,包括一个嵌入层,卷积层,池层和一个输出层。首先,嵌入层最初使用pretrained词向量(38],回馈都通过通过反向传播训练。让这个词向量的维度d这个词向量对应我词在一个应用程序文档D_一个是建议,x_我,应用程序文档D_一个的长度l就代表了一个l×d矩阵。注意,应用程序文档将垫或截断如果是短或更长时间l。第二,卷积层使用多个过滤器在不同窗口大小提取特征图。具体来说,我们使用三个窗口大小(例如,h×d,h= 3、4和5)为每个窗口大小和100定义过滤器。一个过滤器应用于每一个可能的窗口h单词D_一个(即。,{x_1:h,x_{2:h+ 1}、…x_{l- - - - - -h+ 1:l}})产生一个特征映射 ,在哪里f_我= ReLU (的天气_我:我+h1+b)。卷积层将产生300个特征图。第三,池层max-over-time池方案适用于处理特征图(即。的最大价值,它只需要一个特征地图)。因此,池特性映射的结果f是马克斯{f}。通过连接池所有过滤器的结果,我们可以得到一个特征向量和一个统一的长度(即。为不同的应用程序文件,300)。第四,池的特征向量层传递给一个完全连接层在应用类别输出概率分布。辍学方案采用完全连接层,防止过度拟合。

3.3。Semisupervised学习框架

当一个新的分类定义的应用程序,训练样本必须手动重新标记。这是一个非常昂贵的任务。因此,我们只能获得少量的标注样本和大量的未标记样本在实践中。

Co-DSL设计通过扩展经典disagreement-based semisupervised学习算法Co-Training [32),火车两个基分类器基于一个特性。每个基分类器初始化使用一些标签样本。在每一轮的培训,每个基分类器选择一个未标记样本每个类最高分类添加到标记样本集的信心。然后,每个基分类器从增强标签重新训练样本集,和重复的过程。

3.3.1。有偏见的抽样策略

Co-Training能公平对待每个基分类器,这意味着每个基分类器选择相同数量的标记样本添加到标记样本集在每一轮的培训。然而,我们发现这两个基分类器在本文有高度不平衡的辨别力。这个问题会导致更强的基分类器很容易学习的声音从较弱的基分类器。最糟糕的是基分类器的优点是与训练迭代变量,例如,浅层学习的基分类器更高的性能,当标签样本非常有限,而深学习效果的基本分类器标记样本集变大时其优势。

针对这个问题,我们设计一个有偏见的抽样策略选择标记样本。的想法是,在每一轮的培训,未标记样本的数量选择的每个基分类器性能成正比。因此,一个更强大的基分类器会选择更多的样品比一个较弱的基分类器更高的质量。图4显示Co-DSL的伪代码。在每一轮的培训,Co-DSL在两个步骤,即。、再培训和选择。培训步骤中,它适用于浅层和深层学习技术3所示。2训练两个基分类器基于当前标记样本集,然后评估两个基分类器的准确性(3 - 6行)。在选择步骤中,首先每个基分类器适用于标记样本集(第7行)。第二,每个基分类器选择多个未标记样本每应用类别分类最高的信心增加另一个基地的标记样本集分类器(8 - 11行)。在这里,选择未标记样本的数量成正比的准确性基本分类器,即。,{n_SC(j),装天花板(δ×P_SC)为基分类器SC和最小{}n_直流(j),装天花板(δ×P_直流基分类器直流)},δ是一个基本号码,装天花板(x)是一个函数,它返回大于或等于最小的整数x,n_SC(j)是未标记样本的数量U₂SC分类为c_j,n_直流(j)是未标记样本的数量U₁直流分类为c_j。装天花板( )函数是用来确保至少有一个未标记样本将会为每个应用程序类别在每个迭代中挑选。

两个基分类器训练后,我们融合输出最终的分类结果基于堆叠框架(39]。给定的一组应用程序类别C= {c₁,c₂、…c_米}和训练样本集X= {x₁,x₂、…x_N},P_SC(x_我,c_j),P_直流(x_我,c_j)表示分类的信心x_我作为c_j分别由SC和直流。meta-classifier MC是训练基于基分类器的输出,即。主持人:P⟶C,在那里P= {<P_SC(x₁,c₁),…P_SC(x₁,c_米),P_直流(x₁,c₁),…P_直流(x₁,c_米…)>,<P_SC(x_N,c₁),…P_SC(x_N,c_米),P_直流(x_N,c₁),…P_直流(x_N,c_米>}。

3.3.2。精度评估策略

有偏见的抽样策略设计基于基分类器的评估(5 - 6行),这不是一项容易的任务。分类器通常是通过使用一组测试评估分割从原始标记样本集(例如,通过执行交叉验证),但最初的标签样本太少支持测试集分割我们的问题。针对这个问题,我们设计一个基分类器精度估算策略如下。

首先,我们构造一个无向图SG所有原始的未标记样本。图中每个顶点= (z_我,y_我)对应于一个样本,z_我样本的特征向量和吗y_我的预测标签样本。在这篇文章中,z_我部分表示为扫描仪特征向量3所示。2,y_我由基分类器预测评估在每一轮的培训。有一个边缘连接两个顶点和如果接近在特征空间。在本文中,我们使用的k最近的邻居则生成边缘(即,接近如果是k最近的邻居的或是k最近的邻居的 )。在这里,我们使用的余弦相似性z_我和z_j测量的相似性和 ,这也是相关的重量吗如果有一个边缘之间和。

其次,我们利用SG的结构来估计的准确性SC和直流在每一轮的培训。我们的评估策略设计基于一个基本假设正确标记样本应该拥有相同的标签大多数邻国(即。,those having an edge with it in SG), which coincides with the manifold assumption that samples with high similarity in the input space would also have high similarity in the output space [40]。在每一轮的培训,我们应用重新训练SC在SG预测每个样本的标签,并在SG是定义为一个切边如果连接两个顶点有不同的预测标签。然后,我们估计的准确性SC基于方程(3)、SG的地方。V代表所有SG的顶点,N( )与代表样本的数量SG,我_ij是一个函数,它返回1如果之间的边缘和不是切边,返回0,如果边切边。我们使用相同的过程来估计的准确性DC在每一轮的培训:

4所示。实验

4.1。实验设置和数据集

我们从AppBrain收集4364个应用程序。我们使用应用程序的一部分在AppBrain类别定义的应用分类实验。应用分类包含11应用类别,详细总结如下。应用8.5%属于“社会”,7.3%的应用属于“导航”,8.6%的应用属于“音乐”,10.3%的应用属于“新闻”,11.4%的应用属于“照片”,10.8%的应用属于“购物”,9.7%的应用属于“沟通”,9.3%的应用属于“教育”,9.0%的应用属于“金融”,5.8%的应用属于“食物”,属于“健康和9.3%的应用程序。”可以看出,分布相对均匀。

默认值的参数设置如下。浅基分类器的学习,我们设置的关键词数量为每个应用程序类别N= 1000和主题T= 11。深度学习的基本分类器,我们组词向量的维数d= 200和程序文件的长度l= 3000。对于semisupervised学习框架,我们设置的最近的邻居k最近的邻居的标准k= 5,和基本的选择标记样本在每个迭代中δ在实验中是匹配的。

4.2。实验1:基分类器的评估

在第一个实验中,我们评估不同的基分类器的性能在一个监督学习方式。我们采用5倍交叉验证策略进行评估。具体来说,80%的基分类器训练其余20%贴上的标签样本和测试样本。然后,程序重复五次,平均性能报告。三个基本分类器的学习(即浅。,SVM, Naive Bayes, and C4.5) and two base classifiers of deep learning (i.e., MLP and CNN) are evaluated. The base classifiers of shallow learning uses features discussed in Section3.2。1,CNN是部分中讨论的基分类器3.2。2中长期规划,是一个深层神经网络取代了CNN的卷积层和池层多层感知器层。实验结果如图所示5(一个)。它可以清楚地发现,支持向量机的最佳性能浅基分类器的学习,和CNN的基分类器之间的最佳性能深入学习。因此,我们使用支持向量机作为基分类器的浅层学习和CNN作为基分类器的深度学习在接下来的实验。

(一)

(b)

在第二个实验中,我们评估基分类器的性能通过改变标签样本的数量。如图5 (b),SC表示浅层学习的基分类器,直流表示深度学习的基分类器。首先,SC和直流的性能改善和增加标签的数量样品。第二,当标签样本非常稀缺(例如,只有一个或两个标签样本为每个应用程序类别),直流性能远不如SC的。第三,当有相对足够的标签样本,直流开始超越SC。它表明,深度学习技术更多地依赖标记样本的数量,而且收益优势更多标签样本。

4.3。实验2:Semisupervised学习的评价框架

在第一个实验中,我们评估的影响δ(基本在每个迭代的选择标记样本数量部分3.3。1)。结果如图所示6。首先,两个基分类器的性能通常增加随着semisupervised的迭代学习过程,而直流显示了一个更显著增加。这可能是因为直流初始精度较低和深度学习技术受益更多标签样本的数量。第二,一个更大的δ导致更快的改善性能,尤其是对直流。然而,更大的δ倾向于选择更多的未标记样本基分类器相对较弱,因此所选的样品可能含有更多的噪音。因此,它更难以达到全局最优。在这个实验中,全球时达到最佳δ对SC和= 3δ对DC = 5。为此,我们设置δ= 5的实验。

(一)

(b)

在第二个实验中,我们评估基分类器精度估计的有效性策略。我们比较真正的准确性和估计精度通过改变标签样本的数量。如图7,虽然提出了策略只是一个启发式方法估计的准确性基本分类器,实验结果验证其实用性在捕获的变化趋势基本分类的准确性。真正的准确性和之间的平均绝对误差估计精度的SC和直流是0.045和0.090,分别。

(一)

(b)

在第三个实验中,我们评估的必要性有偏见的采样策略,在“原始采样策略”意味着Co-DSL图4选择δ= 5为每个应用程序类别标记样本在每个迭代中(9和10行)而不考虑不平衡两个基分类器的性能。结果如图所示8。首先,“有偏见的抽样策略”优于“原始采样策略”在几乎所有迭代SC和直流。它演示了“偏差抽样策略”的功能选择与更高质量的未标记样本。其次,随着越来越多的迭代执行,“有偏见的抽样策略”对“原始采样策略获得更多的优势。“这表明“有偏见的抽样策略”能有效地减少累积的声音。

(一)

(b)

4.4。实验3:与基线进行比较

评估的有效性和展示其竞争力表现Co-DSL,我们比较以下八个基本方法,包括5个监督学习基本方法和三种semisupervised学习基本方法。评价过程进行了如下。应用程序文档样本分为训练集和测试集。我们随机选择两个样品从每个应用程序类别形成训练集,剩下的样品都放在测试集。监督学习基线方法训练使用测试上的训练集和测试集。semisupervised学习基线方法训练使用训练集(当作标签样本)和测试集(视为未标记样本),测试设备和测试。评价过程重复十次,平均性能报告。

监督学习基线方法如下。(1)SC-NB:它是指节中浅层学习的分类器3.2。1,即,training a Naive Bayes classifier based on VSM features and topic model features.(2)SC-SVM:它也指节中浅层学习的分类器3.2。1和支持向量机(SVM)是用来训练分类器。(3)LDA-SVM:它训练一个分类器肤浅的学习只基于主题模型的特性3.2.1节使用支持向量机。(4)DC-CNN:它是指深度学习的分类器部分3.2。2,即,training a classifier using CNN.(5)DC-LSTM这火车深度学习的分类器使用长短期记忆(LSTM)。

semisupervised学习基本方法如下:(6)LabelProp:它是指semisupervised学习框架称为标签传播(29日),将标签传播到未标记样本通过利用图的结构,由不同样本之间的特征向量的相似性。一个样本的特征向量是形成的部分3.2。1。(7)SVM-NB:火车两个基分类器,利用浅层学习技术(即。使用支持向量机和NB,分别基于功能部分3.2。1),然后将这两个基分类器基于semisupervised学习框架部分3所示。3。(8)CNN-LSTM:火车两个基分类器,使用深度学习技术(即。,one is trained using CNN, and the other is trained using LSTM) and then integrates the two base classifiers based on the semisupervised learning framework in Section3所示。3。

结果如图所示9(一个)。从结果可以看出以下倾向。首先,基线(即只使用深度学习技术。,DC-CNN,DC-LSTM,CNN-LSTM)h一个ve far worse performance than those using only shallow learning techniques (i.e., SC-NB, SC-SVM, LDA-SVM, and SVM-NB), in both supervised learning and semisupervised learning cases. It is an interesting phenomenon. It shows that deep learning techniques are usually weak at learning knowledge from extremely small data (only two labeled samples for each App category are available). This conclusion could also be verified by the result that DC-LSTM has the worst performance since LSTM is the most complex model here, and it requires more labeled samples to train. Second, SVM-NB and LabelProp outperform SC-NB and SC-SVM, while CNN-LSTM outperforms DC-CNN and DC-LSTM. It indicates that the disagreement-based semisupervised learning techniques are effective at exploiting unlabeled samples to improve the classification accuracy. Third, SC-NB and SC-SVM outperform LDA-SVM. It indicates that the VSM features are more effective at representing App samples than topic model features do. Fourth, Co-DSL has better performance than SVM-NB and CNN-LSTM. It shows that combining shallow learning and deep learning techniques could achieve better performance than combining different shallow learning techniques or combining different deep learning techniques. Since the diversity between base classifiers is the key for the success of disagreement-based semisupervised learning, the result shows that different machine learning paradigms (i.e., shallow learning and deep learning) could provide diversity to a greater extent.

(一)

(b)

最后,我们把Co-DSL的分类混淆矩阵。中的值我th行和jth列是应用程序和样品的比例我类别分类的j类别。如图9 (b),分类精度相对较低,在“社会”(这往往是并被错误地归类为“教育”或“食品”)。这可能是因为,“社会”的定义是相对模糊。

5。结论

在本文中,我们研究了自动应用分类的问题,这是一个具有挑战性的任务。首先,名字是最容易访问信息的应用,但应用的名字通常是表示语义含义太短。第二,很难收集足够的标签样本训练好的分类器在一个定制的分类法的应用是必要的。针对这些挑战,我们提出一个协作深和浅semisupervised学习框架。它首先利用网络知识丰富的文本特征的应用。然后,火车两个基分类器基于机器学习模式(即完全不同。,shallow learning and deep learning) to maximize the model diversity by using only a few labeled samples. Finally, it fuses the two base classifiers with unbalanced performance by exploiting a large number of unlabeled samples. The experiment results show that the proposed method outperforms the existing deep learning methods and semisupervised learning methods.

在未来,我们将扩展我们的工作从以下方向。首先,本文方法设计的基于自然语言处理(NLP)技术,计算量大。因此,我们将努力使更有效的使用网络的知识通过预处理基于知识图技术。第二,有必要设计一个更有效的框架,可以在资源有限的移动设备上运行。

数据可用性

使用的数据来支持本研究的发现可以从作者在合理的请求。和作者在未来将在GitHub发表他们的数据集。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的共同基金,中国国家自然科学基金(没有。U1936215),中国浙江省自然科学基金(没有。LY18F020033),中国国家自然科学基金(61772026和61772026号)。

引用

应用商店。https://www.apple.com/ios/app-store/。
谷歌玩。https://play.google.com/store/。
d .江j . Vosecky k .梁和w·Ng,“全景:semantic-aware应用程序搜索框架,”程序的扩展数据库技术国际会议(发债公司)热那亚,页371 - 382年,意大利,2013年3月。视图:谷歌学术搜索
d .曹x, l .聂et al .,“跨平台应用推荐联合建模评级和文本,“ACM交易信息系统,35卷,不。4、2017。视图:出版商的网站|谷歌学术搜索
h·k·h·朱e . Chen Yu曹,h .熊和j .田,“移动用户,挖掘个人的上下文感知偏好”学报2012年IEEE国际会议12日在数据挖掘,页1212 - 1217年,布鲁塞尔,比利时,2012年12月。视图:出版商的网站|谷歌学术搜索
h·朱e . Chen h .熊h .曹和j .田”与丰富的上下文信息,手机应用程序分类”IEEE移动计算,13卷,不。7,1550 - 1563年,2013页。视图:出版商的网站|谷歌学术搜索
j . Li y Cai, z Cai, h .梁和k·杨,“基于维基百科的短的文本分类方法,”课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学)施普林格,页275 - 286年,柏林,德国,2017年。视图:谷歌学术搜索
p . l . m . Wang Lin j . Wang, j . Liu和f·谢,“提高短文本分类使用公共搜索引擎,”课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学)施普林格,页157 - 166年,柏林,德国,2013年。视图:谷歌学术搜索
a . z .布罗德·m·丰托拉e . Gabrilovich a . Joshi诉Josifovski, t·张,“健壮的罕见的分类查询使用web知识,”美国第30届国际市立图书馆研究与发展会议在信息检索,市立' 07,页231 - 238,阿姆斯特丹,荷兰,2007年7月。视图:谷歌学术搜索
o .薛潘、b . Scholkopf和a .虽然早Semi-Supervised学习美国马剑桥,麻省理工学院出版社,2006年。
Z.-H。周和m .李“Semi-supervised学习由分歧,”知识和信息系统,24卷,不。3、415 - 439年,2010页。视图:出版商的网站|谷歌学术搜索
h·马h .曹问:杨,e . Chen和j .田”习惯采矿方法发现类似的移动用户,”《12-21st年会在万维网上,页231 - 240,法国里昂,2012年4月,WWW。视图:出版商的网站|谷歌学术搜索
x, y . h .丽安,h . Yu”与信息相结合,移动应用的分类”学报2016年IEEE国际会议上云计算和大数据分析,ICCCBDA 2016成都,页193 - 198年,中国,2016年7月。视图:出版商的网站|谷歌学术搜索
a . m . Garg表示,《艋舺》的p . Bhatt, a . Arora”安卓应用行为分类使用主题建模技术和孤立点检测的使用应用程序权限,”学报》2016年第四届国际会议上平行,分布式计算和网格计算,PDGC 2016Waknaghat,页500 - 506年,印度,2016年12月。视图:出版商的网站|谷歌学术搜索
g·贝拉尔迪的乳白色,a . Esuli t . Fagni f·塞巴斯蒂亚尼,“多商店基于元数据的移动应用分类监管,”ACM研讨会上应用计算的程序萨拉曼卡,页585 - 588年,西班牙,2015年4月。视图:谷歌学术搜索
n, s . c . h . Hoiy s . Li和肖x”SimApp:一个框架,用于检测类似的移动应用程序通过网络内核学习”WSDM学报》2015年第八届ACM国际会议网络搜索和数据挖掘,第314 - 305页,上海,中国,2015年1月。视图:谷歌学术搜索
b . Olabenjo”,运用朴素贝叶斯分类谷歌玩应用分类,”2016年,https://arxiv.org/abs/1608.08574。视图:谷歌学术搜索
诉Radosavljevic,陈平,m . Grbovic et al .,“智能手机应用的利益目标分类广告市场,”《国际会议的同伴在万维网上加拿大蒙特利尔,页93 - 94,,2016年4月。视图:谷歌学术搜索
l .江c·李、王,和l .张“深特征加权朴素贝叶斯和文本分类的应用,”人工智能技术的工程应用52卷,26 39,2016页。视图:出版商的网站|谷歌学术搜索
l .江s王、c·李和l .张“结构扩展多项朴素贝叶斯、”信息科学卷,329年,第356 - 346页,2016年。视图:出版商的网站|谷歌学术搜索
k·尼噶,a . k . Mccallum杜伦,t·米切尔,“文本分类标签和标记文件使用EM,”机器学习,39卷,不。2 - 3、103 - 134年,2000页。视图:出版商的网站|谷歌学术搜索
江l和c·李,“学习实例加权朴素贝叶斯的标记和未标记数据,”智能信息系统杂志》上,38卷,不。1,第268 - 257页,2012。视图:出版商的网站|谷歌学术搜索
r·约翰逊和t .张“Semi-supervised卷积神经网络用于文本分类通过区域嵌入”诉讼进展的神经信息处理系统加拿大蒙特利尔,页919 - 927,,2015年12月。视图:谷歌学术搜索
k .尼噶的,”co-training有效性和适用性的分析”学报》国际会议信息和知识管理美国弗吉尼亚州麦克莱恩,2000年11月。视图:谷歌学术搜索
x Wan,“Co-training跨语言情绪分类,”《ACL-IJCNLP 2009 -联席会议。第47届会议的计算语言学和第四国际协会的联合会议上AFNLP的自然语言处理,页235 - 243,斯特劳斯堡,宾夕法尼亚州,美国,2009年。视图:谷歌学术搜索
l .施马x, l . Xi段,和j .赵”基于粗糙集和整体学习semi-supervised文本分类的算法,”专家系统与应用程序,38卷,不。5,6300 - 6306年,2011页。视图:出版商的网站|谷歌学术搜索
d·j·米勒和h . s . Uyar”的专家分类器学习基于标记和未标记的数据,”先进的神经信息处理系统麻省理工学院出版社,页571 - 577年,剑桥,妈,美国,1997年。视图:谷歌学术搜索
诉Sindhwani和s . Keerthi“大规模semi-supervised线性支持向量机”学报》第29届国际市立图书馆年会在信息检索的研究与开发,页477 - 484,纽约,纽约,美国,2006年8月。视图:谷歌学术搜索
朱x和z . Ghahramani”,学习从标记和未标记数据和标签传播,“技术。众议员2004年,页237 - 244年,卡内基梅隆大学,匹兹堡,PA,美国,2002年,技术报告。视图:谷歌学术搜索
a .布卢姆和美国拉”,学习使用图mincuts标记和未标记数据,”《18国际会议上的机器学习,页19-26,蒙特利尔,加拿大,2001年6月。视图:谷歌学术搜索
朱x、z . Ghahramani和j·拉弗蒂“Semi-supervised学习使用高斯字段和谐波函数机器学习的国际会议,卷2,页912 - 919,华盛顿特区,2003年8月。视图:谷歌学术搜索
a .布卢姆和t·米切尔与co-training结合标记和未标记数据,”ACM年会的程序计算学习理论新布伦瑞克,页92 - 100年,新泽西,美国,1998年7月。视图:谷歌学术搜索
Z.-H。”周和m . Li Tri-training:使用三种分类器,利用未标记数据”IEEE工程知识和数据,17卷,不。11日,第1541 - 1529页,2005年。视图:出版商的网站|谷歌学术搜索
r·h . Wu陆、k . Wong和k .郭”解释TF-IDF术语权重为相关决策”,ACM交易信息系统,26卷,不。3 p。2008。视图:出版商的网站|谷歌学术搜索
X.-H。表象,C.-T。阮,D.-T。勒,L.-M。阮,s Horiguchi,太张扬。哈,“一个隐藏的基于主题的框架构建应用程序web文档较短,”IEEE工程知识和数据,23卷,不。7,961 - 976年,2011页。视图:出版商的网站|谷歌学术搜索
d·m·布莱a . y . Ng,乔丹,“潜在狄利克雷分配”机器学习研究杂志》上,3卷,不。4 - 5,993 - 1022年,2003页。视图:谷歌学术搜索
y金”,句子分类,卷积神经网络”实证方法的会议自然语言处理(EMNLP)1751年,页1746 -多哈,卡塔尔,2014年10月。视图:谷歌学术搜索
https://code.google.com/p/word2vec/。
m . Lv l·陈,陈t、g . Chen”Bi-view semi-supervised学习人类活动基于语义识别使用加速器,“IEEE移动计算,17卷,不。9日,第2001 - 1991页,2018年。视图:出版商的网站|谷歌学术搜索
诉Sindhwani和d·s·罗森博格多视点学习和歧管co-regularization再生核希尔伯特空间理论的一个,”机器学习的国际会议赫尔辛基,页976 - 983年,芬兰,2008年7月。视图:谷歌学术搜索