文摘
自然语言处理(NLP)授权移动计算是使用NLP技术在移动环境的上下文中。研究在这一领域备受关注的不断增多的出版物在过去五年。本研究提出了研究领域的现状和发展趋势通过客观、系统、全面审查相关的出版物可以从Web的科学。分析技术包括描述性统计方法,地理可视化方法,社会网络分析方法,潜在狄利克雷分配方法,使用一种亲和力传播聚类方法。我们定量分析方面的出版物的统计特征、地理分布、合作关系,话题发现和分布。这一领域的系统分析说明了出版物的发展随着时间的推移和识别当前的研究兴趣和潜力为未来的研究方向。我们的工作可以帮助研究人员的研究现状。它还可以帮助监测新研究领域的科学和技术发展。
1。介绍
随着移动设备的发展以及无线通信技术的发展,移动计算成为显著的重要范式在当今世界网络计算系统(1]。移动计算使电脑正常使用而在运动的状态。基于情境感知信息在个人和无处不在的环境中,移动计算自动提供服务。快速增长的移动设备的使用,产生深远的和多样化的信息立即迅速和分布式数字化格式(2]。大量有价值的信息的非结构化文本中存在的需要处理,如网页,短信、推特/微信消息,等。自然语言处理(NLP)侧重于计算机之间的交互和自然语言文本。NLP能够提供一个计算机程序处理和理解非结构化文本的能力。通过自动分析用户内容采取适当行动的意义,NLP可以在移动环境下使应用程序更聪明。
NLP授权移动计算研究领域从科学界已经吸引了越来越多的利益,见证12出版物出版物从2016年到2000年的55例网络科学(我们)。一些代表性的例子如下。陈等人。3)应用多任务学习的技术使用深层神经网络有中英文语言交流计算所者的认可。提出了三个方案的辅助任务介绍语言信息网络和改善预测的语言切换senone分类的主要任务。提出的方案提高了识别语言和平均相对总体错误率降低了4.4%在处理现实世界有中英文语言交流语料库在移动语音搜索者。Ilayaraja et al。4)提出了一种加权关联规则挖掘预取技术确定辅助服务项目,考虑服务的访问频率,连续查询请求之间的语义距离和空间距离服务实例和用户上下文(如位置、服务类型和查询请求时间)。黄等。5]分析了学生的词汇用法使用语料库分析工具来识别和解压上下文环境中移动,cloud-assisted汉语学习环境促进了关键的学习成果。Rasanen、沙里宁(6)提出了一种基于稀疏hyperdimensional编码序列结构序列的预测。他们的实验表明,该方法能够获取有关variable-order结构序列。一个基于NLP工具丛林是由Puppala et al。7)病理报告中提取和结构化数据的自动支持临床应用的解决方案。筛选信息,目的是在人类免疫缺陷病毒/获得性免疫缺陷综合症,Adesina et al。8)设计了一个单语基于短消息服务系统检索的常见问题。
文献计量分析的定义是使用统计方法评估学术出版物从客观、定量的角度来看在一定领域(9]。的好处包括文献计量分析组织信息在一个特定主题领域(10),评估的科学知识的发展一个特定的主题和评估科学质量(11),确定研究经费的影响,比较研究性能在不同的从属关系和文档的变化研究劳动力,和识别新兴领域的研究重点和预测未来研究成功12]。对于研究人员,尤其是新人,文献分析可以帮助他们更好的选择潜在的研究主题,展示的价值和影响他们的相关工作,识别合适的学术研究者寻求科研合作,跟上新研究现状和新技术变革的13]。
文献计量分析已被广泛应用于各个领域的学术产出的质量和生产率的测量,并演示了其优秀的有效性从长期的实践。相关研究主要集中在揭示出版统计特征,探索合作关系,揭示研究主题及其演化。一些例子如下。耿et al。14)的研究领域进行了文献调查住宅能源和温室气体排放为目的的发现研究现状。在工作中,引文分析被用来评估期刊的影响,国家,和作者,而网络分析评估国家之间的关系,作者,关键词。基于117340年斯高帕斯与肥胖相关的研究出版物索引数据库1993 - 2012年出版,汗et al。15)报道,该领域的研究趋势和协作模式。Roig-Tierno et al。16)进行了文献计量分析研究出版物的应用定性比较分析(QCA)。他们的研究揭示了不同定量QCA的三个变体。Albort-Morant和Ribeiro-Soriano17重点研究企业孵化器的发展。他们从我们根据书目分类445出版物等指标研究领域和出版年份。他们的研究揭示了企业孵化器缺乏出版物和突出的分散性质研究的主题。Merigo和杨18),旨在识别相关研究和行动研究领域的最新趋势和管理科学。分析涉及一些有影响力的期刊,二百年大多数引用的出版物,生产力和有影响力的作家。Zhang et al。19定量和定性评估碳税相关文献从1989年到2014年使用文献计量分析。他们的研究表明,美国是领先的国家阿姆斯特丹自由大学和麻省理工学院的和斯坦福大学在研究领域是最富有成效的关系。Randhawa et al。20.)进行了系统回顾的出版物在开放创新(OI)使用文献计量学研究领域,cocitation分析和文本挖掘。三个不同的研究领域内OI,即。,firm-centric aspects of OI, management of OI networks, and role of users and communities in OI. In order to discover the worldwide trends in the research field of drying brick/tile, Yataganbaba and Kurtbaş [21]分析了相关专利的,例如,出版数量、作者和所有权,以及国际合作模式。Merigo et al。10探索模糊科学的研究发展趋势。类似的工作也已在其他领域进行的,例如,自然语言处理(22),神经影像(23),和糖尿病(24]。
我们所知,没有科学的NLP能力目前移动计算研究领域。因此,在这项研究中,我们对出版物进行文献计量分析从我们检索2000 - 2016年期间探索研究领域的研究现状。的主要目标是解决以下问题:调查公布的统计特征和出版合作,探索出版的地理分布,可视化科学合作关系和女主播当前主题的研究热点和研究主题的变化。
剩下的纸是组织如下。部分2介绍了方法和材料。文献计量分析结果在部分检索研究出版物报道3。结果和讨论部分所示4虽然部分5总结了工作。
2。方法和材料
五种不同的方法应用于分析研究出版物在NLP授权移动计算领域从我们检索。节中描述的方法的细节2.1和发布数据介绍了部分2.2。
2.1。方法
2.1.1。描述性统计方法
描述性统计是简短的描述性的系数,总结信息的集合,可以代表整个人口或样本。描述性统计是常用的集中趋势测量和变异性的措施。集中趋势测量通常包括的意思是,中位数,和模式,而变化的措施通常包含标准偏差,最小和最大变量,峰度和偏态。这两个措施使用图、表和一般简单地描述数据的讨论。这样可以简化大量数据以明智的方式给定量描述在一个可控的形式来帮助用户理解数据的含义进行了分析。
在这项研究中,运用描述性统计方法获得的特征检索刊物,包括出版物分销,最有影响力的出版物生产期刊、作者、背景、和国家/地区,以及合作者,coaffiliation, cocountry出版/地区分布和主题分布。
2.1.2。地理可视化方法
地理可视化或Geovisualization是一组工具和技术支持地理空间或空间数据的分析,强调知识建筑在知识存储和信息传输。通过结合技术,如图像处理、仿真、虚拟现实,计算机可以帮助显示信息的方式可以找到模式。Geovisualization可以应用于解决问题的所有阶段的地理分析,从开发的初始假设知识发现、分析、演示和评估。根据Tobler地理学第一定律(25),与其他所有的一切,但是附近的事情更相关而不是遥远的事情。通过Geovisualization,我们可以使用位置作为关键指标变量,得到相关信息先前未被发现的。位置或区段在地球时空可能会记录发生的日期/时间。经度,纬度和海拔表示为X,Y,坐标,分别。
在这项研究中,我们应用地理可视化分析探索地理分布的出版物在国家/地区的水平。
2.1.3。社会网络分析方法
社会网络分析是研究社会结构的过程使用网络和图论[26]。它关注结构的关系,从休闲熟人密切债券。网络结构为特征的节点(网络)内物品、个人或事物的边缘或链接(关系或相互作用)连接节点。已经进行了研究使用社会网络分析在不同的领域,例如,协作图(27),社交媒体网络28),和疾病传播29日]。这些网络经常通过社会关系网图可视化表示为节点的点和边表示为线。社会网络分析可以帮助识别个人,团队,和单位扮演中心角色,利用同伴的支持,并加强现有渠道的效率和有效性30.]。
在这项研究中,我们应用社会网络分析来探索特定国家/地区的合作关系,从属关系,作者在NLP授权移动计算研究领域。国家/地区之间的合作、联系和作者使用交互式可视化力指导网络。在网络中,节点代表特定国家/地区,从属关系或作者,行表示合作。节点的大小代表出版数量的一个特定的国家,信仰,或作者。线的宽度反映了两个国家之间的合作频率/地区,从属关系,或作者。颜色表示特定的大陆国家/地区或特定国家/地区归属或作者。用户可以针对特定国家/地区探索合作关系,从属关系,或者作者通过动态拖动节点。
2.1.4。潜在狄利克雷分配方法
布莱提出潜在狄利克雷分配(LDA), (31日),是一个生成概率模型。基本的想法是,文档被表示为随机混合物在潜在的主题,每个主题的特征是一个分布的话,和主题都被认为是不相关的。
LDA正式定义了以下条款:(1)一个词被定义为一个项目从一个词汇索引 。(2)一个文档是一个序列词用 。(3)一个语料库是一家集文件用 。
LDA假设生成过程如下:(1)这个词分布β它包含一个词的概率发生在给定主题是由吗β~狄利克雷(δ)。(2)比例θ一个文档的主题分布是由θ~狄利克雷(α)。(3)为每一个词在文档中d,主题选择的分布~多项式(θ),选择一个词从一个多项式概率分布条件 。
至于变分采用(VEM)估计,对数似一个文档 是由
吉布斯抽样定义了一个马尔可夫链等可能的变量分配空间马尔可夫链的平稳分布是对变量的联合分布。因此,它是一个马尔可夫链蒙特卡罗方法(32]。其目的在于构建一个马尔可夫链收敛到目标概率分布在高维度模型,然后最接近目标样本分布概率分布将提取。吉布斯抽样可以通过对数似
困惑,所示(3),常被用来评估模型在伸出数据,相当于几何平均每个字的可能性。困惑的是,越少越好模型。
在(4),表示的频率j发生在th术语d文档。如果模型是通过吉布斯抽样,困惑的可能性可以确定使用
此外,估计使用吉布斯抽样需要规范的先验分布的参数值。
在这项研究中,发现和主题分布进行分析利用LDA模型有以下步骤:(1)我们分配权重的分段作者关键词和关键词+、标题、出版和抽象为0.4,0.4和0.2,分别确定在我们实验前(13]。(2)术语Frequency-Inverse文档频率(TF-IDF)被用来过滤掉不重要的方面。作为一个最受欢迎的term-weighting计划,TF-IDF随次数的增加而成正比增加一个术语出现在出版,但往往是抵消这个词的频率在整个集合的出版物。我们计算了TF-IDF值的所有条款条件。通过手动检查这些排名方面,我们定义一个阈值为0.1经验。只接受一个TF-IDF值大于阈值都进行进一步分析。(3)通过采样、数字设置为16个不同的主题2:10 。为每个主题数,10倍交叉验证被用来评估模型的性能。具体来说,数据集被分成10多个运行测试数据集进行。困惑的标准被用来选择最佳主题数量。α对吉布斯采样的值初始化α模型拟合值与最优使用VEM主题数量。(4)的初始化α和最优主题数,我们采用了吉布斯抽样和LDA方法VEM估计模型。(5)通过匹配主题被VEM和吉布斯抽样根据车辆疾驰的距离,最好的匹配可以识别的最小距离。过放荡生活距离计算(5),和表示两个概率的措施。
2.1.5节讨论。亲和力传播聚类方法
亲和力传播(美联社)算法通过弗雷和Dueck [33]。这是一个基于消息传递集群技术数据。美联社不需要预定义的集群的数量。它能够识别集群中心,或原型代表集群的成员。最初,所有节点都视为典范。“偏好”是用来反映可能选择一个节点作为一个范例。如果没有先验知识是可用的,所有节点将被分配相同的偏好值。美联社已被证明是更有效的和有效的集群识别比传统的聚类方法,例如,——(34]。
AP算法需要 相似的函数来反映数据点的健身数据点的范例 。美联社的目的是最大化相似 每一个数据点之间及其选择的范例 。每个节点还有一个自相似性 。个人数据初始化和自相似性更大更有可能成为典范。所有数据点都同样可能是原型初始化时使用相同的恒定的自相似性。集群产生的数量将相应增加和减少这种常见的自相似性的输入。
有两种类型的消息中包含这种技术。的责任 是直接从候选人的范例。它表明适合是的范例,考虑竞争潜在的范本。的可用性 从候选人范例发送吗回 。它表明了渴望成为一个范例基于支持其他数据点的反馈。两个的 和self-availability 能反映累积的证据吗是一个范例。责任和可用性的更新公式如下:
责任和可用性的信息更新 ,在那里λ是一个权重因子在0和1之间。在美联社,收敛集群时完整的消息。同时,AP算法能够确定在一个特定的数据点聚集簇头状态在其特定的集群。一个点变成了集群头当自我负责+ self-availability变得积极。在收敛,每个节点簇头可以计算使用
term-topic的基础在我们的研究中,用后验概率矩阵,我们应用AP聚类的聚类分析方法通过LDA方法确定的主题。
2.2。材料
网络科学、最权威的引文数据库,被用作数据源检索研究出版物在NLP授权移动计算领域。首先,相关的关键字列表“自然语言处理”和“移动计算”是由领域专家。“科学引文索引扩展”和“社会科学引文索引”作为索引,出版物在这项研究中被确定使用的特定查询在表1。716年在“文章”类型出版物2000 - 2016。引文统计,2017年9月8日,被认为是为每一个出版物。
716年出版的原始数据被下载为纯文本。关键要素包括标题、作者、期刊、出版日期、主题范畴,语言,资金,作者关键词,关键词+、抽象,和作者的地址,以及数量的引用,网页,和引用,被提取。为了确保他们研究领域密切相关,手动验证是由领域专家在每个出版物。471的出版物被最终确认为相关的分析。此外,确定了相应的从属关系和国家/地区从作者地址信息。从作者关键词提取关键词,关键词+、标题和抽象。
出版物的统计特征如表所示2。的平均页码出版物是15.66,平均参考出版物的数量是33.29。有48个主题类别包括,前三类别是计算机科学(38.76%)、工程(16.27%)、和电信(10.98%)。
471年出版的分布特征图所示1。图1(一)显示的数量的分布国家/地区,从属关系,作者,基金。图1 (b)显示的数量的分布关键词,网页,和引用。标题字符的数量的分布如图1 (c)。在图1 (d)正确的底部说明了抽象的字符数的分布。
(一)
(b)
(c)
(d)
3所示。结果
3.1。出版与年
总出版物,总引用,平均每个出版物的引用数量,图中演示了年度引用的数量2。结果表明,NLP授权移动计算领域的研究展览整体上升趋势波动(从12出版物出版在2016年到2000年的55例)。出版提供了一个稳定的数量自2010年以来增加的趋势。基于2010 - 2016年的数据,我们开发了一个回归模型通过设置独立的变量时间/ 1000和(时间/ 1000)2。计算估计的回归模型 。调整的拟合优度模型的是0.9468。回归模型,数字在2017年预计65年出版,出版在2017年我们的实际数量是66。引用的趋势并不与出版数量,保持一步和极端值出现在2002年,431年,2007年,503年和2010年为490。平均每个出版的引文数量计算总引用/总出版物。它显示了一个波动的整体下降趋势从2000年的21.92到2016年的2.53。我们排除了时间的影响自首次出版使用公式:年度引文的数量(C / Y)=总体评价/ (2016年+ 1-publishing)。一年一度的引用数量的增加在波动从2000年的15.47到139年的2016。
3.2。富有成效的期刊
前11贡献期刊研究领域发表在表中3。这些期刊贡献约21%的总出版物和引用总数的29.20%。最具生产力的3IEEE / ACM音频语音和语言处理事务(25出版物,447引用、17.88 ACP和11所示指数),言语交际(179年11出版物,引文,16.27机场核心计划,6指数),计算机语言(93年10出版物,引文,9.30机场核心计划,6指数)。专家系统与应用程序机场核心计划最高为40.00。我们发现32 100最具影响力的刊物发表在11期刊。根据学科分类的11个期刊,计算机科学拥有最广泛的影响的研究领域。
为了更好地衡量这些11期刊的总体科学重要性,5从科学杂志排名获得的评估指标,包括影响因子(如果),SCImago杂志排名(SJR)由5年,如果源标准化影响/纸(剪),和CiteScore。如果是一个测量反映年度平均数量的引用最近的出版物发表在杂志上。它是主要的和广泛使用的指标在评估一个杂志的意义。SJR是由测量的科学学术期刊的影响。它占引文的数量收到的杂志和期刊的重要性和声望等引用来自哪里。计算5年如果期刊的引文数量除以一年出版物的数量在过去五年》期刊上发表。剪断被定义为《华尔街日报》的引文数的比例每出版物和引用它的主题领域的潜力。CiteScore指数,由爱思唯尔在2016年12月,总引用的比值计算得到在某一年的所有出版物发表在一个给定的《在前三年和出版物的数量在前三年发表在《华尔街日报》。
因此,11个生产期刊比较通过使用他们的,如果SJR,由5年,如果剪断,并为2016年,CiteScore如图3。至于如果SJR,由CiteScore,前三信息科学(如果4.832,SJR 1.91,由和CiteScore 5.37),专家系统与应用程序(如果3.928,SJR 1.433,由和CiteScore 4.7),和IEEE / ACM音频语音和语言处理事务(如果2.491,SJR 0.813,由和CiteScore 3.5)。至于5年,如果前三信息科学4.731(5年),专家系统与应用程序3.526(5年)个人和无处不在的计算2.512(5年)。至于剪得分,前三IEEE / ACM音频语音和语言处理事务(剪3.143),信息科学(剪2.537)专家系统与应用程序(剪2.492)。
3.3。最有影响力的刊物
引文的数量反映了出版物的声望和影响力在科学界10]。因此,我们使用了总引文作为测量的影响。有69年和129年的出版物引用的数量≥20和≥10。表列出了前15名最有影响力的刊物4。苗族的出版物等。35)2010年(376引用)是最有影响力的,紧随其后的是(36)发表的麦肯齐和Soukoreff(172引用)和2002年(37]流浪者和德鲁在2007(148引用)。我们进一步考虑的数量每年15出版物的引用。前三出版物用这个指标来衡量(38)2015年出版的由曹等人( ),(35苗族等人于2010年( )和(392013年由Mostafa ( )。这三个出版物排名14日1日和6日,分别根据总引用。
3.4。多产的作家和从属关系
471年的出版物,有1408个作者。451 441是第一作者和作者。20作者有3个或更多的出版物,98作者有2个或更多的出版物。表列出了20个最多产的作家5。根据结果,最多产的作家陈道从新加坡(4 4基金支持的出版物,108年的引文,27个ACP和4指数)和Mizzaro,斯特凡诺从意大利(4出版物,45引用,11.25机场核心计划,和3指数)。陈道被列为第一作者3出版物和所有出版物的出现在前100名最有影响力的出版物。Mizzaro,斯特凡诺与他人合作出版在他所有的4出版物和1出现在前100名。至于基于引文数量排名,前三多产的作家李,Chin-Hui来自美国(173引用和57.67 ACP),陈道从新加坡(108引用和27 ACP)谢,兴17岁来自中国(51引用和ACP)。排名基于机场核心计划指标收益率相同的结果。Kim Harksoo从韩国获得资金支持,即。7他3出版物。
544附件从60个国家/地区的NLP授权移动计算研究领域的出版物。表6列表15最有效的从属关系。其中,5是来自美国,3来自中国,来自台湾的2,1从印度,1从意大利,1从韩国,从英国1来自新加坡,1。前4最富有成效的关系南洋理工大学从新加坡(87出版物、引用、10.88 ACP和5指数),清华大学从中国(8出版物,42引用,5.25 ACP和4指数),微软亚洲研究院从中国(115出版物、引用、16.43 ACP和5指数),国立台湾大学从台湾(83出版物、引用、11.86 ACP和5指数)。南洋理工大学与他人合作在5出版物和作为第一联系4。3这些5出版物100大最有影响力的出版物出现在列表中。清华大学与他人合作在4出版物和作为首先联系在8出版物。这些8出版物是由21个基金。至于排名基于总引用,前三乔治亚理工学院来自美国(550年引文和110 ACP),微软亚洲研究院从中国(115引用和16.43 ACP)国立成功大学从台湾(62引用和12.4 ACP)。排名基于机场核心计划指标收益率相同的结果。
3.5。地理分布
来自60个国家/地区的471年的出版物。出版物的数量与1国家/地区范围 3国家/地区范围 5范围 。表7显示了前15名最有效的国家/地区。图4说明了出版物的地理分布。前4国美国(105出版物,1795引用,17.1 ACP, 22岁指数),中国(61出版物,372引用,6.1 ACP和10指数)、英国(44出版物,418引用、9.5 ACP和12指数)和韩国(41出版物,281引用、6.85 ACP和8指数)。从美国105年的出版物中,32 100大最有影响力的出版物出现在列表中。指出,来自新加坡的出版物有最高的机场核心计划,这表明高质量的出版物。对于大多数的前15名富有成效的国家/地区,国际合作率30%左右,除了希腊与澳大利亚0和61.11%。美国的最亲密的合作者是9的15个国家/地区。巴拿马运河管理局国际合作的出版物远远高于noninternationally出版物合作对于像中国这样的国家/地区,日本、意大利、法国、西班牙、和新加坡。这可能表明,国际合作可以提高出版物的质量。
由于出版物主要分布在美国,中国,英国,韩国,我们进一步探讨了年度出版发行版对于这四个国家,如图5。出版物的数量在整个美国和中国是在波动呈现上升趋势。至于美国,增加数量从2000年的2 2007年9,但在2010年下降到2。在那之后,上升趋势越来越明显。形势对中国很像美国在2010年之后,亲眼目睹了大量高涨的NLP授权移动计算研究自2010年以来,这两个国家。至于英国和韩国,出版物的数量不会增加太多波动有多年。
3.6。合作关系
图6显示了国际合作的趋势,国际合作出版的百分比。我们发现,国际合作在2000年- 2016年增加出版物。国际合作的比例从2000年的8.33%增加到2016年的32.73%。这表明在NLP授权移动计算研究领域的国际合作变得越来越重要。
数据7和8目前合作的机构层面,作者的合作水平,分别。不同机构之间的合作越来越频繁。institution-collaborative出版物的比例从2000年的16.67%增加到2016年的58.18%。超过90%的出版物multiauthored自2011年以来。值得注意的是,这个比例在2015年达到100%。
此外,针对特定国家/地区合作关系,从属关系,作者与社会网络可视化分析。合作网络如图48个国家/地区9。17人来自亚洲(表示为橙色节点),3从北美(蓝色表示为节点),22个来自欧洲(表示为绿色节点),3从非洲(表示为紫色的节点),2从南美(布朗表示为节点),和1从大洋洲(表示为红色节点)。有141个关系与出版物的数量≥2,和91人之间存在合作。图10显示了一个合作网络的91从属关系。23 91从属关系的美国和来自中国的14岁。至于合作作者的水平,有98个作者和出版数≥2。其中,65年作者参与合作。我们创建了一个65年作者合作网络,如图11。
3.7。话题发现和分布
通过设置TF-IDF值阈值为0.1,排名的频率。表8列出排名前20位的最常用词,前5项“代理”(369),“形象”(215),“情绪”(128),(83),“对话”和“健康”(81)。图12介绍了模型拟合的困惑用吉布斯抽样与不同数量的话题。结果表明,最优主题40和80之间。因此,我们这个话题数量设置为40。的α将交叉验证安装使用VEM的平均值0.01101332。使用的参数,我们估计LDA模型用吉布斯抽样。通过在每个主题代表术语的语义分析,以及审查文本意图相应的出版物,我们分配每个主题的潜在主题。主题的顺序确定基于车辆疾驰的距离。具体来说,主题36是最好的匹配主题和主题11排名第二,而主题37差匹配。由于空间限制,表9只显示十大最佳匹配主题最常见的术语。每一个出版物被分配到最可能的后验概率最高的话题。整合主题比例的出版物,我们获得一个主题分布。4最常见的研究主题是主题36(6.38%)、主题4(4.26%),11(3.83%)、主题和主题17(3.83%),而4最频繁的研究主题是主题26(1.49%)、主题23(1.28%)、主题10(1.06%),和主题20 (1.06%)。
(一)
(b)
我们使用了AP聚类分析进行的聚类分析40的话题。主题相似度测量的一种方法是基于term-level相似性的假设主题可能包含相同的条款。聚类结果基于term-topic后验概率矩阵如图13,40主题分为8组。
识别新兴研究课题可以提供宝贵的见解研究领域的发展。同样,褪色的识别研究主题也可以帮助了解热点进化(40]。然后我们探讨的年度出版物比例40研究主题,如图14。我们使用Mann-Kendall测试(41),一个非参数趋势测试,检查是否增加或减少的趋势中存在40的话题。试验结果表明,12个主题,包括主题,主题4,主题,主题,主题14日主题18日20日主题主题26日29日主题主题32、33岁的话题和主题,呈现出显著增加的趋势。虽然主题36呈现显著下降的趋势,在两面 的水平。
4所示。讨论
这项研究提供了一个最新的文献计量分析在我们的出版物在2000年- 2016年在NLP授权移动计算研究领域。下面讨论一些有趣的发现。
出版的年度数量分布显示了显著增长趋势,从12出版物出版在2016年到2000年的55例。这表明研究领域越来越感兴趣。
文学特征分析表明,417年的出版物被广泛分散在整个287年期刊。11最有效的期刊一起贡献了约21%的总出版物。前3IEEE / ACM音频语音和语言处理事务,言语交际,计算机语言。计算机科学是最共同的话题在这些11期刊。杂志信息科学拥有最高的,如果SJR,由5年,如果CiteScore,除了剪得分在2016年。
前三最有影响力的出版物是:(35)由苗族等人于2010年出版,(36麦肯齐和Soukoreff发表于2002年,(37]流浪者和德鲁斯于2007年出版。
544年有1408个作者和联系参与出版物。大多数作者(79.18%)只有1出版,和4.25%的作者有3个或更多的出版物。最多产的作家陈道来自新加坡和Mizzaro,斯特凡诺来自意大利。另外,大多数从属关系(70.06%)有1出版。11.89%的关系有3个或更多的出版物。最具生产力的关系南洋理工大学来自新加坡和清华大学来自中国。李,Chin-Hui57.67从美国ACP排名第一排名前20位的多产作家,和乔治亚理工学院110年从美国ACP排名1日15最富有成效的关系。
通过地理可视化分析,60个国家/地区参与了出版物。的前15名生产国家/地区发达国家/地区,除了中国。前2,美国和中国已经显示显著增长的数量自2010年以来科学出版物。这些数字在未来几年预计将继续增长。这部分反映了NLP技术的发展的需要在解决移动计算问题。
科学合作分析表明有显著增长的国际合作,institution-collaborations author-collaborations。通过社会网络分析,我们发现研究者倾向于与他人合作在同一国家或地区,以类似的政府机构,或一个邻近的国家或地区。然而,一些研究机构可能有不同的政府安排的有关大学或医院和研究员可能隶属于多个机构。合著者可能会一起工作但隶属于不同的机构。因此,值得注意的是,institution-wise协作可能不是实际的机构之间的合作。
大多数主题通过LDA方法识别的识别,因为它们是相关研究领域的重大问题。由于空间的限制,我们只提供的解释一些代表性的话题。
主题36和主题11包含单词如“代理”、“移动代理”,“多代理”、“旅程”、“迁移”、“协议”,“截断”。因此,主题36和主题11属于移动代理计算。作为一个新兴的和令人兴奋的范式为移动计算应用程序(42),移动代理不仅可以支持移动电脑和断开连接的操作,还提供了一个高效、方便、实现分布式应用程序的健壮的编程范式。使用移动代理可以带来显著的好处,例如,减少网络流量,克服网络延迟,无缝的系统集成。因此,移动代理是适应移动计算领域。
32个讨论话题关于手机隐私和安全事件。词这一主题包括“隐私”、“私人”、“安全”、“加密”,“保护隐私”,“密码”,“密码系统”。Mollah所指出的et al。43介绍了],安全和隐私的挑战随着移动云计算的发展,旨在缓解资源约束的挑战在移动计算领域的移动设备。研究围绕手机隐私可以找到。例如,Xi et al。44]应用私有信息检索技术在寻找一个来源和目的地之间的最短路径的位置隐私问题没有透露自己的隐私的风险。
1讨论话题移动计算在图像和音节的事件。它包括词汇如“形象”、“音节”,“重新评估”、“基于内容”,“复合音素”,“简单的音素”,“现代拼字法”。图片搜索在移动设备是很值得挑战45]。许多研究人员正在寻求解决这个问题的方法。例如,Cai et al。46)提出了一种新的几何reranking算法特定小词汇表中提到的场景基于Bag-of-Words模型进行图像检索。移动计算音节事件是另一个焦点。代表作品是由爱丁顿和Elzinga [47]。他们进行了定量分析词的语音背景下扑的关注压力位置,后电话和音节划分法。
话题主要集中在4移动社交媒体活动。“推特”、“情绪”、“推”、“Emojis”,“微博”、“意见”,“公共”和“情绪”可以找到在这个话题。社交网络的快速发展,信息传播和演化促进了流行的无线通信环境,尤其是社会媒体平台在移动终端48]。研究人员正在逐渐关注这一领域。例如,根据1亿年收集了来自Twitter的消息,王et al。49提出了一个混合模型的实体。
基于主题分布,我们发现移动代理计算,移动社交媒体计算,声音相关事件计算3 highest-frequent研究主题。从图14以及Mann-Kendall测试结果,我们发现,一些研究主题呈现出统计上显著的增加趋势,例如,形象和音节相关的事件,移动社交媒体计算,健康相关的事件,而研究移动代理计算提出了一种统计上显著的减少趋势。
在专题分析,最优数量的主题被选为40的统计测量模型拟合数据。然而,机械的依赖统计措施可能导致更少的选择有意义的主题模式50]。因此,我们手动检查结果的鲁棒性,确认使用定性评估确定主题与先验知识的基础。对于每个主题,我们检查高频词汇的语义一致性和检查的内容出版高比例的这个话题。
通过AP聚类分析40-topics 8集群,例如,移动代理计算、移动社交媒体计算、图像和音节相关事件,上下文感知计算、声音相关的事件,移动位置计算、健康相关的事件和其他事件。AP聚类分析的结果对整个明智的和易于理解的。然而,我们仍然发现数字8类别不同很多话题。一个可能的原因是聚类方法的选择。然后我们采用分层聚类方法与类别数量设置为8。结果是类似于美联社集群。另一个可能的原因是样本自相关的出版物的数量我们是有限的。
本研究是第一次完整探讨研究现状NLP授权移动计算研究领域的统计角度。这项研究提供了一个全面的概述和一个领域的知识结构从2000年到2016年。这些发现可以帮助研究人员特别是新系统地了解该领域的发展,学习最具影响力的期刊,识别潜在的学术合作,跟踪研究热点。
为未来的工作,有几个方向。首先,更全面的数据预计将包括在内。虽然我们是一个广泛应用的存储库进行文献计量分析由于其高权威,一些相关的会议论文集在我们尚未编入索引。第二,我们打算使用不同的数据聚类方法和比较聚类结果对更深层次的集群分析。
5。结论
我们进行了文献计量分析在自然语言处理授权移动计算科学研究出版物网络在2000年- 2016年出版。文学特征被发现使用描述性统计方法。出版地理分布是探索使用地理可视化方法。运用社会网络分析方法,国家/地区之间的合作关系,从属关系,作者显示。最后,话题发现和分布提出了用LDA方法和AP聚类方法。我们相信,分析可以帮助研究人员理解的合作模式和分布的学术资源和研究中的热点研究领域更多的系统。
信息披露
田勇郝和易建联周是相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
支持的工作大大格兰特从中国国家自然科学基金(没有。61772146),在广东省高等教育创新的学校项目(没有。YQ2015062)、广州(没有的科技项目。201604016136),和前沿的重大项目和广东省(没有的关键技术创新。2014 b010118003)。