微博分类和情绪分析个性化的微博推荐

文摘

挖掘社交网络数据和开发用户配置文件从非结构化的和非正式的数据是一个具有挑战性的任务。该研究构建用户配置文件使用Twitter数据后有助于为用户提供个性化的推荐。公开的推文是获取和分类和情感表达的微博是提取和标准化。本研究使用特定于域的种子列表分类tweet。执行语义和语法分析tweet信息损失降到最低在推的过程中分类。精确的分类和情绪分析后,系统构建用户基于兴趣的资料通过分析用户在Twitter上的文章了解用户的利益。拟议的系统测试的数据集近100万微博并且能够准确分类多达96% tweet。

1。介绍

在过去的十年中,社交网络取得了多方面的进步,由于服务业的快速数字化信息技术和其他领域的进步。大量的信息共享平台和增加与互联网连接1]也导致了网络的总体角度的变化,社会化和个性化2]。2018年12月的月,平均每天在Facebook上有15.2亿个活动用户(3]。这是除了Facebook提供的辅助服务,如WhatsApp,信使,Instagram,每一种都有超过10亿活跃用户,每月(4]。同样,从第三方报告确认,其他平台,比如谷歌旗下YouTube iMessage的苹果,和腾讯微信,也的一部分,不再精英,1 billion-per-month-active-user-club。更重要的是,每四个人中就有三成人网民正积极利用至少一个社交网络平台(5]。从纯技术的观点来看,这种增强连接创造了独特的挑战和机会6,7通过允许用户不仅使用服务,也分享他们的经历,感受,和想法。最有效的和新兴的社交网站Twitter,它允许用户播放最新的(个人、集体、国家或国际)事件以短消息的形式,“tweet”,这通常是由文本、视听内容,和/或外部网站链接(8,9]。Twitter是扮演重要角色在许多领域如社会营销(10),选举活动11],学术界[12),和新闻。标签(话说被符号#)形成一个tweet的关键部分,允许公开内容分类,为用户搜索。这使得标签(s)丰富的共享内容,使有价值的分析从而发现新的见解和趋势。信息发现和知识创造,这过多的用户创建的内容允许情绪分析的应用,旨在提供一个自动化的机制来确定作者的态度主体或其整体语境极性(13]。这些见解尤其有用的数字营销,使组织和政府在某些情况下(如在“阿拉伯之春”(14])来监视和测量社交媒体和增益可操作的业务/社会智力,允许了解人们如何看待他们的品牌,产品和服务,提高品牌知名度。

现在以同样的方式,社会媒体发挥积极作用在改善医疗保健服务提供(15]。转向更以用户为中心的方法,社会媒体使实时信息流,从而使直接干预的个人和社区医院,诊所,或在家庭16]。例如,在一个调查17),作者报道,搜索健康信息突出作为第三个最流行的在线活动。今天,病人,无论他们的年龄,性别,或社会经济排名,依靠网络来找到他们的特定的需求(相关的医疗信息18,19]。此外,病人现在可以做出更明智的决策通过检查同龄人的经历的症状,反应和治疗某种疾病有关,从而消除病人和卫生保健提供者之间的通信(20.]。此外,医疗机构也可以福利通过发现问题的及时响应和监控用户的行为、条件、和情感在他们的访问2]。Keckley和霍夫曼21]研究在线社会网络分析它们对患者健康的影响,发现人们得到更多的利益而在社交网络上分享他们的数据,如PatientsLikeMe门户(22]。这个虚拟连接可以提供很多好处,如提高服药依从性,药物警戒(23),减少副作用,增强社区支持,改进的流行病学分析24),通常更好的医疗保健服务。因此,可以肯定地说,医疗福利将直接关系到社会可达性(25]。据普华永道卫生研究所(2618 - 24岁),近90%用户愿意在社交网络上分享他们的健康信息。

然而,这样的大使用社会媒体也介绍了信息过载的问题。社交媒体的大量数据,用户发现很难获得个性化和简明的信息。短和嘈杂的文本在社交媒体上也很难理解完整的上下文和数据进行分类。在本文中,我们提出一个框架,用于向用户提供个性化的推荐在社交网络上通过分析他的健康利益。虽然这工作可以广义在许多领域,今后的研究工作提出了重点是处理医疗数据和信息。

拟议中的分类和情感分析系统使用语义结构,重要的关键词,和意见词从微博监控用户的利益,然后生成个性化医疗和wellness-related tweet的建议。这些个性化的微博由公开的内容正是preclassified由我们的系统。对于微博的分类,提出了系统使用一个特定于域的种子列表这有助于决定哪些类别属于特定的错误消息。分类后,该系统也适用于lexicon-based情绪分析方法提取主题在tweet情绪水平。增加微博分析的准确性,该系统也可以利用同义词使用关键词。该模型进行更精确的分析微博丰富时间模式和语义的关键词优化筛选结果,有助于从消息中提取更多的知识。概要文件生成的测试,我们收集了6000推特的用户和用户配置文件生成的提取与健康有关的关键词,实体和情绪。对于分类,系统测试不同类别的近1000000条。由于我们预先分级策略和其他重要的改进,我们当前的模型显示一个tweet分类精度96%,明显比我们以前公布的方法,准确率89.5% (27]。该系统还测量了多少信息一类可以从其他类别提取被忽略的关键字搜索tweet。

提出了工作的主要贡献是完整的个性化推荐系统的设计和实现为用户根据他的时间社交媒体的历史。该系统不仅依赖于关键字的兴趣也考虑了用户的时间情绪。tweet的句法和语义分析导致更完整的配置文件生成和微博分类。

本研究论文的其余部分的结构如下。部分2讨论相关工作与我们的工作密切相关。节3,我们现在提出平台的理论基础及其组件,其次是部分4简要描述了我们的实现策略和提出该系统的评价结果。最后,部分5总结了研究工作,并强调了未来的工作。

社交媒体分析是一个活跃的、跨学科的研究领域,这使得研究人员获得的独特观点到人类和数据的行为。这个主要非结构化数据的数量和品种,生产以很高的速度,导致了许多工具和技术提取的发展或者说提高社会交往的价值。然而,仍有许多挑战在识别相关数据,跟踪行动和反应,提高数据的准确性,优化数据存储、数据处理和可视化的信息,提取隐藏的模式,关闭数据知识循环(28]。研究人员追求的关键任务应用研究在这一领域是不仅识别技术用于随后将数据转化为信息和知识还要看它的影响(29日]。Twitter,连同其流API,和一个大开放(的保持他们的微博公共)用户启用了进一步丰富的金矿的监测和分析产生的数据通过一种新型的信息传播策略。

最近的一个分析微博的传播工作,为著名的墨西哥政治人物,通过利用直观教具和模式识别方法,提出了(30.]。在这部作品中,作者收集了六个著名的墨西哥政客的tweet,他们提到,转发,喜欢他们的微博。运用情绪分析之后,对比基于模式分类器在124年名义和119年数值(5)特性,提取微博的作者是量化影响基于他们的传播模式。在前面的方法中,提出的(31日),作者利用社交功能(如数量的追随者,最爱,和其他人)和微博特性(如数量的标签,推特的长度,和其他人)预测的可能性微博被repropagated(也称为转发)。在这部作品中,作者使用了被动攻击的算法自动分类的tweet。他们的模型的性能被人体略高于手动分类。微博分类也是重要的早期反应,确定相关数据后立即灾难事件。李等人。32)建立在早期作品和监督朴素贝叶斯模型,随着迭代的自我训练策略,能够提供良好的结果。然而,结果来自一个受控环境(CrisisLexT6-labelled数据集,覆盖灾害2012年10月至2013年7月6日),及其在生活中的应用环境需要大量的数据预处理。

这样的分类是一个用例构建推荐系统,可提供更个性化的用户体验。基本URL推荐系统基于用户tweets,话题的兴趣模型,引入社会投票陈et al。33]。使用12投票算法和来自44个用户的反馈,作者能够提供一个基本平台未来的推荐系统基于Twitter的数据。亚伯et al。34- - - - - -36]分析了用户建模展示个性化的新闻建议和改进Twitter的语义丰富新闻活动的tweet。工作使用的方法包括基于主题的、实体和标签来分析用户建模。他们还关注时态模式提取用户的概要文件。朴和布雷斯林(37]分析了用户建模策略,通过融合分类,类和连接实体从DBpedia扩展用户兴趣档案,发现他们的方法明显优于现有方法的上下文中链接推荐。动态用户modeling-based推荐系统提出了邓et al。38)将信息从twitter和Youtube视频排名系统采用基于相同的用户的资料。这种策略极大地增强了视频的相关性建议。侯赛因et al。39]发现Twitter实体之间提供中介之间的语义关系,从而允许用户访问他们的利益的相关内容。Balabanović和Shoham40)提出了一个系统来构建用户配置文件通过结合协作和基于内容的推荐技术。在基于内容的推荐系统中,用户首选项被认为是提供建议。另一方面,协作推荐的系统识别用户与给定用户的品味相似,并提供基于这种相似性的推荐。

另一个流行的Twitter的数据分析用例是情感分析。易et al。41)提出了一个模型来提取仅基于subject的情绪从微博中提取主题和情绪,紧随其后的是一个混合的应用程序模型检测之间的关系。同样,Nasukawa和彝语(42)识别情绪相关的特定主题使用自然语言处理技术。新奇的方法是基于马尔可夫模型识别词性的薄铁片,其次是乐此不疲的技术来识别情绪相关的主题。Godbole et al。43]介绍了一个系统来确定公众情绪,和它的变化随着时间的推移,新闻和博客的实体。使用同义词和反义词,作者能够找到一条路径之间的正面和负面的极性和增加种子列表。

其他的一些受欢迎的用例包括改进的搜索,提高了微博内容,预测选举结果。回顾研究迎合这些用例识别技术是一个重要的工具,它可以帮助提高推荐系统的影响和有效性。郭和租赁44)提出了一个新颖的排序模型,Twitter上的搜索功能丰富,个性化和内容分析。克拉克和荒木45]介绍了文本归一化技术对错误进行分类和非正式语言用于社交媒体分成不同的组,其次是自然语言处理技术来纠正常见的语音和俚语的错误。相反,Laniado和彼得46)在Twitter上应用标签,并演示了映射的freebase百分之五十的实体的标签。系统分为四个维度:频率、特异性、一致性和稳定性评估标签的标识符。菲和穆勒47)提出了一种方法来将标签与百科全书的实体。他们的系统使用维基百科实体的描述标签在微博理解标签的实际背景。Tumasjan et al。48]分析了微博作为预测选举的来源。他们使用的背景下德国联邦选举调查是否使用Twitter作为一个论坛的政治考虑。他们用LIWC 200749),一个文本分析软件,它使用心理测量的验证词典识别和评估的情感,认知,和给定文本的结构组成样本。作者使用12个维度包括过去和未来取向,积极的和消极的情感,悲伤、焦虑、愤怒,试探性的,确定性,工作,成就,和钱从这些数据中提取的政治情绪。

在本文中,我们为用户提供个性化的健康分析和聚合情绪分析使用精确分类数据和情绪。我们提出一个新颖的方法来分析个人的行为和生活方式通过监测病人的自我报告数据和社会职位。档案是档案服务发现和微博使用Twitter搜索API。它可以帮助用户在Twitter上获得实时趋势信息(50]。我们的模型使用Twitter档案收集数据和处理它们使用自然语言处理技术从微博中提取知识和情绪。Twitter包含很多信息;然而,该模型侧重于信息如何精确过滤为用户提供个性化的知识。

3所示。提出的系统架构

Twitter是一个流行的社交媒体平台,允许用户发布简短的文本,图片和视频的个人和/或合作的本质。这些数据提供了一个独特的洞察用户的个性。我们的研究工作,特别感兴趣的是用户的利益和情感,我们建议使用的系统构建一个用户配置文件,然后提供个性化的数据/服务类似的用户。我们建议的系统,如图1,包含两个模块和集成与Twitter作为一个插件的应用程序。第一个模块构建用户健康状况通过提取用户的概要信息,健康利益,与时间模式和情感丰富。实现目标,炼金术API (51)是用于提取用户的兴趣的自由文本(微博)。API处理非结构化文本使用自然语言处理技术和机器学习算法产生关键词,实体,概念和用户的情绪与这些(关键字和实体)。第二个模块从Twitter和收集公共数据精确分类推荐用户提供个性化数据根据生成的配置文件。对微博进行分类和提取主题情绪水平,系统分析微博使用特定于域的种子的话,意见单词,语法发生器、POS薄铁片,同义词活页夹,和依赖解析器。种子词和意见词丰富的同义词,以提高分类精度。

3.1。数据管理器

数据管理器充当plugable接口Twitter,在内部利用数据访问者获取流媒体数据。样品收到这些数据以XML格式,如图2。每个tweet都封装在一个结构化的格式,包含用户名的人的微博,微博的时间戳,文本内容的微博,它惟一的标识符,任何相关的图像和其他信息。使用DOM解析器,我们解析这个XML语料库中提取用户名、推日期、状态、tweet ID,和图像领域。然后应用文本预处理的推文(状态字段)的原始数据转换成有意义的信息。这一步的主要目的是把缩写和语言,包含在微博,进入正式的同行。这一目标将缓解tweet行为主义,已非正式地鼓励使用缩写词(如“请”而不是“请”和“gud”而不是“好”)和其他的俚语52),通过Twitter用户节省时间和空间。用户还可以重复字符字来强调某个词(如使用“Plzzz第二条所示表1”)。这样的话表示噪音数据,因为它影响的知识提取的过程。


推特	关键字	实体
推特	关键字	概念	文本	情绪

我觉得我的高血压在每次我在工作中不安全的水平。它严重会给我一个沮丧这些天之一	高血压(0.99204)	高血压(0.91)	高血压	负(0.96−)
我觉得我的高血压在每次我在工作中不安全的水平。它严重会给我一个沮丧这些天之一	高血压(0.99204)	健康状况	抑郁症	负
我是糖尿病。这是它是如何工作的。我的胰岛素泵,连续血糖仪(CGM)。Plzzz帮我	胰岛素泵(0.996333)	胰岛素(0.96)	糖尿病	负(0.54−)
清醒,我头痛,早上工作	头痛(0.71)	2006单身(0.858618)	头痛	负(0.8−)
我健康,现在感觉好后高血压	高血压(0.981841)	高血压(0.915043)	高血压	积极的(0.83)

数据预处理模块实现这一目标,利用存储库1300俚语来消除这种噪声。由于这一过程中,最常用的结果数据是免费的(社交媒体)俚语和缩写词。此外,拼写检查器模块使用花哨的(基于java的拼写检查API)来纠正拼写错误的数据。最后的数据由数据管理器是非常丰富的,可以使用的消费服务,构建一个用户配置文件和提取知识。

3.2。概要文件构建器

该子模块提取有用的信息从微博和维护时间历史构建用户健康基于兴趣的概要文件。概要文件构建器使用炼金术API提取用户的利益。它接受非结构化文本和获取知识外,还可以通过公开的语义丰富性隐藏在文章使用命名实体,这些实体相关的情绪。系统存储中提取关键字,实体,用户情绪在用户的概要文件存储库,以供将来使用。表1显示了一个示例的关键词,实体,和相关的情绪中提取的概要文件构建器使用IBM Watson自然语言理解模块(炼金术API)。例如,微博“我觉得我的高血压在每次我在工作中不安全的水平。抑郁症严重会给我一个有一天“当通过这个API处理显示“高血压”最相关的关键字信心得分最高的0.99206。同样,反对这个推特排名最高的概念是“高血压”以0.915043的得分。整体情绪与此关键字相关的是负−0.96分的信心。同样,其他样品推相应的关键词,实体的概念,和实体的情绪如表所示1在括号里,连同他们的分数。对于每个属性,我们选择一个关键字,概念,和情绪,对文本的相关性。也是相关的注意,并不是所有的实体是正确识别,如表中第三个例子的情况下“清醒,早上我头痛和工作”的正确识别关键字“头痛”以0.71的得分,但一个不相关的概念“2006单身”信心得分的0.86%。我们不能忽视这个错误的概念,总体精度仅略有影响,将显示在结果部分。

从微博中提取这些信息后,概要文件构建器搜索用户兴趣的时间模式,例如,早上,用户通常感兴趣的血糖水平,而在晚上,用户通常谈论胰岛素和饮食。如果同样的模式出现超过两倍,概要文件构建器高度时间信息与知识提取的数据建议使用它。所有提取的数据和时间信息被存储在数据库中。

3.3。知识提取器

知识提取器模块使用处理过的微博,从数据管理器以自然语言处理和情感分析技术应用于精确分类。特别是,该系统使用斯坦福词性(POS)薄铁片,依赖解析器,four-gram,同义词粘合剂将tweet。标签被斯坦福POS薄铁片被用来从WordNet提取同义词。此外,同义词粘结剂有助于提高分类的准确性与每个名词由种子列表绑定同义词词。这个粘合剂是基于WordNet字典,也允许我们识别当前单词的语境意义。下巴API (53)提供了同义词WordNet粘结剂与外部接口。例如,锻炼不存在这个词在我们的种子列表;然而,它绑定同义词锻炼确实存在。同义词的活页夹还处理其他词结构相关的问题。例如,它可以转换成复数单数,因此绑定热量与热量和运动锻炼。情绪分析器使用情绪词汇提取积极的,消极的,和中性情感单词从这些丰富的微博。对于积极和消极情绪,系统使用6800个单词的列表(54]。此外,对于中性类、中性的关键词列表是建立在分析tweet。

拟议的系统分类推基于从中提取的信息。这个分类的过程依赖于种子列表,用于确定一个tweet属于特定类别。在本研究工作中,我们主要集中在医疗保健领域通过保持最常用的医疗和健康在我们的种子列表。机密数据存储在一个以知识为基础对提高准确性和将来使用。

一旦该系统分类和感伤的文字从微博发现,斯坦福依赖解析器是用来识别提取的类别和情感词之间的关系。这有助于系统发现微博的基于主题的情绪。该系统采用点、感叹号和连字符作为分割句子边界推到句子如果有多个句子在一条微博。类型依赖语法单词之间的关系,帮助决定一个情绪属于一个特定的词或不是。它还有助于提取多个情绪从一个tweet。图3显示如何使用依赖关系找到基于主题的情绪。依赖性解析器也有助于找到任何情感词的否定逆其价值,例如,在微博“我不喜欢这药的味道”一个积极词的否定”。"不考虑否定,系统无法链接负面情绪“味道”。

3.4。过滤引擎

过滤引擎处理机密消息使用个性化的概要文件和总多愁善感结果推荐用户提供相关数据。生成数据时建议,过滤引擎也包含时态模式提取配置文件生成器生成更有价值,有时限的建议。图4显示了积极的,消极的,中性情绪与各种常用药物相关的糖尿病患者和中提到他们的微博。这种滤波可以使医生和护理人员优化药通过合并药物处方的病人情绪的过程。这可能会使一个积极的对糖尿病患者的服药依从性的影响。图5显示另一个过滤引擎的应用程序的用例,即显示了糖尿病患者相关微博基于类似关键字和情感紧密联系建设性对话框和创建一个虚拟支持系统的糖尿病患者。通过这种方法,病人可以获得有用的信息与他们的疾病和别人的经验不同的胰岛素、药物或医疗测试。

4所示。实现和结果

而提出的方法可以推广到任何领域,在本研究工作中,我们扩展以前的方法,提出了在27从公开的微博),提取医疗知识,为糖尿病患者提供建议。为了实现该框架中,我们使用Java和其他开放api来创建一个应用程序将数据内容管理服务,知识提取服务,用户配置文件构建服务,和过滤引擎提出了推荐系统。简要解释了下面这些服务。

通过应用种子基于列表的分类和情感分析,该系统能够推荐个性化的糖尿病引起的微博用户。种子列表生成使用的工作[55,56]。为了克服冗余问题和格式问题,使用谷歌改进。计算我们的提议系统的准确性,我们使用种子为糖尿病推过滤列表。通过整合提出了系统与Twitter,用户将能够得到精确的分类与情感价值和个性化数据。此外,这个微博数据有助于集群、趋势分析和建议。数据收集过程的细节,我们的实验,结果如下。

4.1。数据收集

档案管理员工具被用来涂鸦一组特定的微博表中给出的关键字2。表2还显示提取微博的数量,以及它们的分类精度时只使用语法和同义词在使用语法。


类别	总	归类为糖尿病
类别	总	4克(%)	4克+同义词(%)

糖尿病	94992年	95年	96年
血压	31659年	95年	95.60
饮食	37738年	8.50	10.60
药物治疗	16997年	4.30	5.60
帕金森	6503年	3.80	5.20
食物	42415年	2.06	4.70
教育	245317年	0.90	2.50
登革热	5200年	0.80	6.10
疼痛	109067年	0.50	1.90
技术	110572年	0.36	1.30
娱乐	136308年	0.20	1.05
地震	103632年	0.17	1.60
电影	30943年	0.10	1.20

生成用户概要,分析微博的100用户,收集6000条有关糖尿病帮助建立用户配置文件。一些收集微博形象代不能提供任何信息用户健康利益,因此系统忽略他们,只用那些tweet帮助生成用户的健康状况。

糖尿病相关术语的种子列表生成利用工作提出了(55,56]。这个列表分成两部分,通过使用自然语言处理与糖尿病有关的术语进行分类,根据他们的原始定义。结果,417条款分为类别,如测试条件下,人体细胞,糖尿病研究中,专业、设备、医药、和他人(不与定义的类别混淆“其他”)。例如,“高胰岛素血”中定义的种子源,”条件中,血液中的胰岛素水平高于正常胰岛素的生产过剩造成的身体。“建议的系统分类为“条件”项。我们的系统可以分类术语的80.5%,只剩下81条款,贴上属于“其他”类别。

情绪分析,提出系统使用了列表的积极和消极情绪(6800个单词组成的54]。中性类,我们手动建立30个关键词的列表。

4.2。测试

近六千微博被用来生成用户健康状况。通过使用炼金术API,这个系统中提取所有重要的关键词,实体,并从微博情绪。这些信息是用来构建用户概要这有助于为用户提供个性化的推荐数据。与公众情绪的建议正是机密数据的数据分析。拼写检查器也改善了系统性能随着社交媒体数据拼写和拼写错误。

该系统具有处理近一百万微博的不同类别分类和情感分析的测试和验证。由所有类别,只考虑four-gram, 129839糖尿病引起的微博被成功地分类。然而,当该系统全部采用,它使用four-gram同义词活页夹,142285糖尿病引起的微博被分类,从所有类别。这是因为同义词粘合剂结合微博的语境,这提高了分类过程。通过预处理,然后语义和语法分析,系统精度达到96%糖尿病的tweet,如表所示2。系统语法模型与同义词使用粘结剂达到这个精度。糖尿病引起的微博与其他类别减少信息损失和增加情感分析的质量。简单的关键字搜索从Twitter不能提供一个特定类别的所有相关信息。这可以极大地增强了通过使用一个种子列表,这将使信息的检索与关键字相关。在传统的搜索情况下,术语“糖尿病”将只返回tweet,包含该关键字。然而,使用种子列表执行高级搜索也可以返回通过检索这些tweet的额外信息,不显式地包含该关键字但仍感兴趣的糖尿病患者或照顾者,例如,“早上散步很有帮助维持血糖。“这个推特不是过滤,当我们搜索Twitter糖尿病;然而,该系统已成功地分类这个tweet糖尿病引起的微博。

依赖性解析器帮助提出系统找到一个准确的情绪和类之间的关系。它还帮助寻找多个类多个情绪从一个tweet。图3表明该系统提取的基于主题的多个情绪从一个tweet。首先,提取情感词汇和话题,但目前还不清楚这情绪相关的话题。系统使用依赖项解析器将情绪与主题。依赖性解析器也有助于否定检测系统,例如,“底片(好,不会)”表明,“好”是否定的。否定从正到负反转舆论情感词,反之亦然。图4显示微博情感分析的数据生成一个糖尿病人。这表明37%推基底胰岛素是积极的,38%是负面的,25%中性情绪。情绪的图中显示,大多数胰高血糖素是负的。这些结果不仅帮助用户找到相关的微博也聚合的情绪。通过先进的自然语言处理技术的应用,如主题建模、关键词提取,情绪分析,分类精度大大提高。图6显示了提出系统与现有技术的比较(27]。它显示了6.5%的性能提升,从现有技术,准确分类的tweet糖尿病和22.8%改善血压分类。

此外,提出系统解决的关键用例信息损失,由传统的关键字搜索引擎造成的。Twitter搜索可以极大地增强了使用种子列表和短的文本分类提取更大的组相关的信息,在不增加用户的认知负荷。表2显示了使用这个过程中提取信息的有效性与糖尿病有关。在每个类别信息扩散变化;而10.6%的微博从饮食类别和6.1% tweet登革热包含有价值的信息关于糖尿病的血压分类,我们发现95%的推文内容与糖尿病有关。传统的关键字搜索Twitter上无法提取这些tweet。同样重要的是要注意,收集到的信息通过这个过程并不是唯一的,我们发现,有一个重叠的微博关键词。这意味着,相同的微博可以归类为两种不同的关键词和重要的是消除重复,而不是压倒用户提供冗余信息。

5。结论

在本研究工作中,我们展示了个性化推荐系统中,基于用户概要文件匹配。我们也给出了使用同义词粘结剂的有效性,避免损失和提高知识提取过程的信息,这也支持了情绪分析仪。情绪分析显示,人们的态度不同的主题可以用来生成一个更丰富的用户配置文件和个性化推荐。基于主题的情感分析可以生成丰富的用户概要文件,个性化推荐,并帮助用户收集公众意见总结实体的利益。特定领域的种子词有助于减少信息损失在关键字搜索。从社交媒体用户概要文件可以集成与临床决策支持系统(CDSS)或电子健康记录(EHR)详细了解用户的兴趣和行为。在未来,我们打算从其他社交媒体整合用户信息和用户活动日志找到有趣的模式,在个性化推荐系统中使用它们。

数据可用性

相关的数据和代码将在Github可用的数据。

的利益冲突

作者宣称没有利益冲突。

确认

本研究工作是在扎耶德大学集群研究基金的支持下,没有。R18038。

引用

数字2017年:全球概览,我们是社会性的,2017年,https://wearesocial.com/sg/blog/2017/01/digital - - 2017全球概览。
r . Batool, w·a·汗·m·侯赛因et al .,“个性化健康分析社交网络”学报第六届国际会议上新趋势在信息科学和科学数据挖掘服务(ISSDM)IEEE,台北,台湾,2012年10月。视图:谷歌学术搜索
公司信息,Facebook的新闻编辑室,2019,http://newsroom.fb.com/company-info/。
全球最受欢迎的社交网站2019年1月,活跃用户的数量来排(百万),2019年,https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users/。
问:你,美国Bhatia, j·罗,“一幅画告诉一千句关于你!用户兴趣分析从用户生成的视觉内容。”信号处理卷。124年,45-53,2016页。视图:出版商的网站|谷歌学术搜索
f·波斯和D D 'Auria”,在线社交网络的调查:挑战和机遇,”学报2017年IEEE国际会议信息重用和集成,IRI 2017圣地亚哥,页614 - 620,美国,2017年8月。视图:谷歌学术搜索
a . v . Lakshmi s b·r·库马尔p . j . Charles et al .,“调查论文在移动社交网络,”国际研究工程与技术杂志》上,卷2,不。6,637 - 641年,2015页。视图:谷歌学术搜索
年青男子,A . m .塞格雷和p . m . Polgreen”的使用twitter跟踪水平的疾病活动和公众关注在美国甲型H1N1流感大流行期间,“《公共科学图书馆•综合》》第六卷,没有。5篇文章ID e19467 2011。视图:出版商的网站|谷歌学术搜索
a·维勒m . Grossniklaus m . h .肖勒et al .,“调查和实验分析twitter的事件检测技术”电脑杂志,60卷,不。3、329 - 346年,2017页。视图:谷歌学术搜索
a . Crisci诉•格拉索内西p . et al .,“预测电视节目观众通过使用Twitter的基础指标,”多媒体工具和应用程序,卷77,不。3、12203 - 12232年,2018页。视图:谷歌学术搜索
s·j·麦康奈尔,”Twitter和2016年的美国总统大选:修辞分析修辞分析微博和媒体报道的斯蒂芬·j·麦康奈尔“论文提交部分实现科学的硕士学位在专业写作2015年12月纽约大学学校的专业研究,纽约,纽约,美国,2016年。视图:谷歌学术搜索
e·穆罕默m . Thelwall m . Kwasny, k . l .福尔摩斯“学术twitter上的信息:用户的一项调查,“《公共科学图书馆•综合》,13卷,不。5篇文章ID e0197265 2018。视图:出版商的网站|谷歌学术搜索
h·s·易卜拉欣,s m . Abdou和m . Gheith”情绪分析现代标准阿拉伯语和口语,”2015年,https://arxiv.org/abs/1505.03105。视图:谷歌学术搜索
b . Al-Jenaibi“twitter革命在海湾国家,“创意杂志通讯,11卷,不。1,第83 - 61页,2016。视图:出版商的网站|谷歌学术搜索
l . m .少年簪,c . v . Scirica k . Jethwani和t . b . Kinane”“交友”青少年:系统回顾的社交媒体在青少年和年轻成人健康护理,“医学网络研究杂志》上,17卷,不。1,p . e4, 2015。视图:出版商的网站|谷歌学术搜索
2017年互联网,网络健康:处方,http://www.ncbi.nlm.nih.gov/books/NBK44714/。
2017年美国福克斯,“健康”主题,http://www.pewinternet.org/2011/02/01/health-topics-2/。视图:谷歌学术搜索
m .她和m . Suman”原因,评估和采取的行动:性别和年龄的差异使用互联网健康信息,“健康教育研究,23卷,不。3、512 - 521年,2008页。视图:出版商的网站|谷歌学术搜索
谭和n . Goonawardene”互联网健康信息寻求和医患关系:系统回顾相应的作者,“医学网络研究杂志》上,19卷,不。1,p . e9 2017。视图:出版商的网站|谷歌学术搜索
e . Basch a . m ., m·g·克里斯et al .,“常规的癌症治疗期间与patient-reported症状监测的结果:一个随机对照试验,”临床肿瘤学杂志,34卷,不。6,557 - 565年,2019页。视图:出版商的网站|谷歌学术搜索
Keckley p h·m·霍夫曼,社交网络在卫生保健:沟通、协作和见解、德勤健康解决方案中心,纽约,纽约,美国,2010年。
Patientslikeme公司,2017年,https://www.patientslikeme.com/。
袍,r . Ginn a Nikfarjam et al .,“利用社交媒体对药物警戒数据:复习一下,”生物医学信息学杂志,54卷,不。1,页202 - 212。视图:谷歌学术搜索
彼得森诉Ehrenstein h·尼尔森,a b s p·约翰森和l·皮德森”临床流行病学在大数据时代:新的机会,熟悉的挑战,”临床流行病学9卷,第250 - 245页,2017年。视图:出版商的网站|谷歌学术搜索
p•威克斯d l . Keininger m p . Massagli et al .,“认为癫痫患者之间共享健康数据的好处在网上平台,“癫痫和行为,23卷,不。1,16-23,2012页。视图:出版商的网站|谷歌学术搜索
社交媒体喜欢医疗:从市场营销到社会企业,2017年,http://www.pwc.com/us/en/health-industries/publications/health-care-social-media.jhtml。
r . Batool, a . m . Khattak j . m .几声和s·李,“精确的微博分类和情感分析,”学报12计算机与信息科学国际会议(艾多酷),2013年IEEE /埃西斯、IEEE、新泻、日本,2013年6月。视图:谷歌学术搜索
施蒂格利茨,m . Mirbabaie b·罗斯和c . Neuberger“社交媒体analytics-challenges话题发现、数据收集和数据准备,”国际信息管理杂志》上39卷,第168 - 156页,2018年。视图:谷歌学术搜索
f . Emmert-Streib共和党Yli-Harja, m·德和f . Emmert-Streib”数据分析应用程序从社交媒体流数据:预测什么?”在大数据领域,卷1,p . 2018。视图:出版商的网站|谷歌学术搜索
o . Loyola-Gonzalez a . Lopez-Cuevas m·a·Medina-Perez et al .,“融合模式发现和视觉分析方法在微博传播中,“信息融合,46卷,第101 - 91页,2018年。视图:出版商的网站|谷歌学术搜索
s .罗维奇·m·奥斯本诉Lavrenko et al .,“RT赢!在预测twitter消息传播。学报》第五届国际会议上博客和社交媒体卷。13日,页。586 - 589年巴塞罗那加泰罗尼亚,西班牙,2011年7月。视图:谷歌学术搜索
d·h . Li Caragea、c . Caragea和n .赫恩登“救灾得益于微博分类领域适应气候变化的方法,”突发事件和危机管理杂志》上,26卷,不。1,16-27,2018页。视图:出版商的网站|谷歌学术搜索
r . j . Chen奈恩,l·纳尔逊et al .,“短和推特:从信息流推荐内容,实验”SIGCHI会议程序在计算系统的人为因素ACM,亚特兰大,乔治亚州,美国,2010年4月。视图:谷歌学术搜索
问:高,G.-J f·亚伯。胡本,k .道,“twitter上的用户建模分析为个性化的新闻建议,”学报》国际会议用户建模、适应、和个性化海德堡激飞柏林赫罗纳,西班牙,2011年7月。视图:谷歌学术搜索
问:高,G.-J f·亚伯。胡本,k .道,“语义浓缩的推文用户配置文件建设在社交网络上,”程序的扩展语义Web会议伊拉克里翁,激飞柏林海德堡,克里特岛,希腊,2011年5月。视图:谷歌学术搜索
问:高,G.-J f·亚伯。胡本,k .道,“时间动力学分析社交网络的个性化推荐的twitter页面,”第三届国际网络科学学报》会议ACM科布伦茨,德国,2011年6月。视图:谷歌学术搜索
朴和j·g·布雷斯林”,探索动态和用户利益为twitter上的用户建模的语义链接建议,”第12届国际会议上的语义系统的程序ACM,莱比锡,德国,2016年9月。视图:谷歌学术搜索
严m z邓,j .唱,c .徐“Twitter更快:个性化time-aware从Twitter YouTube视频推荐,“ACM交易多媒体计算、通信和应用程序(汤米·),11卷,不。2、2015年p。31日。视图:出版商的网站|谷歌学术搜索
即侯赛因·f·亚伯,G.-J。罗姆:“学习”在twitter,语义实体之间的关系Web工程学报》国际会议,激飞柏林海德堡,帕福斯、塞浦路斯、2011年6月。视图:谷歌学术搜索
m . Balabanović和y Shoham工厂:基于内容的、协作的建议。”ACM的通信,40卷,不。3、66 - 72年,1997页。视图:谷歌学术搜索
j .咦,t . Nasukawa、r . Bunescu和w·Niblack”情绪分析仪:提取情感对一个给定的使用自然语言处理技术的主题,”数据挖掘程序第三IEEE国际会议(2003年ICDM)美国佛罗里达州,IEEE,墨尔本,,2003年12月。视图:谷歌学术搜索
t . Nasukawa和j·易,“情绪分析:使用自然语言处理捕获的好感度,”第二届国际会议上获取知识美国佛罗里达州,ACM森尼贝尔岛,2003年10月。视图:谷歌学术搜索
n . Godbole m . Srinivasaiah, s . Skiena“大规模的情绪分析新闻和博客,”《第四国际会议在博客和社交媒体,ICWSM 2007博尔德,页219 - 222,有限公司,2007年3月美国。视图:谷歌学术搜索
郭l和m .租赁,“个性化本地搜索与twitter,”诉讼浓缩车间的信息检索的第34届计算机协会上特殊利益群体在信息检索会议2011年,北京,中国。视图:谷歌学术搜索
e·克拉克和k荒木”,在社会媒体文本标准化:进步,问题和休闲英语的预处理系统,申请”Procedia-Social和行为科学卷。27日,2 - 11,2011页。视图:出版商的网站|谷歌学术搜索
d . Laniado和m .彼得,”twitter,”语义Web程序的国际会议海德堡,激飞柏林,上海,中国,2010年11月。视图:谷歌学术搜索
菲和d·穆勒“映射百科全书文章的微博帖子,”课堂讲稿的信息,第192卷,第150页,2011年。视图:谷歌学术搜索
a . Tumasjan t·o·斯派格·g·Sandner i Welpe,“预测选举与twitter: 140个字符显示什么政治情绪”《第四国际会议在博客和社交媒体,ICWSM 2010华盛顿特区,页178 - 185,美国2010年5月。视图:谷歌学术搜索
LIWC, 2016,http://www.liwc.net/。
2017年档案,http://archivist.visitmix.com/。
炼金术API, 2017年,http://www.alchemyapi.com。
诉比尔,”twitter字典:指南了解twitter的术语,“2017年,http://www.webopedia.com/quick_ref/Twitter_Dictionary_Guide.asp。视图:谷歌学术搜索
Java API WordNet搜索(大白鲨),2017年,https://github.com/fcr/JAWS。
意见挖掘、情绪分析和意见垃圾邮件检测,2017年,http://www.cs.uic.edu/liub/FBS/sentiment-analysis.html。
2017年美国糖尿病联合会,http://www.diabetes.org/diabetes-basics/common-terms/。
2017年糖尿病,术语表,https://en.wikipedia.org/wiki/Glossary_of_diabetes。