文摘

根据最近的研究,在印度年轻人面临心理健康问题由于关闭大学和损失的收入,低自尊,压抑,并报道焦虑的症状和/或抑郁症(43%)。这使得高时候想出了一个解决方案。一个新的分类器提出找到那些可能有抑郁症基于Twitter的微博社交媒体平台。该模型是基于语言分析和文本分类使用TF通过计算概率 IDF(术语frequency-inverse文档频率)。印度人倾向于推特主要使用英语,印地语,或混合这两种语言(俗称印式英语)。在此建议的方法,数据收集来自Twitter和筛选通过他们通过使用多项朴素贝叶斯算法构建的分类器和网格搜索,后者用于hyperparameter优化。每个tweet是否列为沮丧抑郁。整个建筑作品在英语和印地语语言,这将有助于实现在全球范围内和跨多个平台和帮助在遏制日益萧条利率有条理和自动化的方式。提出模型中的管道,由技术被用来获得更好的结果,96.15%的准确率和0.914的F1分数已经达到。

1。介绍

最近的研究由世界卫生组织(世卫组织)(1)表明,5600万印度人患有抑郁症和另外3800万印度人患有焦虑症,其中只有一小部分得到充分的治疗。尽管这障碍是高度可治疗的,只有一小部分患者接受治疗,由于社会污名与心理健康有关。诊断和后续治疗抑郁症常常延迟,完全不精确,和/或错过了。个人的社交媒体活动提供了一个革命性的方法改变早期抑郁症干预服务,特别是对于年轻的成年人(2,3]。许多抑郁个体很少选择不与家人和朋友讨论他们的精神健康,因为周围的禁忌抑郁症仍然很高,尤其是在印度。这些人,当他们推,有意识和潜意识地使用词表明他们的心理健康。社交媒体平台的出现使得它相对容易找到这些人4,5]。因为它是几乎不可能检查提示从每个用户的帖子在所有平台上的一个人或者一个团队,整个过程自动化成为需要的时间。其中一个方法接受全球情绪分析(6,7]。这是一个跨平台的ML的方法,可以实现过滤掉特定用户基于社交媒体文章的模式。

算法评估文本的能力已大大改进的深度学习领域的最新进展(8,9]。情绪分析和观点社会多媒体挖掘算法(10,11]总结现有研究多通道情绪分析,包含了众多的媒体。数据挖掘发现抑郁的人在社交网络平台上心理学领域的(12,13]。首先,情感分析方法提出了使用词汇和人为的规则来计算每个帖子的抑郁倾向或微博。混合模型识别抑郁个体通过CNN和LSTM模型是基于正常conversation-based从Twitter获得文本数据(14]。然而,绝大多数的这些研究与听众进行了,只说英语。没有很多工作对观众情绪的主题分析,主要使用印度语言在微博网站。而不是学习的字符或句表示,提出了一种模型,包括学习subword-level表示LSTM架构(7]。在过于嘈杂的文本有很多的拼写错误,模型表现良好。基于标注语料库的混合社会媒体材料在北印度语,英语,印度英语的编码(6,15]。创建一个更加多样化的画布上,该研究使用模糊含义的词和不规则的拼写在两种语言16,17]。

3所示。提出了系统

拟议的系统使用分类器模型分类推“沮丧”或“不沮丧”。模型利用TF的管道组成 以色列国防军和多项朴素贝叶斯(MNB)算法,MNB作为分类器。贝叶斯算法的实现需要最少的努力,从而保持开发阶段短和延伸测试阶段完善它18]。该模型是基于语言分析和文本分类使用TF通过计算概率 IDF权重不是字数,特遣部队 IDF权重反映了这个词是多么的重要文件;这是一个改善概率计算字数。网格搜索包含执行hyperparameter优化模型来确定最优值。模型显著的性能取决于所使用的hyperparameters估计;手动选择最优的参数可能会花费大量的时间和资源(19]。因此,网格搜索已经被用于整个过程自动化。

对于模型的工作,公司的一条微博Twitter API作为模型的输入。这可以用英文写微博,印地语,或混合这两种语言(印式英语)。模型分类推到两个目标中的一个类标签,抑郁(数据集用0),而不是沮丧(用数据集1)基于单词出现在推特的(例如,抑郁tweet通常包括关键字“抑郁”,“焦虑”,“悲伤,”等等),和推特的类显示在屏幕上。图1代表了该模型的体系结构。

4所示。技术使用

4.1。数据收集

数据集得到的微博使用Python模块Tweepy通过Twitter API。标签(#)像#沮丧,#焦虑,和#悲伤被用来过滤掉抑郁的推文,而#幸福#生活被用来过滤掉微博没有沮丧。这些推文被变成了670 -数据点原始数据集有三列:TID(惟一的Twitter ID),推特和标签。图2代表输出。微博被编译到一个CSV文件,表所示1

4.2。数据预处理

原始数据集预处理是把所有的文本数据成一种是可预测和可分析的模型。图1描述了在数据预处理的流动过程。Python模块stopwords RegexpTokenizer、WordNetLemmatizer PorterStemmer NLTK的用绳子一起使用。我们还包括印地语stopwords (20.分别为NLTK没有这一条款。

4.3。欠采样

最初,数据集包含670数据点,其中有409人与标签1,0和260标签。这创建了一个偏见,如果不纠正,将倾斜的结果模型。所以,我们进行欠采样数据与标签1,之后有一个平等的分布的数据对目标类标签,520数据点集组成。

4.4。特遣部队 以色列国防军

的特遣部队 IDF算法应用到生成一个分数,隐含相关的一个单词是如何提出的模型。Python库CountVectorizer和Tfidftransformer用于这一目的。TF的数学公式 IDF算法如下: 在哪里 =的出现次数 , 包含=数量的文件 , =数量的文件。

4.5。多项朴素贝叶斯

MNB算法作为主要比朴素贝叶斯分类器,因为它是更准确(NB)算法(5]。虽然NB认为每个特性的独立概率,MNB认为每一项代表了TF的特征向量 每个单词IDF的重量,我e。,not only considering the frequency of the word but also how important that word is in the entire document. This allows us to make classifications using only the most important words in each line of text. MNB can be represented mathematically by 在哪里 =的概率 事件发生在课堂上 , =的频率 事件。

4.6。网格搜索

选择最好的hyperparameters优化模型可以详尽,如果手动执行耗时的。自动化这个过程中,网格搜索已经使用(21]。这些是最好的hyperparameters测定模型。

要注意的是,一个重要特性的值 MNB算法,表明拉普拉斯平滑用于平滑分类数据。小校正、pseudocount纳入每个概率估计。因此,没有概率为零。这是一个相当有效的方法调整MNB算法。

5。实现

监督机器学习的模型是一个应用程序,用户的需求是部署和收集结果。部署这个应用程序需要基本的交互,它要求密钥和令牌访问数据库(Twitter,它需要access_token,秘密访问令牌,消费者的关键,和消费者的密钥,分别)。应用程序后最小不需要用户干预,直到输出提供的应用程序。应用程序从数据库中收集一组微博(微博),这是美联储到应用程序的核心。包含一个核心训练分类模型的推到一个两个分类:沮丧抑郁。模型训练最好的方法之一,利用网格搜索。网格搜索在前一节中已经提到,选择最佳组合的参数和一个输出。模型的参数选择TFIDF的管道,countvectorizer,多项朴素贝叶斯。优先级精度的模型能够提供不同类型的数据。模型可以成功地阅读印地语微博使用的知识和分类它们不同的印式英语术语常用的社交媒体。 After classification, the application can provide an accurate result of up to 96.15% (data based on training dataset) and can provide a visual representation of the different key lexicons it has encountered throughout the dataframe.

实现最好的特性之一是它的模块化方法,其中每个的工作分配给不同的模块,每个主要的模块集群能够独立工作而不干扰其他模块集群。这提高了实现、可升级性和可读性的代码。一个生动的测试报告为不同类型的微博是由表提供的2

6。实验装置

670数据点原始数据集来自Twitter已经真正的tweet的集合,包括印地语和英语。数据集被分为2组:训练集,作为训练样本输入,和发展,这是验证检查点的网格搜索的准确性;为每个数据集,训练集代表整个数据量的90%左右,和发展集是10%左右。对于测试,我们训练几次网格搜索模型,选择精度最高的平均发展,如表所示3

7所示。结果和讨论

模型,这是一个混合MNB,特遣部队 IDF和网格搜索,是否能够推归为抑郁沮丧的准确性达96.15%。该模型的全部分类报告如表所示1。全面发展的模型训练集和完整的评价集上的分数计算。

当应用MNB,特遣部队 以色列国防军和网格搜索数据集,特遣部队 以色列国防军有最好的结果。我们训练、测试和验证的数据批处理大小为500,时代的数量= 20,任何网络的辍学大小= 0.4,词汇量的大小,我们应用我们的模型是在5000年,与32个隐藏层每DL模型,最后嵌入大小等于60。评价分割参数测试为90%,80%,70%,训练划分同样剩下的测试和验证。

训练后,模型评价措施适用于检查模型是如何执行的。因此,用来检查以下评价参数的性能模型,分别为:(我)准确性分数(2)混淆矩阵与情节(3)ROC-AUC曲线

准确性:模型的准确性而言,MNB (TF IDF)网格搜索执行比Char-LSTM Subword-LSTM, CNN-BiLSTM。

F1-score: MNB (TF IDF)网格搜索(F1-score = 0.914) < Subword-LSTM (F1-score = 0.658) < CNN-BiLSTM。(F1-score = 0.556) < Char-LSTM (F1-score = 0.92)。

对几个模型评价指标比较模型的预测因变量(已知)值的数据集。表1描述了模型派生指标的分类模型。

一项研究进行了比较该模型指标,具体的准确性和F1-score,先前存在的作品,这项研究的结果显示在表中4

3和图4代表中华民国曲线和precision-recall曲线获得了该模型,分别和图5代表的混淆矩阵模型。

8。结论和未来的增强

该模型有助于识别那些抑郁个体从大型数据池和容易识别它们使用一个快速的解决方案,完成以最小的变化,几乎没有任何人工干预。提出模型的另一个区别因素是它能够分类微博用英文写,印地语,印度英语语言。整个建筑作品在英语和印地语语言,这将有助于实现在全球范围内,尤其是在印度和跨多个平台。这将有助于阻止日益萧条利率以自动化的方式。

这项工作很容易升级到一个交互式机器人。机器人适应自己抑郁的人,使他/她能够表达自己。这将有助于人们花时间在他们的心理健康,要经常交谈的机器人。这可以扩展到包括其他印度语言。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。