文摘

抑郁症是一种最常见的人类社会所面临的心理问题。因为社会经验少,低的心理承受能力,和未来的家庭和社会的多重责任,大学生已经成为一个最弱势群体患有抑郁症。本文探讨了一种自动识别方法识别早期抑郁症患者倾向通过深度挖掘校园社交平台用户的在线信息。首先,我们全面分析情感的共同特征和行为在校园社交平台上的抑郁症。其次,实验语料库是由预处理操作,比如剥夺,分词,原始数据的去噪。最后,大萧条识别转化为一个文本分类问题,和一个浅支持向量机和深卷积神经网络模型,分别构建了基于实验语料库。结合抑郁博客的特点,该算法进一步改进,和一个双输入兼容多个特性的卷积神经网络算法。实验表明,有效地提高识别率。

1。介绍

抑郁症是一种最常见的人类社会所面临的心理问题。抑郁症的危害和影响是非常严重的。抑郁症患者的自杀率非常高,全世界每天有3000抑郁症患者自杀(1]。考虑到个人遭受抑郁症的患者,对亲朋好友的影响,和资源花在治疗,可以说,抑郁症已成为人类社会一个沉重的负担。特殊群体的大学生,社会经验少和低心理耐力,而且轴承多个未来家庭和社会的责任,抑郁症的发病率明显高于一般人群。

为了对抗抑郁症,人们已经做了很多研究对其原因、诊断和治疗,并提出基于心理学和生理学诊断方法,如各种尺度。传统诊断方法主要是获取基本信息对人们的心理和生理状态通过口头交流、问卷调查、体格检查,等。从这个信息,获得诊断的基础。在诊断的过程中,收购,加工,和分析的信息消耗大量的时间,金钱,和材料。传统的方法也面临着一个问题:医疗率很低。由于缺乏对心理问题的理解,许多人没有意识到他们正遭受抑郁和不知道寻求帮助当他们有他们的身体和心理健康问题。有些人有偏见的理解的心理问题,如抑郁,他们避免治疗,因为他们觉得,“家庭丑陋不能公开。“也有一些人不能寻求医疗由于医疗资源相对缺乏的。加上的影响等因素一定错过了医疗机构确诊率,抑郁症患者的总体实际咨询率非常低。传统诊断方法只能检测的一个子集许多患有抑郁病人的医疗机构寻求帮助。无助地,其他的人将面临萧条。被动地等待抑郁症患者寻求帮助,目前完成将导致利率非常低的咨询和抑郁将继续流行。 If medical institutions can take the initiative to look for patients with depression, such as directly conducting psychological surveys on college students, the rate of seeing a doctor will be greatly improved. Of course, the cost of doing so is relatively high. Consider that when a person seeks medical help for depression, the depression has already taken a toll on him, and treatment is more difficult. We need “active defense,” which is to detect the person when the depressive tendencies are not too severe, so that help or treatment can be given in a timely manner.

Web2.0时代的到来和在线社交媒体的出现,如博客、校园社交平台,和其他社交网络,提供一个对许多人有抑郁症倾向的发泄自己的情绪。同时,通过分析大量的互动信息在社交网络上,我们可以提供一个平台,积极发现容易抑郁的人(2]。特别是在每个高中都有自己的社交平台,学校的学生在社交网络发布信息,和校园管理部门可以掌握大量的社会网络数据。这些数据记录学生的想法、意见和对他们的生活细节。挖掘大量数据的校园社交平台,可以找到很多重要的信息和知识。在我们最近的在线信息观察校园网络在线用户,我们发现一些用户,由于高压力的生活,展示了许多心理问题(3]。在严重的情况下,抑郁和自杀的语言表现。

本文将提出一个基于自然语言处理和机器学习的分类模型,考虑通用性和准确性,积极有效地发现学生们从大学校园与抑郁倾向社交平台。本文中的方法允许我们不要等待抑郁症患者寻求帮助,但积极寻找从人群中抑郁症患者的倾向,这将使医疗机构和非营利组织获得主动权在对抗抑郁。自识别过程是由计算机自动完成,速度和精度有独特优势与手工工作相比,这样我们就可以迅速和及时的找到人容易抑郁和可以找到目标,从而大大提高了效率的干预(4]。为大学生网络活动,适当的使用方法提出了评估抑郁的状态。该方法将大大提高大学和其他机构的能力来处理学生的抑郁,从而减少人口抑郁对学生造成的伤害。

2。识别过程

2.1。模型设计思想

学院和大学的校园社交平台是一个重要的学生交流的平台。它有巨大的用户规模和方便的数据采集的特点。这是一个校园管理的重要数据源。因此,本文选择一个大学校园社交平台的用户为研究对象。基于校园社交平台的数据,一个有效的方法来自动识别有抑郁症倾向的用户在校园建立社交平台。模型设计的过程如图1

2.2。带注释的账户

本研究是基于假设”校园社交平台用户的语言和行为容易抑郁症不同于普通用户”(5]。为了验证这个假设,我们首先需要找到一定数量的用户很容易抑郁和普通用户建立样本数据集。

我们随机获得一定数量的用户id和手动标记这些账户分为两类:“抑郁倾向”和“正常。“为了减少分类器类不平衡问题的影响,我们不保持所有的UID“正常”的用户。然后,这些用户的校园社交平台信息捕获通过API提供的新浪校园社交平台,经过一定的预处理,用于训练和测试机器学习模型。样品的标签是手工完成,流程如下:(1)接受一定的培训,比如学习抑郁症的基本知识,诊断量表,和判断抑郁症的倾向。(2)组织与抑郁倾向从校园社交平台,用户可以收集。(3)两个独立的带注释的获得的用户组和用户分为两类:“与抑郁倾向”和“没有抑郁倾向。”(4)前两人的标记结果被第三人(标记率被发现超过90%相同),独立和标记结果修正。

2.3。实验数据采集和预处理

数据预处理过程原始实验数据为实验语料库可以直接由电脑,和它的操作主要依赖于实验数据和算法。在这项研究中,一个监督深入学习算法被用来执行二进制分类文本校园社交平台,从而实现抑郁症识别。它的前期工作主要包括标签,分词,去噪,功能,和算法选择;这些操作直接影响后续的实验结果。合理的预处理操作是文本分类的一个至关重要的一步,这些操作都是在这一节中详细介绍。

文本预处理主要包括分词、去噪的具体过程如图2。自汉字没有明显的分隔符像英语单词,有必要把句子分成一个个单词通过分词。校园社交平台的语言表达式相对随意,不严格遵循传统语言规范和经常插入特殊符号(6]。它属于噪声高的文本内容,和去噪处理是非常必要的。

本实验使用Jieba在Python中实现分词段文本。Jieba附带了一个包含20000多个汉字字典,和它的分词速度和效果相对较好。本实验采用Jieba精确模式,结合领域词典可以把实验数据更准确地说,它是适用于文本分析校园社交平台。为了进一步保持语义的完整性,一些领域术语和网络新词是避免过度分割(7]。

2.4。特征选择

数据特性是影响文本分类的主要内部因素,合理的特征选择可以有效地提高实验的准确性。通过研究和分析的特点,校园社交平台“树洞”,指的是抑郁症的材料,我们从两个方面进行了深入挖掘文本本身和扩展信息,全面提取特征密切相关的抑郁校园社交平台。在内容方面,它主要包括两个功能,即文本本身的语义特征和字典的功能。此外,一些功能扩展的内容也可以反映抑郁症的校园社交平台的行为(8]。总之,本文中选择特性主要包括三个模块:语义功能,扩展功能,和字典的功能。具体描述如表所示1

下面详细描述这三个特征。

语义特征是指文本中包含的语义信息,能够反映出结构和上下文语义关系,反映了出版商的表现形式以及整体的情感的趋势,这对于识别具有重要意义。这部分的功能将被深度学习算法自动提取。词典功能是否包含字典单词的文本。这些校园社交平台的异常文本主要反映在两个方面:情绪和行为。例如,它包含大量的消极词汇,如“痛苦”,“生命比死亡,”和各种各样的思想表达和自杀方法如“想死”,“削减你的手腕,”和“烧木炭”也在频繁的句子“树洞。“这些敏感词汇完全反映病人的病情,所以这些词的词典功能是非常重要的。

本文构造字典数据库字段的抑郁症校园社交平台。特定的字典表中描述的特性2

影响抑郁症,抑郁症患者的校园社交平台行为有显著的特点,从校园社交平台的扩展内容,所以他们被称为扩展的特点,例如,校园社交平台的释放时间,文本的长度,等等。这些扩展功能密切相关的症状抑郁症,和只有充分挖掘这些宝贵的特性可以识别抑郁症是最优的9]。通过综合分析抑郁症的症状和校园社交平台的特点,发现校园社交平台的文本对抑郁症有许多个人和异常特征和进一步人工提取每个扩展特性。其主要特征如下:(1)通过统计分析,最频繁的更新时间是上午10点至下午2点。(2)抑郁症患者的语言表达校园社交平台更随意,不是标准化的格式,长度通常较短。(3)抑郁症患者更少关注外面的世界,和一般的校园社交平台是原创。(4)抑郁症更自我,与他人互动,更少关注别人,而第一人称单数“我”通常用于语言,,少使用复数“我们”。(5)患者经常使用emoji自杀相关符号和一些校园社交平台。(6)抑郁症是更倾向于困惑和修辞对校园生活经历社会平台和更频繁的使用问题。

3所示。抑郁症的识别模型

本文设计学生抑郁症识别三种不同的模型。

3.1。抑郁症的基于支持向量机的识别算法

支持向量机算法的输入是一个矢量,所以需要先向量化的特性10]。在这篇文章中,支持向量机算法用于文本分类的基础上扩展特性和字典功能,所以它是必要的这两个特性进行向量化。具体向量化规则如下:扩展功能,校园的描述长度社交平台,校园社交平台上互动,社交活动,集体关注的程度,self-attention本身就是数字的程度。无论是原始,是否使用积极的表达地图,和是否使用消极的表达地图,特征值的值是1,否则为0。分为昼夜的时间特性,对应1和0。所有词典功能相应的数量;如果没有,取0。

基于支持向量机算法的实现流程如图3

基于svm的学生抑郁症识别算法如下:(1)特征选择和向量化:根据上面的特征选择和向量化规则介绍,在预处理实验语料库,Python语言编程是用来实现扩展功能,选择和向量化和字典功能是通过扫描字典库。(2)模型配置:实验工具使用LIBSVM(支持向量机)的库集成的工具用于文本分类实验中,这是使用最广泛的支持向量机算法工具开发的信息工程研究所、国立台湾大学。工具是基于C语言编写,包括标准的支持向量机算法,概率输出,支持向量回归,多类支持向量机,和其他功能和调用接口在JAVA中,Python, R, MATLAB和其他语言。目前,它是一个相对热工具和实验速度和效果相对较好。这个实验调用的Python接口模型的训练。(3)模型的训练和测试:语料库分为训练语料库和测试语料库按照7:3的比例,在这三种类型的词典功能,扩展功能,词典功能,融合和扩展功能,训练和测试。优化的参数和训练语料库作为输入用于训练模型,然后生成的模型是测试通过测试语料输出实验结果。

3.2。抑郁基于卷积神经网络的识别算法

卷积神经网络模型结构主要包含五层,每一层都有自己的功能和连接之前和之后。输入层用于输入矩阵和向量处理,从这个词向量转换的文本。卷积层的主要成分是一种特征提取器(卷积内核),主要用于提取特性和输出特性的地图。卷积层可以包含多个层,前后层连接到对方。池层主要用于处理大量的特征图谱输出卷积层减少的数据量,同时保持重要特征信息。完全连接层将前一层提取的特性转换成一维特性(11]。输出层的完全连接层的一维特征作为输入,然后使用一个分类算法分类,如softmax逻辑回归。每一层的具体描述如下:

输入层是用来获取实验数据,卷积神经网络的输入,文本分类是一个矩阵向量。因此,有必要将词汇表转换成矢量和使用这个词的句子中的每个单词行形成一个矩阵向量的句子。卷积在卷积神经网络层的基本业务。卷积操作实际上是一个数学运算。这个操作一般包括输入、核函数和输出特性图。卷积是一个本地操作和数据的局部特征信息是通过施加一定大小的卷积核的当地输入数据。池层非线性将采样算法。池函数替换数据位置相邻数据的整体统计值在当前位置,起着降维的作用,确保了输出数据不会改变太多。常用的池功能的最大池功能,平均池功能。完全连接层缝合在一起的二维特征向量输出池层和输出每个类别的概率通过将softmax层。

本文使用word2vec工具来生成词向量,和合理的参数选择可以有效地提高训练效率。本文根据实验的具体情况,选择几个重要参数如下:与CBOW模型相比,Skip-gram模型的训练时间长,但精度一般比CBOW模型。考虑到实验语料库是相对温和的,为了获得更好的实验结果,对这次试验Skip-gram模型被选中。根据这个词的上下文窗口的大小,反映的信息也是不同的。一般来说,一个小的上下文窗口是更有利于学习上下文语义特征和关系。根据实验语料库的特点,本文采用两个值5和10个,分别。实验的训练算法采用softmax,具有更好的效果和罕见的单词和适合这个实验的场景。具体参数如表所示3

基于卷积神经网络实验流程如下:(1)词向量生成。(2)模型参数配置:在这个实验中所使用的算法是TextCNN, Python语言中实现基于TensorFlow框架。(3)模型的训练和测试:划分预处理实验语料库训练语料库和测试语料库的比率7:3,并使用卷积核的3和4进行实验。首先,TextCNN模型训练通过训练语料库和最后测试语料库的测试模型。

整个识别过程基于卷积神经网络图所示4

3.3。抑郁症的识别算法是基于双输入卷积神经网络

浅机器学习,支持向量机基于浅扩展特征具有更好的分类效果和字典功能(12]。卷积神经网络,作为一个很深的机器学习算法,可以自动提取文本的语义特征序列的快速学习和有效的分类。然而,这两个算法都不是兼容所有功能的同时,也在一定程度上减少抑郁的识别率。扩展兼容性是解决上述问题的核心。本文改进了卷积神经网络算法实现兼容所有功能。

通过分析卷积神经网络的模型结构,可以发现,其卷积层和池层自动提取特征和特性为输入数据降维,分别。最后,提取的特征处理基于完整的连接层,通过完整的连接和预期值是输出层。输出是相当于由卷积神经网络自动提取的所有特性,最后由输出层分类。在此基础上,提出了一种双输入卷积神经网络(简称dual-input-CNN, DI-CNN)算法。其核心思想是卷积神经网络的第一个四层不变;只有完整的连接层的结果与融合形成的特征向量集成扩展特性和词典的特点,然后通过将softmax层分类,从而实现所有功能融合作为输入。模型结构如图5

3.4。实验结果

为了验证抑郁字典对抑郁的影响识别,本文使用的实验评价标准是精确率P(精度),召回率R(回忆),F-measure (F-measure)作为评价标准。本文所有实验用这一标准,他们定义如下: 在哪里T正确分类样本的数量;N是实际数量的样本的类别;E是样本的数量预测的分类模型作为一个特定的类别。实验结果如表所示4

实验结果和图表显示的识别利率DI-CNN三个算法,支持向量机,分别和CNN。同时,分别比较SVM和CNN, SVM的效果更好,这进一步表明,人工提取浅特性有一个更好的影响抑郁症的识别率。

4所示。模型的应用前景

抑郁症治疗和研究的第一阈值识别。抑郁症的识别本文只是一个初步判断是否有抑郁症的倾向。然而,在实际应用中,这只是初始阶段,相关医务人员仍然需要深入地了解病人的情况。主要涉及以下方面:抑郁症的原因,疾病的类型,疾病的严重程度,等等。事实上,在社交平台,校园社交平台,每天在高速更新包含了日常生活轨迹和情绪起伏的用户。充分挖掘这些信息可以大大减少人的工作量,协助医务人员来实现快速而准确的治疗。因此,深入分析校园社交平台的抑郁症患者可以在未来在以下几方面进行:(1)挖掘用户信息基于时间维度:识别基于单一校园社交平台将导致支离破碎的信息,它是不可能全面获得病人的病情。从时间的角度来看,跟踪的校园社交平台动态校园社交平台用户在一段时间内,并全面分析他们的生活轨迹和情感波动在此期间,以及两者之间的关系。通过这种方式,很容易找到用户的疾病的原因,进一步推断病人的疾病类型。(2)挖掘用户信息基于空间维度:跟踪位置信息披露病人校园社交平台和分析用户的环境,个人身份,周围的人群,基于空间信息和其他信息。它不仅可以帮助判断用户的原因,但也为救援人员提供救助的信息。(3)抑郁等级评估:抑郁症患者有不同程度的疾病;有些情绪波动的初始阶段,而其他可能有严重的自杀倾向。抑郁评分,不仅可以快速地找到那些有自杀倾向的患者,采取救援措施,而且还提前防止那些初级的。

总结,进一步建立一个抑郁救援链和学校社会平台为核心,充分挖掘文本信息平台与自然语言技术的帮助下,和监控和提取以下用户信息:1。用户的症状、病因、疾病程度,以及是否有自杀倾向;2。个人信息、社会关系、时间和空间。在此基础上,病人的病情和信息知识地图,分别构建了实现完整的集成的技术人员,医务人员、心理学家和救援人员。知识地图是开采,由技术人员,由医务人员进行分析和诊断,治疗和心理咨询医务人员或心理学家根据不同情况。如果有自杀行为,救援人员可以快速定位和救援通过知识地图的用户信息。这将是大学生抑郁症的发展方向识别和治疗。

5。结论

针对当前在抑郁症的识别问题,本文提出一种基于校园社交平台的抑郁症的识别方法文本和深度学习。它不仅有效地避免了病人的问题不是主动或合作,但是也能获得足够的数据进行研究。这种方法把被动变成主动的发现减少造成的伤害的直接诊断病人,为医务人员提供支持快速识别和治疗病人。与此同时,为了提高算法的可行性和识别率,本文做了以下改进:(1)建设的字典:充分挖掘抑郁症的词汇在社交平台上,和合并抑郁患者的特点消极情绪倾向和自杀倾向的行为构建三大情感词典,行为关键字字典,字典和行为。自杀相关字典是聚集成一个全面的字典库抑郁症校园社交平台,它弥补了缺乏词典在这个领域。(2)功能选择:抑郁症博客有自己的特性,不仅在文本本身,而且在一些扩展功能与抑郁密切相关。本文完全集成的语义特征,词典功能和扩展功能,确保最佳的抑郁症的识别率。(3)算法的改进:基于所选择的三个功能模块,支持向量机和卷积神经网络用于实验,但这两个算法是不兼容所有功能在同一时间。因此,本文提出了一种改进的两个输入卷积神经网络,实现multifeature融合输入,进一步改善了实验效果。

本文通过综合分析和实验,仍有一些缺点,主要包括以下两个方面:(1)尽管本文提取相关功能更全面,每个特性的影响是不同的;例如,词典功能,扩展功能,和其他功能可以更好地反映用户是否患有抑郁症。因此,体重每个特性是非常必要的,也是未来的研究方向。(2)本文中使用的卷积神经网络适用于短的文本分类。尽管大多数校园社交平台的简短文字,也有用户使用长句来描述他们的全面情况。在这个时候,很容易造成这些信息的挖掘。因此,后续研究可以选择不同深度学习算法根据博客的长度。如果这是一个漫长的博客我们可以使用递归神经网络。

数据可用性

数据集可以在访问请求。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究受到了山东艺术和科学研究重点项目的创新和发展社区山东省(没有跳舞。L2021Q0708033)。