文摘

心理健康问题是普遍和医学的一个重要问题。然而,临床诊断的精神健康问题是昂贵,费时,而且经常明显推迟,这凸显了需要新颖的方法来识别它们。以前的心理语言学和精神病学的研究已经表明在文本中使用隐喻与作者的心理健康状况。在本文中,我们提出一个方法来自动检测隐喻的文本来预测各种心理健康问题,特别是焦虑、抑郁、自卑、敏感、社交恐惧症和痴迷。我们执行实验组合数据集收集从eRisk2017数据集的英语是第二语言的学生和来自社会媒体。实验结果表明,我们的方法可以帮助预测心理健康问题在作者的书面文本,和我们的算法性能优于其他先进的方法。此外,我们报告,隐喻的使用甚至在外来语言可以表明各种心理健康问题。

1。介绍

心理健康问题已经变得越来越严重。他们不仅危害人们的身心健康,还影响到国家和社会的发展。世界卫生组织调查(https://www.who.int/health-topics/mental-health)显示,全世界大约13%的人患有精神疾病,而全球经济每年一万亿美元的成本。抑郁症是残疾的主要原因之一。自杀是15 - 29岁儿童死亡的第二大原因。世界上大约20%的儿童和青少年患精神疾病,也受过高等教育的人口患有心理压力,影响他们的学习成绩1- - - - - -3]。然而,临床诊断的精神健康问题是昂贵,费时,而且经常明显推迟,这凸显了需要新方法来识别这些条件。

隐喻表达式是经常使用在人类语言4- - - - - -7]。他们都涉及语言表达和认知过程8),是一种隐式的方式来传达情绪(9- - - - - -11]。人类情感和精神状态,这对心理健康很重要,经常沟通,通过隐喻表达。这表明,使用文本中的隐喻表达式可能表明心理和认知状况,所以有助于心理健康筛查。

心理语言学和精神病学的研究表明,在文本中使用隐喻与作者的精神卫生疾病(12- - - - - -16]。例如,精神分裂症患者可能比喻使用短语“容器”指手表和“手鞋”指手套。换句话说,使用隐喻在精神疾病患者可能不同于那些没有,这可能提供新的机会识别精神疾病使用隐喻作为诊断指标。虽然目前还不清楚是什么原因导致这些偏差在隐喻生产、神经科学研究提供了一些线索。学者指出,一些精神疾病如精神分裂症与杏仁核的功能障碍,这过程和调节情绪17]。其他研究表明,隐喻的文本比与杏仁核的激活相关领域有关文字语言(18]。

随着人工智能的发展,各种数据处理技术19- - - - - -25),现代医学诊断的效率不断提高。随着人工智能技术的一个重要组成部分,自然语言处理广泛应用于心理健康相关问题(26- - - - - -28]。Shatte et al。29日)回顾了机器学习的应用在心理健康:四个主要应用领域,包括检测和诊断(30.,31日];预后、治疗和支持;公共卫生;研究和临床管理。最常见的心理健康状况解决包括抑郁症、精神分裂症、老年痴呆症。之前的研究表明使用NLP技术的可行性等各种特性提取短信语言,人口,和行为特征来预测抑郁症等精神疾病(32),自杀倾向(33),和创伤后应激障碍34]。然而,很少有研究涉及隐喻的应用,深刻的语义特征,检测和预测心理健康问题的一种手段。随着快速的Twitter和Facebook等社交媒体应用程序,似乎有一种显著增加隐喻文本各种话题,包括产品、服务、公共事件,和人们的生活花絮。这似乎是一个重要的和有前途的挑战利用隐喻功能支持精神卫生问题的识别和预测。

在本文中,我们提出了使用自动检测隐喻文本预测各种心理健康问题包括焦虑、抑郁、自卑、敏感、社交恐惧症和痴迷。我们命名方法Metaphor-Sentiment模型(MSM)和我们实验组合数据集执行从英语是第二语言的学生论文和eRisk2017创建数据集来自社交媒体。我们的贡献如下。(我)我们提出一个新颖的方法来识别一些心理健康问题通过使用语言隐喻在文本功能。我们所知,我们是第一个利用隐喻特性支持精神卫生问题的识别和预测。(2)实验结果表明,我们建议的方法可以帮助预测心理健康的书面文本的作者和我们的算法给出了相当不错的表现,而先进的方法。(3)工作表明语义内容,特别是使用隐喻的作品产生的个体,可以帮助检测六个心理健康问题。这似乎是一个新的结果,隐喻的使用甚至在外来语言可以作为指示性的各种心理健康问题。(iv)我们为小说、稀缺和宝贵的数据集,都将公开发布,由扬声器的论文和作者的数据从一个心理调查获得的精神健康问题。(v)由于缺乏相关工作,探索功能,影响心理健康使用计算方法可以帮助早期发现和治疗心理健康及相关问题。

2.1。在NLP心理健康

NLP技术已经应用于推测人的心理健康状况,根据书面文本,如Facebook, Twitter,等等,他们可以用来获取信息在用户的心理状态直接和有效地35]。近年来,学者们探索许多不同功能的各种数据集探索文本背后的心理健康状况。阮et al。36)使用数据从外国生活日报网站上收集38 k帖子从精神疾病社区和230 k的帖子精神健康的社区精神疾病预测。他们尝试了各种方法,包括语言探索与词频统计(LIWC),获得语言的特点,社会、有效、认知、感知、生物、相对论,个人关注,口服,情感功能(也基于LIWC)和最新的狄利克雷分配(LDA)主题模型,最终达到93%的准确率。Franco-Penya和桑切斯37)建立了一个基于字格树结构特征和其他特征和支持向量机(SVM)相结合的学习方法来设计分类器来检测在CLPsych2016心理健康状况38]。科汉et al。39]全面考虑词法特征、上下文特征,文本数据的特性,在相同的数据集和文本局部特性,使用支持向量机分类器来完成检测任务。Ramiandrisoa et al。40)尝试了各种词法特性在另一个评价任务2018年谱号eRisk数据库(41),包括词袋模型、特定类别的话说,和特殊词组合,他们把文本转化为向量分类。Weerasinghe et al。42]调查语言模式,区分从对照组患有精神疾病,包括bag-of-words,集群,词性语法功能、和主题模型来了解机器学习模型。

除了文本和其他用户的使用特点,深度学习的兴起提供了新的方法来检测通过文本精神疾病。本顿et al。43]多个场景建模预测自杀风险水平不同,建立了多任务学习框架(MTL)以满足不同的任务的需要。Trotzek et al。44)先把文本转换成向量,然后完成分类任务通过卷积神经网络来预测用户的心理健康状况。Sekulic和Strube45)应用层次关注网络与社交媒体用户和分析短语相关的精神状态检查模型的权重也能进行关注。多通道思考也应用于心理健康研究(46,47]。他们使用了一种多通道的方法,包括共同分析文本和视觉和音频数据及其与心理健康的关系超过文本分析。

2.2。数据集

正如上面所讨论的,隐喻表达式与心理和认知状况相关联。因为隐喻的认知过程,它可能可行的屏幕和监视精神和情感状态不管语言的流利程度。我们因此认为隐喻是心理健康的一个重要文本功能检测在语言使用者中,都包括本地和扬声器。我们从两个不同来源收集数据,验证我们的假设和增加我们的可靠性实验研究中隐喻使用和心理健康状况之间的关系。

2.3。学生作文和心理健康

我们收集数据从English-proficient中国大学生英语作文说英语作为第二语言。我们也收集了从这些学生心理健康数据使用一个心理调查。首先,我们使用在线和离线校园广告招募164年大学新生参与者通过了全国大学生英语四级考试在中国,这意味着它们是中文和英语写作流利。参与之前,所有参与者提供了一个同意书表示他们愿意参加这项研究。通过一份调查问卷参与者提供他们的个人信息,然后写了一篇作文500个英语单词或更多的在两个小时内。有两个组成部分:描述了他们以前的生活经验,然后提出自己的未来计划,包括他们的理想的未来生活,思考生活,为他们未来的生活目标,并计划克服障碍。的内容给了我们一个深刻的理解他们的心理状态48),这对心理健康问题的检测至关重要。

写他们的作文后,学生被要求完成心理健康问卷,评估两个水平的心理健康问题。第一级是严重的心理健康问题,主要是严重的精神病,如幻觉,自杀行为和自杀倾向。在我们的调查中,只有少数学生一级问题。第二个层次涉及常见的心理问题,如焦虑、抑郁、自卑、敏感,社交恐惧症。心理问题进行评估的标准分数的基础上筛选指标。具体地说,与参与者进行评估心理健康问题当他们的分数在某些指标超过了典型的结果。我们排除了数据从8学生因为我们无法与模糊匹配他们的心理问题从心理健康数据索引。有效的心理健康数据表给出了剩余的156名学生1。同时,我们提取的数据从学生心理健康问题作为控制分析文本隐喻使用情绪特征的差异。

数据收集的过程持续了四个月,导致156作文130044字的156名学生(年龄在18 - 23岁,意味着= 19.06年,SD = 0.19, = 86,雄性和雌性= 70),加上心理健康从心理问卷调查获取的数据。这些数据的安全性和存储不确定因素,即。,同意表格和问卷调查。

2.4。eRisk2017数据

抑郁症的早期风险检测eRisk2017任务(49)提供了一个数据集包含从Reddit发布内容和评论。135 Reddit用户识别的任务和未患抑郁症的抑郁和752 Reddit用户通过他们的文章和评论。这个词为每个Reddit用户数量从10到2000不等。每个Reddit用户的数据集包含个体识别、写数据、文本标题,写类型和写作内容。文献[50)建设eRisk数据的细节。他们首先选择从多个社交媒体和Reddit收集后抑郁症的诊断通过特定的搜索(比如我被诊断出患有抑郁症)。文章手动评估识别用户是否真的患有抑郁症。他们收集了病人的文本记录发布在Reddit上一段时间。我们结合内容按时间顺序为每个Reddit用户目前的研究。

3所示。方法

我们的工作流程如图1。隐喻与心理健康问题如上所述。我们从文本中提取隐喻和隐喻设计特性集来预测各种心理健康问题。我们的方法也被认为是情绪的特性在示例文本这一特性已被广泛用于精神卫生研究[14,44,51,52]。我们在Metaphor-Sentiment应用隐喻和情绪特征模型(MSM)预测心理健康问题。简要总结了特征提取算法的算法1,更多的细节将在下面介绍。

3.1。隐喻特征提取

metaphor-based功能,我们认为以下(算法1步骤1):(我)令牌的比例自动标记为隐喻的隐喻识别方法(2)一个句子包含隐喻的概率

输入:目标文本。
输出:Metaphor-Sentiment特性集。
(1) 识别文本中的每个单词的metaphoricity,计数频率,并生成隐喻性的统计特性
(2) 使用Sentistrength获取分数的积极和消极情绪,并生成统计特征和情绪uctuation值在句子层面
(3) 确定的单词在句子中的情绪信息的句子获得隐喻词的情绪特征
(4) 使用SenticNet句情感五个维度的得分,并计算平均值的情绪特征的文本
(5) 整合上述特征,返回Metaphor-Sentiment特性集

我们也认为隐喻表达的情绪相一致的一个句子与句子的情绪。首先,SentiStrength (http://sentistrength.wlv.ac.uk/)被用来分析一个句子的整体情绪。SentiStrength情绪强度分析收益率两个得分:-(分数−−1 5)和积极的(分数1 - 5)。两个值之和的整体情绪评分是句子。情绪得分为0的定义是中性的。接下来,我们决定情绪的隐喻使用三个具体特性值(算法1步骤3):(我)隐喻的数量与积极情绪(积极情绪得分)(2)隐喻的负面情绪(负面情绪得分)(3)所有隐喻情绪得分的平均值

在我们的方法中,隐喻被确定使用技术,自动显示标记级隐喻识别任务的最佳性能迄今为止(53]。自动隐喻识别系统包含四个步骤:(1)列车字嵌入在维基百科转储基于连续袋的话(CBOW)和Skip-Gram模型获得的输入和输出向量的每一个字;(2)它选择检测评估metaphoricity和分离检测文字从一个给定的句子;(3)它提取所有可能的同义词和直接上位词,包括他们的词形变化,发现词从WordNet,将它们添加到候选词集 ,它包含所有可能的检测单词的感觉;(4),选择最适合的词 ,代表实际意义上的发现在一个给定的单词句子,从候选词集 ,使用以下公式: 在哪里k , 是输入向量CBOW或Skip-Gram条目的候选人一个单词k, 意味着所有的输入向量的平均背景的话。最适合的词余弦相似性最高与上下文的话。最后计算的相似度值检测单词及单词使用最适合的输出向量测量发现词之间的差异的意义和上下文。检测单词时贴上隐喻的相似性值小于给定的阈值。在实际应用中,我们发现每一个词在句子的内容。提出了算法的详细过程2

输入:句子;一个词典,它返回相应的关键字向量,Word2vec;一个词典,它返回键的相关词集,WordNet
输出:一组相应的单词句子,metaphority标签标签
(1) 函数TokenMetaphorIdentify (检测到的词;句子)
(2) 上下文= []; = 0
(3) =WordNet(检测到的词]
(4) 每个单词 句子和单词detected_word
(5) 上下文=上下文
(6) 结束了
(7) =平均水平(Word2vec[背景])
(8) 每个k
(9) 如果余弦(Word2vec [k], )˃max_cosine然后
(10) max_cosine = cos (Word2vec [k], )
(11) =k
(12) 如果
(13) 结束了
(14) metaphor_value = cos(Word2vec(detected_word),Word2vec( ])
(15) 如果隐喻的价值<阈值然后
(16) 返回真正的
(17) 其他的
(18) 返回
(19) 如果
(20) 结束函数
(21)
(22) 函数MetaphorIdentify (句子)
(23) 标签= []
(24) 每个单词 句子
(25) 标签= TokenMetaphorIdentify (词;句子)
(26) 标签=标签 标签
(27) 结束了
(28) 返回标签
(29) 结束函数

我们训练和测试了隐喻的识别算法数据集由默罕默德(10],其中包含210隐喻句子的单词注释手动检测到至少70%的协议。我们选择了相同数量的文字句子从成千上万的文字句子的数据集。最好的隐喻识别性能精度0.635,0.821召回,和F1值0.716阈值为0.5,毛匹配识别性能报告(53]。

隐喻识别方法的性能评价与我们的数据集,我们随机选择10各成分的七组对应六个心理健康问题和健康控制。总共有七十成分进行了分析。使用学生隐喻识别性能数据集的精度0.632,0.935召回,F1值为0.754。

2显示的例子比喻自动检测到的隐喻识别方法从学生作文数据集(a - c)和eRisk2017数据集(d-f)。句子匹配两个词从不同的领域:例如,一个源词标记为隐喻,如破碎的,和一个目标词等梦想。然而,这种标记级隐喻识别算法产生一些错误,因为它确定一个隐喻基于本地信息检测单词和不能有效识别固定搭配。例如,在短语我最终得到了自己的这个词,算法错误地标记自己的在我自己的作为隐喻。

3.2。情绪特征提取

情绪功能集包括所有单词的五个维度的平均值;积极的句子的比例、否定句和中性句子;句子的情感得分平均,每一篇文章的情感波动值,产生十个特定特性。

我们使用SentiStrength分数获得情绪的句子文本如上所述,为了计算的比例正句子,否定句,和中立的句子;文章的句子的平均情绪得分;每篇文章的情绪波动的分数(算法1步骤2)。

每篇文章句子的平均分数计算来确定文章的情感价值使用以下公式: 在哪里E代表平均情绪值的文本,年代代表的情感得分th句子,n是句子的文本。波动的分数是通过减去的情感得分连续两个句子在文章和绝对值。我们使用的平均作为其情绪波动值。它是由以下公式: 在哪里F表示文本的情感波动值。

五个维度的得分(愉快的值、注意力、敏感性、资质和极性)获得使用SenticNet (http://www.sentic.net)(算法1步骤4)。所有单词的五个维度的平均值作为文章的情感的一个指标。快乐值的平均值计算,这个例子: 在哪里P代表了和蔼可亲的价值观和的平均水平 代表的快乐值词。平均的注意值,灵敏度值,类似的能力值和极性值计算。

4所示。隐喻分析

我们分析了隐喻使用六个心理问题和卫生控制基于自动识别结果,包括识别隐喻的例子和统计分析。

2显示最常用的例子比喻为每个七心理健康组。为了演示每组的特点,我们排除了隐喻的话说,发生频率最多的心理健康团体,如支付,,限制。相同的隐喻词经常以不同的方式使用这些心理健康组相比在团体心理健康问题,见下面的例子:例1。老师总是尽其所能来满足学生的需求Ex2。我们总是遇到各种困难在学习的路上。

句子的第一个例子是来自一个学生组成的健康对照组和表达积极情绪,而第二个例子是来自一个学生组成的抑郁组和表达负面情绪。

我们研究文本的情感和学生作文中隐喻的效果数据。统计信息如表所示3

平均情绪表示平均分数所有文本和元情绪的情绪情感得分平均比喻的句子。人敏感组情感得分最高的痴迷组最低。元情绪总体是0.05低于平均情绪,这表明,在学生组成的数据集,学生更容易表达自己的负面情绪,通过隐喻描述悲伤的事情,例如,句子在图A和C2要是。我的梦想被打破了Ex4。最终他会走进社会

前者表示失去的心情碎梦,而后者用于显示成长的无助的心情,进入社会。他们运用隐喻来表达负面情绪。

为了更好地理解隐喻使用每个心理问题的特点,我们学生的标签生病的没有生病对于每一个特定的心理问题和分析两组之间的隐喻功能。图的直方图3显示不同的隐喻功能的情况为每个心理健康问题。我们发现的概率一个句子包含隐喻在自卑的学生或社交恐惧症高于学生没有这些心理问题(t= 1.775, ;t= 1.695, )。社交恐惧症的学生更倾向于使用隐喻和消极情绪比没有社交恐惧症的学生(t= 1.978, )。此外,痴迷的学生得分显著降低了平均情感隐喻的价值比没有困扰的学生(t=−2.060, )。最显著的成分指数通过学生心理健康问题与隐喻句子的概率。心理健康问题的学生有更高的特征值为该变量比健康组。

5。实验

我们比较MSM的预测性能和基线eRisk2017数据集(49)都和议长论文数据集,我们评估常用文本特征的隐喻功能基线。都每六个心理健康问题的演讲集受到一个单独bicategorization任务。我们计划来验证隐喻特征的有效性检测的各种心理健康问题,我们使用相同的Metaphor-Sentiment特性集在每个心理健康问题预测任务。不同的模型参数将会获得不同的心理问题处理隐喻的功能。

我们应用合成少数过采样技术(杀)缓解学生作文的正负样本之间的不平衡数据集。击杀算法分析的样本少数并产生新的样本数据集。具体过程:(1)随机选择一个样本 从少数民族和计算它和其他样本之间的欧氏距离这类;(2)随机选择一个样本 k最近的邻居的 在上一步计算;(3)根据以下公式,构造一个新的样本和添加到少数样本集;(4)重复上述步骤,直到适当的样本量。

5.1。基线

(提出的预测方法44)被选为基线,因为它显示eRisk2017和eRisk2018最好的性能。他们两种方法应用于eRisk2017数据集来检测人患有抑郁症。一个方法涉及到逻辑回归使用由四个字频统计特征提取tools-LIWC (http://liwc.wpengine.com/),NRC情感词典(http://www.saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm),认为词汇(http://www.cs.uic.edu/∼liub /的边后卫/ opinion-lexicon-English.rar),维德情绪词汇(http://www.nltk.org/_modules/nltk/sentiment/vader.html)。这些工具扫描输入文本的频率来计算不同类别的词,如积极words-words的归一化频率用于表达积极情绪。词频的输出数据可以被转移到分类器作为文本特征。另一个是基于深度学习方法,采用卷积神经网络(CNN)。我们复制方法和比较方法的两个数据集。

5.2。预测方法

我们使用metaphor-based特性集和sentiment-based特性集构建Metaphor-Sentiment模型(MSM)预测心理健康状况。我们比较了三种常见的分类器的性能:逻辑回归、支持向量机和神经网络。神经网络产生最好的结果之间的关系特点和心理健康问题可能是非线性的。为了防止神经网络模型过度拟合训练小规模数据集,我们添加了L2正规化,辍学层,早进站机制模型。与此同时,层数和隐层节点在网络是由测试。10倍交叉验证应用于实验,以确保模型的性能。

摘要神经网络建成使用Keras (https://github.com/keras-team/keras),这是一个基础课,完全连接神经网络由一个输入层,两个隐藏层和一个输出层。输入层向量,结合隐喻的特征和情感特征提取数据。两个隐藏层的输出尺寸100和50,分别。输入层和两个隐藏层连接整流线性单元(CReLU)用于激活函数。我们添加了一个辍学层两个隐藏层之间的辍学率为0.4,以避免过度拟合。输出层Softmax用于激活函数,产生了逻辑函数的泛化和输出向量有两个维度。

5.3。实验性能

eRisk2017数据集分为训练集和测试集(49]。我们测试了男男同性恋者使用sentiment-based特性集,metaphor-based特性集,或者两者比较的结果与使用基线法。结果如表所示4。我们的识别方法优于两个基线方法方面的准确性和F1-score。此外,结果表明,metaphor-based特性集检测抑郁症是很有帮助的。这些结果证明我们的预测方法与现有方法相比的优越性,如那些用于我们的基线。

我们用10倍交叉验证分区组成的数据集都来自学生评估男男同性恋者相对于基线的预测性能的方法。结果如表所示56

5比较两个基线方法的准确性与我们的方法预测的6个心理健康问题。结果表明,男男同性恋者获得精度最高,平均精度为所有六个心理健康问题是明显高于基线(确切概率法: ),特别是关于敏感性预测任务(确切概率法: )。MSM metaphor-based特性中发挥了重要作用,优于sentiment-based特性集所有心理健康组预测任务。达到预测精度最高的自卑,这对应于之间的显著差异在隐喻使用的学生自卑,自卑,正如上面所讨论的。

考虑到不平衡样本,我们还计算F1-score心理健康问题预测任务。结果如表所示6。总的来说,使用所有功能集,我们的方法显示的最高性能预测的六个方面的心理健康问题平均F1-score。改善F1-score是重要的对学生的敏感性(确切概率法: )。逻辑回归基线方法实现相同的结果作为我们的方法。metaphor-based特性集从我们的方法显示预测的最高F1-scores自卑和社交恐惧症。

进一步评估隐喻特性集的有效性,我们比较metaphor-based特性集和sentiment-based特性集三种常见的文本特征提取LIWC, NRC情感词典,和维德情绪中使用词汇和逻辑回归基准方法。线图表如图4现在每个特性的准确性和F1-score性能分别预测六个心理健康问题使用神经网络分类器。结果表明,隐喻特性集更有效的预测比其他文本自卑和敏感特性和同样有效预测其他精神健康问题。

6。结论

我们所知,我们是第一个证明预测六个心理problems-anxiety,抑郁、自卑,敏感,社交恐惧症,obsession-using自动检测文本的隐喻。我们使用metaphor-based特性集和sentiment-based特性集使用成分数据预测这些心理健康问题都由学生和eRisk2017数据集来自社交媒体。我们的结果表明,该方法可以预测作者的书面文本的心理健康状况,以及我们的算法比其他先进的方法表现良好。我们也分析了隐喻的差异在学生中使用各种心理健康问题和评估的有效性比喻集与其他文本特征的成分数据预测心理健康状况英语是第二语言的学生。

我们的工作证明了隐喻的文本的价值特性的预测心理健康问题。实验结果提醒我们的隐喻的重要性,作为一个深,复杂,为心理健康识别和认知功能,通常专注于肤浅的语言特征。重要的是,我们表明,隐喻是预测即使对于非原生语言使用者的语言。我们也为小说、稀缺和宝贵的数据集,都由演讲者的论文和作者的数据从心理调查,获得心理健康问题我们将公开发布。我们希望本文将刺激新的想法的识别和预测心理健康状况通过分析文本并导致改进的自动化方法。

数据可用性

使用的数据来支持这个研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是在社会科学规划基金项目的支持下,格兰特L20BYY023下Niaoning省。