患者健康问卷(PHQ-9)和PHQ-2筛选器的僧伽罗语翻译的效度和信度

摘要

患者健康问卷（PHQ-9）被改编并翻译成僧伽罗语。样品根据DSM-IV标准和75个性别匹配的对照由75名参与者诊断患有MDD。同期效度PHQ-9与流行病学研究中心抑郁量表（CESD）的总成绩进行相关评估。用于通过精神科医生进行DSM-IV（SCID-II）的结构化临床访谈是金标准。样本的平均年龄为33.0年。其中女性91人(60.7%)。PHQ-9平均得分在病例(14.71)和对照组(2.55)之间有显著差异()。分类算法的特异性为0.97;灵敏度为0.58。受试者工作特征(ROC)分析发现，分界分≥10，敏感性为0.75，特异性为0.97。曲线下面积(AOC)为0.93。两项筛选器(PHQ-2)的敏感性为0.80，特异性为0.97。Cronbach的alpha值为0.90。PHQ-9在非西方人群中是诊断MDD的有效和可靠的工具。推荐使用阈值算法进行筛选，而不是分类算法。PHQ-2筛选器具有良好的灵敏度和特异性，推荐作为快速筛选仪器。

1.介绍

《2010年全球疾病负担研究》指出，精神和行为障碍是导致残疾多年(YLD)的主要原因[1]。患者抑郁症状呈现给初级保健机构，专业护理单位，精神科治疗服务[2,3.]。世卫组织的多国研究报告说，在初级保健抑郁症的患病率为14％[4]。抑郁症是初级保健漏诊和治疗的专业设置和只有大约一半的抑郁症患者都准确地全科医生诊断[5,6]。

患者健康问卷（PHQ-9）PRIME-MD [发展过程中发展成为抑郁症筛选7,8]。这是一个基于DSM-IV诊断抑郁症标准的自我管理工具。它可以通过在0-3的范围内对每个症状的频率进行评分来监测抑郁的严重程度。它也可用于诊断重度抑郁症(MDD)。

PHQ-9已经在各种环境中使用。在许多国家，它已经被翻译成文化上的适应，用于诊断抑郁症[9- - - - - -11]。一项荟萃分析报告PHQ-9的综合敏感性为0.77(0.71-0.84)，特异性为0.94 (0.90-0.97)[12]。PHQ-2在初级护理中作为抑郁筛查工具，筛查阳性的患者需进一步评估[8,13]。

这项研究有两个主要目的。第一个是在斯里兰卡人口中建立PHQ-9的效度和信度。斯里兰卡缺乏精神科医生，许多抑郁症患者在非精神病院接受治疗[14]。因此，一个有效和可靠的抑郁症筛查仪是在这些设置非常宝贵的。第二个目的是比较的PHQ-9的不同的诊断算法，这将有助于确定最佳的算法MDD诊断的敏感性和特异性。

2.材料和方法

2.1。样本

假设敏感性和特异性为0.85，计算样本量。样本包括75例重度抑郁症患者和75例性别匹配的对照组。病例选自斯里兰卡科伦坡一家三级护理医院的精神科门诊。病人从医院的其他科室转到这个诊所。患者也直接从这个诊所寻求治疗。因此，患者数量与初级护理人群相当。对照组是在排除抑郁障碍的筛查评估后从社区中选择的。双相抑郁患者被排除在研究之外。

2.2。研究过程

研究方法已在先前的刊物中描述[15]。采用定性和定量相结合的方法翻译PHQ-9 [16]。六位专家谁是双语的面板中分别翻译成规模僧伽罗语。僧伽罗语是斯里兰卡人的约75％使用的语言。然后，翻译是由所有六个专家组成的小组讨论。最好的翻译规模的每个项目由集团协商一致决定。最终的翻译量表回来双语专家谁不知道原来规模的翻译成英文。背部翻译规模与原有规模相比。翻译后的量表预测试对一组20人的社区。

重性抑郁症被诊断基于用于DSM-IV障碍（SCID-1）[在式临床检查17]。病例和对照组填写了僧伽罗语版的PHQ-9问卷和流行病学研究中心抑郁量表(CESD) [15]。该CESD是用来评估的同时效度。

所有参与者均获得了书面知情同意，并获得了科伦坡大学医学院伦理审查委员会的伦理批准。

2.3。措施

病人健康问卷是一个有9个项目的工具，用来评估DSM-IV中列出的抑郁症状。九项中的每一项都从0分(根本没有)到3分(几乎每天都有)。总分从0分(无抑郁症状)到27分(所有症状每天发生)不等。PHQ-9使用两种诊断算法来诊断MDD。分类算法要求“超过半天”或“几乎每天”回答至少五个问题，其中应包括问题或者1b，或者两者都有。问题如果这种想法出现了好几天，就被视为积极的[18]。第二种算法使用阈值评分进行诊断。总分也反映了抑郁的严重程度;0到4分代表抑郁的最低程度;5 - 9岁，温和;10 - 14，中等;15 - 19岁，中度严重;20到27岁，严重。此外，PHQ-9的前两个问题可以作为抑郁障碍(PHQ-2)的筛查工具[13]。

2.4。统计分析

采用SPSS Statistics version 18.0进行统计分析[19]。内部一致性，使用信度的α测量的。标准有效性使用这给了PHQ-9的灵敏度和特异性在不同的截止点接收器操作特性（ROC）分析来评估。通过精神科医生进行用于DSM-IV（SCID-I）的结构化临床检查中使用的金标准[17]。同时效度通过CESD和PHQ-9总分的相关性来评估。评估PHQ-9和PHQ-2两种算法诊断MDD的敏感性和特异性。

3.结果

样本由75例病例和75例对照组组成。样本的平均年龄为33.0岁。其中女性91人(60.7%)。对照组(28.33岁)明显小于病例(37.51岁)(,,)。病例与对照组的性别分布无显著差异(χ²= 1.45,,)。

样本PHQ-9总得分均值为8.67 (SD为8.22)。PHQ-9平均得分在病例(14.71)和对照组(2.55)之间有显著差异(,,)。根据抑郁症的基于所述PHQ-9总分严重性箱子分类显示，7（9.2％）具有最小的抑郁症（评分1-4），12（15.8％）轻度抑郁症（评分5-9），15（19.7％）中度抑郁症（评分10-14），20（26.3％）中度严重的抑郁症（分值15-19），和22（28.9％）重度抑郁症（分值20-27）。对照61（81.3％）具有最小的凹陷，12（16％）有轻度抑郁，一个有中度抑郁症和另一个有中度至重度抑郁症，并且什么都没有严重的抑郁症。

3.1。有效性

DSM-IV疾病的结构化临床访谈(SCID-1)被用作“金标准”[17]。当使用分类算法诊断重度抑郁症时，敏感性为0.58，特异性为0.97(表)1)。


	情况下	控制

PHQ-9阳性	44	2
phq - 9 -	32	73

接收器工作特性（ROC）分析鉴定的灵敏度和特异性在不同的截止使用总得分的诊断算法点（图1)。曲线下面积(AOC)为0.93。分界值≥10，灵敏度为0.75，特异性为0.97(表)2)。


截止得分	灵敏度	特异性

≥5	0.91	0.81
≥6	0.88	0.84
≥7	0.84	0.89
≥8	0.82	0.92
≥9	0.79	0.96
≥10	0.75	0.97
≥11	0.68	0.97
≥12	0.67	0.99
≥13	0.58	0.99
≥14	0.57	0.99
≥15	0.55	0.99
≥16	0.50	0.99

同期效度PHQ-9和中心的总分进行流行病学研究抑郁量表（CESD）相关评估。Pearson相关系数为0.87。

在两项分类算法中，如果存在两项抑郁症状标准中的一项或多项，则抑郁筛查为阳性。两项筛查的敏感性为0.80，特异性为0.97(表)3.)。


	情况下	控制

PHQ-2积极	61	2
PHQ-2负	15	73

3.2。可靠性

Cronbach的alpha值为0.90。平均项得分和校正项-总相关性列于表4。这些项目的平均分数在0.57到1.36之间。第6项的最小项均值(0.57)和最小项总相关(0.44)对自己感觉不好或者觉得自己是个失败者。克朗巴赫的阿尔法，如果项目被删除，减少所有项目。


	意思	标准偏差	纠正项目合计相关性	量表的阿尔法如果项目被删除

第一项在做的事情毫无兴趣或乐趣	0.92	1.28	0.73	0.88
第二项感到沮丧、沮丧或绝望的	1.36	1.30	0.74	0.88
项目3 难以入睡、睡不着或睡得太多	1.25	1.32	0.71	0.88
第四项感到疲倦或没有精力	1.30	1.32	0.76	0.88
第五项胃口不好或吃得过多	0.97	1.25	0.60	0.89
6项对自己感觉不好或者觉得自己是个失败者	0.57	1.01	0.44	0.90
项目7 难以集中注意力的东西	0.82	1.26	0.62	0.89
8项动作或说话非常慢，别人都能注意到	0.83	1.27	0.70	0.88
9项认为自己死了会更好或伤害自己的想法	0.64	1.05	0.64	0.89

4.讨论

本研究的有效性和的PHQ-9的两个算法的可靠性和在诊断严重抑郁障碍的双问题筛（PHQ-2）。当使用分类算法的灵敏度为0.58，特异度为0.97。当使用阈值算法，的≥10截止得分得到的0.97的0.75的灵敏度和特异性。信度的α为0.90这可能表明规模的单维。两个项目筛（PHQ-2）的灵敏度为0.80，特异度为0.97。

当使用分类算法，所述PHQ-9具有非常高的特异性，但低的灵敏度。有报道说，在分类算法导致低灵敏度（0.42-0.53），但高特异性[11,20.,21]。的灵敏度和诊断测试的特异性依赖于测试的特性以及在其中使用它的人口[22]。灵敏度较高，当样本包括更多的患者有严重的疾病。在我们的样本中，虽然平均PHQ-9的得分显着高于（8.67），在其他一些研究，这并不会导致高灵敏度。

这可能是在某些文化中的情绪问题有不同的表达，这可能影响规模项目的解释。然而低灵敏度被认为与所述分类算法，但不是阈值算法。因此，分类算法的低灵敏度可能反映的诊断标准，而不是问题项目的解释的严格性。类似的调查结果已经导致其他研究人员建议使用阈值算法的，而不是绝对的算法[11,20.]。

据认为，来自非西方文化的病人不太可能承认低情绪的存在。无论是西方文化还是非西方文化的抑郁症患者，都被发现最初表现为躯体性症状，如肌肉骨骼疼痛和疲劳[23]。在我们的样本中PHQ-9项目的平均得分显示，睡眠差和缺乏精力的躯体症状是普遍承认的，但样本最常报告的项目是情绪低落。因此，在我们的样本中，无论主诉是什么，抑郁症患者都承认经历了情绪低落。泰国的一项研究也报道了这一发现[11]。

PHQ-2筛选器具有较高的敏感性和特异性。两项筛选器(0.80)的灵敏度高于分类算法(0.58)和阈值算法(0.75)。特异性与其他两种算法相同。

美国预防服务工作组建议使用PHQ-9中的前两个问题“在过去的两周里，你是否感到沮丧、沮丧或绝望?”以及“在过去的两周内，你是否对做事情没有兴趣或兴趣?”因为它可能和使用更正式的工具一样有效[24,25]。我们的研究结果表明，PHQ-2在抑郁筛查中是有效的，因为它具有良好的敏感性和特异性，可以在繁忙的门诊环境中轻松使用。但不推荐用于重度抑郁症的诊断。

我们的研究有几个局限性。我们采用了一种病例对照设计，这种设计可以增加仪器的敏感性和特异性[22]。然而，患者样品包括轻度和重度疾病的一个合适的光谱以及处理和未处理的个体。这项研究的主要限制是，我们招募患者从三级护理精神病学单位。虽然这种门诊治疗的患者谁直接存在类似于初级保健设施的患者群体的组成将是一个初级保健中心的不同。

接受初级保健服务的患者可能会被诊断出患有特定的临床综合征，这些综合征的持续时间和严重程度随时间而变化，还包括躯体和心理症状的混合，与当前的精神病学诊断系统不符[26]。这是抑郁症状尤其如此。例如，疼痛可以是在初级护理抑郁症的一个症状呈现。因此器械和诊断标准可能需要适合于在初级保健中使用。

5.结论

我们推荐使用阈值算法而不是分类算法来筛查抑郁症，因为前者具有更好的敏感性。我们还推荐PHQ-2筛选器在所有临床环境中使用，因为它具有高灵敏度和特异性，易于使用。

利益冲突

作者声明，本论文的发表不存在任何利益冲突。

参考

T. Vos, a . D. Flaxman, M. Naghavi等人，“1990-2010年289种疾病和伤害的1160种后遗症的残疾生活年数:2010年全球疾病负担研究的系统分析，”《柳叶刀》卷。380，没有。9859，第2163至2196年，2012。视图:谷歌学术搜索
R. Hanwella和V. de Silva，《身体疾病中的抑郁》，《锡兰医学杂志第53卷，no。2，第63-65页，2008。视图:谷歌学术搜索
R. Hanwella和V. de Silva，《抑郁症的诊断和管理》，锡兰医学杂志第53卷，no。第60-62页，2008年。视图:谷歌学术搜索
T. B. Ustun和M. von Korff， <初级精神卫生服务>一项国际研究：在一般保健心理疾病，T B. Ustun和N.赛多利斯，编，第347-360，John Wiley和Sons，奇切斯特，英国，1995年。视图:谷歌学术搜索
a . J. Mitchell, a . Vaze, S. Rao，《初级保健中抑郁症的临床诊断:荟萃分析》，《柳叶刀》，第374卷，no。9690, 609-619页，2009。视图:出版商网站|谷歌学术搜索
M. Cepoiu，J.麦卡斯克，M. G.科尔，M. Sewitch，E. Belzile，和A.钱皮“由非精神科抑郁症的识别医生-A系统的文献回顾和荟萃分析，”普通内科杂志第23卷，no。1, 25-36页，2008年。视图:出版商网站|谷歌学术搜索
R. L. Spitzer, J. B. W. Williams, K. Kroenke等人，“初级保健中诊断精神障碍的新程序的效用:prime - md1000研究”，美国医学协会卷。272，没有。22，第1749-1756，1994。视图:出版商网站|谷歌学术搜索
R. L. Spitzer, K. Kroenke, J. B. W. Williams，“自我报告版本的PRIME-MD的验证和效用:PHQ初级保健研究”，美国医学协会第282卷，no。1999年，第1737-1744页。视图:出版商网站|谷歌学术搜索
C. Diez-Quevedo, T. Rangil, L. Sanchez-Planell, K. Kroenke, R. L. Spitzer，《病人健康问卷在诊断1003名西班牙综合医院住院病人精神疾病中的有效性和效用》，身心医学第63卷，no。4，第679-686页，2001。视图:谷歌学术搜索
S. Becker, K. Al Zaid, E. Al Faris，《沙特阿拉伯躯体化和抑郁症的筛查:初级保健中PHQ的验证研究》国际精神病学杂志中医药第32卷，no。2002年第271-283页。视图:出版商网站|谷歌学术搜索
M. Lotrakul, S. Sumrithe，和R. Saipanish， <泰国版PHQ-9的信度和效度>，BMC精神病学卷。8，第46，2008年。视图:出版商网站|谷歌学术搜索
K. Wittkampf的A.，L. Naeije，A. H. Schene，J. Huyser和H. C.面包车韦尔特，“病人健康问卷的情绪模块的诊断精确度的系统评价，”综合医院精神科卷,29号5，第388-395页，2007视图:出版商网站|谷歌学术搜索
K.克伦克，R. L.斯皮策和J. B. W.威廉姆斯，《病人健康问题-2:两项抑郁症筛查的有效性》，医疗保健第41卷，no。11，第1284-1292页，2003。视图:出版商网站|谷歌学术搜索
V. de Silva和R. Hanwella， "斯里兰卡的精神健康，"《柳叶刀》卷。376，没有。9735，第88-89，2010。视图:谷歌学术搜索
V. A. de Silva, S. Ekanayake, R. Hanwella，“门诊病人中锡哈拉版本的流行病学研究中心抑郁症量表(ce - d)的验证”锡兰医学杂志第59卷，no。1, 2014年8-12页。视图:谷歌学术搜索
A. Sumathipala和J.默里，“到翻译仪器跨文化研究的新方法：翻译和共识代组合定性和定量的方法，”国际期刊方法在精神病学研究，第9卷，no。2，第87 - 95,2000页。视图:谷歌学术搜索
M. B.首先，R. L.斯皮策，M.长臂猿和J. B. W.威廉斯对DSM-IV轴I障碍(SCID)的结构化临床访谈1998年，美国纽约州精神病学研究所，生物计量学研究部。
PHQ安检员,http://www.phqscreeners.com/overview.aspx。
IBM公司,IBM SPSS统计用于Windows，版本20.0IBM公司，阿蒙克，纽约，美国，2011年。
稻垣道夫，T. OHTSUKI，N. Yonemoto的等人，“在患者健康问卷（PHQ）-9和PHQ-2在一般内科初级保健在日本偏远地区的医院的有效性：一个横断面研究”。综合医院精神科卷。35，没有。6，第592-597，2013。视图:谷歌学术搜索
胡志刚，“医院内科病人健康问卷(PHQ)法国版的效度标准”。心理学与心理治疗:理论、研究与实践第80卷，no。1，第69-77页，2007。视图:出版商网站|谷歌学术搜索
张建民，“诊断准确性研究中的病例对照与双门设计”，国立台湾大学医学研究所硕士论文。临床化学第51卷，no。2005年，第1335-1341页。视图:出版商网站|谷歌学术搜索
L. J. Kirmayer, J. M. Robbins, M. Dworkind, M. J. Yaffe，《躯体化与初级护理对抑郁和焦虑的认识》，美国精神病学杂志》卷。150，没有。5，第734-741，1993。视图:谷歌学术搜索
美国预防工作小组，http://www.uspreventiveservicestaskforce.org/uspstf09/adultdepression/addeprrs.htm。
m.a. Whooley, A. L. Avins, J. Miranda，和W. S. Browner，“抑郁症的病例发现工具:两个问题一样好，”普通内科杂志卷。12，没有。7，第439-445，1997。视图:出版商网站|谷歌学术搜索
I. M.巴克，B. Terluin，H. W. J.范马尔维克，W.面包车梅赫伦和W. A. B. Stalman，“再测PRIME-MD的可靠性：在诊断在初级保健精神障碍的限制，”欧洲公共卫生杂志第19卷，no。3，第303-307页，2009。视图:出版商网站|谷歌学术搜索

抑郁症研究和治疗

摘要