单极和双相患者抑郁发作检测:特征提取和特征选择方法与遗传算法使用活动运动信号作为信息来源

文摘

抑郁症是一种精神疾病,通常包括复发的悲伤和失去兴趣的积极方面的享受生活,在严重的情况下疲劳,导致无法执行日常活动,导致生活质量的逐步丧失。监测抑郁症(单极和双相患者)统计继电器在传统方法来自病人的报道;然而,偏见是普遍存在,考虑到病人的解释的经验。然而,为了克服这一问题,提出了生态(EMA)的评估报告和广泛使用。这些报告包括数据的行为、情感、和其他类型的活动记录几乎实时使用不同类型的便携式设备,现在包括smartwatches等智能手机和其他衣物。在这项研究中提出了一种方法来检测患者抑郁病人活动,所产生的运动数据记录smartband,从“Depresjon”获得数据库。使用这个信号作为信息来源,特征提取方法的统计特性,在时间和光谱信号的进化,就完成了。随后,一个聪明的特征选择与遗传算法的方法做是为了减少所需的信息给人一种快速非侵入性诊断。结果表明,特征提取方法可以实现值为0.734的曲线下的面积(AUC),应用特征选择方法后,模型由两个特性可以实现0.647 AUC的运动信号。这些结果让我们得出这样的结论:使用从smartband活动信号,可以区分抑郁状态,提供初步和自动化工具为抑郁症的诊断专家几乎实时。

1。介绍

健康的定义由世界卫生组织(世卫组织)发布说:“健康是一种完整的物理状态,心理和社会福利,不仅为疾病或羸弱之消除,。“世界上有超过3.5亿人患有抑郁症,这可以成为一个严重的健康问题,特别是当它是长期和中度到重度的强度,并能造成很大的痛苦和破坏工作,学校,家庭,经济,和情感活动,等等。在最坏的情况下,它可能导致自杀,这是每年约100万人死亡的原因1]。在拉丁美洲,有高速率的婴儿和青少年人群的心理健康问题;约20%的人口有障碍,需要干预的卫生服务,但这个数字低估了由于青少年的倾向隐藏和伪装自己的问题成年人和他们访问治疗结构(缺乏信心2]。抑郁症是一种精神障碍的特点从根本上由抑郁情绪,丧失兴趣,和享受生活的积极方面和疲劳,贫困的生活质量和生成的困难家庭,工作,和社会环境的人。

抑郁能体现无论年龄、性别、社会经济地位、和学术项目,可以表现为主要症状,不包含情绪变化,甚至改变认知功能,所以它不是任何个人很难变得沮丧3]。毫无疑问,研究社会人口因素的年龄,性别,社会经济阶层和家庭在青少年学生是相关的,由于之间的关系可能存在的和抑郁的表现。这就是为什么,在全球范围内,我们发现的一系列研究报告高抑郁在这个人口(4]。

当指抑郁症时,我们与抑郁症状包括情绪障碍,其中包括单极重度抑郁症,精神抑郁,情绪障碍由于疾病和抑郁症状,等等。尽管各种各样的改变,默认情况下,当谈到抑郁,指的是主要的单极抑郁障碍。这种疾病被认为是多年的寿命损失的主要原因由于残疾(AVPD)根据全球疾病负担研究(GBDS),由世界卫生组织(1]。

每四个人中就有一人受到一个或多个情绪或行为障碍在他们的生活,和在50%和70%之间的一个或大或小的抑郁发作倾向发展一个新的在接下来的5年,对全球经济产生很大的影响,心理治疗和药物管理的成本和逃避型人格障碍(AVPD),而2010年是2.5万亿美元与重度抑郁症,预计到2030年增加到6万亿。预后将改善及时和适当的心理、社会和药理管理。

当前的治疗抑郁症的疗效需要增加以来全球发病率非常高,只有一半的患者体验完全缓解一线治疗(药物治疗和心理疗法)在两年内1,5]。

框架内的预防措施或心理康复,仪器获得标准化程度的抑郁是采取行动从科学框架。因此,有必要评估工具,证明有效性和可靠性的最佳证据支持推断的早期检测抑郁症的症状。这些措施之一是State-Rask抑郁量表(6),优势一些已知的仪器,如自行抑郁量表(7)和Beck-II抑郁量表(8]。最具代表性的另一个特点是,它使我们能够区分人的当前经验(状态)和习惯性的行为方式(特征)对抑郁的情感成分(6]。这是伟大的临床价值区分两个时间框架和经验专门针对抑郁症的组成领域之一:情感障碍(6]。经典的方法来实现正确的监控患者的抑郁状态(单极和双极)是由报告病人的回忆。然而,这种类型的监控是一般容易出现偏差,除了行为的变化和理解现实世界所报道的Shiffman et al。9]。另一种方法来克服这些问题是生态的评估(EMA)。这种类型的报告包括行为、情感、和其他类型的活动尽可能的体验在现实生活中9]。这些类型的报告的一个改进是通过可穿戴设备的增加(例如,smartwatches和smartglasses)和智能手机,包括不同类型的传感器(运动传感器、陀螺仪和加速计),允许EMA测量几乎实时完成,帮助精神疾病监控和关闭视图提供治疗,干预措施,提高精神卫生服务覆盖面的人群中不需要新的具体建议设备或修改添加传感器对环境的病人在哪里生活。

一个设备实现心理健康疾病监督当前使用的是智能手机和类似的像smartwatches。提出的一个建议是Gravenhorst et al。10];他们讨论手机如何能增加精神疾病治疗的有效性的两种主要方法:在一方面,人机接口的实现治疗第二,收集重要数据从病人的日常生活记录的当前状态和发展他们的心理问题;他们还讨论的优点和缺点的最有前途的技术检测的障碍问题,如抑郁症或双相情感障碍。

其他有趣的方法是由弗斯et al。(11]研究;他们表明,与智能手机作为一种临床心理干预工具可以减少精神分裂症患者的焦虑。Torous et al。12),在他们的研究中,精神病患者提供数据,利用移动应用程序的使用和利益关系来监测他们的心理健康状况。在这项研究中,结果表明,50%的患者在所有年龄组感兴趣,并将使用移动应用程序监视他们的心理健康状况来控制病情。Bayindir et al。13]目前系统回顾不同的作品集中在使用手机传感器来检测人类行为特征,描述活动检测在不同的抽象级别的活动和特征与健康有关的活动,像体育锻炼和睡觉。

另外使用应用程序,这些设备包括多个嵌入式传感器被用来获取上下文信息和一些利基市场(14,15),包括活动识别(16)和特别活动,有助于找到精神障碍(17]。例如,Gruenerbl et al。18]表明,惯性传感器和GPS跟踪可以用作在精神病诊断测量装置,通过一个方法基于特征提取的物理运动水平和旅游模式,和使用朴素贝叶斯分类的分析技术。Reece et al。19)确定抑郁受试者使用上传照片Instagram基于随机森林的技术。Grunerbl et al。20.]提出双相患者抑郁和疯子状态的分类基于智能手机数据。Maxhuni et al。21分类双相患者通过音频、运动活动,和调查问卷。Berle et al。22]提出一种方法使用电动机活动信息揭示精神分裂症和抑郁症的模式。古永锵et al。23)的效用的研究相关的生物标志物组合不同的方法,如汽车活动基于活动检测仪测量,表明病人的歧视基于这些生物标记物改善抑郁的识别对象。Averill et al。24)检查抑郁发作的精神运动变化基于活动水平来衡量活动检测仪为了知道抑郁症治疗的反应,认为早期简单的活动和精神运动速度的变化允许测量抑郁患者的治疗反应。Garcia-Ceja et al。15)进行分析收集的数据通过活动检测仪应用机器学习分类抑郁症患者,发现数据包含的信息允许的抑郁状态确定的主题。Huguet et al。25)提供一个审查确定自助应用程序可用于抑郁的人。应用程序提供认知行为治疗(CBT)或者行为激活(BA)评估自坚持低水平的核心成分CBT和BA模型的原因,这些应用的实用程序是有问题的。可以得出这样的结论:优越的应用科学、技术和法律知识需要提高对抑郁症患者应用的可信度。

另一方面,莫尔et al。26)提供一个遥感研究的回顾与心理健康有关,一个分层和分级模型提供原始传感器数据转化为行为和国家有关心理健康的标志。最后,在Guntuku等的工作。27)回顾了预测的研究精神疾病使用社交媒体,包括筛选调查,公众在Twitter上分享,会员在一个在线论坛,总结自动化检测方法是有用的在风险识别抑郁或个人通过被动活动的监控社交媒体。

这项工作的目的是研究信号由smartbands生成加速度计来检测病人抑郁状态通过活动和提出特征提取(使用时间和光谱信号)的进化,以及一个聪明的基于遗传算法的特征选择方法来减少所需的数据来识别这些抑郁状态允许近乎实时的非侵入性诊断。在这种类型的疾病,早期症状检测可显著提高发展的一种有效的治疗,为防止这种类型的精神病理学。

提出了工作的一个主要优势是简单的数据采集自设备使用无损伤,具有体积小,且不妨碍日常活动,这是一个利益与其他设备相比,可以插入在日常任务中,除了使用多个传感器采集的不同类型的数据,这没有必要在这种方法中,因为同样的目的是实现单一来源的收购,获取所需的信息的提取功能,允许抑郁患者的分类。

本文的组织结构如下:在部分2详细描述了材料用于本研究的发展,以及阶段提出的方法的集合。然后,部分3给出了结果。部分4被称为讨论开发基于结果之前,最后一节吗5显示该工作的结论。

2。材料和方法

本研究中提出的方法包括五个主要阶段,如图1。数据用于这项工作的发展从“Depresjon”获得数据集(一个)。这些数据最初是受到数据预处理(B)步骤中,为了选择样本和主题进行进一步分析,标准化数据,消除缺失值。然后,特征提取(C)被执行时,获得时间和频率统计特性,是提交给一个特征选择(D)步骤中,使用遗传算法(GA)”Galgo。“最后,选择功能评估,测量其健身的分类控制和情况下,基于随机森林(RF)技术和统计分析(E)。

2.1。数据描述

Depresjon数据集是数据的集合,其中包含的运动活动患者监测仪器进行观察的右手腕。长短看叫做“图上”(模型AW4),由剑桥大学神经技术开发有限公司,英国。图上的措施活动水平和采样频率是32 Hz,记录运动超过0.05 g。运动等于相应的电压,这是存储为一个活动计数在图上的记忆,和运动的强度成正比。的活动数量记录在间隔一分钟。

数据库包含的数据控制(没有抑郁症,32科目)和例(抑郁,23个学科)。收集到的特征为每个主题被分为两类,数据记录随时间长短和蒙哥马利Asberg抑郁量表(MADRS)分数。收集的数据随着时间的推移,包括“时间戳”的特性(一分钟间隔)、“日期”(测量日期),和“活动”(活动的测量仪器进行观察)。此外,MADRS分数包括“数量”的特性(病人标识符),“天”(测量的天数),“性别”(1:女/ 2:男),“年龄”(年龄在年龄组),“afftype”(1: II型,2:单极抑郁,和3:双相I型),“melanch”(1:忧郁症;2:没有忧郁症),“住院”(1:住院;2:门诊),“edu”(教育分为年),“婚姻”(1:已婚或同居;2:单),“工作”(1:工作或学习;2:失业/病假/养老金),“madrs1”(MADRS分数测量开始时),和“madrs2”(MADRS当测量停止)28]。

这项工作只有特性随着时间的推移。

2.2。数据预处理

数据预处理主要包括三个主要步骤,样品和主题的选择,数据的标准化,消除不完整的情况下提出(不可用)。

样本收集的数量不一致,不同数量的分钟记录为每个主题,所以选择的主题和样品是为了提供一个平衡的数据量指的是控制和案例。样本的选择是只保留第一个值进行60分钟相当于一小时,获得数据计算一个小时的活动时间间隔,而主题的选择取决于所带来的数据量样品的选择,选择第一个四个控制出现在数据集和前5例。这允许的平衡,病例组和对照组的样本的数量。

然后在正常化,调整数据,以获得一个正态分布,呈现意味着= 1和标准差= 0,这是计算方程(1),代表了归一化值,代表了样本,µ全部数据的均值,σ标准差的数据:

最后,消除缺失的数据,删除所有的行与NAs,为了避免问题在随后的分析。

2.3。特征提取

特征提取是使用两种类型的数据,执行时间和频率数据。使用的时态数据直接从时间Depresjon数据,采集活动的受试者进行观察。

另一方面,通过频率数据的傅里叶变换的计算时间Depresjon数据。

然后,对于每种类型的数据,14统计参数提取,表中给出1,获得38特性。


功能	描述

的意思是
标准偏差
方差
修剪的意思	意味着与异常值减少
变异系数
逆变异系数
峰度
偏态
分位数 :1、5、25、75、95、99%

代表了中值;1 我 9;(j−米)/n p (j−米+ 1)/n;代表了顺序统计量;n代表了样本容量;γ的函数j和 ,在哪里和 ;和米代表一个常数取决于样本分位数类型。

时态数据的特性记者的名字是“tKurtosis”,“tSesgo”,“tQ01”,“tQ05”,“tQ25”,“tQ75”,“tQ95”,“tQ99”,“tMedia”,“保洁”,“tVarianza”,“tTrimMedia”,“tCV,”和“tICV”,而记者特征频率数据的名称是“fKurtosis”,“fSesgo”,“fQ01”,“fQ05”,“fQ25”,“fQ75”,“fQ95”,“fQ99”,“fMedia”,“女性性功能障碍”,“fVarianza”,“fTrimMedia”,“流量控制阀,”和“fICV。”

2.4。特征选择

在这个阶段,38特征提取进行特征选择基于GA的方法。天然气是一个随机策略,已广泛应用于数据的分析,他们由一系列的阶段,从一组随机的模型和发展好当地解决方案复制自然选择过程使用等措施(1)复制率较高的更精确的特征子集,(2)突变产生不同的染色体,(3)提高染色体的组合交叉。

验证测量计算结合在选择过程中,测试组染色体,确保多元特征选择是合适的。GA的目的是最小化的分数计算适应度函数,然后合并成一个解决方案,因此可以选择的最重要的预测的子集n功能(29日]。

对于这个工作,使用遗传算法“Galgo”。Galgo包下R语言实现,这是面向选择模型与高适应性和分析,以及代表总结模型的重建和表征。

人口Galgo始于一个随机的过程定义的特征基因子集或染色体的大小(n通过适应度函数),评估预测或分类的能力理想的结果或因变量,获得一定值的准确性。的分类方法,可用于内部过程Galgo k-nearest-neighbors,判别函数,最近的重心,支持向量机、神经网络、随机森林。

过程的主要思想是用一个新的替换第一个人口,包括染色体的变异,实现更高的分类精度,并重复这个过程,直到达到所需的精度。进步变化的染色体是通过一系列的操作符执行模拟自然选择的过程,选择、变异、交叉。

解决方案空间的比例增加而独立的进化染色体种群在部分孤立的环境中,被称为利基市场,和染色体可以迁移从一个领域到另一个,以确保良好的复合解决方案。一组领域被称为世界(30.]。

这个过程是在四个主要步骤:(我)首先,分析配置,指定输入和结果特性,以及一系列的参数,将引导的行为过程,如分类模型,所需的精度,误差估计方案,等等。可以选择分类模型的实现或可以由用户定义的函数;而误差估计可以被定义在两个水平,培训/测试验证策略使用变异随机分裂,和内部培训过程中使用k倍交叉验证、随机分裂或re-substitution错误。(2)然后,搜索相关的多元模型在每个周期始于一个随机的染色体的过程。染色体的数量发展需要足够大,以确保最大限度的解决方案被发现和为实现这一目标,两种方法的设计是为了提供信息的染色体组成,水平收敛的解决方案,和健身价值的发展,诊断种群的稳定。(3)细化和分析人的染色体进行选择,因为并不是所有的基因包含在最好的染色体可能造成重大的健康价值。因此,逆向选择策略实现获得模型包含由基因,极大的影响结果的准确性。(iv)最后,一个重要的发展人口的统计模型获得选中的染色体。这个步骤,包括选择策略,及其操作是基于逐步包含添加最常见的基因的染色体人口。

的配置分析本研究由200代,5基因染色体,所需的精度0.99,“最近的重心”作为分类模型,误差估计方案使用交叉验证的方法。

2.5。分类分析

通过射频进行了分类分析方法,寻找对象的分类在两个不同的州,抑郁(标记为“1”),而不是抑郁(标记为“0”)。

射频是一个机器学习技术,提出了两种主要的方法,分类和回归,其性能是基于决策树的。在分类选项中,射频提供估计的贝叶斯分类器, ,最小化误差的分类。

约,树木生长的合奏,采用随机向量生成的每个树,由投票决定数据对应的类,在类的多数选票确定射频预测。这个过程导致泛化误差合并为一个限制的值,从而提高系统的分类精度(31日]。

具体来说,树是使用的一个子集创建引导与更换样品,(训练集l),称为装袋的方式,这意味着一个可以选几次相同的样本对分类分析,另外一些样品可能不会被选中。

每一个决策树都是独立建造没有任何修剪,和每个节点通过分裂分裂规则使用特定数量的特性, ,随机选择。

分裂规则添加到估计计算从树上,表示为。响应值随后获得了从新的角度,建设由以下方程:

森林是成长的定义数量的树木, ,到这一步,该算法创建树,目前的两个主要特征,高方差和低的偏见。最终的分类决策是通过类的算术平均分配概率计算总数的树木。然后,评估步骤执行使用一套新的未标记的数据输入和整体开发的决策树,每棵树投票给一个类。类收集最多的选票是一个选择。

大约三分之二的总样本通常是用于培训的树,称为样品;然后,剩下的三分之一样本,称为内部交叉验证样本,实现了模型的估计性能(32]。

这个错误的估计被称为out-of-bag (OOB)错误。这个值测量误分类率OOB样本的分类。这意味着一个特性, ,如果当打破之间的关系是很重要的和Y预测误差的增加,每棵树的预测误差, ,评估是OOB示例使用吗

重要的是要注意,根据文献,分类精度不太敏感比 ;因此,由于射频是计算有效的分类器不会出现过度拟合的问题,可以尽可能大。另一方面,参数通常是定义的平方根的总数输入特性(33]。

发展的这项研究中,树的数量选择= 2000,和功能的数量在每个分裂, ,根据计算的数量特性 ,与特征的数量。

2.6。验证

验证阶段是基于三个参数,AUC的单个值数量ROC曲线,特异性和灵敏度。

ROC曲线一直是广泛使用的二进制分类模型的评估工具,因为它提供了一个系列的特点,使结果的正确解释,如曲线的直观的视觉解释,简单的比较在多个模型和AUC值(34]。

计算分类器的性能通过ROC曲线提供了一个合适的操作点,称为决策阈值,参数化的分类模型。

一个分类问题提出了两种可能的输出,“正确”和“错误”,每个类的模型。有序的方式来呈现这些信息是通过混淆矩阵,一个表显示真正的和预测的类之间的区别。混淆矩阵中包含的值是真正的阳性( ),真正的底片( ),假阳性( ),和假阴性( );此外,连续的价值总量与真正的底片( )和真正的阳性( )例子,和的值列总数预测负( )和积极的预测( )(例子35]。

灵敏度是一个参数称为正确识别这些数据的能力与条件,并计算出以下方程:

另一方面,特异性参数被称为能够正确识别这些数据没有条件,并计算出以下方程:

最后,绘制的敏感性和特异性结合值代表中华民国的决策阈值曲线。的AUC值曲线可以通过梯形积分计算,见以下方程: 在哪里和(35]。

所有的分析是在“R”(版本3.4.4),一个免费的软件环境为统计计算和图形设计(36]。这一分析所需的库是“Galgo”(-01年版本1.2)(37),“pROC”(1.11.0版)(38),“e1071”(版本1.7 0)(39),“randomForest”(-14年版本4.6)[40),“脱字符号”(-79)6.0版本41),和“经济性”(1.4.2版)(42]。

3所示。结果

这项研究的结果提出了在这一节中。通过这种方法的第一步,是数据采集,受试者的数量为随后的分析选择5例和四管制,为了平衡这两个数据集的样本数量。

然后,特征提取允许收集一系列38的统计特性,总数的,14属于数据和其余的时间频率数据。重要的是提醒,频率数据计算通过傅里叶变换的时间数据。

第三阶段,特征选择基于GA, Galgo,进行,获得一系列的图表,使观测性能的数据通过不同的模型创建的发展进化的算法。图2提出了一个图的频率比例每个特性出现在不同的模型开发、定位每个特性根据其外观的顺序,从最高到最低,这些特性在黑色现在最高的频率和这些特性灰色最低。根据这个图表,最显著的特征,根据其出现的频率,是“tCV”,“流量控制阀,”和“tQ99, tVarianza。”(表2和3)。


真正的	预测
	控制	情况下	错误

控制	819年	326年	0.284
情况下	331年	962年	0.255


真正的	预测
	控制	情况下	错误

控制	774年	371年	0.324
情况下	373年	920年	0.288

然后,在图3显示一个图表的健康表现在GA的200代的进化,在那里可以观察到的平均健身达到一个稳定的行为,一个值约为0.63。

图4提出了一种热地图提供的最好的染色体遗传算法,包含5个染色体的一个模型,“tCV”,“tQ25”,“tQ99”,“tICV,”和“tCV。”

然后,最好的染色体是受到选择向前一步,为每个功能添加到模型中,计算其平均健身,如图5。根据这个图表,模型达到最佳平均健身,以及稳定,有三个特点,“tCV”,“tQ99,”和“。”

最后,在图6存在一个热图的最终模型通过消除落后一步,包含两个时间特性,“tCV”和“tQ99。”

在分类分析中,使用射频方法,测量OOB错误为了知道精度分类模型在前一步骤中选择。在表4存在混淆矩阵通过对象使用的总组特性的分类和各自的误差值为每个类。获得的OOB误差是26.95%。在表4存在混淆矩阵通过科目的分类使用最好的染色体和相应的误差值为每个类。获得的OOB误差是30.52%。最后,在表4存在混淆矩阵通过受试者使用最终模型的分类和各自的误差值为每个类。获得的OOB误差是35.97%。


真正的	预测
	控制	情况下	错误

控制	690年	455年	0.397
情况下	422年	871年	0.326

对于这个工作的最后阶段,验证步骤进行,计算模型的ROC曲线,如图7,在图7(一)存在ROC曲线模型包含的总特征和各自的AUC值,获得了一个的敏感性为0.751,特异性为0.717。然后,在图7 (b)存在的ROC曲线模型包含了最好的染色体及其各自的AUC值,获得了一个的敏感性为0.699,特异性为0.694。最后,在图7 (c)存在ROC曲线模型的最终模型及其各自所包含的AUC值,获得了一个的敏感性为0.684,特异性为0.611。

(一)

(b)

(c)

4所示。讨论

在本节中,获得的结果进行了讨论。从总38统计特征提取,特征选择是基于Galgo执行。最初,Galgo发达图如图2提供的信息的频率特性是不同的染色体的一部分,下令从最高到最低等级。

根据图2,四个最重要的特征或特性,提出了频率最高的是那些在黑色,其中3例对应时间特性和频率特性,这意味着时态数据比频率呈现更重要的信息数据分类的主题。

然后,在图3显示一个图表的平均健身行为通过一代又一代的遗传算法不同,是可以观察到的最大变化发生在开始的图,在前50代,GA的过程中发现基因的最佳组合获得染色体适合分类。随后,一个相对稳定的值达到了80代,获得平均健身价值约0.63的最后一代。

最后的200代,最好的染色体呈现在图4提供的五个特性,包含在地图,其中四个对应的时间特性和剩余的对应的频率特性。第一个特性最好的染色体对应的频率特性,流量控制阀,指的是变异系数(CV),这是与标准差和均值、高值的标准差与均值相比,将简历越高,反之亦然。这个特性可能暗示频率数据可能病例之间呈现显著的变化在其值和控制,能够区分两类。

第二个特征是“tICV”,指的是逆变异系数(ICV),这可能意味着“流量控制阀”类似的意义比特性,其中时间数据可提供重要的信息分布的数据,允许一个区分抑郁和不消沉。

然后,有礼物功能“tQ25”和“tQ99”,这代表了25和99分位数,分别。分位数是定期的点的一个随机变量的分布函数。因此,这两个特性可能意味着,在这些数据的间隔,最重要的信息或最伟大的差异提出了两类,因为考虑到数据量的活动作为时间的函数被进行分析和分位数数据按升序排列,有可能通过对比变化相应的活动,也就是说,抑郁症患者的大活动对抑郁患者抑郁的活性越高,差异提出了有意义的。

第五个特征是“tCV”,代表一样“流量控制阀”,但随着时间的数据。这个特性可能暗示病人的身体活动的信息呈现的差异之间的标准差和均值的两种可能的类支持正确的分类。

另一方面,在图5提出了一个图的平均健身时的行为特征是选择受到向前一步。为每个特性添加到模型中,健身,平均每个类的健身,和总健康测量,为了知道行为的模型,包括信息功能和以这种方式选择足够数量的特性,避免无意义的信息。根据图表,模型达到稳定从第三功能,达到0.636的平均健身。

最后一步的特征选择是一个健壮的基因消除(RGBE)步骤,为了去除冗余信息,获得最终的模型包含两个特性,提出了图的热图6。这个模型依赖于均值,标准差,和99年的分位数的值,根据前面的步骤,这些措施提供数据,允许类的分类。

然后,射频方法用于分类分析,比较OOB错误通过三个不同的模型:一个模型包含的总组初始特征,获得26.95%的OOB错误;第二个模型包含的特性与遗传算法获得的最好的染色体,获得30.52%的OOB错误;第三个模型包含的最终模型通过RGBE一步,获得35.97%的OOB错误。

OOB错误值允许一个知道数据的百分比在构建决策树的分类错误,随机森林,可以观察到,这个值增加时,模型包含更少的特点,提出最低的OOB错误集总模型中包含的功能;然而,即使最终的模型提出了一种误差10%高于第一个模型,正确分类的百分比仍然显著。除此之外,重要的是评论功能包含在最终的数量显著低于模型中包含的第一个模型;因此,所需的信息分类要小得多,从而减少计算成本的分析数据。

从射频内部执行的验证,一系列的混淆矩阵得到为了解释OOB错误。在表4存在真正的阳性(= 962)和真阴性(= 819),以及控制的误差值(= 0.284)和例(= 0.255),由集总模型包含的特性,结果表明,即使错误在哪里高控制,两个班级在分类误差呈现相似的价值观。然后,表4显示了真正的阳性(= 920),真正的底片(= 774),误差值控制(= 0.324),病例和错误值(= 0.288),使用最好的染色体,通过分类,很明显,误差值增加为两类;然而,分类继续呈现统计上显著的资质虽然功能模型中包含的数量降低了86.84%左右。在表4存在真正的阳性(= 690)和真阴性(= 871),和控制的误差值(= 0.397)和例(= 0.326),表明,显然,通过减少的数量特性最好的染色体,错误再次增加,特别是对于控制,这可能代表的活动注册控件可能混淆的情况下在特定时刻的活动时间,例如,在小时的睡眠。此外,也可能是困惑的时候最大的两个班级活动在控制的情况下,体育活动不是很精力充沛。然而,这个问题困惑的分类可以通过增加样本的数量来解决两类,考虑到算法的训练是很重要的有一个均衡的数据量。

在验证阶段,特异性和灵敏度允许支持以前的结果,获得更高的价值评价的敏感性比特异性,但重要的是要注意,验证的结果呈现显著值三个模型评估。

然后,ROC曲线计算为每个模型,如图7,图7(一)代表使用的总组获得的曲线特征,人物7 (b)使用最好的染色体代表获得的曲线,图7 (c)代表使用最后的模型获得的曲线,获得AUC值为0.7340.6970.647,分别。AUC值减少的数量减少的特征模型;然而,模型的AUC的区别,其中包含100%的特性和最终的模型,它只包含5.26%的特性,并不代表考虑AUC是最终模型中具有统计学意义。因此,最终的模型分类能力的情况下从控制仍然重要,尽管有限的信息,因此受益必要的计算成本进行分类。

最后,在表5,比较不同的技术表明,基于同样的方法收集数据通过活动检测仪,以识别抑郁症患者,结果显示在哪里可能得出这样的结论:所有作品呈现统计显著的结果;然而,方法的复杂性和相关的特征量在每个研究使用不同的信息,以及信息来源,比提出了更大的工作,因为它只是必要的统计特征的提取一组减少从数据库由一个传感器收集从一个小的患者中,呈现的主要贡献的简单性实验为主题的分类与抑郁症的存在获得统计上显著的结果,除了展示计算成本低于在提到作品由于少量的数据。


工作	描述

Averill et al。24]	检查抑郁症治疗的反应的基础上,简单的活动和精神运动速度的测量通过活动检测仪识别抑郁发作。
Garcia-Ceja et al。15]	分析收集的数据通过活动检测仪比较不同的机器学习技术对抑郁的主题进行分类。
革顺et al。43]	确定活动模式从运动活动收集的活动检测仪提取主成分,区分抑郁天从其他州。
古永锵et al。23]	识别抑郁症患者通过结合行政障碍相关的生物标志物,汽车活动,活动和神经生理学模式等等。

5。结论

在这项研究提出了一个方法由一系列步骤主要包括特征选择,分类分析、验证,为了找到一系列的统计特性之间的关系,基于时间和频率连续值在一个特定的时间和抑郁的可能条件。

是很重要的话,允许一个获得显著的结果;然而,这可以增加样本数量,以主要改善的结果真正的底片,这礼物比真正的阳性更大的错误。另一方面,提取的统计特性表明,它们包含的信息提供了一个描述病人的全天活动的主要特征,允许区分抑郁和不消沉。

通过遗传算法的特征选择提供了一个最好的染色体是后来减少到一个模型包含两个功能。这两个功能是统计描述符的临时数据,根据验证步骤,尽管呈现分化情况下误差和控制比如果使用一系列的功能,结果仍具有统计学意义,从而使拥有一个包含模型与自动分类的特征量减少抑郁不抑郁的主题主题显著的健康。

此外,值得注意的是,其中一个显著降低模型的最大优点是,它也减少了计算成本,使其更容易访问它,因为它不需要专门的软件或硬件实施。

此外,这项工作中演示的主要好处之一是通过一个简单的方法获得的值精度高使用单一来源的数据,这与其他作品相比,在需要使用多个来源的数据采集和一系列不同的技术分类分析,这种方法提供了简单性和统计上显著的结果更少的处理步骤和计算成本。

然后,可以得出结论,本研究中实现的方法允许一个人知道,显然,有一个病人的记录日常活动之间的联系和抑郁状态的条件。此外,获得的结果是持续在文献中报道,在抑郁症患者的症状是缓慢的运动,可怜的身体姿势,而疲劳的感觉,倾向于显示低水平的活动比那些没有这种情况。

因此,通过这个工作是初步的工具可能获得支持的诊断专家了解病人的健康状况根据他的抑郁症的存在与否,基于活动的水平,他在一天。

数据可用性

Depresjon数据用于支持这项研究的结果已经存入“控制”和“条件”存储库。这个数据集可以accesedhttp://datasets.simula.no/depresjon/和/或可以直接下载http://doi.org/10.5281/zenodo.1219550。

的利益冲突

作者宣称没有利益冲突有关的出版。

作者的贡献

卡洛斯·e·Galvan-Tejada和劳拉·a·Zanella-Calzada同样这项工作。

引用

j·费舍尔,m·卡布拉尔梅洛诉Patel et al .,“围产期常见精神障碍的患病率和决定因素在低收入和中等收入国家的妇女:系统回顾,“《世界卫生组织,卷90,不。2、139 - 149 h, 2012页。视图:出版商的网站|谷歌学术搜索
r . Leyva-Jimenez a . m . Hernandez-Juarez g . Nava-Jimenez诉Lopez-Gaona,“Depresion en青少年y funcionamiento熟悉,”航空杂志上介绍德尔研究院Mexicano del原本社会,45卷,2007年。视图:谷歌学术搜索
美国高盛,“发展抑郁症的流行病学,”北美的儿童和青少年精神病诊所,21卷,不。2、217 - 235年,2012页。视图:出版商的网站|谷歌学术搜索
l·门多萨l d。p . s . Peinado l·a·d·马丁内斯和a . Campo-Arias”Prevalencia de sintomatologia depresiva en厄尔尼诺y fisker玉梭鱼德布卡拉曼加,哥伦比亚,”航空杂志上动作片de Psiquiatr33卷,第171 - 163页,2004年。视图:谷歌学术搜索
l . m . e . Buelna Serrano古铁雷斯Herrera, s . Avila Saldoval“El desarrollo de la隐藏de consumo en El contexto del mundo双德mediados del siglo xx。una retrospectiva愿景。”分析《,30卷,2015年。视图:谷歌学术搜索
d . Agudelo g . Buela-Casal和c d . Spielberger”Ansiedad y depresion: el问题de la diferenciacion traves de los产生,”祝您健康心理卷,30 33-41,2007页。视图:谷歌学术搜索
w·w·k·郑氏,“自我评估抑郁量表”,普通精神病学文献,12卷,不。1,第70 - 63页,1965。视图:出版商的网站|谷歌学术搜索
a·t·贝克,r . a .引导和g·k·布朗,贝克抑郁Inventory-II卷。78年,圣安东尼奥,德克萨斯州,美国,1996年。
s . Shiffman a . a .石头和m . r .高度“生态的评估,”临床心理学的年度审查,4卷,不。1、学会年会,2008页。视图:出版商的网站|谷歌学术搜索
f . Gravenhorst a . Muaremi j . Bardram et al .,“手机医疗设备在精神障碍治疗:概述,“个人和无处不在的计算,19卷,不。2、335 - 353年,2015页。视图:出版商的网站|谷歌学术搜索
j·j·弗斯销,r·艾略特,p .法语,和A . r .容”的系统回顾和荟萃分析的运动干预对精神分裂症患者的,”心理医学,45卷,不。7,1343 - 1361年,2015页。视图:出版商的网站|谷歌学术搜索
j . Torous r·弗里德曼和m . Keshavan”智能手机移动应用程序所有权和兴趣监控症状的心理健康状况,“JMIR mHealth和uHealth,卷2,不。3 p . e34 2014。视图:出版商的网站|谷歌学术搜索
l . Bayındır“以人为中心的调查传感研究利用手机传感器”环境智能和智能环境杂志》上,9卷,不。4、421 - 448年,2017页。视图:出版商的网站|谷歌学术搜索
j . p . Garcia-Vazquez m·d·罗德里格斯。g·安德拉德,j·布拉沃,”支持策略来提高长辈的艾滋病服药情况,提供环境,”个人和无处不在的计算,15卷,不。4、389 - 397年,2011页。视图:出版商的网站|谷歌学术搜索
e . Garcia-Ceja c . e . Galvan-Tejada, r . Brena“视点叠加活动识别声音和加速度计数据,”信息融合40卷,45-56,2018页。视图:出版商的网站|谷歌学术搜索
大肠Garcia-Ceja和r . Brena”活动识别使用社区的数据补充少量的标记的情况下,“传感器,16卷,不。6,877年,页2016。视图:出版商的网站|谷歌学术搜索
e . Garcia-Ceja诉他,o . Mayora“自动压力检测工作环境从智能手机的加速度计数据:第一步,“IEEE生物医学和卫生信息学杂志》上,20卷,不。4、1053 - 1060年,2016页。视图:出版商的网站|谷歌学术搜索
a . Gruenerbl”使用智能手机移动的痕迹,抑郁和躁狂发作双相患者的诊断,”《第五增强人类的国际会议,神户,日本,2014年3月。视图:谷歌学术搜索
a·g·莉丝和c·m·丹弗斯”Instagram照片揭示抑郁的预测标记。”EPJ数据科学》第六卷,p。2017人。视图:出版商的网站|谷歌学术搜索
a . Grunerbl a . Muaremi诉他et al .,“分享服务识别的状态和状态变化在双相情感障碍患者中,“IEEE生物医学和卫生信息学杂志》上,19卷,不。1,第148 - 140页,2015。视图:出版商的网站|谷歌学术搜索
a . Maxhuni a . Munoz-Melendez诉他,h·佩雷斯·o . Mayora e . f·莫拉莱斯,“双相情感障碍发作分类分析的基础上的声音和运动活动的患者,”普及和移动计算31卷,50 - 66年,2016页。视图:出版商的网站|谷歌学术搜索
j . o . Berle e·r·海k . j . Oedegaard f . Holsten和o . b . Fasmer”Actigraphic汽车登记活动揭示了一个更结构化的行为模式比抑郁症,精神分裂症”BMC研究笔记,3卷,不。1,p。149年,2010。视图:出版商的网站|谷歌学术搜索
p c . c·伯杰古永锵g . Kronenberg et al .,“认知相结合,精神运动和电生理学的生物标志物在重度抑郁症,”欧洲档案精神病学和临床神经科学,2018年,页1 - 10。视图:谷歌学术搜索
i r . Averill m·克罗c·m·弗兰普顿et al .,“临床在抑郁症患者对治疗的反应与活动水平和精神运动速度的变化,“澳大利亚和新西兰精神病学杂志》上,52卷,不。7,652 - 659年,2018页。视图:出版商的网站|谷歌学术搜索
答:女人,s . Rao, p . j .麦格拉思et al .,“系统回顾抑郁的认知行为疗法和行为激活应用程序,”《公共科学图书馆•综合》,11卷,不。5篇文章ID e0154248 2016。视图:出版商的网站|谷歌学术搜索
d . c .莫尔·m·张,s m .舒尔勒”个人感觉:理解心理健康使用无处不在的传感器和机器学习,”临床心理学的年度审查,13卷,不。1,23-47,2017页。视图:出版商的网站|谷歌学术搜索
s . c . Guntuku d . b .美国m . l . Kern l·h·安格和j·c . Eichstaedt”检测抑郁症和精神疾病在社交媒体上:一个综合审查,”当前行为科学的观点卷。18日,43-49,2017页。视图:出版商的网站|谷歌学术搜索
e . Garcia-Ceja“Depresjon:电动机活动数据库单极和双相抑郁发作的患者,”第九届ACM多媒体系统研讨会论文集,MMSys 18ACM,纽约,纽约,美国,2018年。视图:谷歌学术搜索
d·保罗·r·苏·m·罗曼Sebastien,诉诉皮埃尔,g .伊莎贝尔,”特征选择结果预测在食道癌使用遗传算法和随机森林分类器”计算机医学影像和图形,60卷,42-49,2017页。视图:出版商的网站|谷歌学术搜索
诉Trevino和f·法尔恰尼,“Galgo: r包多元变量使用遗传算法选择,”生物信息学,22卷,不。9日,第1156 - 1154页,2006年。视图:出版商的网站|谷歌学术搜索
n Dogru和a . Subasi”交通事故检测使用随机森林分类器”学习和技术研讨会论文集2018年5月,济南,中国,。视图:谷歌学术搜索
a . Liaw和m·维纳Breiman和卡特勒的随机森林分类和回归,R包版本4.6 -12,R统计计算的基础,维也纳,奥地利,2015年。
m . Belgiu和l . Drăguţ“随机森林遥感:回顾应用和未来的发展方向,”ISPRS《摄影测量与遥感卷。114年,24-31,2016页。视图:出版商的网站|谷歌学术搜索
t .斋藤和m . Rehmsmeier Precrec:快速、准确precision-recall和ROC曲线计算R,”生物信息学,33卷,不。1,第147 - 145页,2017。视图:出版商的网站|谷歌学术搜索
a·p·布拉德利“roc曲线下的面积的使用机器学习算法的评价,“模式识别,30卷,不。7,1145 - 1159年,1997页。视图:出版商的网站|谷歌学术搜索
R核心团队,统计计算的语言和环境,R统计计算的基础,维也纳,奥地利,2018年。
诉Trevino和f·法尔恰尼,“Galgo:多元统计模型的遗传算法从大规模功能基因组学数据,R包版本1.4”,2018。
罗宾x, n . Turck a Hainard et al .,“Proc:开源包r和s +分析和roc曲线进行比较,”BMC生物信息学,12卷,p。77年,2011年。视图:出版商的网站|谷歌学术搜索
d·梅耶,e . Dimitriadou k . Hornik a . Weingessel f . Leisch,E1071: Misc功能部门的统计,概率理论集团(原:E1071)你维恩,2018年,R包版本1.7 0。
a . Liaw和m·维纳“randomforest分类和回归,”R新闻,卷2,在18到22岁,2002页。视图:谷歌学术搜索
m·k·c·杰德翼脱字符号:分类和回归训练-79年,2018年,R包版本6.0。
p·科尔特斯,经济性:数据挖掘的分类和回归方法,2016年,R包版本1.4.2。
革顺,n . Ram s l·约翰逊,a·g·哈维和j·m·蔡茨“每日活动检测仪档案区分在双相情感障碍抑郁和interepisode状态,”临床心理科学,4卷,不。4、641 - 650年,2016页。视图:出版商的网站|谷歌学术搜索

移动信息系统

可穿戴技术和医疗保健的移动应用程序