文摘
尽管最新进展,评估生物测量神经障碍仍然是一个挑战,在混杂变量,如性别和年龄(作为神经发育的代理)发挥重要作用。本研究探讨了大脑结构磁共振成像(sMRI)从两个公共数据集(ABIDE-II和多动症- 200)与健康控制(HC,N= 894),自闭症谱系障碍(ASD,N= 251),注意缺陷多动障碍(多动症,N= 357)的个人。我们用灰色和白色物质预处理通过分布形态测量学(VBM)来训练一个3 d卷积神经网络与多任务学习策略来估计性别,年龄,心理健康状况从大脑结构差异。Gradient-based方法用来产生注意力地图,提供临床相关的大脑区域最具代表性的识别模型的决策。这种方法对性别和年龄导致令人满意的预测。adhd - 200训练模型,评估在测试集的10倍交叉验证过程,获得了平均绝对误差(MAE) 1.43岁(0.22±SD)预测和曲线下面积(AUC) 0.85 (±0.04 SD)性别分类。在样本外验证,表现最好的adhd - 200模型满意地预测年龄(美= 1.57年)和性别(AUC = 0.89) ABIDE-II数据集。该模型的精度符合当前最先进的机器学习应用在神经影像。关键区域模型的准确性提出了一个有意义的图形输出。新的实现,比如VBM的使用以及3 d卷积神经网络多任务学习模型和脑成像图形输出,加强该工作流的相关性。
1。介绍
当前面临的挑战之一,心理健康研究领域包括生物测量精神障碍的评估(1,2]。尽管最近进展(3),精神病理学仍主要通过临床评估面试(4,5]。调查在神经影像生物标志物,尤其是青年,可以帮助临床医生在艰巨的任务区分典型的非典型的发展轨迹。
几个潜在的生物标记物,结构磁共振成像(sMRI)是一种很有前途的方法来提高识别和精确的分类在精神病学6- - - - - -8]。此外,从sMRI描述典型的大脑结构对于理解的机制是一个重要的步骤,调整治疗这些疾病的病因9]。在过去的几十年里,许多研究已经确定了大脑结构变化在孤独症和多动症9- - - - - -11]。然而,绝大多数的这些研究结果是不确定的,可能由于方法论上的问题,比如使用小样本大小,从单一研究站点,人口结构的变化(例如:性别、年龄或种族)(9,11]。这些限制被认为是一个持久的偏见来源精神病分类(12]。实现可归纳的结果,应该采用大样本数据,从多个站点获得/国家/扫描仪,包括主体与不同年龄,性别,种族,和精神障碍的严重程度的水平9,11- - - - - -13]。幸运的是,有开放的数据集,例如ABIDE-II和多动症- 200,这符合所有这些要求。
除此之外,大多数sMRI研究集中在传统mass-univariate分析方法,对毛和局部大脑差异的敏感。然而,这些方法都不是最优检测微妙和空间分布的神经解剖学的改变,通常与精神疾病有关的(14,15]。因此,机器学习技术,如深度学习网络,显示有趣的结果在推进组级别神经影像学发现在个体层面的临床相关的分类(16]。
一个特定的深度学习网络,称为卷积神经网络(CNN),彻底改变了计算机视觉领域(17]。常规的cnn使用二维图像的训练过程。然而,这种技术方面可能会导致丢失重要数据的三维(3 d)结构sMRI。最近的一个版本的CNN,名叫CNN3D,克服了这一局限性采用3 d图像在其学习过程,因此它是一个最佳人选sMRI应用程序。最近的研究,利用CNN调查精神疾病,获得更好的性能比以前发表的文献[18- - - - - -20.];然而,这些作品采用CNN3D训练sMRI青年在神经发育评估大脑形态学特征。
使用深度学习模型的一个缺点,比如CNN3D,低输出可解释性,有时提供很少或没有洞察输入数据的性质(14,15]。为了克服这个限制,可以使用基于一个梯度算法如SmoothGrad [21)产生敏感体素的地图从输入图像大多数导致模型的决定。然后,这些关注地图可以与脑图谱如AAL3 [22)来识别感兴趣的top-focused大脑区域(roi)神经网络决策。这个过程可能会增加输出可解释性和临床相关性,显示大脑roi最大的描述性的力量对于一个给定的模型预测任务。然而,迄今为止,很少有研究将这种方法。此外,整合完善sMRI处理技术,如分布形态测量学(VBM),到CNN3D训练模型似乎是适当的增加可比性神经影像文学。VBM段、对齐和适合灰质(GM)和白质(WM)在一个共同的空间模板,便于比较不同临床组的艰巨的任务或收集数据元——或者mega-analysis [23- - - - - -26]。
不同的研究促成了当前的知识为精神疾病对大脑标记,与几个部分的工作评估CNN3D [19,20.),多任务学习架构(27,28),和大脑sMRI VBM处理(9- - - - - -11]。然而,很少有研究探讨这些方法联合,特别是在大型和异构数据样本,探讨神经发育和精神疾病的生物标志物的青年。本研究旨在评估从ABIDE-II CNN3D模型训练和adhd - 200数据集来预测年龄(神经发育)、性别、精神障碍组(即。,HC和自闭症谱系障碍或多动症)。我们假设一个CNN3D架构,训练与3 d sMRI以前VBM的预处理,将检测人类大脑形态学特征的复杂的模式,允许正确分类的年龄,性别和心理健康状况。此外,我们假设3 d凸起的地图从训练模型,通过生成SmoothGrad [21),将提供为每个预测识别大脑解剖roi的任务。这些结果可能与3 d AAL3脑图谱(22),可以用来生成top-focused大脑区域的临床相关的示意图表示。
当前的研究评估的适用性工作流由精心挑选的方法和最佳实践从大脑sMRI评估神经发育。首先,描述的方法和合理的部分2。接下来,达到节中给出了实验结果3。然后,讨论的结果是,在部分相关文献相比4。最后,给出的结论部分5。
2。材料和方法
2.1。数据描述
在这项研究中使用的数据来自两个公共数据集:自闭症脑成像数据交换II (ABIDE-II)和注意缺陷多动障碍(adhd - 200)。两个数据集可以从神经影像下载工具和资源合作实验室映像存储库(NITRC-IR:https://www.nitrc.org/ir/)。对于这个工作,我们只用一个t1 sMRI扫描每个主题的数据源。这些图片收集来自不同国家的几个地方:ABIDE-II包括19个站点,adhd - 200包括8网站。因此,图像的采集参数不同导致不同扫描仪的型号和品牌,从1.5吨到3 t,每个托管头部线圈从8 - 32频道。详细信息和扫描仪采集参数可以从ABIDE-II检索(http://fcon_1000.projects.nitrc.org/indi/abide/abide_II.html)和adhd - 200 (http://fcon_1000.projects.nitrc.org/indi/adhd200/)文档。数据收集和公开根据责任和每个项目给当地伦理的批准。
2.2。主题
因为我们专注于神经发育过程在儿童和青少年,我们丢弃的受试者年龄超过20岁。一些人有多个sMRI扫描数据集(来自不同的扫描会话)。在这些情况下,只有第一个sMRI每个主题被认为是。数据没有信息在性别、年龄、和精神障碍(即。、HC、自闭症、多动症)也被丢弃。此外,每个主题只属于ABIDE-II或多动症- 200数据集(没有在这两个主题)。应用这些标准后,目前的样品分析和主要人口和表型数据展示在表1和图1。
个人在不同级别的孤独症谱系中分组标签,同样,个人不同亚型的ADHD(注意力不集中、多动或组合)分组。
2.3。核磁共振成像处理
处理sMRI使用VBM [23)通过统计参数映射软件(SPM12 v7771,https://www.fil.ion.ucl.ac.uk/spm/software/)。短暂,VBM涉及空间正常化MRI图像相同的立体空间,允许提取不同的大脑组织与非均匀校正图像分区的强度变化(23]。在过去的几十年中,VBM基本上采用神经影像学研究,如调查的孤独症和多动症(10]。完整的概念框架、方法和背景背后的软件是可用的统计参数映射的书(29日]。
数据集是使用两个批处理任务(一批ABIDE-II,另一个用于多动症- 200)。虽然相同的程序应用于这两个数据集,我们选择处理它们在不同的批次,以确保每个数据集是完全独立的。通过SPM12 sMRI转换所有步骤进行软件,后VBM教程(30.]。
首先,sMRI数据空间分段隔离通用和WM (24]。在这一步中,头骨,组织,和工件在脑组织从原始图像中删除。
第二,DARTEL算法(25)是应用于增加主体定位的准确性。这种转换是通过调整通用的图像,同时调整WM中迭代生成的模板数据对齐(26]。第三,上一步生成的文件从空间归一化,Jacobian-scaled,用高斯平滑半宽度(应用)设置为8毫米生成图像在蒙特利尔神经学研究所(MNI)坐标系统31日,32]。这些转换后,每个sMRI扫描了两个3 d矩阵(一个通用汽车,另一个用于WM),每体素携带脑组织在这个位置的概率密度。
最后,我们把之前转换通用和WM通过Python通过SimpleITK库(https://simpleitk.org/)和应用共同面具−1的值分配给每一个背景体素(大脑外)。我们选择设置值−1(而不是零)来简化模型的学习过程中,由于背景之间的距离的增加体素值和大脑体素值较低的组织概率(接近于零)。大脑矩阵及其相应的表型数据保存在TensorFlow记录格式(https://www.tensorflow.org/tutorials/load_data/tfrecord)。这个符号允许更好的性能通过存储二进制线性序列化文件中的数据。为转换后的数据集仍相对较大(约30 GB的数据集),这一步是很重要的在模型训练阶段有效地读取数据。
2.4。深3 d卷积神经网络多任务学习的体系结构
我们的模型的体系结构是为了接收之前转换3 d大脑作为神经网络的输入训练。培训是一个5 d矩阵输入(由示例批处理的数量,体素X设在,体素Y设在,体素Z设在大脑组织),大脑组织是一个双通道尺寸由通用汽车和WM。我们只考虑通用和WM以确保模型的预测模式直接关系到神经发育的差异造成的。因此,脑脊液、颅骨和脑外的组织都丢弃。这也是为什么我们没有使用完整的图像不分段。此外,我们选择了喂养通过不同渠道的数据模型,它有一个便利的信号区分通用的模式(主要是神经核)和WM(主要是轴突束)。如图2,公共模型的身体是由一系列交错层的3 d卷积,批正常化,和3 d max池、其次是密集和辍学层。公共模型的身体后,我们推导出三个输出模块,每个组成自己的密集,批正常化,和输出层。分别输出块负责预测性别、年龄和精神障碍(即。、HC自闭症谱系障碍或多动症)。
灵感来自于VGG16网络(33),我们选择了ReLU提供非线性激活函数(34与接受和使用卷积层3×3×3像素和max-pooling层3×3×3像素的窗口和2×2×2的步伐。提高网络收敛,我们增加了批规范化(35卷积和致密层之前)。面对过度拟合问题,包括我们l2内核regularizers(系数等于1×10−3)所有的卷积和致密层和添加了一个辍学生,36]辍学率为0.5后压扁的最后卷积层。
失去了目标函数是最小化的加权和表示每个输出的损失,我们选择了均方误差为性别和年龄和二进制输出叉诊断输出。重量损失(W1,W2,和W3)没有调整,剩余的默认值TensorFlow库(即。,equal to 1). As the classification and regression tasks have different loss scales, the loss will be higher to the age estimation than to the classification tasks. That is, the training will tend to optimize more in the direction of the age estimation than in that of the classification tasks.
我们选择一个多任务学习的动机体系结构是产生的优势学习功能的共享层放大机制的支持数据,属性选择,窃听,和代表性偏差37]。总之,这种方法允许更快的收敛性和泛化由于提供的额外信息训练信号的相关任务37]。
2.5。模型优化和培训
尽管我们偏好使用一个自动化的方法优化过程(例如,网格搜索或贝叶斯优化),它已经在其他作品(14,15],数百名hyperparameters组合和长时间被每个训练使这个策略不可行。相反,根据以往的知识进行了调优和出版物的主要见解VGG16网络(33),批量标准化(35),和辍学36]。
更好地利用处理时间和内存资源,我们设置了TensorFlow mixed-precision配置采用16位和32位浮点类型在训练阶段(https://www.tensorflow.org/guide/mixed_precision)。我们还垫和减少大脑输入矩阵,最初的大小为121×145×121到128×128×128。这一步只影响背景像素点(在大脑)的值都等于−1。这个过程遵循TensorFlow性能指南,即特征矩阵8的倍数或128最好应该用于内存使用量(https://cloud.google.com/tpu/docs/performance-guide)。
优化目标的损失,我们基于选择梯度法和自适应学习速率叫亚当(38]。最初的亚当的学习速率是设置为1×10−3,第一次和第二次的指数衰减率估计的时刻,分别设置为0.9和0.999。失去重量目标函数的不调,可能即将到来的研究中进一步探讨。
培训、批量大小设置为32例,这是安装在内存的最大大小。作为我们的模型处理不同的目标变量与不同的数据分布在同一时间(即。、年龄、性别和心理健康状况),我们选择不平衡类在批处理水平。因此,之前的例子只是随机打乱批分裂。时代的数量设置为1000,一个定制的停车技术实现停止训练过程的早期每次没有改善产出损失的至少一个验证集的连续75年时代。这种策略后,大多数(75%)培训结束后从150年到300年时期。此外,我们雇佣了一个检查点技术模型。因此,在每个时代,对验证集的模型评估,表现最佳的模型参数为每个任务得救了。这个策略提供了三个模型版本在每个训练:一个执行更好的预测性别、年龄的另一个表现更好的预测,最后预测精神障碍表现更好。
乍一看,你可能认为这是违反直觉的保存不同的模型版本相同的多任务学习的基础模型。然而,我们发现在我们的初步测试,这种模式降低了模型的训练,直到收敛到三倍,相比单任务操作所花费的时间来训练三个不同的模型。此外,这种方法帮助(1)为了防止过度拟合,通过保存模型权重的最优训练点,和(2)来生成模型版本训练最佳提取其主要任务的相关特性。我们使用最低损失的每个输出(例如,均方误差年龄预测和二叉叉性别和精神障碍的预测)作为指标自动保存最好的检查点。
2.6。测试程序
每个数据集(ABIDE-II和adhd - 200)是分层(即。心理健康状况(即平衡)。,HC, ASD, and ADHD), randomly shuffled, and split in a 10-fold cross-validation custom scheme. Accordingly, data is initially split into 10 partitions and, in every training round, 1 partition is chosen for the test set. Then, from the 9 remaining partitions, the first 8 are assigned to the training set and the last 1 is assigned to the validation set (see FigureS1在补充材料)。这个交叉验证方案导致10为每个数据集训练轮。每一轮,相应的训练集用于训练网络。剩下的验证来自动保存设置检查点技术表现最好的模型通过前面描述的模型。测试集保持不变,直到模型训练有素,这样最终的性能模型可以评估客观公正和未知的数据集。这个自定义验证方案利用鲁棒性的一个嵌套(双)交叉验证,同时保留时间消耗较低的嵌套交叉验证方案。
对于每一个训练轮10倍交叉验证,最后我们获得了三个培训模型:(1)优化了性别、年龄(2)优化,为精神障碍分类(3)优化。这些模型进行评估如下:(一)所有模型训练与ABIDE-II数据相应的测试集上进行评估(b)所有模型训练与adhd - 200数据相应的测试集上进行评估(c)表现最好的模型训练与ABIDE-II数据预测年龄是评估整个adhd - 200数据集(d)表现最好的模型训练与ABIDE-II数据预测性别是评估整个adhd - 200数据集(e)表现最好的模型训练多动症- 200预测年龄是评估整个ABIDE-II数据集(f)表现最好的模型训练与adhd - 200预测性别是评估整个ABIDE-II数据集
所选的指标来评估模型的性能预测回归任务的年龄平均的平均绝对误差(MAE),皮尔森的相关性,P值皮尔森相关的R2-score(也称为预测R2,交叉验证R2或问2,最佳评估数值精度回归任务(39])。为预测性别和精神障碍的任务,我们使用精度(特异性措施),回忆(感性),F1-score(调和平均数之间的精度和召回),AUC-ROC(接受者操作特征曲线下面积)。的F1-score选择(而不是简单的准确性)评估不平衡数据由于其能力更好。
使用性别和心理健康状况的不平衡数据分类可以偏差分类模型对少数情况下多数[40]。为了解决这个问题,我们采用ROC操作点选择最大化之间的调和平均数敏感性和特异性(40]。也就是说,对于每个训练模型,我们使用验证数据找到最好的截断值最大化之间的平衡敏感性和特异性。然后选择截断值被用于收集的指标测试数据。
2.7。模型的可解释性
一般来说,人工神经网络可解释性水平低而闻名,有时被称为“黑盒”提供很少或没有洞察数据的性质14,15]。基于图像的人工神经网络的解释仍然是一个挑战在医疗保健领域。为了解决这个问题,我们采用一种算法称为SmoothGrad [21]。它产生敏感的体素,大多数地图有助于神经网络决定通过测量小扰动的影响应用到输入图像梯度产生的输出。尽管SmoothGrad使用相同的基本方法与其他算法,它的优点是生产锐化结果的策略应用不同的扰动输入图像相同。此外,它平均得到的地图,生产更好的平滑作用[21]。本研究采用SmoothGrad算法通过开源库实现称为tf-keras-vis(可用https://pypi.org/project/tf-keras-vis)。
作为引用原始文献[21),灵敏度映射算法通常产生的值。因此,有相当大的模糊性,如何将这些签名值转换为可视化颜色梯度的方向是上下文相关的。为了解决这个模棱两可,我们选择了用梯度的绝对值,而有可能产生清晰的照片(41和也SmoothGrad作者提出的21]。注意力地图生成期间,噪音水平设置为20%,和样本(样本)的数量为每个输入图像设置为5。尽管SmoothGrad纸显示增加定义映射产生的样本容量增加,这个任务的处理时间成正比的样本大小。因此,较高的样本容量值被证明是不可行的给我们有限的硬件资源。此外,我们的初步试验验证样本大小设置为10产生相同的最高roi的选择配置设置5。作为我们的模型有三个输出,我们必须设置为0的所有输出没有选择的测量(例如,生成年龄时灵敏度地图,我们设置了性别和精神障碍输出为零)。
注意力地图生成的最终模型的每个10交叉验证从相应的测试集折叠。这些地图第一次从他们的测试集的例子,然后归一化平均和平均10轮培训,导致每个任务(即注意力地图。,预测年龄、性别、或精神障碍),为每个数据集(ABIDE-II和多动症- 200)。这个策略允许捕捉常见结构大脑区域最描述性模型的决策在每个任务。
作为最终生成的地图有相同的输入图像的三维形状(MNI局部空间),我们可以确定最有预测力的大脑roi把注意力地图和之间的交集AAL3 3 d脑图谱(22]。最后,地图呈现在MRIcron查看器(https://www.nitrc.org/projects/mricron)提供更多可判断的大脑可视化。
2.8。实验设置
sMRI处理步骤是通过软件SPM12 v7771,Pythonv3.6.9, TensorFlow v2.1.0,运行在一个本地Linux桌面(3.2 GHz CPU八面体核心,32 GB ram)。sMRI处理后,TFRecord文件上传到谷歌云存储桶。
我们的机器学习实验使用谷歌Colab实例(https://colab.research.google.com/):2.3 GHz双核CPU, 12 GB ram,附加到一个云TPU v2(180次浮点运算/秒速度和64 GB ram),连接到上述存储桶槽Pythonv3.6.9, TensorFlow v2.3。
3所示。结果
培训和测试阶段发生与适当的处理时间对所有模型成功。输出指标收集显示CNN3D模型能够学习和预测置信度高的年龄和性别在ABIDE-II(美= 1.63±0.28,AUC = 0.82±0.06)和adhd - 200(美= 1.43±0.22,AUC = 0.85±0.04)数据集。对年龄和性别预测,模型训练adhd - 200数据稍微更高的性能比ABIDE-II训练,包括当我们表现最好的交叉验证评估模型从一个数据集在其他不同的完整数据集(美= 1.57,AUC = 0.89 vs美= 1.64,AUC = 0.79)。
年龄预测,adhd - 200模型评估在一个10倍交叉验证方案获得的测试集上的美(平均绝对误差)1.43年,意味着皮尔逊相关性达到0.84之间正确的目标和模型的预测和平均R2-score(也称为预测R2,交叉验证R2或问20.62)。表现最好的模型,上述的交叉验证,训练有素的多动症- 200数据,实现了1.21年的美在其相应的测试集,当评估整个ABIDE-II数据集,它达到了美1.57年和0.75之间的皮尔逊相关目标和预测(见图3)。
(一)
(b)
性别预测,adhd - 200模型评估在测试集上10倍交叉验证方案获得了AUC-ROC平均值为0.85时,精度= 0.84,回忆起= 0.81,F1-score = 0.83。上述交叉验证的表现最好的模型,训练有素的多动症- 200数据,实现了AUC-ROC 0.91对应的测试集,当评估整个ABIDE-II数据集,它实现了AUC-ROC 0.89,与精密= 0.90,回忆起= 0.87,F1-score = 0.89(见图S2在补充材料)。
精神障碍的分类,模型学习差,接近随机猜测。ADHD - 200在10倍交叉验证模型计算获得的测试集稍微更好的性能预测ADHD (AUC-ROC = 0.61),在模型训练ABIDE-II预测ASD获得平均AUC-ROC = 0.54。所有表中给出的评价指标2。
访问统计总数的影响脑容量估计,我们计算了AUC-ROC和人的关系(r),性别和年龄分别从每个主题有关脑压的总和。因此,ABIDE-II数据(NAUC-ROC = 0.76, = 588)r= 0.03,adhd - 200数据(N导致AUC-ROC = 0.79, = 922)r< 0.001。这些结果表明,大脑总量无关年龄,虽然它可能影响性别估计。然而,我们的工作的重点是神经发育的研究,这是评估主要通过年龄估计。
adhd - 200年十大最具代表性的roi模型对性别进行分类扣带后回(左和右),前腹侧的丘脑(左和右)、后外侧丘脑(右)mediodorsal侧丘脑(右)mediodorsal内侧丘脑(左和右),前丘脑腹侧(右)和腹外侧丘脑(右)。ABIDE-II样本,十大最有代表性的roi由距状裂(右),扣带后回(右)、小脑瓣三世(左),舌回(右),中央盖(左),黑质pars试(左),枕外侧丘脑(右),枕内侧丘脑(右)和小脑蚓体(叶三世和IV-V)。的扣带后回(右)成为一个顶级的ROI adhd - 200和ABIDE-II性别预测模型。
试在年龄预测模型中,黑质帕尔斯(左)出现在前两adhd - 200和ABIDE-II roi模型。adhd - 200模型检索以下地区排名前十的roi:扣带后回(右),中央前回(右),中央盖(右),苍白球(左),黑质pars试(左),intralaminar丘脑(左),外侧膝状体丘脑(左),内侧膝状体丘脑(左),枕外侧丘脑(左)和小脑蚓体(叶IV-V)。ABIDE-II十大集中roi模型包含以下区域:杏仁核(右),中间扣带(右),嗅觉皮层(右),近中心小叶(右),腹侧被盖区(右)小脑蚓体(第三叶和X),黑质致密部(右)和黑质pars试(左和右)。有趣的是,小脑蚓体叶三世出现作为一个集中十大预测ROI的性别和年龄ABIDE-II模型,和小脑蚓体叶IV-V对性别和年龄的预测出现在这两个样本。的编译top-focused roi是描绘在图S3在补充材料。
正如前面解释的,模型的解释能力的人工神经网络有时是挑战,这限制了其在临床应用场景。因此,这些模型被认为是“黑盒”,实际的影响。然而,我们实现了一个可视化方法添加到模型的可解释性。在图4,我们现在的这个过程的实现通过添加平均梯度的注意力地图作为功能层MRIcron的大脑模板。它显示了一个实际例子的视觉从人工神经网络输出,十大预测roi的梯度注意力地图准确地绘制在大脑的临床相关的表示。
4所示。讨论
在这项研究中,我们改变了大脑sMRI通过VBM的青年,从大型和异构数据集,并使用生成的通用和WM作为训练3 d的卷积神经网络输入与多任务学习模型预测的年龄,性别,和精神障碍。然后,合成训练模型被用来映射的最高代表roi的任务预测年龄和性别。实现一致性和避免偏见的结果,我们使用了一组方法符合文学的最佳实践。
adhd - 200训练有素的模型有一个稍微比模型训练与ABIDE-II数据更好的性能,可能是因为第一个数据集比第二个高同质性的数据(12]。跨数据集评估证明模型的泛化能力,预测高信心甚至在年龄和性别未知的数据集等不同的混杂变量类型的精神疾病,扫描仪采集参数,和受试者的年龄和性别的分布。
我们所知,我们的方法的性能符合大脑衰老的最先进的检测,实现了美= 1.43年10倍交叉验证测试集。小王和同事的研究(42]达成美= 1.38年从一个子集adhd - 200与我们相似的年龄范围;然而,他们的研究结果只是基于健康的人,和他们的方法手工特征提取和选择主要基于皮质厚度和曲率。另一项研究中,通过因特网和他的同事们(43),取得了一个令人印象深刻的美= 1.1年的测试分区和一个美= 1.22年平均性能从所有六个测试分区。与我们的工作不同,弗兰克和同事使用一个数据集(44)获得通过一组统一的扫描参数,从健康受试者,严格筛选后,数十名的混杂因素,可能会影响在儿童和青少年时期(即健康的大脑成熟。,个人与早产、酒精或药物滥用在妊娠期间,低智商,和几十个其他混杂因素被排除在外)。更好的数据一致性,加上小样本大小,比受雇于我们可能提供了良好的条件,这样两个研究可以实现高精度(42,43),尽管它可能发生在普遍性的成本(12]。不同于我们的方法,这些研究[42,43]采用机器学习算法称为相关向量机(RVM) [45),这是一个贝叶斯支持向量机的替代品。因此,RVM的优势要求不如CNN3D计算能力。
另一项研究采用CNN3D预测年龄从大脑sMRI原始格式与sMRI VBM处理。科尔和他的同事们(46)实现稍微更好的性能时使用VBM(美= 4.16年)相比原始sMRI(美= 4.66年)。然而,他们只有评估健康受试者,年龄从18岁到90岁不等。因此,这些差异不允许直接对我们的工作比较模型的性能。此外,与我们的研究中,科尔和同事(46没有评估大脑生物标志物(roi)从他们的模型的预测。
虽然我们的方法提供了一个高能力,学习如何估计年龄和性别,它没有执行在精神疾病分类,实现适度AUC-ROC和F1-score指标区分HC,自闭症,多动症。因此,结果表明,我们的模型是接近随机猜测这些任务。可能,底层结构改变这些条件不够精细,这样他们不有效地探测CNN3D训练sMRI从大型和异构数据集。在精神疾病中,大型和异构数据样本往往提供高信心和泛化能力。然而,与此同时,他们往往导致精度低,这可能是一个重要的限制,还影响到我们的主要结果(12]。另一个来源进行调查,在未来的工作中,评估调整的影响权重从客观损失函数优先分类的心理健康状态。多任务学习的动态任务优先级(47]这个目标似乎是一个有趣的方法。该方法提出了动态调整的损失重量训练过程优先最困难的任务。
大脑roi我们确认(见结果)是大多数代表性别和年龄检测都符合几个不同的研究报道这些地区性别分化相关,老化,或两者兼而有之(48- - - - - -54]。
性别,Witte和同事48)使用统计参数映射计算通用卷男性和女性之间的差异,以及其他统计上显著的结果,他们发现,男性比女性有更多的通用汽车在小脑蚓体,小脑,距状,而女人比男人有更多的通用舌回。另一项研究中,由Menzler和他的同事们(49),使用扩散张量磁共振成像发现微观结构WM丘脑的性别差异;Menzler和同事(49]还发现不同的扣带确认以前的作品,认为他们的发现是由于髓鞘形成的差异或神经胶质细胞形态测量学,说以前的功能磁共振成像研究发现性别差异在丘脑激活情绪刺激的处理或不愉快的语言信息。最近的研究结果表明,不仅性别也是青春期的状况可能会影响大脑发育(55]。因此,这些特性的作用可以进一步探索未来的工作。
与年龄相关的roi,预和沃尔考(53)使用功能性磁共振成像评估网络的功能连通性密度(FCD)关于大脑衰老的健康受试者,发现静息状态网络的远程FCD(静),包括后扣带,随着年龄的增长,减少在其他两个皮层下网络包括丘脑FCD和杏仁核随着年龄的增加;最近,一种改进的神经解剖学的模型静(56不仅包括杏仁核及丘脑在静但发现丘脑在静息有一个中心的角色。另一项研究使用功能性磁共振成像(54]发现儿童杏仁核的腹侧被盖区连接较低和较高的丘脑腹侧被盖区连接,苍白球,比成人和小脑蚓体;本研究[54]儿童还透露,黑质高连接到杏仁核,苍白球,比成人和丘脑,同样的语言区域的连接(包括中央盖)和中间扣带较弱的腹侧被盖区和黑质比成年人。
这集体,形态变化检测到我们的模型和其他研究中证实48- - - - - -54)可能是高度协调和测序相关事件的特点是两个进步(髓鞘形成)和退步(突触修剪)过程,改变WM和通用卷每个性别有不同的模式,和最动态的从童年到成年早期57]。
这些发现强化我们的假设,CNN3D能够检测复杂的大脑形态学特征,先前被高分辨率弥散张量磁共振成像和核磁共振。后Pinaya [15),而标准mass-univariate技术考虑每个大脑结构看作一个独立的单位,多元方法(比如我们使用)可能另外基于区际关系导致个别地区由于存在高的区别性两种可能的原因:(一)不同体积/组织在该地区之间的厚度;(b)的差异之间的相关性,地区和其他地区的组织。因此,区别的大脑网络是最好的解释为一个空间分布模式而不是个别地区。
作为我们的多任务学习架构优化执行所有任务在同一时间(即。,predicting gender, age, and psychiatric disorder), the learning process in the common model’s body may favor the extraction of the brain features that are relevant to more than one task. On the other hand, each specific output block is exclusively optimized, selecting only the appropriate set of features that best help to accomplish its unique individual task.
由于人工神经网络的非线性引起的复杂性,我们的方法不允许映射内部的差异相关的roi模型的决策,也就是说,在皮质体积的增加/减少模式集中roi的负责任的决定对于一个给定的模型。当前的研究的另一个限制是它不能解释获得的性能结果,也就是说,哪些方法是负责哪些性能改进。因此,这个话题仍然是开放的,可以进一步探索未来的工作。
我们的方法是不足以充分分类孤独症和多动症。相比之下,性能和泛化能力预测年龄(即实现。,neurodevelopment) can pave the way for future work through the indirect estimation of psychiatric disorders. By training our model to predict the age of healthy individuals only (to be done), psychiatric conditions can be estimated by calculating the difference between the brain’s predicted age and the individual’s chronological age [46]。增加大脑预测年龄已经在个人发展中发现阿尔茨海默氏症,在精神分裂症、癫痫,唐氏综合征(58- - - - - -61年]。同时,减少大脑预测年龄被用来强调保护影响的冥想,通过提高教育水平,和体育锻炼(62年,63年]。
5。结论
总之,这项研究证明CNN3D模型的能力与通用汽车和WM训练,通过VBM处理,准确地估计年龄(即。神经发育)和性别。因此,实现结果支持假设,我们的方法可以检测复杂的大脑模式。虽然模型不能有效区分HC,自闭症,多动症,高性能和泛化能力达到年龄估计可以为未来的工作铺平道路,通过精神疾病的间接估计。生成3 d的大脑特点的战略地图通过SmoothGrad [21)和交叉结果与3 d AAL3脑图谱(22成功制备了)。因此,它提供了最具代表性的临床相关的鉴定生物标记(roi)模型的决定和被证明是一种可行的替代处理知名低深度学习模型的可解释性的问题。最后,方法给出的结果通过加强假设它可以成功地适应解决不同的问题涉及大脑形态学改变。
数据可用性
在这项研究中使用的数据来自两个公共数据集:自闭症脑成像数据交换II (ABIDE-II)和注意缺陷多动障碍(adhd - 200)。两个数据集可以从神经影像下载工具和资源合作实验室映像存储库(NITRC-IR:https://www.nitrc.org/ir/)。数据收集和公开的责任和给定当地伦理由每个项目的批准。这些数据集的详细信息和采集参数可以从ABIDE-II检索(http://fcon_1000.projects.nitrc.org/indi/abide/abide_II.html)和adhd - 200 (http://fcon_1000.projects.nitrc.org/indi/adhd200/)。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
圣保罗青年队,支持了研究基金会(FAPESP)必须占州政府拨款。2018/21934-5 2018/04654-9。WHLP被威康旗舰项目支持(WT213038 / Z / 18 / Z)。作者承认自闭症脑成像数据交换II (ABIDE-II)财团和每个21参与与科学界网站分享他们的数据。的资金来源ABIDE-II列出数据集http://fcon_1000.projects.nitrc.org/indi/abide/abide_II.html。作者感谢注意缺陷多动障碍(adhd - 200)财团和每个8参与网站与科学界共享他们的数据。多动症的资金来源- 200数据集列出http://fcon_1000.projects.nitrc.org/indi/adhd200/。作者也承认谷歌Colaboratory (https://colab.research.google.com/)。
补充材料
图S1示意图展示了采用自定义验证方案,利用鲁棒性的一个嵌套的交叉验证,同时保留时间消耗低。表现最好的混淆矩阵图S2显示adhd - 200模型分类性别对其测试集和整个ABIDE-II图S3数据集。提出了最具代表性的大脑区域估计年龄和性别的adhd - 200和ABIDE-II-trained模型。(补充材料)