文摘

检索机制基本知识在人类思维仍然未知。探索通常是由认知单元。,concepts, linked together by associative relationships forming semantic networks. However, understanding how humans navigate such networks remains elusive, because the underlying topology of concepts cannot be observed directly, and only functional representations are accessible. Here, we overcome those limitations and show that the hypothesis of an underlying, latent geometry characterizing the human mind is plausible. We characterize this geometry by means of adequate descriptors for exploring and navigating dynamics, demonstrating that they can capture the differences between healthy subjects and patients at different stages of dementia. Our results provide the first fundamental step to develop a new unifying conceptual and computational framework that can be used to support the assessment of neurodegenerative diseases from language and semantic memory retrieval tasks, as well as helping develop targeted nonpharmacological therapies to maintain residual cognitive capacity.

1。介绍

检索基础知识的记忆,被称为语义记忆(1),一直是一个激烈辩论的焦点在多个研究领域。这样的争论主要分两个学派,即。一个语义空间和语义网络之一。根据语义空间的分支,搜索是一个重要的认知功能,操作同样在不同的尺度和上下文2]。在很多领域,在网上搜索在不同规模(从寻找一个对象在一个袋子里寻找疾病治愈)总是需要管理之间的权衡利用已知和探索未知是什么2]。从这个意义上说,记忆的内部搜索检索展品类似特征的物理空间的外部搜索(3]。根据最佳觅食理论(3),检索概念从内存是动态的过程类似于一个由动物当补丁的环境之间寻找食物4]。这种精神动力过程介导本地集群的信息开发和全球探索之间的集群中,追求一种语义觅食(3]。按照边际值定理(5],语义记忆搜索被认为是最优的,如果主题,像动物一样的最佳觅食,让一个给定的集群的信息当本地开发的好处分为水平变化的预期利益集群和搜索其他地方(3]。在临床领域,病人的直觉认知语义组织访问集群和转换后在语义集群模式在搜索已广泛应用探讨语义检索(6)和语义障碍(7]。然而,在这种方法中,集群是基于手工分类根据分类法:限制利用分布可以部分地解决语义定义集群和链接的概念在语义记忆检索任务(8]。总之,根据语义空间学派的造型语义记忆中搜索需要两个主要成份:(a)的结构表示搜索空间(手工或统计派生)和(b)搜索过程的模型(例如,局部到全局转换)4]。然而,仍然没有清晰的定义一个补丁是什么和如何定义它在内存中4]。与此同时,另一个学派,语义网络之一,证明了相同的结果最优觅食在语义空间中可能出现从一个随机游走探索语义网络9,10]。而不是集群和切换过程,这个网络的方法是提出一种更简单和单一的过程探索网络的概念。根据这种方法,概念是由联想语义网络的导航(11),培养认为概念是认知单元,每个表示为节点链接到相关的元素(12- - - - - -15]。典型的问题经常针对语义网络的使用,他们可能最终解释,或预测,内存检索利用模型由类似的行为,例如,当造型语义网络从自由协会数据解释语义流畅性任务(16]。建设这样的网络流畅的数据(17];然而,仍没有共识最合适的方式来构建语义网络(18]。然而,语义网络方法已广泛应用于临床领域精神病的评估19),阿尔茨海默病(20.- - - - - -22),在认知科学中,例如,研究创造力的水平(23)和人类的经验的开放性24]。在过去的二十年里,词语意思同高维数值向量的向量空间模型已经成为严重的竞争者(语义表示25),例如,在研究人类心理语言学的任务(26)或者当探索语义语言流畅在轻度认知障碍8]。强大的工具涉及这种空间表示的词是所谓的嵌入,桥接分布语义和自然语言处理,字映射到多维空间中的向量(27]。这种方法可以概括的下属思想与英语语言学家j·r·弗斯的话说,“一个词的特点是公司它使”,从数学的角度来看,意味着多维空间中的词越近,越近的词汇的意义。

语言和语义记忆检索任务的识别是至关重要的神经退行性疾病(28- - - - - -30.),通常采用不同的神经心理测试。在这些测试中,直言语义语言流利(SVF)的评估发挥重要作用尤其是痴呆和阿尔茨海默病(6,31日]。这里,病人被要求读尽可能多的单词,属于某个类别,在给定的时间间隔。病人的性能是先后评估,特别是通过计算词的数量明显(32)或他们的响应时间(33]。进一步探讨语义检索,方法,基于直觉病人认知语义组织访问在语义集群,已经广泛的应用[6]。最近,语义地图花砖人类大脑皮层的证据提供了从功能磁共振成像数据,探索语义选择性在大脑区域的存在34),进一步加强语言的洞察力可以组织在一个拓扑空间,即管汇。尽管如此,一个清晰的理解机制背后的导航语义记忆还是与我们(35,36]。

这项工作的目的是提供一个数据驱动的洞察为什么空间表示的假设,即。一个潜在的,潜在的几何描述人类思维,是可信的。依靠语义语言流畅测试从215例的临床资料,利用word-embeddings工具,我们的目标是在定义合适的指标来间接地探索这个可能,潜在的几何。我们的工作出现在辩论语义空间和语义网络表示,研究探索过程,整合这两个角度,空间和网络,根据这种方法建立在几何的概念与诊断建立语义网络规模和高潮,通过概念的中尺度组织(集群)。值得注意的是,我们的框架允许我们获得新的见解的组织概念在人类思想和解释为什么一些现有方法是成功的。事实上,背后的机制基本知识的检索,称为语义记忆(1),从根本上仍然未知37]。这里,我们填补这一空缺,(i)假设存在一个潜在的几何、控制概念在人类心灵的探索,和(2)证明这样一个几何可以区分正常人和病人在不同阶段的痴呆。我们的假设是基于一个假设,如果潜在的几何基础常见精神导航的概念存在,那么对象语义检索赤字应该表现出一些失真在这样一个导航上面的几何学。这里,我们观察不同人口的主题,用语义障碍,通过合适的度量不同导航相同的几何描述他们的探索。如果我们的假设是合理的,我们预测显著差异在不同诊断指标计算。

我们的研究是基于语义的分析言语流畅性(SVF)数据,属于动物类别,从92年的痴呆症病人(民主党,= 40%,F= 60%,年龄= 75 7年的教育= ),93患者的轻度认知障碍,先驱阿尔茨海默氏症(MCI,= 48%,F= 52%,年龄= 77 6年教育= 9 4)和30名健康对照组(CTR,= 60%,F= = 40%,年龄32岁 7年的教育= 17 0.40)。语义语言流利测试期间,每个人被要求报告所有单词他/她能记住属于类别的动物,在60秒的时间间隔。每个口语注释的神经心理学家测试病人。没有线索也没有激励给受试者在测试期间,和任何重复并不明显。SVF测试是一个重要的测试评估的痴呆诊断(31日]。一般来说,语义障碍比MCI患者更严重的痴呆患者。看的理由的语义流畅性这两个种群旨在测试我们的猜测,如果一个潜在的几何存在,语义记忆检索不同严重程度的损伤应该反映在不同的导航方式在这样一个似是而非的概念,潜在的几何。MCI科目有转换的风险增加阿尔茨海默氏症(老年痴呆症)。可能测试之间的差异的探索这两个种群的概念和一群控制通过空间指标可能相关的导航洞察如何将不同类别的对象执行从一个数据驱动的视角。而不是只关注统计描述符的语言,例如,词频或词汇量大小,在疾病,我们也认为,这些词序列提供了;这些信息是至关重要的,因为它允许在底层语义地图导航的概念空间。

描述访问这个空间的适航性的概念在这种未知,可能是多维空间,我们首先必须建立一个合理的几何代理(说明表示图1)。

为了这个目标,我们使用三个不同的词从意大利获得嵌入的语言,即意大利字嵌入,训练在意大利维基百科(38),itWac,由网络限制爬,使用中频域和词从意大利Repubblica语料库和基本词汇表(种子39),和Twitter,对准46.935.207 tweet (39];所有这个词嵌入流行词表示模型,生成word2vec [27]。通过选择嵌入的三个不同的词,我们可以评估我们的鲁棒性度量在几何图形来自不同来源,即。网站(维基百科),社交网络(微博)、报纸(La Repubblica)。在下面,我们将嵌入指词,语义空间,或几何图形互换。在这里,这个术语几何是合理的,因为事实上我们在word-embeddings杠杆,强大的工具编码词之间的语义关系在多维空间向量之间的几何关系。字嵌入由数据对应humans-written文档(在我们的例子中,维基百科,Twitter, La Repubblica,意大利报纸),然后嵌入在一个多维空间根据分配的假设语义。这个假设定义的语义相似度向量的相似度;即。,the closer the meaning in the vocabulary, the closer the points representing the words in the word embeddings (encoded by a vector of coordinates in a multidimensional space). In this sense, by embedding the words pronounced by a sample of subjects into a word embedding, which is a coordinate space by design, we can study the mental navigation of such subjects on a geometry of concepts. For each group of subjects, we, therefore, have three independent semantic spaces; each one is used to characterize the local exploration and the overall navigation of the semantic geometry. More specifically, we introduce five different descriptors for this purpose, in order to identify the effects of the underlying geometry, if any. At the smallest scale, i.e., the one of single concepts, geometry is probed in terms of:(1)最大跳 ,即。,the maximum distance, in the word embeddings, between two consequent words pronounced during the test, it defines the maximum instantaneous capacity to change context;(2)直径的探索 ,即。,the maximum distance, in the word embeddings, between the words pronounced during the test, whatever the order, it defines the maximum capacity to change context in the whole test duration. To be consistent, we call this metric ,当它与欧氏距离计算,探索和振幅( ),当它与余弦距离计算;(3)密度的探索 ,它对应于动物单词的总数可能在超球面半径由探索 ,一半的 ,和质心作为其中心 嵌入的口语词汇的词。它返回一个测量的体积密度的语言探索的主题。具体地说,它定义的密度(即有关单词。,belonging to the category of animal) in the area explored by the subject in the geometry;(4)距离 ,它是在测试期间总距离覆盖;它的大小量化整体勘查;(5)和远 ,即。,the average distance of the words pronounced, it defines the ability to go far with a certain number of jumps.

有关每个描述符的数学细节,我们将部分方法,而他们的意义差别的三组受试者被Kolmogorov-Smirnov统计检验和评估t测试。

之后,符合语义的访问是认知围绕语义簇(3,6),我们对概念的中尺度组织执行semisupervised聚类算法的三个几何图形。因此,我们为每个类别定义导航的探险的潜力作为访问集群的总数和单词的总数中访问集群。这个描述符是一个认知的代理工作期间可使用的导航,它定义了集群的总量/单词,在测试期间可能值得访问的/可收回。集群然后给出层次聚类算法的输入,提供这种集群的空间层次结构基于他们的相对距离。通过对比访问集群之间的距离,我们可以评估层次结构的存在方式的主题探索概念(技术细节集群和探究的部分可以找到潜在的方法)。

集群和切换的过程中获取灵感,当从内存检索概念,网络科学家提供了一种新的随机游走图作为一个马尔可夫过程,即。,切换器随机漫步40),在网络推广探索任务。在这一领域,通过语义网络导航的假设一个随机游走10),我们最后测试导航的概念通过马尔可夫表示,调查可能改变的心理路径探索的新兴概念的痴呆患者。在数学上,这对应于定义从一个状态转移概率(即。集群)到另一个,不管之前访问过的国家。操作上,我们建立三个马尔可夫链,一个为每个组,即两个诊断和健康的控制,考虑所有的集群,每组访问美国的马尔可夫链,并设置过渡概率等于相对频率从一个状态转换到另一个每组中。每一个马尔可夫链的特点是稳态分布和平均首次通过时间矩阵。在下面,我们提供直觉如何解释这两个描述符为每个网络的概念。背后的直觉稳态分布和平均首次通过时间(MFPT)矩阵的目的调查和描述搜索过程所追求的每个诊断网络的概念。网络的数学模型的假设作为一个马尔可夫链的概念,稳态分布和MFPT描述符调查这样一个导航动态的关键。我们假设如果确实不同的诊断探索网络的概念在不同的方式,稳态分布和MFPT应该强调这些差异。事实上,稳态分布定义独特的探索收敛作为转换的数量增加,不论马尔可夫链的初始状态。稳态是一个向量,计算为每个类别,代表集群的概率在每个类别的词来,足够的时间后。 It is to be noticed that each subject has one minute to complete the SVF test, but practically no patient uses it all because he finishes the words before the one minute ends. In this sense, one minute is enough to reach a regime situation, which is mathematically represented through the steady state distribution. However, it would be experimentally impossible to test a subject for an infinite amount of time. Our intention is to compare metrics that uniquely identify the pattern of exploration, as given by steady state and MFPT, for each category of subject; in this way, we can detect any possible differences between such patterns. For what concerns the intuition behind the MFPT matrix, it encodes the mean amount of time required to go from one state 到另一个国家 马尔可夫链。在我们的例子中,平均数的MFPT矩阵编码转换从一个集群的单词到另一个地方。具体地说,我们为每个诊断定义MFPT矩阵。这样的MFPT矩阵的条目回答这个问题:开始形成一个集群的单词 ,需要多长时间,平均而言,为这个特定类别达到一个特定的集群的单词吗 第一次?从这个意义上说,每个诊断的MFPT矩阵特征探索动态自它返回一个时间的平均测量导航的底层网络的概念。总之,MFPT矩阵定义步骤需要达到一定的平均数量首次从另一个状态。这个想法,重新定义网络的概念,对应于所需的平均时间为每个集群诊断通过从一个到另一个第一次,然后让我们来测量第一次旅行所需的时间一定精神链接连接两个团体的概念。在隔离,稳态分布(ss)和MFPT可以给我们一个洞察每个诊断的探索如何发展网络,随着时间的推移。例如,他们为我们提供不同类地集群如何探索后足够数量的转换(ss)和多少时间之前首次访问集群(MFPT)。调查可能的动态差异诊断和健康对照组之间的探索,然后比较这些描述符之间的相似性措施通过三组,即。皮尔逊相关性,斯皮尔曼相关,欧几里得范数、弗罗贝尼乌斯准则,和协方差(关于马尔可夫链的数学细节,我们参考读者部分方法)。

2。结果

2.1。几何

总的来说,度量定义描述当地的探索被证明是适合区分健康和nonhealthy科目在所有三个空间。三个语义空间的结果如图所示2。具体来说,根据的结果t测试所有几何图形中的所有指标,除了 在twitter几何,能够区分健康和nonhealthy主题,所有的拥有 (见表2补充材料的详细结果t测试)。同时,根据Kolmogorov-Smirnov统计测试的结果,所有的指标,除了 在itWaC几何和 在twitter几何,揭示能够分辨健康nonhealthy科目都有 (见表1补充材料的详细结果Kolmogorov-Smirnov统计测试)。

值得注意的是,距离 总是重要的不仅在健康和nonhealthy科目之间的,而且在不同的阶段根据Kolmogorov-Smirnov和痴呆t以及( KS测试所有的几何的价值观 , 的值t以及所有的几何图形 )。有趣的是,在维基百科的几何、KS测试强调,所有指标是重要的(所有 ),除了 ,在区分所有三个类别,即。,healthy controls and the two stages of dementia MCI and DEM. Also for thet测试,指标是重要的(所有 ),除了 ,在分离的三个类别。结果当地探索可以概括如下:(我)所有的指标可用于所有的几何图形健康nonhealthy之间的分离,除了 在itWaC几何和 在twitter几何;(2)所有指标都应该只在维基百科使用几何,排除 ,区分这三个类别(民主党,MCI和健康);(3)的距离 度量是健壮的所有三个字的三类嵌入的分离时,应该使用考虑itWaC和Twitter几何区分不同阶段的痴呆症。

详细Kolmogorov-Smirnov统计测试的结果t为每个指标以及被发表在表12补充材料。

2.2。层次结构

探险的潜力能够区分健康和nonhealthy根据KS测试和主题t测试( 0.002 6,见表34补充材料的详细结果),加强我们发现在当地的规模。

3显示了两人的tanglegrams MCI-DEM三个语义空间;它显示了贝克的γ的值相关性(41]相对于零模型的对。清楚在这个分析是MCI和民主党之间的关联度研究层次结构的概念,正如贝克的值的相关性,在itWac等于0.88,0.97在Twitter和0.73在维基百科,零模型验证的,在与所有其他对的相关性。相比这是明显的显著值的相关性痴呆和健康对照组的阶段,,相反,总是接近于零的三个几何图形(two-dash线路图3)。

2.3。网络

马尔可夫链模型的探索概念是显示在图4,可以视为一个代理的语义网络为每个组的主题。这样的网络不同节点的数量在同一组的空间,因为集群映射(MCI itWaC: CTR 19日13日民主党11;MCI Twitter: CTR 16日12日民主党9;维基百科:CTR 32, MCI 25日民主党28)。总的来说,nonhealthy患者探索一个更小的部分语义节点对健康的控制。要注意到,itWaC和Twitter的几何图形,是一个逐步减少访问节点的数量从CTR MCI和MCI民主党。不是所有的考虑相关措施之间的稳定状态和平均首次通过时间矩阵同意排名之间的相似性分析组,只有一些特定的组合geometry-correlation夫妇MCI-DEM衡量突出高相关性。特别是,这是真正的斯皮尔曼相关值的itWaC和Twitter的皮尔森相关的几何图形和维基百科(具体结果被发表在表5- - - - - -7补充材料)。最后,MCI和民主党之间的相关性越高意味着确诊首次通过时间矩阵,皮尔森相关的值在哪里夫妇MCI-DEM最高的,虽然他们的欧几里得范数差是最小的,两组之间的相似性的证据的所有几何图形(特定的值在表8- - - - - -10补充材料)。

3所示。讨论

在这项工作中,我们调查了相关假设语义空间通过测试如何合理的假设是一个潜在的几何基本概念在人类心灵的探索,以及是否可以使用此几何区分健康和nonhealthy科目。测试我们的假设是对不同类型的导航,即。,the one coming from healthy subjects and the one coming from subjects with deficit in semantic memory retrieval task according to a prior clinical evaluation. By means of suitable metrics characterizing the spatial navigation of concepts on three distinct word embeddings, we have demonstrated why is being plausible, that the mental navigation process takes place on a latent geometry, understood as an organized manifold of lexical information, by relying on data coming from 215 semantic verbal fluency tests. In terms of this, the geometry of the word embeddings acted as a proxy of a potential geometry of the human mind, intended as the setting where the information is somehow organized, when navigating the concepts.

我们检查了探索过程,整合两种主要观点,空间和网络,根据这种方法建立在几何的概念与诊断建立语义网络规模和高潮,通过中尺度组织的概念。一方面,语义网络不给满意的证据强度之间的组受试者认为(CTR, MCI和民主党)。事实上,结果显示不同字嵌入和相关措施,结果证明是一个指示性但不确定的方法。另一方面,几何方法给出显著结果揭示区别健康和nonhealthy科目通过当地描述符,在强调相似性轻度认知损害和痴呆患者通过层次结构。要注意到距离度量 总是重要的不仅在健康和nonhealthy科目之间的,而且不同阶段的痴呆在所有三个几何。有趣的是,维基百科几何,所有指标,除了远和最大跳,能够单独的所有三个类别。简而言之,如果我们不得不选择一个指标,可以把三个类别(民主党,MCI和健康对照组),无论几何,我们会选择距离 否则,我们必须选择一个语义空间,可以捕获在所有三个类别之间的差异考虑指标(不含远和最大跳),我们将宣布维基百科几何作为此任务的选择一个。最后,它总是可以区分健康和nonhealthy所有的几何图形无论度规是什么,除了 在itWaC几何和 在twitter几何(这是证明了Kolmogorov-Smirnov测试的结果t测试报告在表14在补充材料)。我们的研究结果表明如何度量,加上字嵌入,根据目的(即应选用。,discriminate between healthy and non-healthy and/or discriminate between all the three considered categories, DEM, MCI, and healthy). It is worth noting that the Wikipedia word embedding is a multidimensional space of 300 dimensions, that is, more than double compared to the other word embeddings used in this study (itWaC and Twitter), which have 128 dimensions. This means that, to some extent, the Wikipedia geometry contains more information encoded in the relationship between words. Thus, it could be possible that all metrics computed in the Wikipedia geometry can discriminate between all the three categories precisely because of this higher information stored in this word embedding.

我们得出这样的结论:几何框架是一种有效的和健壮的方法探讨语义记忆检索和评估其异常导航的病人在不同阶段的痴呆。出于这个原因,我们的指标可用于支持的临床评估作为确认的数据驱动的工具,并没有预测,诊断。这将有助于规划纵向推荐,例如,通过建立访问间隔6个月民主党病人和一年的间隔对MCI患者,避免强调后者的访问。我们的调查是第一步提供新的数据驱动框架,最终预测诊断从流畅性数据等的临床数据可用。在这方面,一个贝叶斯混合效应模型将是一个强大的工具来得到一个接地和多信息推理不同的关键变量之间的关系,如诊断标签,人口阶层人口(年龄、性别、和教育),语义空间(itWaC、twitter和维基百科)和度量的值在每个语义空间。此外,进一步发展这项工作应该包括一群老年人健康对照组。此外,知道如果病人更表现在探索的密度概念,许多单词相似的意思,或者在不断变化的背景下, ,可以帮助开发未来的目标认知刺激基于这些指标的价值。认知刺激(42,43)是有用的防止患者滥用药物治疗的个性化和更有针对性的演习残余的维护能力。换句话说,提高我们对记忆检索任务的理解和认知搜索可以大大改善受损痴呆症患者的生活质量,往往容易发生继发疾病,如抑郁症(44),无法表达或召回相关的概念。最后,鉴于我们的结果的鲁棒性分离健康nonhealthy主题,可以明智地使用几何方法来开发数字pretriage工具。通过这种方式,通过指标提出了我们的工作,病人可以分成两类宏观健康nonhealthy临床检查。这将是巨大的帮助在避免不必要的访问医疗设施。我们的目标可能看起来雄心勃勃,绝对挑战但也许不那么不现实的考虑由于COVID-19历史时刻我们生活在。事实上,防止最易感者大流行性流感的风险,比如老年人痴呆的怀疑,从不必要去医疗设施可以大大保障他们的生活。

4所示。方法

4.1。数据集

我们依赖的数据集包括语义语言流利(SVF)测试记录的185名患者和30名健康对照组(CTR)。其中92名患者遭受痴呆症(民主党),其中包括血管性痴呆,额颞叶痴呆、退行性痴呆、阿尔茨海默氏症,而93遭受轻度认知障碍(MCI),阿尔茨海默病的先兆。SVF记录报告意大利单词的顺序,属于动物的范畴,使用每个病人和控制测试期间的主题。我们的工作是以前收集的数据的回顾性研究心理健康、心理学、分工Azienda Provinciale /我Servizi Sanitari,特兰托,意大利。收集的所有数据按照指导方针和有关法规与参与者的书面知情同意。民主党和MCI诊断是在Azienda Provinciale /我Servizi Sanitari特兰托的意大利,医学专家的共识是老年神经学家,或精神病学家生理的基础上,仪器和测试医疗数据(血液测试,共振,CT扫描,酒样品,宠物,和18神经心理测试:迷你MentalState检查,ENPA单项成绩,命名,语音提示语言流畅,语言流畅语义线索、数字广度向前/向后,柯西,巴布科克的故事回忆测验,Rey-Osterrieth复杂的图,修改泰勒复杂的图,注意力矩阵,额评估电池,时钟测试,副本Rey-Osterrieth复杂的图,修改副本泰勒复杂的图,康奈尔大学规模在痴呆抑郁,日常生活的活动,和工具性日常生活活动)。组成不同类型的痴呆的事实条件是出于每个痴呆相关的少量的样本分类我们可以依靠。通过分组所有痴呆,我们获得一个类似与MCI的样本。无论如何,对我们的评价,我们依靠官方和专家资源,该报告:“不同形式的痴呆之间的界限是模糊和混合形式常常共存”(谁,https://www.who.int/news-room/fact-sheets/detail/dementia)。

语义语言流畅(SVF)测试进行的心理健康,心理,分工Azienda Provinciale /我Servizi Sanitari,特兰托的意大利,遵循一个特定的临床协议。尤其是神经心理学家要求每个报告所有话他/她可以记得属于动物的范畴,在60秒的时间间隔。没有线索也没有激励给受试者在测试。一旦病人一个字发音,口语的神经心理学家需要注意用手,神经心理学家还指出的顺序词发音,和任何重复并不明显。

4.2。语义空间

定义的语义空间,我们强大的工具的杠杆字嵌入等合理的几何代理一个空格。嵌入的特别,我们使用三个不同的词,从意大利语言与流行词表示模型和生成,word2vec [27]:(我)意大利字嵌入,训练在意大利的维基百科,嵌入在300维38];(2)itWaC,由网络限制的爬行,使用中频域和词从意大利Repubblica语料库和基本词汇表作为种子。词是嵌入在128维空间(39];(3)Twitter训练46.935.207 tweet和嵌入在一个128维空间39]。

为了得到动物单词的数量可能在超球面半径由探索 每个主题的口语词汇,我们翻译成意大利动物的名单由格雷格•伯伦斯坦在GitHub上可用https://gist.github.com/atduskgreg/3cf8ef48cb0d29cf151bedad81553a54。这是用于计算勘探的密度 ,下一段中指定。

4.3。几何

规模的单一概念,我们提供了五种不同的指标用于描述概念和最终的地方探索区分健康和nonhealthy科目。每一个主题 说一个字 SVF测试期间,我们称之为单词 对于每一个患者和健康对照组,我们定义以下指标:(1)最大跳 ,最大距离,两个单词之间在语义空间中,明显的在测试期间。它定义了最大瞬时容量改变背景如下: 在哪里 可以是欧几里得距离和余弦距离。结果(结果)节考虑余弦距离的度量。(2)直径的探索 ,最大距离,在嵌入这个词,单词之间明显的测试期间,无论订单;它定义了最大容量改变上下文在整个测试时间如下: 根据测量的距离,即。,Euclidean or cosine distance, this metric is defined, respectively, as Diameter of exploration ( )或振幅的探索( )。(3)密度的探索 ,它对应于动物单词的总数可能在超球面半径由探索 ,一半的 ,为中心的重心 口语词汇的语义空间如下: 在哪里 口语词汇的质心病人吗 ,对于每一个坐标 的语义空间,定义如下: 根据这个词的维度嵌入,重心将有300或128维度, 是动物的全套“嵌入”这个词,然后呢 探索的半径,即。,一半的 (4)距离 ,在测试期间的总距离覆盖如下: (5) ,它是单词的平均距离明显;它定义了一定数量的能力远远跳如下: 上述定义的重要性指标判别的三组受试者通过Kolmogorov-Smirnov统计测试和评估t以及,95%置信区间(详细结果表12补充材料)。要注意到,我们正在测试,如果每个指标三类民主党之间的分离,MCI,健康对照组(每个单词嵌入)。由于这个原因,在多个测试的情况下,我们已经调整了 每一个执行测试(Kolmogorov-Smirnov和值t根据Holm-Bonferroni以及)方法。

4.4。层次结构

对于每个几何,我们提供的中尺度组织通过执行semisupervised集群的概念,使用线性的k - means算法,并相应地设置集群的数量到肘部方法(见图5)。依靠这些集群配置,我们定义导航的探险的潜力作为访问集群的总数和单词的总数中访问集群,为每个主题。这些描述符报告集群的总量可能值得访问的在测试和单词的总数可能在测试期间可收回。前一节的几何指标,即使在这种情况下,两个探究的潜在指标的意义差别的三组受试者被Kolmogorov-Smirnov统计测试和评估t以及,95%置信区间(生成的值在表23补充材料),通过调整 根据Holm-Bonferroni值方法。通过执行嵌入的访问集群之间的聚类分析,我们能够评估层次结构的存在方式的学科探索的概念。

一旦获得每个几何图形的集群配置,可以提取这些集群的层次配置,由于每个集群的质心的坐标几何图形。换句话说,k - means的集群是相同的输出,并给予每个集群的几何位置(重心确定的),可以定义一个空间层次之间的关系这样的集群,质心之间的距离。

特别是,我们计算集群的距离度量为每个组设置不访问集群之间的距离等于两倍的最大访问集群之间的距离(即。代理无限),通过这种方式,我们不确保访问集群将不相关的层次分析组。与距离矩阵计算,我们进行了分层聚类算法来发现集群之间的关系。分层集群访问由一群之间的关系通过系统树图显示,虽然层次结构之间的差异,即。,不同群体的方式探索概念,通过tanglegrams图显示3。最后,我们研究了三组之间的相关性通过计算贝克的伽马成对相关系数为三组的树(系统树图)和通过测试它对一个空模型。更好地理解的聚类分析,我们总结如下我们所做的在两个主要步骤:(1)集群配置:我们定义了中尺度组织的概念;即。,we identify the clusters of concepts for each category (DEM, MCI, and healthy control) and for each geometry by means of linear semisupervised clustering algorithm (k-means). These clusters represent how the expressed concepts grouped together on a semantic space and they will constitute the states of the Markov chains. Through k-means clustering, we also provided the explorative potential which defines the total amount of clusters explored by each category (see Figure1补充材料)。(2)分层配置的集群:集群被k - means算法然后给出层次聚类算法的输入,提供这种集群的空间层次结构基于他们的相对距离。凭直觉,因为三类探索不同的集群,层次结构的研究给了我们一个了解这样的集群是探索的方式。为了检测任何可能的不同层次,我们计算贝克的γ的值相关,衡量两棵树之间的相似性(系统树图)的层次聚类(参见图3)。

4.5。网络

在宏观尺度,即。,the scale of clusters of concepts, the navigation of concepts is tested by means of its Markov representation, to probe the possible alterations of mental pathways emerging from the exploration of concepts in patients with dementia. Mathematically, this corresponds to defining the transition probability from one state (i.e., cluster) to another, regardless of previously visited states. Operatively, we build three Markov chains, one for each group ,即两个诊断和健康控制,考虑到所有的集群,每组访问美国的马尔可夫链,并设置过渡概率 等于相对频率从一个状态转换 到另一个 每组中 如下: 在哪里 学科组的总数吗 , 由集团访问集群的总数吗 , 从集群是即将离任的边缘 集群 对病人 后计算条目 我们获得的结果,转移概率矩阵 为每个类别的科目。这里,每个类别的假设是,每个主体被认为是“典型的主题类别”和对应于一个可能实现的典型勘探这一类。澄清一个例子,我们考虑93的MCI患者;这意味着,典型的主题属于MCI表现测试93次。由于实际原因,我们已经改变了每个转换矩阵 根据PageRank算法;这意味着我们假设的随机过程模型概念的探索行为85%的时间根据上述决定的马尔可夫链的概率和15%的时间根据离散均匀分布(45- - - - - -48)(更多细节的选择传送参数PageRank算法,我们称读者补充材料)的部分如下: 在哪里 代表了新的转换矩阵, 等于0.85根据PageRank算法,然后呢 是马尔可夫链的州的数量。然后每一个马尔可夫链的特点是稳态分布 的意思是首次通过时间矩阵 通过前,我们获得的信息在平衡过程,同时,通过后者,我们可以有一个深入的探索过程的动态概念。牢记马尔可夫链的无记忆的性质和状态的概率 步骤是 条目的 在哪里 初始状态的概率分布,稳定状态对应于长期均衡,无论起始状态,如下:

稳态分布是发现通过求解方程组得到实施 所有组件的约束 必须总结为1。还可以获得稳态分布的特征向量。在这种情况下, 可以被视为

因此, 可以获得的left-eigenvector方阵 对应的特征值 = 1。的 从基本矩阵获得吗 : 在哪里 是单位矩阵, 是一个矩阵的行相同吗 是由

我们比较描述符(例如, )根据四个不同的指标:皮尔逊相关性,斯皮尔曼相关的协方差,和欧几里得范数的差异, ,我们也比较其弗罗贝尼乌斯常态。要注意到的 ,我们考虑团体共同参观了国家的我们要计算指标和以矩阵为一个向量(生成的值在表5- - - - - -11补充材料)。

数据可用性

的数据支持本研究的发现可以从Azienda Provinciale /我Servizi Sanitari (APSS)特兰托,意大利,但限制适用于这些数据的可用性,这是使用许可下当前的研究,所以没有公开。然而,数据可以从作者在APSS的合理请求和许可。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

Elena Bravi莫尼卡Dallabona Manlio De Domenico,斯特凡诺乌鸫设计研究。芭芭拉Benigni准备所有的数据,进行数值试验,分析了数据。芭芭拉Benigni Manlio De Domenico写了主要的手稿文本。所有作者回顾了手稿。

确认

作者感谢马可Guerini有用讨论词嵌入技术。

补充材料

辅料文件提供的扩展研究的结果和一个解释关于网页排名算法中的传送参数的选择。(补充材料)