研究文章|开放获取
洛杉矶,j·l·Gonzalez-Solis Torres-Gonzalez, j . r . Villafan-Bernal, ”糖尿病病人拉曼光谱的超顺磁的集群”,《光谱学, 卷。2019年, 文章的ID4296153, 8 页面, 2019年。 https://doi.org/10.1155/2019/4296153
糖尿病病人拉曼光谱的超顺磁的集群
文摘
在本文中,我们提出一个不同的方式分组过程的标准方法对拉曼光谱进行分类是基于集群的一个现象在自然界中观察到在原子水平和所描述的正确统计物理模型称为Potts模型,代表了晶体晶格相互作用的自旋。这种聚类方法被称为超顺磁聚类(SPC),它允许识别层次结构数据银行。在这个方法中,我们指定一个Potts旋转每个数据点(拉曼光谱),引入了相邻点之间的相互作用的耦合强度递减函数之间的距离最近的邻近的网站。我们发现分层树结构在拉曼光谱数据银行让我们区分控制和糖尿病患者的光谱。糖尿病检测的敏感性和特异性的技术通过直接计算拉曼光谱,因为SPC方法达到准确确定每个集群成员。反复核对,SPC结果与发表的多变量分析的结果相比,观察优秀的协议;然而,SPC方法允许确定明确确定集群的成员。
1。介绍
近年来,光谱技术,如拉曼光谱,傅里叶变换红外光谱、x射线能谱、和质谱法已经成为化学领域的基本工具,药物、农业部门、生命科学和环境分析研究不同生物系统基于生物样品的化学和结构组成(1- - - - - -3]。
在这些技术中,一旦捕获光谱、数学工具需要对它们进行分类;然而,光谱对应于生物样品通常显示高复杂性因为它们含有大量的山峰不同的强度和形式,与光谱对应于非生物样本之间的歧视一双样品是相对简单的。此外,复杂系统的研究,比较大量的光谱是必要的,有动力的应用新方法,允许大型银行的光谱识别模式。
在主要技术应用于光谱的分析,我们有多变量分析(主成分分析和线性判别分析)4,5)和聚类分析(K则和光谱标准方法)6]。然而,其中聚类方法,获得特别感兴趣的是这些方法,允许勘探的层次结构数据银行,促进疾病的研究被分为不同类型或特征显示进展的不同阶段(4]。
在这些层次聚类方法中,有一个带来了特别感兴趣,因为它的聚类过程是基于集群的一个现象在自然界中观察到在原子层面,并正确地描述统计物理模型称为Potts模型,代表了晶体晶格相互作用的自旋。这种方法被称为SPC方法,已成功地应用于白血病之间的歧视,乳腺癌和宫颈癌7]。同样地,这种方法已经应用于研究基因表达(8,9和蛋白质序列10甚至因为股市回报的临时的演进是由随机过程描述,SPC也被用于股票交易分析(11,12]。
在本文中,我们提出了SPC方法作为一种新的拉曼光谱分类的方式希望观察的层次结构相对应的光谱,确定拉曼光谱银行健康和2型糖尿病患者。SPC方法和拉曼光谱可以形成一个更好的方法糖尿病与高敏感性和特异性检测。
2。SPC方法
在铁磁模型中,每一个点被认为是Potts旋转,相当于一个吗问整数值,年代我= 1,2,…问。距离矩阵,dij,代表相邻站点之间的欧氏距离和 。输入数据的SPC方法由这个距离矩阵包含所有数据点之间的距离。距离矩阵是用来构造一个图的顶点数据点,和边对应于相邻点之间的连接。两个点被认为是邻居(因此有优势)内K最近的邻居。
两个相邻点和有相同的自旋(年代我=年代j通过耦合的短程相互作用: 在哪里dij点之间的欧几里得距离吗和 , 是互动的邻居之间的平均距离,是邻居的一个点(交互的平均数量13- - - - - -15]。的力量Jij是距离的递减函数dij这两个点越近,就越想属于同一集群中,和之间的交互点,不是邻居被设置为零。
系统的能量函数是由非齐次铁磁Potts的哈密顿模型: 的符号 代表相邻站点和求和是在互动的邻居。系统的状态,δ函数,如果零,如果 。热力学平均物理量一个在一个温度下T可以计算使用 ,在哪里玻耳兹曼的概率密度和吗 ,在哪里Z配分函数, 。
Potts系统可能有三个不同的阶段,这取决于温度和交互:铁磁,顺或超顺磁的阶段。该系统在低温和高温顺铁磁。通过增加温度从零,系统通过从铁磁顺磁状态直接在一个转换或通过中间超顺磁的阶段。最后一个阶段是无序系统的研究相当大的兴趣,尤其是在上下文的数据集群的集群对齐旋转自动将数据划分为自然类,和一个清晰的层次结构的类不同温度时出现。
平均自旋自旋相关函数, ,用于决定是否两个旋转属于同一集群。相比之下,仅仅interpoint距离,自旋自旋相关函数敏感系统的集体行为,因此,一个合适的数量定义集群。
在这项研究中,SPC方法,如蜚蠊等人描述它(14,15),应用。蜚蠊等人使用Swendsen-Wang蒙特卡罗模拟(16,17在Potts)来生成一个马尔可夫链模型。在初始配置过程,通过分配一个随机值,生成每个点(自旋)。随后,冷冻债券最近的相邻点之间的分配和用一个概率
因此,子图通过冷冻债券相连。之后,创建一个新的配置,即。,年代pins of each subgraph are assigned to a new spin value randomly chosen. Spins that belong to the same subgraph are assigned to the same value. It is repeated a maximum number of times.
选择温度中固有的集群的出现嵌套层次结构,磁化的磁化率和方差(米), ,计算(18]。的高峰χ表明相变:命令之间的过渡状态(磁)和半序状态(超顺磁的),以及部分命令状态和无序状态(非磁性)。从温度和增加温度低,χ增加很快当集群开始分裂。随着温度的增加,系统可能首先分解成两个集群,每个打破成更subclusters等等。这样一个层次结构的磁簇反映数据的分层组织成类和子类。
集群已经确定之后,最自然的集群(集群没有子结构)进行标识。自然集群选择使用顺序过程提出的奥特et al .,将那些有最大的集群T -范围(用Tcl)[19]。奥特定义了一个T -稳定,年代T的集群 在哪里T马克斯是顺磁性转变的温度。因此,年代T表达了集群的稳定性对整个数据集的稳定性。这个过程停止。如果没有一个分支更稳定的结构可以发现,即,如果检测到最稳定的集群稳定低于一个阈值年代ϴ(年代T<年代ϴ)。自然集群本身没有任何子结构,因为它们显示直接从铁磁阶段过渡到顺磁阶段,所以温度是铁磁的最后阶段,T铁的,是一个很好的指标自然集群。因此,年代ϴ主要从外部控制参数设置。
3所示。方法
我们应用SPC方法研究的层次结构数据银行,它的元素是拉曼光谱。银行的数据与102年由182个拉曼光谱光谱来自糖尿病患者控制病人和80个光谱。每个光谱是由2330年的峰值与各自的强度。拉曼光谱测定血清样品获得15个患者临床诊断为2型糖尿病和20名健康志愿者控制。所有患者来自墨西哥和中西部地区也有类似的种族和社会经济背景。为了测量拉曼光谱,我们集中830纳米的激光波长(Jobin-Yvon LabRAM HR800拉曼仪器)在不同的一个小点血清样本。确保统计抽样,大约五光谱从每个收集血清样本的不同地区。细节和光谱测量研究中使用的样本如表所示1。
|
||||||||||||||||||
原始光谱进行基线校正处理,平滑、规范化和删除噪音、荧光和散射噪声(20.]。随后,一个数据矩阵N行和D列了使用拉曼光谱进行处理。
在数据矩阵,每一行代表一个光谱的峰值和每列一个谱系。矩阵的条目是拉曼光谱的强度。因为我们测量182光谱和我们所有的拉曼光谱测量在同一地区的转变,N= 2330,D= 182的数据矩阵。数据矩阵将允许使用SPC方法研究光谱之间的关系,也就是说,现有的控制和糖尿病患者之间的关系基于血清生化差异的样本。
中描述的SPC方法实现部分2。在分析中,每个处理拉曼光谱是由一个点表示Potts的旋转年代我被分配。利用拉曼光谱作为列,数据矩阵。距离矩阵dij使用这个数据矩阵计算。在光谱中,只有集群可能会出现类似的光谱谱资料。
Swendsen-Wang蒙特卡罗模拟生成一个马尔可夫链是使用参数的最佳设置实现仿真,问= 10,K= 15(7,10,11,21,22]。
最后,最自然的集群确定典型的默认阈值,年代ϴ= 0.5 (23]。
的计算dij和SPC算法在MATLAB平台上实现的Windows 10。索尼SVS13AA11U运行时间是35分钟。
4所示。结果与讨论
我们测试的能力SPC方法确定集群的数量从糖尿病患者和控制银行的拉曼光谱。为了比较控制和糖尿病的拉曼光谱,光谱的处理,因为它是在前一节中描述;2330×182数据矩阵建于102年第一列对应的光谱控制病人和过去的80列对应的光谱糖尿病患者(见表1)。182×182的距离矩阵构造使用数据矩阵。
一个简单的光谱比较血清样本的控制和糖尿病患者可以通过分析执行最特色的乐队只从控制和糖尿病患者平均拉曼光谱;然而,最完整的分析,将允许分类样品考虑所有的山峰(2330)从180年光谱将SPC应用算法。
图1显示了平均处理糖尿病和控制样品的拉曼光谱。德德et al。24)成立了一个参考的生物分子的拉曼光谱数据库允许识别的每个分子中显示对应的峰值控制和糖尿病光谱。在这些光谱,同样强烈的山峰被观察到695厘米−1酪氨酸的紧身上衣,828和853厘米−1、苯丙氨酸在1002和1028厘米−1磷脂的肩膀,1300 - 1345厘米−1和蛋白质(酰胺I), 1654厘米−1。主要的差异在661和1404厘米−1(谷胱甘肽),714(多糖),605(苯丙氨酸),545厘米−1(色氨酸)和酰胺三世的肩膀在1230 - 1282厘米−1(这似乎消失在糖尿病光谱)。相反,该地区897 - 955厘米−1强调因为糖尿病谱峰更强烈。
2330年的峰值的强度从每个测量拉曼光谱(182)被记录在我们的数据矩阵计算距离矩阵后,允许所有的光谱之间的相似性分析。随后,超顺磁的阶段定位测定的温度峰值的磁化率如图2在温度(a)。两个超顺磁的阶段T= 0.073,T= 0.115观察,第一部门主要的集群。图2(b)显示了SPC的距离矩阵计算集群在这些过渡阶段的温度。最强烈的颜色对应于较小的点之间的距离。对角线和非对角元素对应于国米,星团内的距离,分别。
确定最自然的集群将领先的集群分裂,弯腰方法应用于程控结果,获取分层树结构。图3证明了SPC方法(K= 10)是能够确定的三个自然集群数据正确。在图3集群的两个分裂的温度T= 0.073,T= 0.115是观察,如下图所示2。集群的主要展出第一分为集群1和2,和集群2显示第二个集群分成2 1和2 2。
在图3和表2,我们观察到的主要集群与集群1 182个元素开始分成95个元素和集群大小87。这些集群成分基本上保持稳定,直到达到superparamagnetic-to-paramagnetic转变温度(表示在突然减少χ集群),2分为集群,2 1(76)和2(11)大小,而集群1仍然没有子结构(自然集群)。集群2 1和2 2仍非结构化的,所以他们也自然集群。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
因此,SPC方法检测三个自然集群银行拉曼光谱贴上1、2 1和2 2树形图成员如表所示2。每个成员表示列号的数据矩阵,即。,范围从一个给定的病人的数量。回想一下,列1 - 102和103 - 182对应的光谱样本控制和糖尿病患者,分别。我们可以观察到集群的成员1和2对应于我们控制和糖尿病病人组织的拉曼光谱,分别。之后,集群2分为组2 1和2 2。这第二次分裂与第二高峰是一致的磁化率曲线。SPC方法显示结果的方式比敏感性和特异性很容易计算,获得真阳性,假阴性,真阴性和假阳性病例更中肯的方法仅通过观察程控集群成员的数量表2和光谱测量的数量控制和糖尿病健康中心提供的样本。根据这一信息,真阳性的数量(TP),假阴性(FN)(绿色,表中成员表示1),真阴性(TN),假阳性(FP)(黄色的,表中成员表示2)78例,2、93和9,分别。
因此,我们能够检测控制和糖尿病之间的差异光谱使用SPC和敏感性97.5%,特异性91.2%。该方法的敏感性和特异性也高,而目前使用的检测方法。
需要注意的是,当一个再确认使用的是另一种分类方法,如主成分分析和线性判别分析(5从集群成员),132年和174年,到88年,91年和99年从集群2 1也更进一步,在完美的协议与我们的结果SPC,尽管有分歧成员86年,92年,98年,100年、101年和102年从集群2 2。尽管这个分歧在集群2 2,SPC方法,基于统计物理和随机的概念方面,具有较高的敏感性和特异性符合的数量控制病人和病人的健康中心的数量发现与高葡萄糖浓度。
另一方面,由于我们对糖尿病患者的基本信息,我们有一个nonsatisfactory解释集群2分裂的子结构,集群2 1和2 2。然而,健康的病人分类存在的SPC方法作为糖尿病病人(光谱98、99、100、101和102对应相同的健康的病人)表明它可能对应于一些非常明显的特征组的糖尿病患者,如病人在前驱糖尿病阶段(健康的患者血糖浓度接近从糖尿病患者)。分割的另一个可能的解释是错误的诊断使用拉曼光谱和SPC方法,因为它发生在其他检测方法。
图4(一)显示的平均拉曼光谱的比较健康的病人和糖尿病分类错误的样本光谱光谱(132),标有绿色表2。这两个似乎包含相同的拉曼光谱乐队,只有最小的强度差异被观察到,因此,132年拉曼光谱分类在同一集群从健康的病人。另一方面,数字4 (b)显示的平均拉曼光谱的比较样本的糖尿病患者和一个更进一步的控制光谱光谱(100),标注黄色的表2。这两个似乎也包含相同的拉曼光谱波段以最小的强度差异,因此拉曼光谱100从糖尿病患者在同一集群分类。一个可能的解释这些事实是点健康的病人的血清样本(糖尿病患者),在激光聚焦,化学成分几乎相同的人,一个点的样本糖尿病病人(控制病人)。它显示尽可能多的光谱测量的重要性,通过激光在不同的点在整个样本,获取其完整的描述。
(一)
(b)
基于这些光谱差异的存在的事实,它可能是有趣的研究数据矩阵的转置矩阵通过允许不同的拉曼峰之间的相关性的分析,而不是光谱之间的关系。在这种情况下,我们就会成群的山峰,每个集群可以识别特定分子存在于样品,和几个山峰内部更大的集群的集群将表明,所有这些组织的分子将保持一些化学关系根据生化信息反映在拉曼光谱样本的控制和糖尿病患者。分子在同一集群与一个已知的功能角色可以用来推断分子的功能作用在同一集群的作用最初是未知的。因此,集群的层次获得使用SPC方法可能导致的理解细胞生化行为产生糖尿病。
此外,是否我们添加了拉曼光谱的1型糖尿病患者的血清样本银行的拉曼光谱患者中,2型糖尿病和控制程控可能有一个更重要的角色在糖尿病的诊断类型,即。直接歧视之间的1型和2型糖尿病,希望再次观察集群的层次结构。我们将观察到的主要集群分成两个集群,一个对应于控制患者和糖尿病患者。此外,集群对应于糖尿病患者会分裂成两个集群,一个对应于1型糖尿病患者和其他相应的2型糖尿病患者。这SPC的结果可以在生物医学领域的极大兴趣。
5。结论
在本文中,我们提出了超顺磁的聚类方法是一种不同的方式来识别模式的标准方法在大型银行基于光谱波段的光谱相似。这种方法使用Potts自旋模型从统计物理可以成功区分从控制糖尿病光谱光谱具有高敏感性和特异性通过集群的层次结构。然而,虽然糖尿病集群的分裂成更小的集群nonsatisfactorily解释是因为稀缺生物医学信息的糖尿病患者,一个可能的解释可能是与事实相关的控制患者存在高葡萄糖浓度(前驱糖尿病病人)或仅仅是一个错误的诊断使用拉曼光谱和SPC方法。
SPC方法显示结果的敏感性和特异性很容易计算,获得真阳性,假阴性,真阴性和假阳性病例更中肯的方法仅通过观察程控集群成员的数量和光谱测量的数量从糖尿病和控制健康中心提供的样品。反复核对,SPC结果与发表的多变量分析的结果相比,观察优秀的协议,但SPC方法明确确定所有确定集群的成员。
程控可能扮演一个有趣的角色在诊断糖尿病的类型,即。,d我年代criminating directly between the type 1 and type 2 diabetes, by observing a hierarchical structure of clusters from diabetes patients, that is, the leading cluster would split into two clusters, one corresponding to control patients and the other to diabetes patients, and the cluster corresponding to diabetes patients would split into two clusters, one corresponding to type 1 diabetes patients and the other corresponding to type 2 diabetes patients. These SPC results could be of enormous interest in the biomedical field.
数据可用性
使用的数据来支持本研究的结果中包括补充信息文件。
的利益冲突
作者宣称没有利益冲突。
确认
作者要感谢CONACYT专题研究网络的成员,软凝聚态,他们的意见和建议。
补充材料
(1)Data-Ramanspectra-Diabetes-Spcjournal光谱学。txt:这是一个2330×182的数据矩阵列的拉曼光谱。182年的数据矩阵是由拉曼光谱与第一102光谱控制病人和接下来的80光谱从糖尿病患者。每个光谱是由2330年的峰值与各自的强度。(2)求职信:简单描述结果的报道。(补充材料)
引用
- m . Manso和m·l·卡瓦略”应用光谱技术研究论文文档:一项调查,“Spectrochimica学报B部分:原子光谱学,卷64,不。6,482 - 490年,2009页。视图:出版商的网站|谷歌学术搜索
- j . Kneipp t . b . Schut m . Kliffen m . Menke-Pluijmers和g . Puppels“乳腺导管上皮细胞的特征:拉曼光谱研究中,“振动光谱,32卷,不。1,第74 - 67页,2003。视图:出版商的网站|谷歌学术搜索
- i . j . Bigio s·g·鲍恩g·布里格斯et al .,“使用弹性散射光谱诊断乳腺癌:初步临床结果,“《生物医学光学,5卷,不。2,p。221年,2000年。视图:出版商的网站|谷歌学术搜索
- j·l·Gonzalez-Solis j . c . Martinez-Espinosa j . m . Salgado-Roman和p . Palomares-Anda”监测化疗白血病治疗使用拉曼光谱和主成分分析,“激光在医学科学卷,29号3、1241 - 1249年,2014页。视图:出版商的网站|谷歌学术搜索
- j·l·Gonzalez-Solis j . r . Villafan-Bernal b . e . Martinez-Zerega和s . Sanchez-Enriquez“2型糖尿病检测基于血清样品的拉曼光谱,”激光在医学科学,33卷,不。8,1791 - 1797年,2018页。视图:出版商的网站|谷歌学术搜索
- a·库马尔和r . Kannan集群与谱范数k则算法”,2010年,https://arxiv.org/abs/1004.1823。视图:谷歌学术搜索
- j·l·Gonzalez-Solis“歧视不同癌症类型集群拉曼光谱的超顺磁随机网络的方法,”《公共科学图书馆•综合》,14卷,不。第三条ID e0213621, 2019。视图:出版商的网站|谷歌学术搜索
- h . Agrawal和大肠Domany Potts铁磁物质coexpressed基因网络:确定最稳定分区,”物理评论快报,卷90,不。22日,ID 158102条,2003年。视图:出版商的网站|谷歌学术搜索
- g·斯坦利·h·加克拉,d . a . Notterman和e . Domany”耦合双向聚类分析乳腺癌和结肠癌基因表达数据,”生物信息学,19卷,不。9日,第1089 - 1079页,2003年。视图:出版商的网站|谷歌学术搜索
- 诉Tetko, a . Facius a . Ruepp H.-W。新,“超顺磁性蛋白质序列的聚类,BMC生物信息学》第六卷,没有。1,p。82年,2005。视图:出版商的网站|谷歌学术搜索
- l . Kullmann安德烈•柯特兹j . r . n .那年,“识别集群企业的股票指数通过Potts super-paramagnetic过渡,“自然史答:统计力学及其应用,卷287,不。3 - 4、412 - 419年,2000页。视图:出版商的网站|谷歌学术搜索
- r . n .那年,“金融市场的层次结构,欧洲物理期刊B,11卷,不。1,第197 - 193页,1999。视图:出版商的网站|谷歌学术搜索
- m .蜚蠊、美国怀斯曼和e . Domany“超顺磁的集群的数据,”物理评论快报,卷76,不。18日,第3254 - 3251页,1996年。视图:出版商的网站|谷歌学术搜索
- m .蜚蠊、美国怀斯曼和e . Domany”数据集群使用一个模型颗粒状磁铁”,神经计算,9卷,不。8,1805 - 1842年,1997页。视图:出版商的网站|谷歌学术搜索
- 美国怀斯曼,m .蜚蠊,e . Domany“超顺磁的集群的数据,”物理评论E卷,57号4、3767 - 3783年,1998页。视图:出版商的网站|谷歌学术搜索
- js。小王和r·h·Swendsen”集群蒙特卡罗算法,”自然史答:统计力学及其应用,卷167,不。3、565 - 579年,1990页。视图:出版商的网站|谷歌学术搜索
- r·h·Swendsen s . Wang和a . m . Ferrenberg新的蒙特卡罗计算机模拟的方法来提高效率在统计力学斯普林格出版社,柏林,德国,1992年。
- a . m . s . Chen Ferrenberg, d·p·兰道,“Randomness-induced在二维二阶过渡遍及Potts模型:蒙特卡罗的一项研究中,“物理评论快报,卷69,不。8,1213 - 1215年,1992页。视图:出版商的网站|谷歌学术搜索
- t·奥特a . Kern a Schuffenhauer et al .,“连续超顺磁的集群无偏高维分类化学数据,”化学信息和计算机科学杂志》上,44卷,不。4、1358 - 1364年,2004页。视图:出版商的网站|谷歌学术搜索
- h·f·m·Boelens p h . c . Eilers和t . Hankemeier”符号约束改善复杂的光谱数据集之间的差异的检测:LC−红外为例,“分析化学,卷77,不。24日,第8007 - 7998页,2005年。视图:出版商的网站|谷歌学术搜索
- c . m . Fortuin和p . w . Kasteleyn random-cluster模型。”自然史卷,57号4、536 - 564年,1972页。视图:出版商的网站|谷歌学术搜索
- r . Kӧnig r .家什,“基因表达分析生化网络使用Potts旋转模型,”生物信息学,20卷,不。10,1500年,页2004。视图:出版商的网站|谷歌学术搜索
- t·奥特a . Kern W.-H。Steeb, r .弯腰,“顺序聚类:追踪最自然的集群,”杂志的统计力学:理论和实验,卷2005,不。11日文章ID P11014, 2005。视图:出版商的网站|谷歌学术搜索
- j·德·德k . De Gussem·凡·l·摩恩,“参考数据库生物分子的拉曼光谱,”杂志的拉曼光谱,38卷,不。9日,第1147 - 1133页,2007年。视图:出版商的网站|谷歌学术搜索
版权
版权©2019 j·l·Gonzalez-Solis et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。