文摘
肺部感染是一种常见的临床呼吸道传染病具有高发病率和严重的死亡率高达30% - -50%,严重威胁着人类的生命和健康。准确和及时的抗感染治疗是提高治愈率的关键。门店技术提供了一种新的、快速、准确的病原诊断方法,可提供有效线索诊所,但确定真正的病原菌是一个迫切需要解决的问题,和一个全面的判断必须由临床医生结合实验室结果,临床信息,和流行病学。本文将有效地收集和处理门店数据的缺失值,临床表现,实验室测试结果,成像测试结果,和其他多通道数据的传染性呼吸道疾病患者。它还研究多通道数据的深层特征融合算法,夫妻的私有和共享特性不同的模态数据的传染性呼吸道疾病,并深入不同形式的隐藏信息获取效率和健壮的共享特性有利于辅助诊断。建立一个传染性呼吸道疾病辅助诊断模型可以智能化和自动化诊断传染性呼吸的过程,具有重要意义和应用价值,当应用于临床实践。
1。介绍
随着大数据时代的到来,数据已经淹没了社会的方方面面。对于现代医学,人体已经成为一个大的数据库,使现代医学和各种医疗数据显示明显的数据特征。数据,特别是医疗数据,需要进行辩证。与大数据分析技术和生物医学的结合,各种计算建模方法(模式识别,数据挖掘,机器学习,学习,等等)已经被应用到医学领域。在此基础上,我们设计并建立基于高通量研究病原体检测系统的人工智能测序平台的高性能计算平台,建立一个高阶张量数据库传染性呼吸道疾病和多模式的数据库相结合的成像,实验室检查结果和临床表现,疾病研究基于人工智能和统一的治疗患者的治疗和建立查询系统。本文旨在研究门店数据和临床数据的组合和流行病学数据和深度计算模型的帮助下,传染性呼吸道疾病的诊断和治疗的应用。
肺部感染是一种常见的呼吸道传染病发病率高的临床实践。排名第一的死亡原因在农村和第三个在中国的城市地区,尤其是重症肺炎。近年来有增加的趋势,尽管治疗方法比以前有很大的进步,其死亡率仍高达30%至50%,严重威胁着人类的生命和健康。病原菌的快速、准确诊断呼吸道感染是治疗的关键,它可以帮助临床医生及时优化抗菌药物的使用,从而加快恢复,提高治愈率和改善预后。目前,微生物检测的常用方法如涂片、文化和聚合酶链反应不能有效满足临床需求。基因组分析第二代测序技术(西班牙芒果,也称为高通量测序技术)提供了一种新的、快速、病原体诊断和准确的方法。与传统的病原微生物检测相比,西班牙芒果有高灵敏度和大量的信息。它可以及早发现病原体,指导抗菌药物的精确选择,减少抗菌药物的使用,降低患者的死亡率,并能识别新/已知病原体感染和混合感染。
2。研究现状
目前,60%的传染性疾病的原因仍不清楚(1]。临床宏基因组是一种检测技术,利用高通量测序技术澄清所有样品中微生物的分类和功能不依赖传统微生物文化(2,3]。这种技术可以同时检测细菌、真菌、病毒和寄生虫在同一个样本没有任何偏见,不需要特定的放大。适用于传染性疾病暴发的调查未知病原体和感染-从传统的测试结果,免疫缺陷患者和危重感染患者(4]。婴幼儿等特殊人群,高龄患者或患者基础疾病,免疫缺陷人群,反复住院治疗,患者重复负面测试传统的微生物检测技术和治疗效果差,疑似感染患者的特殊病原体,原因不明的传染病,患者和患者重要疾病,需要尽快确定病原菌。一方面,由于病原微生物的复杂性,传统的机会致病菌可能成为主要的病原微生物;另一方面,病原微生物携带多种抗生素抗性基因(5];在这种情况下,临床宏基因组是最好的诊断方法4,6- - - - - -8]。
3所示。上天在肺病原体感染的检测中的应用
狭窄的临床宏基因组技术主要指的是猎枪下一代测序技术。测序过程主要是打破所有的DNA样本成小片段,然后建立一个图书馆和序列计算机。信息学方法拼接测序结果,最后比较了数据库澄清发现物种(9]。广泛临床宏基因组技术还包括第二代测序技术,主要包括测序技术检测细菌16 s rrna和放大检测真菌的子序列技术内部转录间隔区(ITS)。主要测序过程是首先获得所有的DNA样本,然后使用特定细菌或真菌进行PCR扩增引物,建立数据库和序列在电脑上,用生物信息学方法获得合格的测序数据,最后比较数据库显然检测物种(10]。值得一提的是,临床宏基因组可以同时识别细菌、真菌、病毒、原生动物样本,可以精确到物种水平,而且还可以识别微生物的抗药性和其他功能,同时扩增子测序技术只能确定样品中的细菌或真菌属水平是准确的,和相关的微生物功能只能推断出从数据库(11]。
临床宏基因组被认为是最强大的武器来识别传染病病原体(12),但还没有统一的临床应用路径。我们结合工作特点,临床医生、实验室技术人员、临床宏基因组和生物信息学分析人士在临床应用和总结临床宏基因组的应用程序模式的精确诊断和治疗呼吸道传染病。这个模型需要临床医生之间的交流、实验室技术人员,和生物信息学分析人士为了获得最有效的数据,给准确的药物。
呼吸道感染患者的样本主要包括痰、呼吸道吸入,肺泡灌洗液。莫兰Losada et al。13)临床使用宏基因组检测囊性肺纤维化患者诱导痰液样本在不同年龄和证实,99%的呼吸道微生物是数以百计的细菌,主要是铜绿假单胞菌和金黄色葡萄球菌是主要的,而10种真菌和病毒仅占约1%的呼吸道微生物。真菌主要是假丝酵母和曲霉属真菌,病毒主要是腺病毒和疱疹病毒。这项研究还阐明,在每一个呼吸样本,有大量的微生物;此外,该研究证实了有关抗生素抗性基因铜绿假单胞菌和金黄色葡萄球菌,它的精确选择抗生素提供依据。Langelier et al。14)招收22骨髓移植患者下呼吸道感染住院和临床使用宏基因组检测250µl(从每个患者肺泡灌洗液标本,结果证实肺的存在骨髓移植患者急性呼吸道感染HCOV229E, HRV-A, hhv - 6,巨细胞病毒,HSV, EBV,人类乳头状瘤病毒扭矩Tenuo病毒,和其他病毒,还有罕见的致病菌:链球菌(链球菌)和棒状杆菌属(棒状杆菌属propinquum),患者的临床症状共存的细菌和病毒更严重。此外,临床宏基因组也被用于阐明肺部微生物的特点在肺移植患者继发肺部感染(15]。
4所示。预处理的多通道传染性呼吸道疾病的临床资料
鉴于这一事实,没有统一的标准的范围数据检索和数据库建立现有传染性呼吸道疾病的情况下,通过回顾性随访数据排序和历史数据,大量的新感染病例,结果被收集和测试。获得完整的高通量基因组学数据和临床病原微生物协会数据,制定数据检索范围,总结数据。针对问题的数据丢失和不准确的数据聚合的多通道数据,不完整的data-filling算法基于分布式减法聚类进行了研究。不完整的数据是集群通过一种改进的减法聚类算法,然后,不完整的数据聚类结果和加权距离。因此,数据与缺失属性值可以快速、准确地填写,以便准备后续任务,如数据挖掘和分析:(1)肺部传染病的情况下数据的收集和整理制定的定义、纳入、排除标准的感染肺部疾病病例。根据研究需要,按照批准的研究计划单位的道德与病人的知情同意、批准和收集的案例数据病原微生物基因检测在我们医院的“国家基因测试应用示范中心”自2018年以来,跟踪他们的门诊或住院信息和相关的临床数据。通过医院的系统检索数据,LIS系统,及PACS系统,制定数据检索的范围包括医疗机构的名称,惟一的ID号码,日期开始或医疗咨询、基本个人信息(性别/出生日期/职业,等等),医疗部门,主要的症状和体征,过去的历史,主诉,主要诊断,影像学检查,和实验室检查(血常规、CRP, pct,肺动脉栓塞,白细胞介素- 6,G /通用测试,曲霉菌抗体,新型球菌荚膜抗体,结核抗体,等等)。下载诊断和治疗信息根据建立目录,形成原始csv数据库的信息。目标的情况下数据信息情况下是根据研究传染性病例定义和纳入和排除标准,形成和传染性病例数据统计表。最后,总结了形成数据统计表。(2)数据填充的肺部感染性疾病病例。
首先,它研究减法聚类算法的优化利用不完整的数据的相似性度量方法和矩阵乘法的概念,实现完整的直接聚类数据集的基于分布式多级MapReduce的减法聚类算法。执行算法的主要时间花在划分数据集,计算之间的欧几里得距离采样点和采样点密度指数的计算。为了减少算法的时间成本,提高算法的效率,对于这三个步骤,一个多层次MapReduce的过程用于分布式并行计算。为了使数据集的划分适合MapReduce计算模型,首先存储在数据处理形式的行,以便它可以切片行,和数据片之间没有相关性。减法聚类过程中,邻域半径的计算和采样点的密度需要使用样本之间的距离,这是特别重要的生成样本点之间的距离矩阵。为了使数据子集C适合MapReduce计算模型处理,然后生成距离矩阵,这个项目使用的两个拷贝数据子集C作为计算矩阵进行矩阵乘法的MapReduce实现。利用减法聚类簇的过程中完整的数据子集C,有必要计算和修改密度指数。它可以从密度指数公式中的值我距离矩阵的行G对应元素的密度指数的数据对象我。此功能确保密度指数的校正计算适合MapReduce并行设计。
集群不完整的数据后,填充缺失数据的方法,通过研究数据对象和数据点之间的距离加权系数在同一类是用来避免干扰的其他对象填充的值。该方法的关键是确定每个数据对象的加权系数。为了确定加权系数的客观和准确,本文使用以下公式计算数据对象之间的距离为权重系数: 说(年代我,年代j)代表数据对象之间的距离年代我和年代j,米是数据对象的属性的数量,然后呢米′的数量是相同的两个数据对象的属性不是失踪。最后,基于集群和加权距离填不完整的数据。
5。深特征融合学习模型基于多通道数据的传染性呼吸道疾病
本文研究了深非负相关特征融合算法的多通道数据。通过co-learning无人监督的相关和不相关的特性,模态的影响私人特性从多通道共享功能,共享空间是更有效的和健壮的和更有效的共享空间和健壮的多通道数据相关融合功能。研究深层迁移功能不平衡的多通道数据融合算法,耦合模态深网络和模态语义相关性模型,设计一个统一的深层网络体系结构基于多层语义匹配。(1)无人监督的多通道数据深负的相关性特征融合算法给定一个多通道的数据集 ,它包含n下数据实例V模式, 代表的特征矩阵n下数据实例th模式,每个数据实例表示为dv维特征向量。首先,结构化稀疏投影矩阵和用于转换特性矩阵每个模式为模式的私人特征矩阵共享的特征矩阵和模式VC。然后,基于不变量的正则化图像的稀疏投影极限,构造多通道重建误差函数,函数变量是共同重建误差最小化为目标优化通过共享功能耦合。最后,完成数据的聚类分析获得multimodal-shared特性VC。(2)深层迁移特性为不平衡的多通道数据融合算法基于典型相关分析(CCA),这个项目打算构建多层跨通道数据的语义相关性模型。典型相关分析模型可以项目不同的数据域子空间相关特性表示通过有效矩阵转换。数据域之间的相关性是最大的。实现模型,首先,[ )是使用源和目标域深度网络编码,分别学习隐层数据特性表示相应的源和目标域 和 ,在哪里f是非线性激活函数的学习网络。然后,进行典型相关分析是获得域隐层的特性和 。最大相关系数矩阵对应的学习源和目标域和 :
第一层的匹配特征更相似的模态语义空间通过相关系数矩阵,然后进行下一层的语义关联。耦合模态深度网络与每一层的模态语义,和深多通道多层语义匹配模型,它被定义为最小化的重建误差源和目标深度学习网络,同时最大化相关的跨域深度网络。特定的目标函数如下:
和的重建误差源和目标深度网络,分别包括成本函数和参数正则化项。
6。建立全过程为传染性呼吸道疾病辅助诊断和推理模型
本文以专家经验为核心,使用现有的医学辞典,电子医疗记录,各种医学指南、专家共识、和其他基本数据构建领域知识地图,并实现知识提取和知识融合技术。结合深入的特性融合学习的结果传染性呼吸道疾病的多通道数据,基于知识地图,并参考整个诊断过程的传染性呼吸道疾病在医院在这一阶段,建立整个过程帮助传染性呼吸道疾病的诊断推理模型。
6.1。构建知识地图的传染性呼吸道疾病
数据源用于构造图的知识可分为以下类型。
结构化数据:结构化数据抽取是通过数据集成器。数据集成器分为三个部分:数据集成设计工具,数据转换工具的集成和数据读写插件。数据集成设计工具是用来为用户提供图形化设计数据集成逻辑函数,数据集成转换工具是用于用户设计转换成数据集成应用程序代码,和数据读写插件用于提供数据集成应用程序的数据读写功能。
半结构式数据:半结构式数据特点是一个隐式的结构,但其结构变化很大,缺乏标准化。两种类型的一种数据,百科全书网站和行业垂直网站,通常可以用来构造图在垂直领域知识。这些数据都是基于html的Web数据和Web页面的元素中提取可以通过其位于标签符号。网页主要由顶部的入境卡,中间的自由格式的文本部分,和底部的标签条目。入境卡和条目标签的标签结构相对固定。它可以提取所需的实体名称,描述实体、实体属性,和与其他实体的入境卡的部分。实体的类型可以获得直接或间接的条目标签。中间的自由格式的文本部分需要提取所需的知识通过长期和短期记忆网络(LSTM)。
非结构化数据:非结构化文本处理,通过命名实体识别方法,实体和实体已确定的类别。然后,实体之间的语义关系是通过关系从文本中提取的提取模块。对于这个任务,首先,通过训练分类器的关系,它决定了是否有特定的预定义的两个实体之间的关系在一段文字。序列数据本质上是一个分类问题,即解决了通过使用一个基于远程监督关系提取方法。
6.2。为传染性呼吸道疾病辅助诊断和推理模型
传染性呼吸道疾病的辅助诊断和推理模型是基于领域知识地图。后的实体和关系的例子是嵌入式,编码和解码的设计,最后,传染性呼吸道疾病进行分类和预测。首先构造一个卷积编码部分层处理多通道数据,插入一个关注模块实例数据中提取特征,然后结合深特征融合模型研究了在这个项目探索不同的模态数据的深度信息。解码部分最后预测疾病的类型对于实现辅助诊断的目的。
7所示。讨论
在大数据时代,多媒体技术的迅速发展和丰富的数据描述方法,多源、异构等多通道数据是广泛使用16,17]。多通道数据指的是通过不同领域的数据或观点相同的描述对象。通过使用模式之间的互补信息,可以学到更准确的数据特点,和随后的数据预测和决策任务可以有效地支持(18- - - - - -20.]。功能多通道数据的学习需要有效的数据融合方法。然而,在实际应用中,多通道数据通常有低质量特性如不精确、不完备、不平衡:错误是指多通道数据的可能性。它将包含nonrelated信息,如噪音或无关紧要的物品;不完全意味着部分模态信息或一些数据实例的属性信息的一部分,多通道数据丢失;不平衡意味着有更多的一些模态数据的实例。其他模态数据实例相对较小,所以必须使用包含多个实例的形式协助模式包含更少的实例进行分析和学习。上述特征构成巨大挑战多通道数据融合方法的设计。
深层神经网络可以有效地过滤数据噪声和深刻的抽象特性通过多层非线性转换和促进学习的数据相似的语义融合(21]。因此,这个项目扩展了深层神经网络不准确,不完整,不平衡的多通道数据和深入研究相应的低质量的多通道数据融合算法。通过多层关联和匹配的模态数据,跨通道集成深度特征融合模型的耦合模态网络和共享功能。
数据可用性
使用的数据来支持本研究的发现正在禁运,而研究成果商业化。
的利益冲突
作者声明没有利益冲突有关的出版。
作者的贡献
使用的数据来支持本研究的发现正在禁运,而研究成果商业化。靖远县赵和Liyan Yu同样co-first作者。
确认
这项研究的部分资金由中国国家自然科学基金(81871725)和辽宁省基础教育部门(LZ2020010)。