文摘

肠梗阻是一种常见的儿童外科急救。然而,挑战寻求适当的治疗儿童肠梗阻因为许多诊断措施适合成年人并不适用于儿童。机器学习的快速发展促使兴趣应用医学成像问题,但在医学文本挖掘。本文基于文本数据的一个两层的模型提出了常规血细胞计数和尿液检测等提供指导和协助临床诊断决策。本研究的样本和肠梗阻526名儿童。首先,样本分为两组根据他们是否有肠梗阻手术,手术,然后组分为两组根据肠道管是否坏死。具体来说,我们63的生理指标与相应的标签和每个孩子喂成一个深度学习神经网络包含多个完全连接层。随后,对应的值是通过激活函数。的5倍交叉验证进行第一层,并演示了平均80.04%的准确性(Acc),和相应的灵敏度(Se)、特异性(Sp)和MCC是67.48%,87.46%和0.57,分别。此外,第二层也可以达到70.4%的精度。 This study shows that the proposed algorithm has direct meaning to processing of clinical text data of childhood ileus.

1。介绍

肠梗阻是儿童最常见的手术之一,突发事件(1]。医生做出诊断有困难由于疾病的复杂性而正确的选择将有利于制定正确的治疗方案。临床上,保守治疗时,将患者的肠只是部分屏蔽。他们通过治疗是可以治愈的。儿童和他们的完全肠阻塞需要及时手术,以防止进一步恶化。

有一些现有方法结合人工智能技术和医疗数据建立一个计算机辅助诊断(CAD)系统,并提供一个计算机化的“第二意见”医生的诊断。深入学习了一个重要的角色在相关处理近年来在许多医学领域,但在大多数情况下,它从医学图像中提取数据。例如,徐et al。2结合小波变换和卷积神经网络识别根据频率心房纤维性颤动。Norgeot et al。3)提出了一个使用电子病历数据深度学习模型预测复杂的疾病的结果。莱文et al。4)描述了各种应用程序的深度学习在癌症诊断评估。因此,深度学习在医学诊断中发挥着越来越重要的作用。

虽然深度学习有很好的应用在医学图像数据。然而,当涉及到医学图像数据的主题,需要很多准备工作,例如,区分正常的医学图像样本,图像校准,校准功能,特征提取(5]。研究人员重复复杂的工作时,识别结果并不理想,努力消耗增加。在这里,我们试图从医疗诊断文本中提取信息而不是医学图像的医学研究人员不方便。众所周知,在某些部位病变发展时,一些生理指标会异常的同时,和症状通常出现在索引在一定程度上改变。如果医生可以检测到异常发生之前,它可能有助于防止疾病的恶化。它还可以提供有意义的建议来帮助医生诊断和治疗疾病发生时做出诊断。深入学习算法应用于文本数据不仅可以互相验证模型应用于医学图像数据,而且可以提高整体模型的可信度。

许多疾病不能被视为一个单一的疾病;他们甚至有许多亚型。没有电脑的帮助,很难对临床医师诊断患者(6,7]。为了弥补实时变化的疾病诊断和治疗的过程中,西蒙et al。8]构造肿瘤学专家顾问(OEA)为患者提供相关咨询服务,包括病历摘要、治疗方案和管理咨询。2019年,刘等人。9构造一个辅助诊断系统诊断糖尿病循环并发症结合深度学习和一些人体的生理参数。我们想到是否可以结合其他文本数据深度学习和应用于其他疾病的诊断10]。在此引用,深度学习应用于医学诊断儿童肠梗阻的文本数据,并建立合适的模型来预测病人的状况。

在这个实验中,年龄、血常规、肝脏和肾脏功能,凝血功能的这些孩子考虑肠梗阻。这些索引可用在大多数医院,和值可以在短时间内获得通过使用医疗设备。使用这么多参数的原因是检测方法不同;事实上,数据越多,医生更准确的结论。与使用单一检验指标相比,多重检验参数的结果更全面和有说服力。此外,肠梗阻患者,这些血常规和一些指标(如肝脏和肾脏功能)可以直接反映出实际情况。这些索引数据被用来训练神经网络与多个隐藏层。然而,不完整的和不规则的数据是第一个需要解决的问题。不适当的数据处理可以显著影响模型的性能。实际上,当数据空缺,一些研究者丢弃不完整的数据,只保留完整的样品,和其他人可能填满空值参数相似的数据11- - - - - -14]。在这项研究中,由于高比例的样品用缺失值,删除那些缺失的值是不合理的。因此,每个类别的方法用于填补空缺数据模式和中位数。但后者不如前者。此外,当涉及到非数字数据,一些转换规则来处理数据。处理后样品通过输入层,然后通过深层神经网络的隐层(主要由几个完全连接层),在完全连接层的节点数是每层减少一半。最后,给出的结果是输出层的激活函数(15]。

为什么我们构建这样一个目的辅助诊断系统是提取更多的有用的信息从这些孩子的生化数据并确定是否需要手术。实验流程图如图1。虽然不是很大的数据量,结果发现漂亮的暗示,这让我们相信,随着数据量的增加,模型的性能会更好。其次,该模型具有良好的泛化能力。具有类似文本医疗数据,该模型可用于预测或诊断其他疾病通过改变某些参数。结果也证明深度学习承诺在处理文本数据,模型具有良好的应用前景。

2。方法

在这项研究中使用的主要方法是深神经网络,将所有功能输入几个隐层网络结构组成的一个完整的连接层,最后分类样本通过分类函数(16]。为了比较算法的性能,还测试了相同的特性数据与其他机器算法,如支持向量机(SVM)和随机森林(RF)。

这项回溯性研究伦理委员会批准江西省儿童医院。18岁以下的参与者,所以书面知情同意是来自他们的监护人或法定近亲。在这项研究中,孩子们与肠梗阻在江西省儿童医院住院从2014年1月至2019年6月被选为主题,和患者休克,DIC,肿瘤,腹部手术后30天内被排除在本研究之外。

2.1。深层神经网络(款)

由于数据特征的维度是一个可接受的范围内,这个实验构造完整的学习模型通过添加几层连接层的隐层神经网络。在这种方法中,每一层的输入值是通过特定的过滤器,然后生成的输出值的输入滤波器的下一层(17- - - - - -19]。所示的过滤器的原则

在公式(1), 滤波器的输出值, 是激活函数, th权重矩阵, 输入值, 是整个过滤器的偏差值。

2.2。支持向量机(SVM)

支持向量机(SVM)通常用于解决分类问题在两种情况下,线性可分的,线性不可分的。类似地,两个点低于两个维度可以是线性可分的。然而,对于高维数据,通常很难判断他们的边界。在这种情况下,有必要他们维映射到高维的所以它的超平面可以发现20.,21]。原则涉及所示

在公式(2), 最后决定价值,标志是分类决策函数, 是一个系数向量, 是激活函数, 是输入训练向量。

2.3。随机森林(RF)

随机森林形成基于决策树。从决策树的不同之处在于,随机森林使用一套组合思想和装袋集成方法。自助法用于随机选择 样本的样本总数形成决策树,然后进行 次。通过这种方式,我们可以构造 决策树。这些决策树之间的最终投票决定了随机森林的结果(22]。通过这种方式,可以提高学习能力薄弱的学习者通过整合思想。

3所示。实验设计

3.1。数据集

在这个实验中使用的样本数据收集诊断数据的肠梗阻江西省儿童医院从2014年1月到2019年6月,其中包括526例(23]在补充文件中列出(可用在这里)。诊断数据包括64参数如年龄、性别、血常规、肝脏和肾脏功能,凝血功能。表列出了所有参数的名称1。根据实际的诊断和治疗的患者,相应的标签属性被添加为每个病人。的192名患者,那些没有接受外科治疗肠梗阻但接受保守治疗是K1的标签。肠梗阻的其他235名患者接受了手术,但没有标签K2肠坏死,最后99名患者接受手术治疗肠梗阻和肠坏死了K3的标签。

更准确的判断病人的身体状况,及时作出正确的诊断,样本分为正样本和负样本。它可以表示为

其中, 代表的总数526例肠梗阻, 代表了积极的样本192名患者接受保守治疗无手术,和 代表的负样本334名患者接受了手术。进一步确定肠道坏死的病人肠梗阻手术,负样本分为两组在实验中,也就是说, 被表示为

代表235名患者接受了手术,但是没有肠坏死, 代表99名患者接受了手术,并肠坏死,如表所示2

这些样本的特征参数包括数字数据和非数值的数据。数字参数直接使用。对于非数值的数据,本实验采用了定量的方法将这些数据。例如,病人的年龄属性值是2年零8个月,和转换后的值为2.67。图2(一个)显示总样品数之间的完整信息和特征参数的数量。在526个样本中,只有59岁的总数的11.2%基准,没有错过任何特性(年代)。删除不完整的样品肯定会导致很多信息被丢弃,大大减少样本的数量。显然,这是不合理的抛弃缺失值的样本(s)在这个实验中。因此,实验决定使用保留方法来填补缺失值。通过这种方式,不完整的样品可以达到正常样本数据的维数,可以放入模型进行训练。然而,图2 (b)显示最后一维特征(淀粉酶性质)的许多样品丢失特性。防止填充元素干扰值与原样品太多,我们决定放弃这个特性。在深入学习算法,特征尺寸的样本越大,可以挖掘更多的信息。因此,63 -维特征除了淀粉酶被用于这项研究。是否有统计误差在这里讨论的示例数据尚未。我们甚至可以使用这些可伸缩性测试统计误差数据服务模型。

2(一个)显示了样本的空间分布的直方图特征。图2 (b)显示了样本数量的直方图分布具有一定的特点。

3.2。数据填充

为了使缺失的数据更接近实际情况的病人,这个实验中采用的分类意义方法来填补空白的样品。方程中所示的特定原则是(5)和(6)。

首先,我们把所有样本数据分为男性和女性类别根据性别属性。其次,根据上述三个类别,每个性别的数据分为三个类别。然后,每个属性的平均每六个类别。最后,空格填写相应的平均:

63年代表均值矩阵参数对于每一个分类, 代表63年的特征值 样本, 是样品的数量为每个六个类别,然后呢 的价值吗 类和 特征值。

3.3。模型设计和培训

构建第一层模型,我们使用420处理样本数据作为训练样本数据集,剩下的106个样本作为独立的测试数据集(24]。为了验证模型的稳定性,采用5倍交叉验证方法进一步验证模型。5倍交叉验证是指将420份处理样本分成5组每组类别之间的比例几乎相等。这5个模型的性能比较,以反映模型的整体稳定性(25]。深的隐层神经网络模型用于这个实验主要由几个完全连接层。最终的输出是由款的向前传播算法。第二层模型建立的基础上进一步检查的334例肠梗阻手术(26]。这一层模型是用来识别肠坏死肠梗阻患者需要手术。第二层结构的模型基本上是一样的,第一层模型。深度学习的原理模型如图3

为了使它更容易记住和使用,第一层是M1的模型和模型的第二层是M2在这个实验中。M1的目的是分析是否需要肠梗阻治疗的患者。与此同时,我们应该考虑肠梗阻操作之间的优先级。如果病人的病情是危险,医生应立即安排手术。如果病人的病情不严重,条件应该首先观察到,然后,应该采取适当的治疗。M2的目的是分析病人的病情优先级并确定是否存在肠坏死的病人需要手术。在紧急情况下病人等待的时间越长,病人的病情变得更加危险。因此,建立一个两层的预测模型可以合理地、客观地分析肠梗阻患者的具体情况,为医生提供更准确的诊断结果。

这种智能辅助诊断模型系统可以帮助医生做出决定。在某种程度上,该模型可以减少误诊的可能性,在保守治疗取得良好进展。为了客观地评价模型的性能,探讨了潜在的关联特性。然后,我们建立了随机森林算法和支持向量机算法模型。

在深入学习模型中,所有可用的特征值输入到神经网络进行训练。结果所提供的模型反映病人的整体的可能性,但这些特征值对模型的贡献还不清楚。因此,基尼系数或还需要信息熵评价功能的重要性。这个实验中所有功能的重要性,通过使用Python的Sklearn图书馆功能重要性的方法(27]。功能重要性方法排名功能根据基尼系数的数量下降。具体来说,功能是第一选择,然后,下降程度的基尼系数之和的分支节点形成的每棵树的随机森林的特点是统计。和价值的重要性评分功能。我们选择20个最重要的特性如表所示3方差和平均值的10个最重要的特性如表所示4

重要性评分的总体特征,可以看出,模型中单个特性的贡献不高。最大的重要性分数小于0.05,最小值只有0.003。可以看出,单一特征对模型的贡献还不够重要。如表所示3肌酐的重要性分数同工酶、血清淀粉样蛋白A,肌酐,和c反应蛋白都高于0.035。与其他功能相比,这四个特性是非常重要的。很明显从样本数据在这些患者c反应蛋白水平更高的比那些接受保守治疗肠坏死。这可能是由于严重感染的坏死部分肠道,促进生产的c反应蛋白,使c反应蛋白含量在一个较高的水平。因此,c反应蛋白可作为重要参考参数用于目前的治疗决策。

4所示。结果和讨论

4.1。业绩评估

在这个实验中,四项指标是用来评估模型的性能:准确性(Acc), (Se)的敏感性,特异性(Sp),马修斯相关系数(MCC) [28]。积极正确地预测样本总数阳性样本代表是TP,总数正样本错误地预测为负样本是由FN,负样本正确预测的总数负样本是由TN,和总数量的负样本错误地预测为正样本是由FP表示。列出四个指标之间的关系和参数如下:

模型5倍交叉验证的最终结果如表所示5。从表可以看出5M1是用于诊断患者是否需要手术。模型M1的四项指标,分别如下:Acc是80.04%,Se是67.48%,Sp是87.46%,MCC是0.57。M2是用来进一步诊断肠梗阻患者肠坏死。平方米的四项指标分别如下:Acc是66.78%,Se是13.16%,Sp是90.15%,MCC是0.18。除了代表与MCC模型的性能,我们还画了两层模型的ROC曲线。ROC曲线的面积,也称为AUC值,通常是在0和1之间。AUC值越大,模型的性能就越好。ROC曲线如图4

4.2。讨论

在这篇文章中,一个智能辅助诊断系统提出了基于血液生化参数和学习算法。本研究的目的是提供的决定下一个治疗肠梗阻患儿。其次,辅助智能诊断系统的性能比较通过训练不同的机器学习模型(29日]。表6显示了这些不同的性能模型训练第一层使用相同的处理数据。

从表可以看出6支持向量机的性能在第一层模型是低于其他两个模型的训练结果。原因可能是这些生化参数的大小。这些特征值的归一化后,可分别的功能类别将会大大减少。最后,模型的性能将大大影响这些规范化数据后输入到支持向量机。因此,支持向量机算法应该避免当文本数据的大小差异很大。随机森林算法的性能接近深度学习模型,主要是因为随机森林的群体智慧的学习起着重要的作用。随机森林是一种集成算法。通过集成决策树分类性能较弱,每个决策树可以平均误差和模型的性能可以得到改善。

M1模型用于诊断肠梗阻患者是否需要进一步手术模型。获得了良好的预测结果只需使用血液常规流体,肝脏和肾脏功能,凝血功能,其他指标。与其他医学图像数据相比,医学文本数据的发展也是非常重要的诊断,这些医学文本数据可以很容易地和经济在许多医院通过考试。随着医学的发展,文本数据架构,这个模型将不断改进的性能。

M2模型被用来进一步研究肠道是否坏死患者肠梗阻。正如你所看到的从表5,M2的Se的意思是非常低,仅为13.16%。错误分类的原因可能是复杂的临床症状,血液生化指标有限,或小样本容量的模型训练。最后,M2模型很难区分肠坏死和nonintestinal肠梗阻患者的坏死。因此,文本数据是单独使用时可能发生误诊。当然,我们不能完全否认医学文本数据的重要性。我们可以结合医学图像数据与模型由医学文本数据对病人做出诊断。这个实验中使用的医学文本特征可能包含更多的噪声特性。后续研究可以提前过滤掉那些不相关的噪声特性来提高模型的性能。其次,除了这些特征参数,某些类型的参数(如血型)不习惯。为了提高诊断系统的性能,未来的研究可能会增加这些类型的参数一般决定通过一些编码方法。

虽然在这项研究中使用的参数是63维度,他们非常有限的疾病预测。患者的症状不用于本研究。与其他参数相比,症状特点反映了病人的病情。在未来,我们打算使用更多的组合特性实验参数的选择。模型算法的进一步优化改进模型的性能。

5。结论

目前的模型提出了一种深度学习模型预测肠梗阻的治疗儿童(30.),通过建立一些相关的学习模型来进一步评估每个函数的重要性,最初获得的影响需要关注的指标。血液和其他医疗数据的基础上,建立了一个辅助智能诊断系统。其目的是减少误诊的危险,为医生提供支持决策。这三个算法的ROC曲线如图所示5。可以看出,支持向量机的AUC值低于其他两种算法。的原因的AUC值神经网络小于随机森林深处可能是因为训练样本太小了。作者认为,通过积累数据和样本容量,深层神经网络模型的性能将会继续提高。

医疗设备的不断更新和医疗诊断数据爆炸性增长有关,如果智能诊断算法是有限的医学图像数据,结果实际上是不完整的。通常,只有某些临床特征可以检测疾病,然后,医生会采取适当的诊断措施。但这些都是不足以控制或预防疾病。在人体某些疾病出现之前,一些身体的生化参数首先出现异常。因此,这些生化参数的隐藏信息可以挖出。早期预警疾病到来之前,提前和许多疾病将被控制。虽然这项研究只是一小步,只有通过深入学习结合大量例子在医学文本数据,以帮助病人诊断模型可以不断改进。随着信息技术的发展,越来越多的方法应用于医学文本数据和模型将更加准确和高效。

在实验中,我们发现模式和中值序列被用来处理空数据和处理数据模型的性能有很大差异。当然,与其他两种方法相比,本文中使用的填充方法是最好的。因此,为了避免过度拟合模型,导致可怜的模型泛化,有必要进行合理的筛选方面的只填数据。在未来,我们将添加参数信息不习惯在这个实验中,将其集成到其他特征参数构建特征向量,并试图找到一些关键生化参数重要疾病通过卷积神经网络(31日]。

数据可用性

使用的数据来支持本研究的结果中包括补充信息文件(年代)。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

作者的贡献

陈刚和吴斤了同样的工作。

确认

这项工作是支持由中国国家自然科学基金(31760315号,31860312,61761023,61841104),江西省自然科学基金,中国(20202 bab202007),江西省教育部门(GJJ180703和GJJ160866),和黑山政府间科技合作(2018-3-3)。

补充材料

S1:基准数据集用于这项研究。有63血常规和526名儿童的肝脏和肾脏功能测试肠梗阻的补充文件。在这项研究中,患者年龄值转化为实数,和标签1,2,3用于标签样本根据是否需要接受手术,是否他们的肠子坏死。空值的数据集是源数据的问题,和空值数据已经配备了论文中提到的方法。(补充材料)