Nonsmall细胞肺癌的分期辅助诊断模型基于智能医疗系统

文摘

目前,人类健康受到许多疾病,肺癌是最危险的肿瘤之一,威胁人类生命。在大多数发展中国家,由于人口众多和缺乏医疗资源,为医生很难满足患者对医疗的需求仅仅依靠人工诊断。基于大量的医疗信息,智能决策系统在协助医生发挥了重要作用分析病人的条件下,提高临床诊断的准确性,减少医务人员的工作量。本文基于8920年的数据nonsmall细胞肺癌病人收集的不同的医疗系统在中国三家医院。基于智能医疗系统,智能医疗系统的基础上,本文构造了一个nonsmall细胞肺癌分期辅助基于卷积神经网络诊断模型(CNNSAD)。CNNSAD病人医疗记录转换成词序列,利用卷积神经网络从病人医疗记录中提取语义特征,并结合动态采样和传输学习技术来构建一个平衡的数据集。实验结果表明,该模型优于其他方法的准确性,回忆,和精度。样品的数量达到3000时,系统的精度将达到80%以上,可有效实现nonsmall细胞肺癌的辅助诊断,结合动态采样和迁移学习技术训练nonsmall细胞肺癌分期的辅助诊断模型,可有效实现nonsmall细胞肺癌的辅助诊断。仿真结果表明,该模型比其他方法更好的实验的准确性,回忆,和精度。

1。介绍

肺癌是发病率最高的恶性肿瘤(11.6%)和死亡率(18.4%)在世界上1]。2018年,全世界大约有209.39万新的肺癌,176.1万死于肺癌2]。超过一半的全球肺癌发生在发展中国家或欠发达国家(3]。中国是一个发展中国家,其肺癌发病率和死亡人数已连续10年恶性肿瘤中排名第一(4]。每年大约787000添加新的肺癌患者,由于肺癌而死亡的人数已经达到631000人,约占四分之一的中国死于恶性肿瘤(5]。肺癌已经成为导致人类死亡的高危肿瘤。提高肺癌的生存率已经成为世界范围的一个主要问题,迫切需要解决(1]。

肺癌分为nonsmall细胞性肺癌(NSCLC)和小细胞肺癌病理特征,其组织形式;超过80%的肺癌患者属于非小细胞肺癌(6]。因为癌症细胞在人体不容易找到,大部分肺癌患者进入中、晚期诊断时(7]。此时,治愈的可能性很低,总体5年生存率仅为15% (8]。然而,如果它可以及早发现和治疗,5年存活率可以增加到70% (8]。“早期发现、早期诊断和早期治疗是有效的手段提高肺癌的生存率(7]。

然而,在许多发展中国家,有限的医疗资源不能满足病人对医疗的需求,以中国为例。一方面,医疗资源的总量是不够的。据统计,中国的人口占世界人口的22%,但医疗资源仅占世界2%的医疗资源(9]。平均而言,超过1000名患者只能共享一个医生。另一方面,医疗资源分布不均。最优质的资源都集中在大城市和发达地区。该城市人口仅占总人口的30%,享有医疗卫生资源的80%,而70%的农村人口只享受20%的医疗资源(10]。

发展中国家正面临艰难的困境的预防、检查和治疗的肺癌。(1)有限的医疗技术,肺癌病人的条件是很难发现处于初期阶段。大多数病人已经在中、晚期诊断时,治愈的可能性非常小(2)疾病的数量大,医生的数量很小。医患比例的不平衡会导致一个大医生工作量和工作时间长,这就增加了可能性的误诊和漏诊(3)医患关系紧张。患者缺乏专业的医学知识,医生不能照顾所有的病人,导致两者之间的信任危机(4)医疗资源稀缺和治疗费用很高。许多病人不能负担得起,他们不得不推迟治疗,甚至放弃治疗

为了解决有限的技术和所面临的资源不足的问题在发展中国家医疗系统,人工智能系统逐渐作为辅助工具,以改善当前发展中国家的医疗条件(11]。的基础上大量的医学数据,智能辅助系统允许机器学习专业知识,从而提供专业解决方案和智能诊断医生(12]。医生可以使用它来快速评估病人的健康。此外,反馈结果从医生在使用过程中可以进一步优化系统(11]。

症状、治疗和预后的临床阶段的非小细胞肺癌病人是不同的,所以它是非常必要的确定阶段的病人选择治疗方案(13]。有效的援助系统可以提取适当的病人特征作为研究的基础实现更准确的诊断。特别是在肺癌的诊断和决策,它可以减少医生的误诊和漏诊的可能。

然而,在目前很多作品,当病人的医疗记录转化为病人的特性,很多重要的信息丢失。与此同时,由于不同长度语义信息的医疗记录,病人数据特征的提取是不够准确的。最重要的是,在非小细胞肺癌的数据集,由于不平衡正面和负面的比例情况下,非小细胞肺癌的诊断有偏见的问题。

基于上述问题,本文构造了一个nonsmall细胞肺癌分期的辅助诊断模型(CNNSAD)的基础上,计算机辅助诊断和一个智能医疗系统。这种方法将病人的医疗记录转换成一系列的单词和使用卷积神经网络(CNN)自动提取文本信息在病人的医疗记录,以培养非小细胞肺癌分期辅助诊断模型实现非小细胞肺癌分期的辅助诊断。同时,疾病知识转移问题和小样本训练问题,CNNSAD模型介绍了抽样技术来构建一个动态平衡的数据集,并使用该模型对不同样本的诊断结果动态地考虑样本抽样概率。这将确保CNNSAD可以更加注意分类错误的样本和样本分类较低的信心,从而提高诊断的影响模型。

本文的主要贡献如下:(1)非小细胞肺癌分期的辅助诊断模型提出了本文基于病人是否有肺癌的诊断,诊断病人的临床阶段。其中,卷积神经网络可以提取不同长度的文本语义信息通过不同的卷积内核改进模型的诊断性能(2)CNNSAD模型包含动态采样和学习技术转让。动态取样技术分离在正负样本抽样改善不平衡的影响的不同阶段NSCLC患者的数据,在一定程度上避免样本时无法获得足够的信息是不够的。转移学习技术实现不同疾病之间的知识共享和转移模型和在一定程度上避免的缺点无法获得足够的信息不足的情况下样本(3)本文基于8920年NSCLC患者的信息从三个医院在中国实验。结果表明,系统具有更好的性能在非小细胞肺癌分期的辅助诊断。医生使用辅助系统的结果作为参考第二诊断,可提高诊断的准确性和效率

人工智能医疗决策系统已成为医学领域的一个研究热点。许多研究方法广泛应用于医学领域。

逻辑回归overfit并不容易,通常是用于决策系统的预测模型。然而,很难处理非线性问题和变量之间的交互和只适用于简单的线性问题。Zhang et al。14构造一个逻辑回归决策模型来预测病人的住院或转让后的第一个分类急诊科(ED)。格雷厄姆et al。15]也开发了一种物流模式决策系统中的回归预测住院率,帮助医院推进资源规划,避免病人流的瓶颈。

支持向量机(SVM)具有良好的泛化能力和健壮的高维数据。因此,它被广泛用于医学领域。然而,不确定性是非常敏感的,容易过度拟合在高维空间中。Khachane [16)使用支持向量机分类脑磁共振成像MRI和膝关节MRI医学图像,取得了良好的效果。陈等人。17)也提出了一个支持向量机(SVM)建立风险预测系统预测早产的风险。提供照顾的女性可能妊娠相关的问题,从而提高孕妇和胎儿的健康。类似地,门敏et al。18)开发了一个基于svm肝分类器识别条件,包括正常、低脂纤维化,高脂肪的纤维化和炎症。确定比较正常肝和病变的肝脏,它为一个连贯的框架提供了一个新的起点在散射特性或集群在多参数空间。

朴素贝叶斯分类器(NB)在医学领域也有自己的竞争力。王等人。19)使用贝叶斯分类器在慢性疾病的诊断。慢性疾病的概率模型可以稳定计算,这对预测慢性疾病具有重要意义。Altayeva et al。20.)开发了一种心脏病决定诊断系统(黄芪丹参滴丸)基于贝叶斯融合和 - - - - - -意味着聚类算法,可以有效地改善病人诊断的准确性。

一个模糊推理系统(FIS)弥补了缺陷非常敏感的朴素贝叶斯的表达输入数据和已逐渐成为医学决策系统中常用的一种方法。崔et al。21)提出了应用模糊推理系统的诊断肺结核、可诊断结核病的高或低风险的患者。提出的模糊规则的计算机决策系统门德斯et al。22)使用启发式知识由临床医生提供诊断分类的基础上有效地实现自动调整药物剂量根据病人的需要。刘等人。23)提出了一种新的数据决策模型对发展中前列腺癌在发展中国家使用模糊推理逻辑,构建一个智能医疗系统集疾病检测、医疗数据分析和融合,治疗建议和风险管理。

神经网络是强大的噪声数据,可以表示复杂的功能,成为决策系统最常用的工具。Kwasigroch et al。24)提出了一种基于卷积神经网络决策支持系统自动屏幕糖尿病性视网膜病变。系统不仅可以诊断糖尿病视网膜病变也是当前阶段。Harjai和Khatri25)提供早期诊断心血管疾病的通过人工神经网络智能临床决策支持系统(cds)。这个模型可以帮助医生诊断病人的病情,选择一个合适的治疗病人。从而减少所需的成本和精力开不必要的治疗。同样,吴et al。26)提出了一种神经网络智能决策支持系统为恶性黑色素瘤的早期诊断。系统使用十个神经网络在并行工作。与单一神经网络相比,该系统结构有效地提高工作效率。

总之,深层神经网络的分类精度高;它已成为一种广泛使用的模型在机器学习和在许多任务取得了先进成果。在此基础上,本研究是基于卷积神经网络融合动态采样和迁移学习技术实现nonsmall细胞肺癌分期的辅助诊断。

3所示。系统模型

3.1。CNNSAD的总体框架模型

在智能城市、智能医疗系统,作为一种辅助工具在医疗领域,使得医学进入一个新的视觉信息时代,从而减轻群众的医疗困难和昂贵的问题(27]。随着物联网的发展和5 g技术,machine-assisted系统挖掘发挥了越来越重要的作用,医疗信息的分类、和决策(28]。因此,我们构建了一个基于卷积神经网络辅助诊断模型对非小细胞肺癌分期的基础上,计算机辅助诊断和智能医疗系统。

我们模型的过程通过五个阶段(图辅助诊断模型1):参数选择,机器学习模型(传销)重建、数据预处理、数据决策,最后,返回辅助诊断的结果。智能医疗系统中每个模块独立和并发性,因此系统可以诊断多个情况下同时提高诊断效率。每个阶段描述如下。

第一阶段是获取NSCLC患者信息。我们使用病人的年龄、遗传因素、吸烟与否,和一些肿瘤标记系统诊断参数。

在第二和第三阶段,疾病指标预处理和转换成一个机器学习模型可以理解的格式。在非小细胞肺癌病人的医疗记录,文本划分为单词和转化成词序列。Skip-Gram模型用于离散文字符号转换成一个词向量矩阵表达非小细胞肺癌患者。

在第四阶段,系统完成数据决定。在NSCLC staging-assisted诊断模型中,卷积检测参数进行分类,池,softmax获得诊断决策价值。根据这个值的范围,可以判断非小细胞肺癌患者的临床阶段。

最后,在第五阶段,诊断结果返回。经过一系列的迭代训练,辅助诊断系统将返回一个诊断决策价值。医生结合患者的病史、辅助诊断的结果,和病人的症状,使第二个诊断,大大提高了诊断的准确性。

3.2。CNNSAD基于卷积神经网络模型

CNNSAD模型是基于卷积神经网络(CNN)。美国有线电视新闻网(29日)可以自动提取文本分类的语义特征。与传统的机器学习模型相比,美国有线电视新闻网(30.避免了人工成本的特征提取和模型实现手动特征提取的影响。此外,CNN模型非常灵活,可以适应不同程度的困难的问题。CNNSAD训练过程中,NSCLC阶段的数量是有限的,每个阶段的症状是不同的,任务是复杂的。因此,它是可行的,使用CNN模型实现非小细胞肺癌分期的辅助诊断。

3.2.1之上。Skip-Gram模型

症状、治疗方法和预后的早期非小细胞肺癌是不同的,中间,和晚期肺癌患者的诊断十分必要。非小细胞肺癌患者的诊断测试指标包括血常规、肿瘤标记物,凝血功能,肝脏和肾脏功能。在肺癌的分期诊断,全面考虑这些指标的参数,系统可以分析病人的临床分期和协助医生在第二诊断。

肺癌诊断的参数指标互相影响。我们链接离散参数,可以有效地防止丢失重要的信息。类似于“两个周期的化疗”转换成“化疗”,“两个周期”失去了治疗的时间不再发生。Skip-Gram模型是一个模型,它使用的词预测上下文词集在窗口。会影响结果的训练时间和准确性。模型训练通过最大化对数似函数来获取每个参数的矢量表示。

CNNSAD使用Skip-Gram模型pretrain词向量的单词在病人文本数据和表示离散单词符号语义向量在低维连续空间。在培训期间,我们需要循环每个单词为中心词上下文来推断。最后,我们可以推断出相邻参数基于中央NSCLC辅助诊断参数。

最大化对数似然函数是中心,语料库。代表一组词的上下文进行诊断。

3.2.2。CNNSAD基于卷积神经网络模型。

CNNSAD模型提出了包括一个卷积一层一层和一个池。首先,执行卷积操作二维特征矩阵,在卷积核的长度是符合这个词向量的长度,并且每个卷积内核生成一个列向量表示。模型然后使用最大池方法选择每个列向量作为输出的最大值和形成fixed-dimensional向量的所有列向量的最大价值。向量的长度是一致的卷积核的数量,被称为特征向量。最后,特征向量输入病人的完全连接分类层分类。

肿瘤标志物的检测在肺癌患者早期诊断具有重要意义,观察疗效和预后监测。主要nonsmall细胞肺癌包括相关肿瘤标志物细胞角蛋白(CYFRA21-1)、癌胚抗原(CEA)和癌症antigen125 (CA125)。对于非小细胞肺癌患者,这些参数的值会更高。因此,我们设置CYFRA21-1, CEA、CA125的主要参数。通过监测这些参数的值在病人的医疗记录,可以初步确定病人有肺癌。

此外,病人的年龄、吸烟习惯等也会影响决策的有效性。为了提高诊断的准确性和检测和治疗的效果,我们必须考虑更多的检测指标。我们平均诊断参数设置,进行辅助诊断价值对非小细胞肺癌的严重程度进行评估。这个值考虑多个肿瘤标记物和其它检测指标。

假设模型使用 - - - - - -维向量来表示这个词向量, 这个词代表的向量表示 - - - - - -参数。病人的医疗记录包含参数,可以表示为非小细胞肺癌病人的医疗记录 ,在哪里代表向量连接操作,见下面的方程。

后生成文本的二维矩阵表示,结果将是卷积的输入层,和卷积内核用于提取一些训练数据的语义特征。考虑到(1)代表了窗口的向量矩阵 - - - - - -th参数 - - - - - -th词序列参数;(2)一个卷积核矩阵 ,的目的是为了申请来连续词向量生成一个输出结果。

图2显示了一个示意图的卷积操作。结果由卷积内核作用于可以计算: 在哪里是一个函数,是上面的卷积核,是一种偏见。

对非小细胞肺癌患者的诊断、CYREA21-1最重要的肿瘤标记物CEA、CA125在非小细胞肺癌的诊断。根据这三个检测参数,可以初步判断病人的健康状况和非小细胞肺癌患者可以分类。然而,其他测试指标也将影响到决策的结果,如患者的年龄和是否吸烟。研究表明,如果一个人长时间抽烟抽得厉害,患肺癌的概率将增加10倍以上。

为了使决策更准确,使用多个与不同的窗口卷积核模型中获取更多的参数信息。通过卷积层,功能图的尺寸与生成句子的长度变化。与非小细胞肺癌患者有复杂的条件。获得的特征矩阵的参数有一个很大的维度,和很难直接火车一个合适的分类模型。因此,这些特征图谱作为池层的输入减少维度和捕捉最重要的非小细胞肺癌的信息。如图1,该模型在本文中使用的最大池方法。最大池输出最大值特性映射的结果。经过汇聚层,一个固定长度的特征向量(长度是一样的卷积核的数量),生成特征向量是完全连接的输入样本分类分类层。

3.3。学习CNNSAD模型结合动态采样和传输

本文使用8920 NSCLC患者样本。协助诊断时,正样本集非小细胞肺癌的病人数据阶段,负样本集是所有其他阶段的病人。负样本的数量远远大于积极的样本的数量。此外,很难检测非小细胞肺癌在早期阶段。许多病人已经在当地诊断时中、晚期。在非小细胞肺癌病人有更多的III和IV阶段。因此,各种类型的训练数据不平衡。训练数据的不平衡直接影响模型的召回率。为了提高不平衡的影响在不同阶段的NSCLC患者的样本大小的性能模型,CNNSAD模型提出了动态采样和融合的培训模式。同时,提出使用转移学习技术来提高非小细胞肺癌诊断的性能和收敛速度。

为了有效训练模型在小样本NSCLC数据,我们首先选择的大样本进行高频率的共存与非小细胞肺癌分期和培训有效进行辅助诊断模型在大样本分期提供足够的数据集。然后,我们使用大样本分期助理诊断模型的初始值小样本模型和再培训的非小细胞肺癌分期助理诊断模型在小样本数据集。同时,当非小细胞肺癌分期艾滋病诊断,肿瘤的大小和程度分布非常复杂。因此,在每次迭代之后的训练,我们需要更新样本采样频率基于模型的诊断结果对样本集,增加错误分类的采样频率和低的样本,然后构造一个平衡训练数据集训练模型通过动态取样。为了确保之间的平衡的数量正样本和负样本选择的数据集,该模型样本分别正样本和负样本。最后,采样NSCLC患者的数据集作为下一轮的训练数据合并。为了提高传输的影响学习,计算两个标记之间的共存的频率,和非小细胞肺癌分期模型最共存是选为初始化模型。提出了一种staging-assisted诊断模型相结合的非小细胞肺癌转移学习和动态取样。整个过程算法所示1。

一个小样本非小细胞肺癌分期辅助诊断学习模型训练算法结合转移学习和动态取样。
输入:multilabel肺癌数据集 , , , 肺癌的分期标签的总数;肺癌的分期标签训练;迭代次数;每次迭代训练数据块的大小尺寸。
输出:辅助诊断模型。

(1)源模型的训练

(一)任何标签 ,计算非小细胞肺癌分期的同现频率标签和计算

其中,非小细胞肺癌分期的同现频率标签吗和。如果任何标签和cooccur在某个时刻。相反,如果此刻没有共存,那么。

(b)使用One-Vs-Rest方法G分割成多个阶段的两种非小细胞肺癌病人的数据集。在哪里非小细胞肺癌分期训练集的标签吗。选择分期标签与非小细胞肺癌分期cooccurs最频繁的标签和培训进行辅助诊断模型在训练数据集的

参数非小细胞肺癌的平均诊断参数。培训后,决定结果的平均诊断参数的值。我们将保存参数。通过计算参数的值 ,可以确定哪些阶段的非小细胞肺癌病人的情况,选择一种有效的治疗方法。

时的值大于18岁,不到57岁的病人在非小细胞肺癌阶段我;时的值大于57和不到119,病人在非小细胞肺癌阶段II。在前两个阶段,医生可以使用药物或手术或两者的结合。时的值大于119小于180,病人在NSCLC三世;时的值大于180,病人在NSCLC IV。

(2)小样本非小细胞肺癌分期训练阶段。当病人在后者的两个阶段,医生可以使用放疗或化疗或两者的结合

(一)阅读深度学习模型的参数初始化模型非小细胞肺癌分期的标签。最类别的数据集是 ,少数类别数据集 ,病人的数量和 ,总的数据量。初始化概率抽样少数患者

概率之和的正负样本大小/ 2。采样后每个正负样本按照下列抽样方法(b),正面和负面的平均数抽样得到的样本大小/ 2。因此,样本由抽样是平衡的。

(b)基于病人的样本抽样抽样概率 ,和样本阳性样本集和负样本集,分别。对于任何样品 ,它的抽样概率。使用随机生成一个均匀分布的值在0 - 1之间。当 ,样例添加到新的平衡样本集吗。这个时候,如果 ,添加示例的样本集多数情况下;如果 ,添加示例样本集的一部分少数情况下

为每个样本 ,其采样频率 ,等于的概率随机生成的号码吗小于。当小于 ,样本添加到平衡的情况下样本集,所以它是合理的,使用这个算法更新采样频率。最后,和形成训练集 :

(c)是基于数据集训练生成一个新的模型

(d)的诊断样本的概率计算模型对整个训练样本是一个正样本。 ,代表的概率值诊断样本属于阳性样本。对阳性样品,大负样本越好,越小越好。使用更新概率抽样

非小细胞肺癌导致的差异在不同阶段患者样本的不平衡和小样本特征。因此,我们需要采取适当的策略来生成一个平衡的数据集,当训练样本情况下,模型使用诊断结果在不同样本抽样概率动态更新,确保更多的关注被误诊患者和患者低信心改善分类诊断。

更新方法抽样概率模型诊断非小细胞肺癌患者错误的样本或诊断是正确的诊断信心不高,增加样本的抽样概率,从而提高模型的关注样本;相反,相对减少抽样的样本的概率,减少模型的示例。这可以增加模型的分辨率为积极的和消极的样品和改进模型的诊断准确性和信心。因此,当样品是一个正样本,越接近吗是0,分类是错误的,或者是分类是正确的,但信心不高,更新后的抽样概率增加。相反,当它是一个负样本,越接近1,分类是错误的,或分类是正确的,但信心不高,更新后的抽样概率增加。

它是正则化积极的抽样概率是积极样本的抽样概率的总和。

负样本的抽样概率是正规化,抽样概率之和的负样本。

(e)决定是否达到指定的迭代次数,如果是满意,返回最终的分类器;否则,使用新的抽样概率进行步骤(b) ~ (e)

多个迭代的训练后,采样频率是不断更新决定值更准确。辅助系统将判断NSCLC患者的阶段根据决定的范围值。以协助医生分析病人的病情。

4所示。实验和结论

本文收集并整理数据,非小细胞肺癌患者不同临床阶段在中国三家医院从2011年到2015年,如表所示1。我们使用CYFRA21-1 CEACA125,鳞状细胞癌抗原(SCC),碳水化合物抗原惊呼不已(CA15-3)和碳水化合物抗原胜负(CA19-9)六个肿瘤的诊断标志物的实验分析。根据临床医学标准,表2展示了六个非小细胞肺癌的诊断参数及其正常的范围。我们输入的样本诊断nonsmall细胞肺癌病人到系统和计算平均非小细胞肺癌诊断参数值范围的每一个阶段,如表所示3。


阶段	阶段我	第二阶段	第三阶段	四期

数量	752年	1497年	3926年	2745年


具有里程碑意义的	范围(ng / ml)

CYFRA21-1	0 - 1.80
东航	0 - 5.00
CA125	0 - 35.00
鳞状细胞癌	0 - 1.50
CA19-9	0-37
CA15-3	0 30


阶段我	18-57
第二阶段	58 - 119
第三阶段	119 - 180
四期	> 180

训练样本的选择将影响采样频率,导致预测的偏差。图3显示了数据块的大小之间的关系,在每一次迭代时评价指标的准确性。随着规模的增加,诊断参数的准确性先增加然后减少。当 ,也就是说,在每一块有64个样本时,精度达到最高的价值。因此,在模型的迭代训练在本文中,我们选择训练阶段辅助诊断系统。

4.1。算法性能分析

为了评估CNNSAD分类算法的性能,我们选择了四种分类算法:套索回归(套索)[29日),决策树(DT)、支持向量机(SVM)和 - - - - - -最近邻(事例)进行比较分析。实验使用的平均价值10倍交叉验证结果预测,以确保实验结果的准确性。其中,精密(前),回忆(重新),精度(Acc), AUC值(ROC曲线下面积)作为标准来评估不同的分类算法的性能。

根据真实的情况下(TP),假阳性病例(FP),真阴性病例(TN),和假阴性病例(FN)混淆矩阵(30.),前的值,再保险公司Acc, AUC可以计算。

图4显示了几种分类算法的精度水平在非小细胞肺癌的分期。从图可以看出,支持向量机分类算法的准确性是最低的。套索和 - - - - - -神经网络更准确当病人在第三或第四阶段,但当病人在非小细胞肺癌阶段I或II,精度明显降低。 - - - - - -神经网络计算最近的邻居样本,所以的准确性 - - - - - -神经网络相比,支持向量机增加。套索解决多重线性回归问题,提高分类的准确性。CNNSAD达到0.97的准确性在诊断患者是否在NSCLC III期,和总是高于其他算法在其他阶段,表明该模型具有较高的准确性在诊断非小细胞肺癌患者的临床阶段。

表4显示的数量不正确的例子CNNSAD分类算法。可以看出,病人更容易被误诊为相邻临床阶段。


	分类错误	样本数量分布
	分类错误	我	二世	三世	四世

阶段我	57		36	14	7
第二阶段	102年	43		49	10
第三阶段	118年	1	55		62年
四期	288年	2	33	53

图5显示了召回级别的几种分类算法。图6显示了一些分类算法的精度。从图可以看出,CNNSAD总是占据最高点。这表明CNNSAD性能最好的无论诊断结果或样本。通过比较分析,我们可以知道CNNSAD模型有突出优势在找到合适的(预测病人的临床阶段)和找到完整的(发现所有患者的临床阶段)在执行非小细胞肺癌分期的辅助诊断。这是因为CNNSAD使用卷积网络自动提取文本特征,这样可以减少噪声的影响,极大地提高了分类性能。同时,动态采样和传输学习技术的结合提高了训练数据不平衡的影响。因此,模型的查全率和查准率提高。

图7显示的AUC值几个分类算法在非小细胞肺癌的不同阶段。支持向量机模型,这是非常困难的训练,对所有四个阶段指标较低,总是低于0.9。与支持向量机相比, - - - - - -神经网络具有更好的性能。从图可以看出,虽然DT分类器更高的AUC值在NSCLC III或IV, DT在几个非小细胞肺癌分期分类有很大的波动。因此,这个模型不适合上演NSCLC患者的诊断。套索分类算法降低了变异性的回归和提高模型的精度,因此,AUC值较高。从图可以看出,CNNSAD总是最大的价值,表明该方法具有最佳性能,功能分类的效果更好。

总之,相比其他分类算法在实验中,CNNSAD方法提出了更好的性能。特别是在I期或II期非小细胞肺癌患者时,分类精度较高。

4.2。非小细胞肺癌数据分析和决策

图8显示非小细胞肺癌患者的诊断参数的平均性能的三个医院从2011年到2015年。从图可以看出,健康人的CYFRA21-1范围是0到1.8,东航的正常范围是0到5,和CA125的正常范围是0到35。的抽样结果CYFRA21-1 NSCLC患者在过去五年里平均有超过35。东航平均抽样结果是80年左右,正常价值的16倍。CA125值平均达到175。三是远远超出正常的值。这表明CYFRA21-1、CEA、ca - 125非小细胞肺癌患者的异常状态。

肺癌的治疗方案和预后早期不同,中、晚期。确定病人的临床阶段的关键是选择最好的治疗方法。图9显示了决策参数的非小细胞肺癌分期三医院在过去五年。从2011年到2013年,患者的平均决策参数值的三个医院继续上升。它甚至增加到2013年的125.65,是2011年的1.5倍。2013年之后,决策参数的平均值继续下降,跌至2015年的92.64。决定参数的平均值的五年里大约是95年,表明大多数与非小细胞肺癌患者是在第二阶段。

医生的数量和效率和系统诊断患者一年数据所示10和11,分别。从图可以看出10病人诊断的医生每月的数量并没有改变太多,剩下的大约50。诊断的数量由诊断系统每个月继续上升。前7个月,由于缺乏训练数据,新的数据集需要手动输入,和诊断系统的每个月的数量小于2000。随着医疗数据系统学习的继续增加,系统的医疗的效率大大提高。到今年年底,每月诊断的数量可以达到8500。

辅助诊断系统的诊断准确性也是非常重要的。如图11相比,我们医生的诊断准确性和助理系统。当病人数据小于500时,医生的诊断准确性非常高,都达到了99%。增加病人数据,精度下降了,但它总是高于90%。当病人数据很小,machine-assisted系统的准确性还不到70%。随着病人数据的增加,准确率也在不断增加。当有更多的病人数据,它可以达到90%。

尽管有很大的差距的结果决策系统和医生的诊断,诊断系统的速度非常快。在实际的医疗决策,我们可以使用它来协助医生。特别是当很多病人数据,它可以有效地减少医生的工作量和提高诊断效率。

5。结论

提出了一种staging-assisted非小细胞肺癌诊断模型,使用数据和信息收集的三家医院的8920名非小细胞肺癌患者在中国仿真实验。CNNSAD模型将病人的医疗记录转换成一系列的单词和使用卷积神经网络从病人的医疗记录中提取语义特征来训练模型,协助非小细胞肺癌的诊断。同时,CNNSAD结合迁移学习和动态采样技术能够有效地解决不平衡情况下的影响在模型训练样本和诊断性能,从而提高模型的诊断性能。医生使用的诊断结果第二诊断辅助系统作为参考,可大大提高诊断的准确性和工作效率。

随着智能医疗的发展,在未来,我们将深入优化诊断模型和训练算法来实现更好的举办辅助诊断。与此同时,我们将进一步研究启发式诊断方法基于知识地图在医学领域和知识地图中使用各种信息来提高模型的可解释性和诊断准确性,为医生提供科学有效的数据分析和治疗计划。

数据可用性

使用的数据来支持本研究的发现正在禁运而研究成果商业化。请求数据,本文的发表之后的12个月内,将被相应的作者。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

所有作者设计的这些作品。

确认

这项研究是由中国的湖南省自然科学基金(2018 jj3299和2018 jj3682)。

引用

j . Bauml r·米克y . Zhang et al .,“频繁的表皮生长因子受体和非小细胞肺癌患者的kras突变的种族背景:差距存在吗?”肺癌,卷81,不。3、347 - 353年,2013页。视图:出版商的网站|谷歌学术搜索
黄m元,l . l . j . h . Chen j . Wu,问:徐。”新兴的靶向治疗在非小细胞肺癌的治疗”,信号转导和有针对性的治疗,4卷,不。1,2019。视图:出版商的网站|谷歌学术搜索
j .吴邦国委员长和z陈,“数据决策和基于移动数据传输健康记录在无线网络传感器设备,“无线个人通信,卷90,不。4、2073 - 2087年,2016页。视图:出版商的网站|谷歌学术搜索
z Khazaei, m . Sohrabivafa诉Momenabadi l . Moayed大肠Goodarzi,“2018年全球癌症统计数据:GLOBOCAN估计全世界发病率和死亡率的前列腺癌及其与人类发展指数的关系,“人类生物学的进步,9卷,不。3,p。245年,2019年。视图:出版商的网站|谷歌学术搜索
w . j . Zhang z Chen Jia,和k·刘,”一个智能决策支持系统的检测和分段前列腺癌在发展中国家,“计算和数学方法在医学卷,2020篇文章ID 5363549, 18页,2020年。视图:出版商的网站|谷歌学术搜索
j . Ramos-Gonzalez d . Lopez-Sanchez j . A . Castellanos-Garzon j·f·德·巴斯和j·m·Corchado”cbr框架与基于梯度增加肺癌亚型分类特征选择,”计算机在生物学和医学卷,86年,第106 - 98页,2017年。视图:出版商的网站|谷歌学术搜索
江z Cheng j . o .法s . Wang和j .,“颗粒物污染特征和健康的影响在中国(2001 - 2011),“大气环境卷,65年,第194 - 186页,2013年。视图:出版商的网站|谷歌学术搜索
陈j .吴y, z, m .赵”的决定基于大数据研究非小细胞肺癌在医学人工系统在发展中国家,“计算机在生物医学方法和项目卷,159年,第101 - 87页,2018年。视图:出版商的网站|谷歌学术搜索
w·贾,c·h·a·n·g·刘,和y Genghua,“有效决策和数据传输系统基于移动健康老年人、慢性病管理”IEEE系统杂志,17卷,1 - 12,2020页。视图:出版商的网站|谷歌学术搜索
j .吴x, y . Tan,“医院评价机制基于移动健康物联网系统在社交网络上,“计算机在生物学和医学卷,109年,第147 - 138页,2019年。视图:出版商的网站|谷歌学术搜索
w·m . Chen Li y, y钱,和缘分,“基于认知计算的智能医疗系统,”未来一代计算机系统卷,86年,第411 - 403页,2018年。视图:出版商的网站|谷歌学术搜索
p . j . Wu关,y . Tan“诊断和数据概率决策基于非小细胞肺癌在医疗系统中,“IEEE访问,7卷,不。1,第44861 - 44851页,2019。视图:出版商的网站|谷歌学术搜索
w·贾和t . a . n . Yanlin“数据决策和基于非小细胞肺癌的药物治疗在大数据的医疗系统在发展中国家,“对称,10卷,不。5,152年,页2018。视图:出版商的网站|谷歌学术搜索
张x, j . Kim r·e·帕兹s·r·皮特a·帕兹和j·d·施拉格”预测急诊住院基于自然语言处理和神经网络,”医学信息的方法卷,56号5,377 - 389年,2018页。视图:出版商的网站|谷歌学术搜索
b·格雷厄姆,r键,m·奎因和m·马尔文尼”使用数据挖掘预测从急诊入院,“IEEE访问》第六卷,第10469 - 10458页,2018年。视图:出版商的网站|谷歌学术搜索
m . y . Khachane”Organ-based医学图像使用支持向量机分类,“国际期刊的合成的情感,8卷,不。1,18 - 30,2017页。视图:出版商的网站|谷歌学术搜索
c·h·e . n .轩泽w . XIONG, w·贾,y Genghua,问:壮族,“基于整体决策模型方法在非小细胞肺癌的辅助医疗系统,”IEEE访问,8卷,第171911 - 171903页,2020年。视图:出版商的网站|谷歌学术搜索
j .门敏t . a . Swanson t . Tuthill和k·j·帕克,“基于支持向量机(SVM)的肝分类:纤维化、脂肪变性、炎症,”2020年IEEE国际超声学研讨会IEEE (IUS)2020年美国拉斯维加斯,NV。视图:出版商的网站|谷歌学术搜索
w·Shangzhe z Yunhua和S T大学”对慢性疾病诊断分类的研究基于ABC-NB,”计算机测量与控制,25卷,不。11日,第200 - 197页,2017年。视图:谷歌学术搜索
a . Altayeva zhara杂志,和y。曹,“医疗决策诊断系统集成k - means和朴素贝叶斯算法,”2016年16日国际会议控制、自动化和系统(ICCAS)2016年,日本北海道。视图:出版商的网站|谷歌学术搜索
j·r·崔z . Chen, y,和g . Yu”宠物形象事先多处理方案,降噪,细分和病变分区,”IEEE生物医学和卫生信息学杂志》上,14卷,p。2020。视图:出版商的网站|谷歌学术搜索
j·a·门德斯a . Leon a马雷罗et al .,“提高麻醉过程由模糊规则建立医疗决策系统”人工智能在医学上卷,84年,第170 - 159页,2018年。视图:出版商的网站|谷歌学术搜索
j . k . Liu z Chen吴et al .,“大医疗数据决策智能系统利用模糊推理逻辑前列腺癌在发展中国家,“IEEE访问7卷,第2363 - 2348页,2019年。视图:出版商的网站|谷歌学术搜索
a . Kwasigroch b Jarzembinski, m . Grochowski“深CNN建立决策支持系统检测和糖尿病性视网膜病变的评估阶段,”2018年国际跨学科博士研讨会(IIPhDW)Swinoujście, 116,页111 - 2018。视图:出版商的网站|谷歌学术搜索
Harjai和s . k . Khatri”,一个聪明的临床决策支持系统基于人工神经网络的早期诊断心血管疾病在农村地区,”2019友好人工智能国际会议(AICAI),页729 - 736年,迪拜,阿拉伯联合酋长国,2019年。视图:出版商的网站|谷歌学术搜索
j·吴、陈z和m .赵”一个高效的数据包迭代和传播算法在投机取巧的社交网络,”环境智能和人性化计算杂志》上,11卷,不。8,3141 - 3153年,2020页。视图:出版商的网站|谷歌学术搜索
p·m·库马尔s Lokesh r . Varatharajan g·钱德拉先生和p的高“基于云计算和物联网的疾病预测和医疗诊断系统使用模糊神经分类器,”未来一代计算机系统卷,86年,第534 - 527页,2018年。视图:出版商的网站|谷歌学术搜索
m . Van Grinsven b . Van Ginneken c . Hoyng t . Theelen和c·桑切斯,“快速卷积神经网络训练使用选择性数据抽样:应用程序在彩色眼底图像,出血检测”IEEE医学成像,35卷,不。5,1273 - 1284年,2016页。视图:出版商的网站|谷歌学术搜索
j·吴、问:壮族和y Tan“辅助医疗决策系统基于合奏的前列腺癌的方法,”计算和数学方法在医学卷,2020篇文章ID 6509596, 11页,2020年。视图:出版商的网站|谷歌学术搜索
k . m . Ohsaki p . Wang松田,美国片瞳,h .渡边和a . Ralescu”Confusion-matrix-based内核逻辑回归对不平衡数据分类、”IEEE知识&数据工程卷,29号9日,第1819 - 1806页,2017年。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学