前列腺癌(PCa)是世界范围内危害男性健康的主要疾病。在发展中国家,由于大量的病人和医疗资源的缺乏,医生和病人之间有很大的冲突。为了解决这个问题,构造了一个前列腺癌的辅助医疗决策系统。系统使用了六个相关的肿瘤标志物作为输入特性和采用经典的机器学习模型(支持向量机和人工神经网络)。叠加方法针对不同的整体模型是用于减少过度拟合。1933535患者信息项目收集了从三个一流的医院在过去的五年里训练模型。结果表明,辅助医疗系统可以利用大量的数据。它的性能不断改善,因数据量的增长。基于系统和收集数据,统计前列腺癌的发病率在过去的五年里。最后,饮食习惯和前列腺癌的基因遗传的影响进行了分析。 Results revealed the increasing prevalence of PCa and great negative impact caused by high-fat diet and genetic inheritance.
2018年,发病率和死亡率的PCa占13.5%和6.7%,分别在男性患者。185年世界各国,PCa最高在105个国家发病率和死亡率最高的46个国家(
在发展中国家,医疗资源缺乏,许多患者不能得到及时有效的诊断和治疗,将总医生和病人之间的冲突。在中国,只有2.59从业者每1000人(
其他发展中国家也可能面临同样的问题:
由于大量的病人和医疗资源少,患者很难得到及时有效的诊断和治疗
医生的长期工作负载减少诊断的效率和准确性
许多医院的医疗设备差,进而增加误诊的概率
发展中国家的人均收入很低,而且大多数人负担不起昂贵的pet - ct机但准确的诊断方法
这些问题可以通过构建一个辅助缓解医疗决策系统。通过分析大量的数据,辅助医疗决策系统可以学习一个诊断模型。当一个新的病人来了,它将为医生提供诊断或治疗相关的建议基于学习模型(
本研究的主要贡献和创新包括以下:
适当的特性选择医疗系统的建设根据发展中国家的国情
所构造的辅助系统可以给治疗计划和评估其有效性
构建整体的使用方法,辅助学习者提高了精度
系统是基于大量的训练从三个高层医院病人信息在中国,和一些影响因素主成分分析通过构造系统进行了分析
本文的主要结构如下:第一部分介绍了研究的背景和贡献,第二部分介绍了相关研究,第三部分是详细描述模型的建设,第四部分是对培训过程和分析实验结果,第五部分是结论。
医学诊断的癌症通常是一个逐渐过渡,从简单的开始,便宜,和无害但精度的方法和以昂贵的和准确的方法。与常用的CT、MRI、磁共振等方法,检测肿瘤标志物是一个相对基本和廉价的方法在癌症的诊断,这使得构建辅助医疗决策系统与肿瘤标记适合发展中国家较低的资本医疗支出,医疗水平低、医疗设施。与单个肿瘤标志物诊断癌症通常不具有良好的敏感性和特异性(
作为一个经典的机器学习算法,支持向量机(SVM) [
集成学习技术也广泛应用于医疗助理的诊断。文献[
辅助医疗决策系统旨在为医生们提供一些帮助。其功能涵盖诊断病人,癌症,推荐治疗方案和评估治疗方案。诊断病人是判断肿瘤恶性或良性的。分段癌症是确定临床分期(I、II、III或IV)确诊为恶性PCa。以上两个条件可以满足使用机器学习的方法建立一个分类模型。另一方面,为了给一个癌症治疗方案和评估其有效性的同时,整个问题被认为是一个回归的问题。该系统将最终输出值评估PCa的恶性肿瘤,缩写为EM值。值越大,恶性肿瘤越高。如果价值没有降低执行某种治疗方案后,这意味着治疗计划不是有效的,另一个需要选择治疗方案。与此同时,辅助医疗决策系统需要具有良好的并行性,并能够同时处理多个病人的诊断要求。 It is worth noting that after the medical system is invested, the amount of data obtained will gradually increase over time. The decision model will be retrained to further improve the generalization performance.
支持向量机可以获得全局最优解在高维问题;因此,它被广泛使用在许多情况下(
线性可分的二元分类问题,假设输入的数据集
为了有效地计算解决方案,介绍了拉格朗日乘子,根据沃尔夫和对偶理论,它变成了一个等价的对偶问题:
对于线性不可分的问题,惩罚参数
对于非线性问题,内核函数
常用的核函数。
| 内核函数 | 公式 |
|---|---|
| 线性内核 |
|
| 多项式的内核 |
|
| 高斯核函数 |
|
| 乙状结肠内核 |
|
| 拉普拉斯内核 |
|
一个典型的支持向量机通常用来处理二元分类问题。在这个医疗决策系统,首先使用SVM分类良性(标记为1)和恶性肿瘤(标记为1)。为了阶段可能的恶性肿瘤,四级(I、II、III或IV)分类的任务是完成一对一方法,这意味着训练
核函数的选择是影响支持向量机性能的主要因素。常用的核函数包括线性函数、多项式函数,乙状结肠函数,径向基函数。在这里,同时使用多个内核函数构建的基于svm multiclassifiers可怜的泛化性能由于错误的核函数的选择。
神经网络(NN)是一个模型的拟合能力强和由不同学科的研究人员广泛使用。它主要由一个输入层、隐藏层和输出层。根据网络的结构,神经网络可分为多种类型:多层感知器(MLP)神经网络、径向基函数(RBF)神经网络自适应共振理论(ART)神经网络自组织映射(SOM)神经网络,等。主要有两种网络模型中使用这个医疗决策系统,MLP神经网络和RBF神经网络。
向MLP神经网络包含一个输入层、一个或多个隐藏层,和一个输出层。通常,每两个相邻层完全连接,如图
简要的原理图。
向MLP神经网络的激活函数通常是解决线性单元或ReLU函数可以表示为
RBF神经网络是另一个广泛使用的神经网络(
RBF神经网络的原理图。
集成学习方法,集成了许多基础的学习者在一起来提高整体学习能力。常用的集成学习方法包括增加、装袋、叠加。并行叠加方法可以生成所有基础学习者和使用一个辅助学习者集成基础学习者的结果。这种集成方法有合适的培训成本和强大的泛化性能。在我们的医疗决策系统中,为了提供相应治疗方案建议和评估计划的功效分期癌症后,分类器的结果需要转化成一个回归值。在这种情况下,堆积是一个不错的选择。整体方法真的有效,基础学习者需要有一些差异。这种差异可能来自不同的模型,不同的输入数据集,或不同的输入特性。考虑到支持向量机和神经网络输入数据集和不敏感的特性集很小,不适合使用不同的输入样本或不同的输入特性来提高泛化性能。然而,有许多选择在选择核函数的支持向量机和神经网络的结构。 Therefore, parameter perturbation is taken to enlarge the difference between base learners so that our decision model can be strengthened. Finally, the weights of base learners are learned through exponential linear regression (ELR) to obtain the evaluation of tumor malignancy or the EM value.
在医疗决策系统,提出六个重要的肿瘤标志物包括前列腺特异性抗原(PSA)、前列腺特异性膜抗原(PSMA),总前列腺特异性抗原(tPSA),红细胞(RBC)、血红蛋白(HB)和前列腺酸性磷酸酶(PAP)选择诊断PCa作为输入特征和支持向量机的诊断模型。测定恶性PCa临床阶段,治疗建议和评价是由一个整体模型,结合支持向量机完成四级分类组和不同的神经网络结构。图
的主要流辅助医疗决策系统。
首先,从不同的医院系统收集相关数据。然后,六个重要的肿瘤标记物的水平从成千上万的信息项。将样品丢失或异常值后,一个输入向量
如果判定为恶性肿瘤,部门整体模型将完成阶段。恶性肿瘤的发展分为四个阶段:I, II, III和IV;说,该系统必须完成四个任务。由于支持向量机主要用于二元分类问题,一对一的策略是,每六形成一群支持向量机SVM模型。每组的输出是一个投票相结合的六组中的二进制SVM分类器,它是由一个四维一个炎热的向量表示。支持向量机分类器的分化是通过选择不同的核函数来实现提高最终的性能。更明确,支持向量机在同一组使用相同的内核函数,和支持向量机在不同群体使用不同的核函数。三种常用的核函数:线性内核,多项式核函数和高斯内核选择区分SVM组。
训练时,参数在每个二进制SVM的核函数和惩罚参数调整来降低泛化误差低于阈值
最后,输出每个支持向量机组,所有延时和RBF网络连接成一个向量,将输入的次要的学习者。通过观察肿瘤标志物水平的数据集,它是发现,良性肿瘤和病人在I期,肿瘤标志物水平通常接近正常范围。但在第三阶段和第四阶段,患者的肿瘤标记物水平大大偏离了正常范围内。因此,我们假设在开发过程中肿瘤标记物的增长的PCa符合指数律。这个假设是真实的医学。在早期,症状非常轻微或不明显。肿瘤往往很难发现和成长缓慢。然而,在中、晚期,他们野蛮生长和扩散到全身,使肿瘤标志物水平很高。
因此,ELR被选中作为支持向量机的辅助学习者整体结果,延时和RBF模型。监督输出值3、4、5、6添加手动输入患者样本的阶段,II, III, IV,分别。可能是连接的输出值ELR没有设置为从1开始。这被认为是提高模型的鲁棒性的原因,正常人和良性肿瘤病例。最后,PCa的评估价值的恶性肿瘤(EM值)输出。算法
训练集
主要分类器
第二学习算法
/
为
为
结束了
结束了
使用
输出
恶性PCa的系统决定了阶段根据EM值和推荐适当的治疗方法。常用的肿瘤治疗方法包括化疗、放疗、切除、药物方法,和医院。后由系统推荐的治疗方法,医生会决定要不要放弃或者根据它做出修改。必须强调的是,在治疗方面建议,系统主要提供一个粗略的策略来减轻医生的压力在某种程度上,而不是完全取代医生。具体治疗与许多因素有关,不能简单的系统。如果一个病人被治疗一段时间,系统会跟踪他或她的肿瘤标志物的变化水平,将肿瘤标记测试的结果输入系统,和输出EM值来评估治疗的效果。如果EM值变化小,治疗计划将会改变。如果EM值大大降低,这意味着它真的有用,所以原计划将保持。在这个过程中,每一个有效的治疗和相应的EM值将被记录在数据库中进行进一步的使用。
我们收集了大量的数据从三个一流的医院在中国:第一湘雅医院,湘雅第二医院,和第三湘雅医院。相关的信息数据表所示
收集数据的类型和数量。
| 数据类型 | 数量 |
|---|---|
| 患者信息 | 1933535件 |
| 门诊 | 691238人 |
| 在门诊医生的设备 | 24021298件 |
| 住院 | 1149187人 |
| 诊断 | 1089327件 |
| 电子医疗记录 | 4855619件 |
| 在临床医生的设备 | 25757699件 |
| 检验记录 | 157426件 |
| 医学实验室记录 | 8725586件 |
| 例行检验记录 | 22358881件 |
| 操作记录 | 318022件 |
| 药物记录 | 120546件 |
筛选和数据预处理后,肿瘤标志物的相关记录(PSA, PSMA tPSA、红细胞,HB,和PAP)和诊断结果(良性的,阶段,阶段II, III期,和四期)。
表
正常范围不同的肿瘤标记物。
| 类型的肿瘤标志物 | 正常范围内 |
|---|---|
| 前列腺特异性抗原 | 0 - 4.0 ng / mL |
| 总前列腺特异性抗原 | 4— |
| 血红蛋白 | 120 - 165 g / L |
| 红细胞 | 12 - 15 g / 100毫升 |
| 前列腺酸性磷酸酶 | 0 - 9 U / L |
| 前列腺特异性膜抗原 | 0 - 4 ng / mL |
图
培训过程的系统。
模型训练后,所有的恶性的例子在不同阶段输入到模型和他们的EM值计算的范围,如表所示
EM PCa的每个阶段的价值。
| 临床阶段的主成分分析 | 范围的 |
|---|---|
| 阶段我 | 2.7 - -3.6 |
| 第二阶段 | 3.6 - -4.5 |
| 第三阶段 | 4.5 - -5.3 |
| 四期 | > 5.3 |
来验证我们的医疗决策系统的有效性,我们比较模型的精度在不同规模数据集与医生的准确性。如图
医生和系统的比较。
我们也计算了平均EM值不同的年探索PCa近年来的发展趋势。如图
在过去的五年里平均EM价值。
因为我们的医疗决策系统可以定量评估前列腺癌的恶性肿瘤,它可以很容易地判断疗效的治疗计划的EM值变化和建议处理方法提高PCa患者根据他们的条件水平。图
一个典型的PCa病人的治疗过程。
因为我们的医疗决策系统可以评估肿瘤的恶性肿瘤,通过控制不同的输入变量,某一因素的影响前列腺癌可以有效地评估。在这里,一些病人的相关信息整理。然后,影响病人的饮食习惯和对前列腺癌基因遗传评估。饮食习惯主要分为高脂肪饮食和non-high-fat饮食根据描述在病人的病史。从2014 - 2018年的数据,可以看出,高脂肪饮食的患者的情况更严重。的EM值高脂肪饮食的患者在150 - 190的范围,而对于那些non-high-fat饮食,EM值只有60 - 70,如图
对比的人有不同的饮食习惯。
遗传基因被定义为一个癌症病人的家庭成员。结果表明,遗传基因有一个癌症患者恶性肿瘤,患者的6 - 7倍没有遗传基因,可以看到在图
对比有或没有遗传基因的人。
本文主要建立了一个辅助医疗决策系统的PCa对发展中国家医疗资源缺乏。系统能够为医生提供建议的诊断、分期和治疗前列腺癌的方法。训练后系统在大数据环境下,尽管其准确性继续上升,但仍不能取代专业医生和只能作为辅助诊断系统,以减轻医生的负担。基于这个系统,我们研究前列腺癌的发展在过去的五年里,发现前列腺癌的发病率正在增加。另外,高脂肪饮食和基因遗传疾病的严重程度增加。这项研究的下一阶段将考虑引入其他医疗检测信息,如CT、MRI、磁共振,进一步提高系统的准确性和可信度。
所有的医疗数据管理和系统来自中南大学。如果读者对这些数据感兴趣,你可以访问
作者宣称没有利益冲突。