文摘

卵巢癌是第三个最常见的妇科癌症。晚期卵巢癌患者有显著的死亡率。估计生存是至关重要的临床医生和患者更好地理解和容忍未来的结果。本研究拟探讨不同生存预测使用数据挖掘技术用于癌症的预后。数据集140年晚期卵巢癌患者包含数据从不同的数据资料(临床、治疗和整体生活质量)被收集并用于预测癌症患者的生存。相应的属性从每个数据概要文件已经处理。临床资料已经准备相应的缺失值和异常值。治疗数据包括不同时期创建使用序列挖掘技术来确定治疗的病人。最后,通过计算不同并发症结合成一个单一因素Charlson发病率指数为每个病人。适当的预处理后,集成数据集分类使用适当的机器学习算法。 The proposed integrated model approach gave the highest accuracy of 76.4% using ensemble technique with sequential pattern mining including time intervals of 2 months between treatments. Thus, the treatment sequences and, most importantly, life quality attributes significantly contribute to the survival prediction of cancer patients.

1。介绍

癌症,以及冠状动脉心脏疾病,占全球大多数死亡(十大死亡原因1])。癌症的发病率增加了在过去的几十年里。据估计,1 9印第安人一生中罹患癌症。根据GLOBOCAN,印度记录最高的全球死亡人数卵巢癌。卵巢癌是第三个在印度女性最常见的癌症。也是全球第三个最常见的妇科癌症,最严重的死亡率。临床医生和科学家们一直在进行实验和研究来预测癌症病人的生存能力(2,3]。然而,没有生存质量评估预测。生存估计预测是至关重要的对临床医师正是采用的治疗方法和药物的病人。

数据驱动的预测技术可以帮助更好的癌症预后模型。从它的起源,数据挖掘技术已经有效地用于各种医疗研究,特别是癌症管理(4,5]。医学模型基于数据挖掘技术可以捕获复杂的细节和数据中的模式。几项研究涉及在线数据集UCI机器学习、SEER (6TCGA], [7]。然而,这些数据集从西方国家只覆盖数据集或只从一个有限的区域。虽然在网上数据集实例的数量很大,这些可能不抓住针对性分析。在过去的研究已经证明,种族和地区可以发挥重要作用在癌症患者的生存能力8]。相反,临床研究较少实例可以捕获更多的癌症患者和当地的管理。目前的研究重点是各种属性,可以显著预测评估晚期卵巢癌患者的生存,大多是在网上数据不可用。

现有的文献主要关注包括不同临床属性诸如年龄、ca - 125水平,组织学,阶段调查卵巢癌患者的生存能力和死亡率(9]。一些研究者还旨在探讨新辅助化疗患者的结果(NACT) [10[]或手术11]。尽管如此,当前文学缺乏适当的研究可能会给洞察卵巢癌生存使用机器学习方法和自启动以来,机器学习技术已经进步很多,证明在几乎所有地区提供良好的结果。一些研究进行统计分析,发现与生存相关的治疗(10]。但大多数这些研究是临床试验有一个受控的环境的一部分。回顾性研究在一个不受控制的环境中与不同的参与者可以指出一些有用的见解,可能不可能的临床试验数据集。同样,最好的作者的知识,没有现有文献强调了不同序列的治疗卵巢癌患者。此外,各种并发症可以发挥重要作用在患者的整体健康12]。目前的研究包括记录和使用一些相关预测生存分析的癌症患者和临床属性。这些属性并不提供任何在线数据集。可以使用收集和加工特性和扩展生存任何癌症或其他严重的条件研究。

本研究的目的是确定不同的预测晚期卵巢上皮癌患者的意义。使用属性从不同的数据集成模型配置文件可以帮助一个健壮的模型预测结果的患者生存。属性已从不同的数据资料采集从肿瘤医院和相应处理。癌症患者有多个行治疗延长生存。本研究试图确定不同的治疗卵巢癌患者使用序列挖掘的方法。这些治疗方法和治疗之间的预计运行时间可能为患者的生存贡献一些有价值的看法。先前的文献也承认时间的协会之间的治疗与预后患者卵巢癌(13]。生活质量属性像性能状态和并发症也有对任何人的生存产生重大影响。这些属性一直在探索研究中审视自己对生存的影响。

研究的其余部分的结构如下:部分2提出了一个简短的背景对卵巢癌及其患病率在印度。部分3提供了一些现有的文献卵巢癌生存分析。部分4详细解释了数据集和提出的研究方法。这项研究的结果与讨论和比较现有方法给出了部分5。部分6讨论了该研究的一些局限性,和第七节中给出的结论是。

2。背景

2.1。卵巢癌

卵巢癌有最严重的死亡率在所有妇科癌症。超重和肥胖的妇女卵巢癌的风险更高14]。年龄也是一个重要因素在癌症发病率。而其发病率仍不断在一些欧洲国家,亚洲经历了从过去几十年发病率增加15]。在印度妇女存活率不到20%。一份报告显示,印度50%的总卵巢癌病例发生在45 - 65岁16]。不过,大部分的西方国家有一个平均范围超过60的17]。

卵巢癌可以有大约90%存活率如果在早期发现。然而,报告显示,大多数患者在后期诊断,与生存不到40% (SEER程序)。这就是为什么它也被称为“沉默的杀手”,因为超过60%的病例诊断高级阶段(阶段III和IV)。上皮卵巢癌是最常见的,包括高档浆液,低级的浆液,endometrioid,透明细胞和粘液。卵巢癌患者确诊最先进的情况下提供多个行治疗。这些包括cytoreductive手术(CRS)和辅助化疗,手术或新辅助化疗(NACT)间隔减积(IDS)和辅助化疗,化疗或激素治疗(18]。

2.2。序列挖掘

一个序列的seq是命令的集合符号。| seq |表示序列的长度(19]。一个序列的子串连续的符号序列的集合。然而,在子序列,不需要连续的象征。例如,如果PQRS矩形是一个符号的序列{P, Q, R, S},然后和pq PQR序列的子序列。但pq不是提到的子字符串序列。序列挖掘是指从数据库中识别频繁子序列发生的序列。用户决定“频繁”一词由不同序列的支持。支持0.5表明,数据库应该包含至少50%的序列的子序列。

研究人员设计了几个序列挖掘算法。广义连续模式(GSP) (20.)的第一个序列挖掘算法的基础上制定先验的算法(21]。GSP是通过识别子序列通过扫描数据集和计算他们的支持。子序列与小于阈值支持从进一步分析。为k序列长度,GSP扫描数据集k次了。一旦频繁序列的水平k(k发现长度序列),适合的长度k+ 1生成。其他研究人员还试图制定序列挖掘算法用更少的时间和空间复杂性。铁锹和PrefixSpan是这类算法的例子22,23]。

一些研究人员试图使用统计分析晚期卵巢癌患者的生存和传统的生存生存方法涉及不同的估计。文森特et al。10)使用单变量分析来识别阶段的预后因素3 c或4卵巢癌患者。收集的数据来自11名法国中心和包括483名患者接受NACT手术紧随其后。单变量分析表明,缺乏cytoreductive手术(CRS)与糟糕的生存。同样,ca - 125 U值高于或等于3000 /毫升总体存活率下降。

邓et al。24)使用网络数据集的数据SEER (SEER程序)分析基于转移网站4期患者生存。由于网上公开的数据集,患者的数量高于其他临床研究。各种夹杂物和排除后,数据分析包括1481名患者。单变量和多变量分析表明,最常见的转移部位是肝脏淋巴结紧随其后。肺转移患者,接受化疗的患者有较高的存活率比那些没有接受化疗。手术也伴随着更高的淋巴结和肝转移患者的生存率,但它并不是一个有肺转移患者的重要民族自决的方面。Akhavan et al。12)也进行了统计气方和学生的测试数据集收集从德黑兰探讨糖尿病对卵巢癌的影响生存。特殊的组织学认为上皮癌。结果表明,患者患有糖尿病整体较差,无进展生存比那些没有糖尿病。

在最近的一项研究[25),作者收集了大约460名患者的数据集癌症中心比较白人女性和黑人女性的生存。数据集包括365名白人患者和95名黑人女性。这是观察到更多的白人女性接受手术,化疗,化疗或手术序列。也透露,尽管接受同样的治疗顺序,黑人妇女从卵巢癌的死亡率较高。

从印度医院临床医生和研究人员也进行了统计检验晚期卵巢上皮癌患者的生存分析。Viswanathan et al。26]分析了第三阶段的数据或第四阶段晚期上皮癌患者诊断在2015年- 2018年。作者分析了111例,其中多数是浆液性组织学。大多数患者有NACT CRS紧随其后。这是观察到CRS总体存活率和无进展生存率提高。同时,患者最佳CRS NACT后显著降低复发率和更好的生存比尚未cytoreduced。

曾et al。27]试图识别风险因素在女性癌症复发的卵巢癌患者突出。数据挖掘技术单独使用离开交叉验证来排名的因素之一。因为单个数据挖掘技术不能有效解决这一问题,作者使用了一个整体的方法。整体方法比纯粹的分类技术,获得更好的结果与C5.0达到90%的准确率。许多作者都使用机器学习技术预测卵巢癌。陆et al。28使用决策树模型和特征选择的措施来预测卵巢癌的发生使用不同的血常规检测,化学,和肿瘤标志物。其他一些研究也使用不同的分类技术来预测生存在各种类型的癌症29日,30.]。然而,大多数的研究涉及在线数据集只局限于一个特定的国家或地区。虽然这些结果可以推广到其他地区,这是一个众所周知的事实,癌症与不同的环境和社会经济地位的行为不同的病人(8]。

4所示。方法

提出的研究方法在图给出1。本研究的方法是分为三个主要步骤,包括数据采集、数据预处理和分类。的主要本质研究分析使用的数据集。该方法遵循一个集成方法,使用数据从三个不同的概要文件。然而,医学数据集遭受许多失踪,无关的数据,不能直接用于分类。因此,第二步的方法包括预处理数据集根据他们的数据资料。临床数据准备使用标准归责技术时,我们使用了序列挖掘技术来生成序列治疗的病人。同样,衡量生活质量属性创建捕捉病人的整体健康。所有的预处理后,分类技术应用于集成数据集。下面详细解释每一步。

4.1。数据收集

本研究是基于一个数据集收集从一个医院位于新德里,印度。使用的案例研究分析先进的卵巢癌。数据收集从手动医院数字化医院的存储库中存储的文件在获得适当的医院的科学委员会的批准。研究得到了豁免的IRB医院由于匿名数据的使用。由于医院的道德政策,公开数据不能共享。收集的数据包括三种attributes-clinical属性,属性,治疗和并发症数据。临床特点包括ca - 125水平在诊断时,出现腹水,年级,菲戈显微镜台下的,组织学为每个病人收集和记录。ca - 125水平表示诊断卵巢癌的属性。腹水的出现和癌症级定义的整体程度和侵略性癌细胞在体内。ca - 125水平较高、腹水的出现和年级建议侵略性的癌症。 Since the collected dataset included advanced cancer patients only, the majority of the patients had stage III or stage IV cancer. Since we have used FIGO substage, stage III cancer patients were further divided into stages 3a, 3b, and 3c cancer. Clinical data has proven to have a high association with the survival and be the most widely used predictors in the existing studies.

与其他在线数据和临床研究,目前的研究还收集治疗和适当的时间间隔之间每组治疗每个病人。正确的治疗给患者可以延长他们的生存。此外,这些治疗之间的时间可能建议的好坏反应治疗。治疗和时间间隔从而有助于更好的生存模型。总共四行每个病人的治疗记录。大多数患者接受了不到四治疗行三年了。

此外,ECOG水平指示每个病人的表现水平记录连同一些并发症,如糖尿病、心脏病、高血压的病人。ECOG的重要性水平和并发症也承认在其他癌症类型的生存分析31日]。的生活质量属性可以显示病人的整体健康,从而可以更好地预测患者的总生存期。更好的与现有的研究和比较,包括最近和相关数据,患者在2011年之后,在2015年之前被用来收集数据。在指定的时间范围内的生存还允许适当的检索信息的3年。从医院的生存3年收集的文件或直接接触病人或病人的家庭。

4.2。数据预处理和分析
4.2.1。准备数据准备和预处理

所有相关的细节和前一步中收集的信息在一个电子表格记录和维护。每个属性类别相应的处理来获得一个更好的角度,改善病人的总生存期的预测。

临床数据预处理。临床数据清洗消除异常值和处理缺失数据。任何实例删除丢失生存信息的分析来创建一个可靠的模型。此外,百分之五十以上的实例缺失的数据也被大可以导致弱模型缺失的数据值。删除后的数据集这些病人的情况下由149名患者。其余的缺失数据是由使用均值和模式归责技术。因为只剩下9例缺失的数据和主要分类属性(例如,出现腹水),技术事例归责不表现良好。剩下的实例,因此,在失踪数值属性填写的平均值病人的同一类。同样,实例与失踪的名义满心模式属性值相同的类。同样进行了MATLAB软件使用rmmissing()和fillmissing()内置方法。

处理数据预处理。这项研究的目标是处理数据基于每个属性的类别和行为。治疗预处理进行这项研究显示在图2

治疗的序列处理创建数据库为每个病人治疗的序列。数据库提供给修改序列挖掘算法生成GSP。GSP是获取频繁调整治疗子字符串,即。、治疗和指导约束序列。序列挖掘算法已经在Java中实现(32]。0.05的支持已被用于研究收集的最大序列治疗成为可能。指导约束意味着中间疗法不会考虑频繁序列;即。,我f a patient received treatment W in between treatments X and Y, then X ⟶ Y is not a valid recurring sequence. The no-gap constraint is attained at the time of counting support of each candidate sequence. The resultant treatment sequences are mentioned as follows.

时间间隔是治疗应用于合成频繁序列,如图3。属于选择的时间间隔6个月,即十三至十八、< = 6,7 - 12,,直到31-36。选择时间间隔为3年生存和直观的基于之前文献[33]。然而,当数据进行了分析,发现大多数患者接受治疗在6 - 8个月的治疗。这可能是由于治疗晚期卵巢癌患者的临床意义开始治疗早期(13]。因此,不同时间间隔选择(如一个月、两个月、三个月,直到6个月),以确定不同的时间间隔在卵巢癌的预后价值生存。然后创建一个二进制矩阵基于属性。如果一个病人接受治疗X, Y的一个月内治疗{X T1Y}列将被标记为1。由于时间间隔1个月,两个月,或者三个月导致36岁,18岁或12时间范围,它导致了一个广泛的属性为分类被应用。因此,一个属性选择度量用于二进制矩阵。信息增益计算每个属性,和属性信息增益大于0被用于进一步分析。信息增益可以用公式计算由以下方程:

发病率数据预处理。每个病人的并发症是收集她是否有一个特定的条件。并发症如慢性阻塞性肺病(COPD),糖尿病,高血压,和冠状动脉疾病(CAD)被记录在案,并且相应地,metric-CCI被计算为每个病人。Charlson发病率指数(CCI) (34)计算一个人的十年死亡率由管理分配概率权重不同的并发症。计算指数越高,死亡的概率就越高。例如,一个人在他/她的慢性阻塞性肺病获得+ 1的分数CCI得分。同样,简单的糖尿病患者获得额外的+ 1,而器官受损的糖尿病收益+ 3分结束他们的CCI得分。因此,CCI计算为每个病人更好地理解并发症的影响。总结措施如CCI一样的共用于计算。在预后中的意义也被证明在过去(35]。一起的性能状态值,CCI构成了生活质量的数据集的一部分在我们的研究中。基于医疗物联网(IoHT)可以进一步利用生活质量等收集数据在未来的研究36]。

4.2.2。数据汇总和分析

最后一组不同的属性及其描述如表所示1。最终数据集用于分析包括140名患者的存活率为42.14%(59)和低程度的不平衡的数据集不影响预测的性能(37]。因此,没有数据平衡技术用于这项研究。

本研究分析基于生存的一些重要的属性,如图4

年龄一直是一个有争议的因素对病人诊断和生存的结果。在目前的研究中,还发现,在年轻人群中,病人有更好的比年龄较大组患者生存的结果。但是,与之前的研究(38),腹水存在一种相反的效果对晚期卵巢癌患者的生存的结果。在我们的数据集,有腹水患者生存略优于无腹水的礼物。尽管如此,现有文献没有考虑在晚期腹水特别的效果。这个结果可以进一步检查记录和评估腹水的量在未来的研究。CCI ECOG,另一方面,给承诺的生存分析的结果。从图可以看出4CCI和ECOG的值越高,患者的存活率越低。ECOG图显示了一个大幅下降趋势图除了在ECOG性能状态值4。图中这细微的变化,患者的数量ECOG状态4只有五个,存活率是0%。

同样,略有增加和不一致的患者存活率CCI得分6由于一小部分病人组。因此,从这个考虑透露,更高的患者年龄、更多的并发症,患者的一般功能的低水平与较低的存活率。其他属性,如CA 125、组织学和年级并没有显示任何相关评估和并不包括在这项研究。

4.3。分类

集成、加工数据分类提供数据/已故类幸存下来。整体技术已经成功地用于各种医疗数据集,因此他们的适用性进行本研究。逻辑回归统计方法,也被用于比较的整体方法。

装袋和提高整体分类器。装袋或引导聚集创造了k引导样本数据集的输入数据集。每个测试实例是使用各种基本分类器,分类和创建一个组合分类器基于每个基分类器的选票。测试实例预测类有多数选票。投票的平均因素有助于降低数据集的任何类型的方差(19]。如果预测的方差σ2,那么的平均值的方差k独立的预测减少了 然而,增加加权平均效应。促进提高性能通过给予更多的重要性难以分类的实例。如果一个分类器分类错误实例,下一个分类器提供了更多的意义。因此,提高该实例的体重增加。促进与弱分类器性能更好,因为它减少了偏差,无法删除,装袋。尽管如此,我们可能面临过度拟合在促进加权方法。在目前的研究中,演算法是一种增强算法,利用对数据集进行分类。如果犯错(Xj)元组的误分类错误Xj,那么分类器错误率是权重的总和的更进一步的元组给出方程(4)。分类器的重量的投票将按照方程(5):

已经从以前的研究证实,整体技术,特别是装袋和刺激,可以执行比大多数单独的基分类器。

当用于装袋的基分类器都是决策树分类器,它被称为随机森林。树木的森林表示集合成一个单一的单位(组合分类器)。随机森林被称为随机决策树的创建使用一个随机选择的属性来决定每个节点的分裂(39]。每个决策树投票来确定类的一个实例,类和绝大多数选票分配给测试实例(40]。随机森林已经被证明在医学数据集提供更好的结果。另一种流行的方法,称为XGBoost,已被应用于数据集使用scikit-learn框架。树是一个梯度增加方法设计主要是为了提高速度和性能(41]。XGBoost可用于分类和回归问题。这是一个广泛使用的算法研究人员,专门为可伸缩的问题(42]。

逻辑回归的统计方法,被用于本研究比较整体技术与统计的数据挖掘技术。这模型类会员有关数据集的不同属性的概率。它将数据集划分为两类基于每个实例的可能性属于一个特定的类。概率计算的帮助下为每个特征属性的值和估计系数。属性被认为是独立给更好的性能结果。逻辑回归已经被不同的作者在不同的医疗保健应用程序来帮助诊断或预测流程(43,44]。

当一些基分类器和决策树一样,支持向量机,和事例是用于分类过程,决策树对数据集提供了最佳的性能。决策树是承认在各种应用程序的性能由于其高的结果[45,46]。决策树也喜欢和探索在许多医疗应用,因为它们简单和清晰度临床医生(47]。可辩解的AI是另一个领域,可以在未来的研究探索。因此,在本研究中利用决策树分类器用于创建合奏。由于所使用的数据集有一个小的实例数量,10倍交叉验证用于每个技术。它将数据集划分为十个大小相同的分区,单一的作为测试分区,和其他九个分区用于训练分类器。因此,单一的作为一个测试分区,该方法适合其余9-1-fold。测试分区10倍交叉验证的结果取平均值。分类使用分类学习者应用MATLAB软件进行。最后的实验细节和最高使用的每个分类器的性能见表2

5。结果分析和讨论

3显示了时间间隔序列挖掘结果的方法。时间范围两个月和6个月达到最高的精度;因此,表3显示了只有2和6个月的评估措施。促进实现最好的结果的准确性和AUC的病例。ROC曲线如图5。5倍、15倍交叉验证技术也被应用于数据集评估方法。然而,10倍给更好的结果比其他两个验证技术,最高72.9%的5倍和75.4%的15倍。另外,正如先前的研究[48),整体技术执行相对比我们当前研究的统计方法。不过,可以看出,时间间隔2个月可以更好地预测卵巢癌的生存在几乎所有的评估措施。六个月的方法仅给稍微更好的结果在特异性刺激被认为是。

与之前的研究对前列腺癌(使用六个月的时间间隔33),我们在研究中评估不同的时间间隔来评估晚期卵巢癌患者的适当的时间间隔。因此,时间间隔可以根据不同癌症类型作为药物和管理每个癌症类型而有所不同。可能需要创建一个适当的模型根据癌症类型和可能的癌症。

治疗属性选择2个月和6个月的表4。进一步从表中显示,假设在目前的研究中,6个月的间隔可能不是卵巢癌中有用的数据集是正确的。的属性中选择6个月的间隔只有两个,这两个T1(0 - 6个月)的时间间隔。相反,属性中选择2个月的时间间隔是4和拥有不同的间隔从T1 T5。因此,它可能只有几个,如果有的话,患者接受治疗后的下一行说8 - 10个月的治疗,连续,没有任何重要的角色在生存的预测。

此外,每个数据检查档案的重要性将分类技术应用于每个类别的属性分别两个月的时间间隔综合数据集。表5显示精度(%)与分类技术为每个数据概要文件。

从结果显示,当一个类别被认为是,生活质量数据集执行比其他数据资料。同时,处理数据集给精度优于临床数据集。因此,治疗的序列和治疗的时间能给临床医生和患者更好的了解病人的生存的结果。这个结果导致目前的理解,对于晚期卵巢上皮癌患者,临床属性和ca - 125一样,年级等可以表明选择合适的治疗病人。不过,它可能不是一个好病人的生存预测指标。尽管如此,治疗序列和主要生活质量属性可以更好地用于预测生存的结果。

5.1。与现有文献的比较提出了工作

确定不同治疗之间的顺序和时间的重要性给一个病人,我们进一步相比该方法没有序列挖掘。创建一个二进制矩阵相同,根据每个病人的药物了,不管她收到的序列治疗。这样一个矩阵的一个例子是图所示6

各种评估措施的比较的方法如表所示6。在这里,时间间隔的方法获得更好的结果比没有在所有的标准序列的方法。然而,特异性是相同的两个月时间间隔和序列挖掘的方法。但总体结果改善的时间间隔的方法。结果的图示如图7。同时,随机森林给出更好的结果比装袋和提高没有序列挖掘的方法。这里,随机森林的参数设置是一样的建议的方法(即。随机数种子= 0 =无限)和最大深度。因此,只有随机森林的结果中给出结果。时间的意义在特定治疗也被承认在之前的文献先进卵巢癌上皮(13]。Hofstetter et al。49)也证明了使用之间的间隔手术和化疗在晚期卵巢癌患者使用统计技术。他们还透露,时间是3 - 6周左右。目前的研究也能提供更好的结果在2个月的时间间隔用于生存的预测。由计算结果验证统计t分数和相应的p值显著性水平为0.05。以来最好的结果是由两个月的时间间隔的方法,它是相对于没有序列挖掘的方法。结果在表7,很明显,结果是显著的

我们有另外生成一个评估的一些最近的研究比较数据概要文件和技术与现有的文献,本研究使用了表8。它可以观察到从表8,大多数的研究仅使用生存的临床和治疗数据预测,在处理数据主要包括主要的细节处理。Malhotra et al。56)使用序列治疗的临床和基因数据,尽管作者没有考虑治疗之间的时间。此外,它可以从表5生活质量数据有重大贡献的生存预测,这是缺乏(56]。然而基因数据的收集和分析,可以研究未来的工作。研究利用神经网络和深度学习也变得越来越普遍了基因和多通道数据,因此,可以利用在未来的研究62年- - - - - -64年]。这些都是进一步探讨在各种基于图像数据集用于检测和预测(65年- - - - - -67年]。深度学习在各种研究技术已被证明比基本的机器学习技术(68年,69年]。然而,本研究的数据集有一个小的实例数量比现有文献和深度学习可以用大量的训练数据表现得更好。由于缺乏重要的训练数据,深度学习不能探索在这个研究。但这是因为目前的研究仅仅涉及到最近的记录和晚期患者。早期以来,几乎所有的癌症已经有大约90%的存活率,生存预测是一项容易的任务。但在后期,存活率从10%到40%不等。因此,本研究创建了一个模型建立在癌症行为(仅供高级阶段),将更有助于临床医生在检查癌症患者的生存70年]。它可以观察到从表8几乎所有的研究中使用的数据集的所有阶段。郭et al。57)被认为是早期癌症患者生存预测,取得了较高的结果。然而,正如我们已经讨论的,早期有相当高的存活率和主要是更容易预测。因此,对晚期癌症病人更多的研究需要进行进一步的比较结果。

因此,它可以从结果得出时间间隔的方法给出更好的结果比序列的方法。时间间隔可能不同,但治疗之间的时间还可以创建一个更好的和可靠的预测模型对其他癌症患者。集成的数据集,包括数据资料,是一个更好的预测模型比现有的模型,包括唯一的临床和治疗属性没有频繁序列。临床医生可以使用这些信息,决定适当的治疗晚期卵巢上皮癌患者和每个治疗之间的时间。病人的一般健康还可以有用的指标确定相对应的治疗和患者的总体生存能力。

6。结论

晚期卵巢上皮癌患者预后不佳相比,早期患者。目前的研究提供了一些有价值的理解先进的卵巢癌生存。创建了一个集成预测模型使用三种不同的数据资料从一个真实的临床数据。它还侧重于治疗的意义不同治疗之间的时间序列和各种生存分析的患者生活质量属性。癌症病人通常是处理多行治疗。本研究验证和确定使用不同治疗之间的时间检查病人的生存GSP的使用修改后的序列挖掘算法,以及各种机器学习技术。据透露,生活质量与时间间隔和处理序列的属性可以预测生存比临床事实。同时,治疗之间的时间间隔两个月序列表现好于其他时间间隔AUC的准确性达76.4%和0.85。修改的建议的方法序列挖掘算法和分类准确率达到了76.4%比现有的方法没有执行顺序开采,给周围70%的准确率。结果也被统计验证。 Thus, the clinicians and researchers should consider patients’ quality of life and line of treatments with time elapsed between them while creating a predictive model for cancer patients.

然而,有一些局限性和未来可能的方面值得注意。本研究使用的数据只有五年的医院记录当前的药物和其他医疗技术。数据集有一个小的实例数量,这可能会导致过度拟合的分类。此外,作者收集的数据集是手动的。一些记录错误可能是创建的数据。此外,精确的药物和化疗周期或剂量并不认为避免混淆。然而,这些可能是有用的,如果我们有一个更大的数据集。

数据可用性

收集的数据集的研究成为可能拉吉夫·甘地癌症研究所和研究中心,新德里。

的利益冲突

作者宣称没有利益冲突。

确认

作者承认研究人员和扩展他们的升值支持项目数量(RSP-2021/124),沙特国王大学,利雅得,沙特阿拉伯,资助这项研究。