文摘
客观的。检测表皮生长因子受体(EGFR)基因突变和程序性死亡ligand-1 (PD-L1)表达状况对确定患者的治疗策略是至关重要的非小细胞肺癌(NSCLC)。最近radiomics的快速发展,包括但不限于深度学习技术表明潜在的医学图像在疾病的诊断和治疗。方法。符合条件的患者诊断/治疗在四川大学华西医院从2013年1月至2019年4月确定的回顾性分析。术前CT图像获取,以及关于表皮生长因子受体基因突变和PD-L1表达式。感兴趣的肿瘤区域(ROI)被经验丰富的呼吸道专家划定手动。我们使用3 d卷积神经网络(CNN)与ROI信息作为输入来构造一个分类模型,建立了预测模型结合深度学习特点和临床特征分层生存肺癌患者的风险。结果。整个队列(N= 1262)分为训练集(N= 882,70%),验证集(N= 125,10%)和测试集(N= 255,20%)。我们使用了一个3 d卷积神经网络(CNN)构建预测模型,auc为0.96(95%置信区间CI: 0.94 - -0.98), 0.80(95%可信区间:0.72 - -0.88),和0.73(95%置信区间:0.63—-0.83)培训、验证和测试组,分别。合并后的预后模型表现出良好的性能在非小细胞肺癌患者的生存预测(c指数:0.71)。结论。在这项研究中,提出了一种非侵入性和有效的模型来预测和PD-L1表达EGFR突变作为一个临床决策支持工具。此外,深度学习的结合特性与临床特征表现出伟大的分层功能的预后模型。我们的团队将继续探索成像的应用程序标记肺癌患者的治疗选择。
1。介绍
肺癌是癌症相关死亡的主要原因,第二个最常见的癌症诊断在全世界范围内,大约有180万人死亡,220万人新癌症病例在2020年(1]。非小细胞肺癌(NSCLC)是最常见的肺癌亚型,,5年生存率小于20%。靶向治疗和免疫治疗的出现彻底改变了肺癌的治疗和改善临床结果的一个子集患者(2,3]。酪氨酸激酶抑制剂(TKIs)针对表皮生长因子受体(EGFR)可能会导致延长无进展生存(PFS)与常规化疗EGFR-mutated NSCLC患者(4,5]。同时,免疫抑制剂检查站(艾多酷)针对程序性死亡ligand-1 (PD-L1)表达的肿瘤细胞也将有助于延长总生存期(OS)在PD-L1-positive晚期NSCLC患者(6,7]。因此,它是非常重要的来识别基因状态的病人在精密医学的时代。
目前,分子基因检测基于肿瘤组织标本的黄金标准,以确定遗传状态。然而,常见的方法获得这些组织标本,如手术或活检,是侵入性的,昂贵的,和缓慢,肿瘤组织在时间和空间方面不同。此外,其他限制包括,但不限于,很难获得材料,潜在的要求二次活检,DNA质量差可以延迟后续的治疗决策8,9]。因此,无创、方便、高效的方法来预测基因状态是迫在眉睫的需要。
作为一个有效的肺癌的筛查工具,计算机断层扫描(CT)可以有效地减少与早期发现肺癌的死亡率,因此,广泛应用于临床检查(10,11]。在过去的十年里,radiomic方法,特别是深度学习技术,发现了高通量信息在医学图像12]。深度学习取得良好的性能在检测在乳腺癌淋巴结转移和快速估算肺癌和恶性肿瘤风险诊断COVID-19大流行(13- - - - - -15]。之前的研究表明,从CT图像中提取特征的肺癌病例可能与基因表达模式(16,17]。王等人使用一个端到端的深度学习模型来分析CT图像和预测EGFR突变状态(18]。田等人提供了一个深入学习模型来预测高PD-L1表达式的非小细胞肺癌和推断出临床结果针对免疫疗法(19]。基于这些探索前,为了更好的满足临床实践的需要,还需要探索使用深度学习技术的基因表达。
在此,我们提出了一种新的方法来预测和PD-L1表达EGFR突变状态在NSCLC患者基于深度学习技术和选择特性来构建一个预后模型。这种非侵入性和易于使用的方法将帮助临床医生对患者治疗决策。
2。材料和方法
2.1。数据采集和处理
符合条件的患者诊断/治疗在四川大学华西医院从2013年1月至2019年4月确定的回顾性分析。患者的入选标准如下:(1)病理诊断为原发性非小细胞肺癌;(2)检测表皮生长因子受体突变和PD-L1表达状态;和(3)的前1个月以内CT图像病理诊断。患者的排除标准如下:(1)错过关键的临床资料;(2)没有基因测试或测试不及格组织质量差;和(3)没有胸部CT检查,或与CT图像病变难以区分和注释,像坚持门的或引起肺不张。
总共1262名患者为本研究收集并分为训练集(N= 882),验证集(N= 125),测试集(N= 255)的比率7:1:2。然后人口统计信息(年龄、性别、吸烟史),组织病理学报告,治疗(有针对性的疗法,艾多酷),收集和基因测试报告从医院信息系统。从多个薄层(1 - 3毫米)CT扫描图像扫描仪(通用电气、飞利浦、西门子联合成像健康)收集。我们的跟进所有患者在2021年4月结束。道德伦理委员会的批准了华西医院,四川大学。
我们通过活检或手术切除肿瘤标本收集。然后,表皮生长因子受体突变状态是由放大耐火突变System-Polymerase连锁反应(ARMS-PCR)或下一代测序(门店)。PD-L1表达状态检测使用SP142抗体免疫组织化学(包含IHC)化验Ventana基准平台上执行。由资深病理学家复查后,这些基因的测试结果被认为是黄金标准在当前的研究中。
2.2。深度学习的发展模式
胸部CT图像拍摄和存储在DICOM格式与标准参数。肿瘤感兴趣的区域(ROI)划定由经验丰富的呼吸医学专家,然后手动调整至48×224×224像素的原始肺窗口图像与原中心。调整的细节如下:如果ROI的原始规模大于48×224×224像素,超过的部分被切断;相比之下,如果ROI的原始规模小于48×224×224像素,基线值将标准化区域的大小。这些48×224×224 roi被用来发展我们的深度学习模型,在这期间他们被分成训练,验证集和测试集的比例7:1:2计算个别病人。关于遗传特性,roi是分为四类:双重否定,表皮生长因子受体(−)但是PD-L1(+)、表皮生长因子受体(+)但PD-L1(−)和double-positive。
与前面的文献建议,剩余块可以缓解梯度消失问题引起的神经网络的深度,和三维残余网络不仅表现出良好的性能在自然图像(20.),而且医学图像(21- - - - - -24]。在最近的研究中,考虑到CT扫描的格式,我们构建了一个三维卷积神经网络(CNN)模型分类EGFR和PD-L1地位。在图1,我们的CNN网络的体系结构。更多细节的层次提出了补充材料表(表S1和S2)。此外,Gradient-weighted类激活映射(CAM)是利用本地化和可视化的输入图像的重要区域预测目标的概念。
在培训过程中,每一个训练时期的批量大小16。此外,模型与最佳性能验证数据集被选中作进一步测试。
2.3。预测模型的发展
CNN提取512 -维患者在训练集的深度学习特征。接下来,至少绝对收缩和选择算子(套索)方法,一般适用于高维数据的回归25),使用基于glmnet包。我们使用了“多项式”选项以适应多类数据和正则化参数λ的值改为调整套索模型。为了防止过度拟合,5倍交叉验证模型被用来重新取样训练集。用最小的误分类的错误被选为最优模型,它包含了最好的特性集。
然后,预后模型结合深度学习(DL)特点和临床特征(年龄、性别、吸烟史、EGFR-TKI靶向治疗,和ICI疗法)生成将患者分为高风险和低风险组根据截断值基于survminer包。这个模型的性能评估的验证集和测试集。此外,我们还构建了一个临床预后模型比较在性方面,年龄,和吸烟,靶向治疗和ICI疗法。
2.4。统计分析
方差分析测试和卡方检验是用来评估连续变量和分类变量的区别在基本数据,分别。CNN,最重要的一个深度学习模型,用于构建预测模型。在发展预后模型中,我们减少维度通过使用套索和比较变量Cox比例风险回归和log-rank-test。肿瘤ROI与ITK-SNAP软件概述。所有的分析进行了R 4.0.2 (R统计计算的基础,维也纳,奥地利)和Python 3.10 (Python软件基金会)。双面的< 0.05的值被认为是具有统计学意义。
3所示。结果
3.1。临床特点
1262名患者的临床特点如表所示1。诊断时的平均年龄为57.70±10.50年。49.13%的患者是男性。59.35%的病人从未吸过烟。的人数四个基因表达组的双重否定,表皮生长因子受体(−)但是PD-L1(+)、表皮生长因子受体(+)但PD-L1(−)和double-positive 276(1.87%)、290年(22.98%)、502年(39.78%)和194年(15.37%),分别为。至于新的治疗策略,在数据集EGFR-TKI-targeted治疗391例患者,15收到ICI。41.91%的患者被诊断为阶段。平均随访31(95%置信区间ci: 30 - 31)个月,中位总生存期(OS) 44(95%置信区间ci: 42-49)个月。培训没有显著差异,验证和测试组关于年龄 ,性 ,吸烟 ,基因突变状态 ,EGFR-TKI-targeted疗法 ,这里治疗 ,组织病理学 ,肿瘤的阶段 ,平均随访时间 ,和总生存期 。
3.2。预测模型的性能
表2列出了深度学习模型的预测性能评估ROC曲线下面积(AUC)、精度、灵敏度、特异性和训练,验证集和测试集。的macro-average auc是0.96(95%置信区间CI: 0.94 - -0.98), 0.80(95%可信区间:0.72 - -0.88),和0.73(95%置信区间:0.63—-0.83)培训、验证和测试组,分别。AUC的基因分类大于0.95在训练集和测试集大于0.65(图2)。预测系统实现了精度为0.90(95%置信区间:0.86—-0.93),灵敏度为0.74 (95% CI: 0.31—1),和特异性为0.93(95%置信区间CI: 0.79 - 1)在整个四分类的训练集。在图3不同数据集的混淆矩阵显示,大多数错误发生在相邻组。深度学习模型生成一个注意力地图通过凸轮显示肿瘤中的每个部分的重要性,和黑暗的区域可能是肿瘤和门(图之间的组织4)。
(一)
(b)
(c)
(一)
(b)
(c)
3.3。预测模型的性能
我们建立了一个基于几个临床特征的临床预后模型(表S3)。c指数为0.64(95%置信区间:0.60—-0.68)。然后,我们结合了8深度学习特性将softmax层建立一个新的预后的临床特征模型,c指数为0.71(95%置信区间:0.68—-0.74)。这个预后模型成功地分层患者分为高风险和低风险组的预后不良的危险(死亡)(图5)。有显著差异在这些团体之间的总生存期(OS) ( 在训练集和测试集)。
(一)
(b)
(c)
4所示。讨论
快速测定基因突变状态对治疗决策是至关重要的,尤其是对患者可能适合EGFR-TKI或ICI治疗。在这项研究中,一个快速的方法使用基于CT图像的深度学习提出了预测在非小细胞肺癌表皮生长因子受体突变和PD-L1表达地位,auc为0.96,0.76,和0.76的培训、验证和测试组。患者积极的突变可能会受益于TKI和/或ICI治疗,而双重否定突变患者几乎呈现一个承诺对这些治疗策略,应该尽快采取其他治疗方法。此外,该预测模型是进一步发展分层患者不良预后的风险评估的基础上,可能作为重要的临床参考。
领域的肺癌,radiomics发展迅速,由于胸部CT的可用性和人工智能(AI)的集成26]。一方面,胸部CT检查是最常规的检测方法在肺癌的诊断和治疗过程,因为它是无创、方便,容易获得在日常临床工作流程。几乎所有的非小细胞肺癌患者会经历多个CT检查为了追踪肿瘤病变的进展。另一方面,近年来,人工智能技术,特别是深度学习,已被广泛应用于医学图像的解释。深度学习技术拥有无尽的潜力肺癌筛查、诊断和治疗,从检测肺结节的鉴别良性和恶性肺结节和进一步亚型分类(14,27,28]。
大量的注意力都集中在研究基因组学和radiomics结合起来。在精密医学的时代,有一个趋势,肺癌患者治疗后基因表达澄清。一些先前的研究深度学习技术用于预测EGFR, PD-L1,或碱性基因状态,分别取得了良好的表现(表3)[18,19,29日- - - - - -34]。然而,这些先前的研究特别关注预测只有一个基因的突变状态。同时,目前的研究已经研究首次预测表皮生长因子受体突变的地位和PD-L1表达同时使用胸部CT扫描从迄今最大的群体。同时,在这项研究中,我们利用CAM方法可视化预测模型和改进的理解深度学习,曾经被称为“黑盒。“我们的模型的另一个优势是我们输入3 d图像,这可能解释这一事实融合预测模型表现得比简单的临床模型和3 d结果可能完全显示病变的特点,提供更多abunant图像信息。
越来越多的研究表明,图像特征可以预测基因状态和治疗反应和可能在未来帮助临床实践(35,36]。不过,有几个细节需要解决。例如,当这个模型的输出层设置为两类,我们有两个模型分别预测和PD-L1表达EGFR突变状态。尽管这些模型能够实现研究目标,他们表现出不稳定的性能。一些研究已经表明EGFR和PD-L1表达之间的相关性(37),这或许可以解释四级模型的稳定性。虽然四类可能反映了基因之间的关系,应该需要更多的数据从多中心模型性能的进一步改善。因此,如何构建一个更临床实用模型将是未来我们的注意力的焦点。
我们的研究也有一些局限性。首先,这是一个单中心回顾性研究,但我们会在某种程度上,释放问题,测试模型的泛化和健壮性外部数据集。其次,我们暂时缺乏应对治疗的评估,这是一个关心靶向治疗和免疫治疗药物。第三,我们主要关注两个主要有价值的分子:EGFR和PD-L1测试在日常临床实践。但其他基因包括,但不限于,筛选和ROS1基因小组仍值得研究。如果深度学习模型预测错误的基因表达/突变状态,患者将得到不恰当的治疗。分子测试还需要加倍确保人工智能软件将批准前的治疗是安全的。此外,我们会将各种指标与预后相关,如肿瘤大小、体积、形状、磨砂玻璃不透明(GGO),或固体组件,在未来优化预测模型。
5。结论
总之,提出了一种非侵入性和有效的模型来预测和PD-L1表达EGFR突变状态,这可以作为一个临床决策支持工具。此外,深度学习的结合特性与临床预后模型的特性改进的分层功能。之后,我们的团队将进一步深入的应用成像标记为肺癌患者治疗的决定。
数据可用性
使用的数据来支持本研究的结果可根据要求相应的作者。
的利益冲突
所有作者没有利益冲突。
作者的贡献
王,ZY参与研究设计。连续波、JS和XX参与整个项目的组织,数据分析与临床的角度来看,写作和手稿。JS和JL收集影像和临床数据。KFZ KZ,詹参与的建立算法。所有作者的文章和批准提交的版本。
确认
这项研究得到了国家自然科学基金(批准号91859203和91859203),四川的科技项目(批准2020 yfg0473),中国博士后科学基金会(2021 m692309),四川大学博士后项目(2021 scu12018),四川大学华西医院的博士后项目,(2020 hxbh084)。
补充材料
表1:残块的细节。表2:构建模型的细节。表3:预后Cox模型和没有DL特性。(补充材料)