文摘
使用超声波图像获取乳腺癌的诊断信息没有入侵可以降低乳腺癌患者的生理和心理的痛苦,是对乳腺癌的诊断和治疗具有重要意义。有一些乳腺癌的纹理差异良性和恶性案件。因此,本文提出了一种基于超声图像纹理特征的自适应学习方法来识别乳腺癌。具体来说,首先,我们使用字典学习和学习超声图像纹理的稀疏表示字典的良性和恶性案件,分别,然后使用两个字典的组合来表示测试图像获取的纹理分布特征测试图像在两个字典表示,这称为稀疏表示系数。最后,上述特性过滤稀疏表示和发送到稀疏表示分类器建立良性和恶性分类模型。128例随机分为训练集和测试集根据2:1培训和测试。该方法取得了最先进的成果,精度0.9070和接受者操作特征曲线下的面积为0.9459。结果表明,该方法有可能被用于良性和恶性乳腺癌的临床诊断。
1。介绍
乳腺癌是一种严重威胁女性健康和是最常见的女性恶性肿瘤之一世界各地。根据最新的预测的“临床癌症杂志”(1),2018年,在美国女性大约879000个新癌症病例中,有266000例乳腺癌,约占所有女性癌症病例的30.26%,发病率最高。中大约有286000女性癌症死亡在美国,乳腺癌是约41000,占大约14.33%的所有女性癌症死亡,死亡率位居第二。早期发现、早期诊断和早期乳腺癌的治疗是提高治愈率的关键和改善预后。
目前,临床乳腺肿瘤检测的方法主要包括触诊,穿刺,医学成像技术。医学成像技术用于乳腺肿瘤主要是超声成像,乳房x光检查,磁共振成像。与其他常用于乳腺肿瘤检测的方法相比,超声成像的主要优点是简单,操作方便;非侵入性,对人体无害;没有辐射,安全、可靠;高实时、快速成像,促进特定的病人做有针对性的检查;和较低的价格,适合大规模推广(2,3]。具有重要意义的临床诊断和治疗乳腺癌探索深乳房超声检查的病理特征图像和获得的结果是非侵入性良性和恶性肿瘤。
在过去的十年里,随着模式识别的发展工具和数据集的扩张,利用工程图像处理技术来诊断医学疾病已经成为一种新趋势。这些进步促进了开发高通量萃取过程的量化特性,导致图像高维数据特征的转换和随后的决策支持使用这些数据。这种方法叫做radiomics [3]。radiomics高维数据特征的组合和其他病人数据可以进一步提高诊断和预后的准确性。2014年,一篇发表在《华尔街日报》的文章自然提出了使用高通量功能肿瘤亚型识别的图像(4),然后,一些研究人员提出使用高通量特性来预测肿瘤分子标记(5)和肿瘤分类,取得了更好的效果。
稀疏表示理论认为,自然信号可以由几个原子的线性组合的字典,和这些原子包含最基本特征的信号6]。在信号稀疏表示表达分析的优点使其广泛应用于数据压缩、信号去噪、信号分离、图像恢复、分类和识别。使用字典稀疏表示的图像或信号,然后重建表示系数或信号去噪图像。分类和识别问题,测试样本的特征是由已知的标签功能,然后,剩余比较准确地预测样本类别可以测试(7]。李等人。8]使用示例特征稀疏表示样品标签,并根据获得的稀疏表示系数,样本特性由重要性排名,和精神分裂症的生物标志物特征是有效的选择。稀疏表示图像和数据表达分析的优点,使其图像分割的一个重要工具,特征提取、特征选择和分类在radiomics歧视。
以前的临床文献报道,有许多不同的成像形态良性和恶性乳腺癌的情况下,如定位、利润率、钙化和内部回声。这些差异反映在图像的纹理细节的差异。因此,灵感来自radiomics的概念并结合稀疏表示的理论基础,提出了一种方法来鉴别良性和恶性乳腺癌基于超声图像纹理特征的学习。提取肿瘤区域的纹理特性,我们首先训练纹理特征字典,然后使用字典稀疏表示的图像补丁,从测试样本中提取肿瘤区域;最后,所有图像的稀疏表示系数补丁平均获得相应肿瘤样本的纹理特性。因为直接提取纹理特征有一定程度的冗余,迭代的稀疏表示方法建立了选择一些高稳定和高分辨率特性,和迭代解过程有效地克服缺乏训练样本和低效使用训练样本在特征选择的信息。最后,稀疏表示方法用于分类和识别选择肿瘤特性。
2。方法
2.1。图像分割
肿瘤的分割区域的前提和后续的特征提取和分类和识别的基础。我们要求两名有经验的医生马克病变区域,分割,另一个用于验证。图1显示了两种情况下的分割结果。良性的情况下左边和右边的恶性案件。白色曲线内的区域重点区域。
2.2。纹理特征提取
由于大型肿瘤的大小和形状的差异在不同的患者,图像patch-based处理方法用于提取肿瘤质地特性。图2的流程图显示了基于稀疏表示的图像纹理特征提取。首先,提取的图像补丁集肿瘤区域 , , 代表了 - - - - - -届图像补丁和是图像中包含的补丁的数量的肿瘤区域。多个良性的图像补丁集和多发性恶性图像补丁集选择,分别 - - - - - -采用奇异值分解(KSVD)训练良性的字典 和恶性字典 (6],训练字典相结合得到纹理特征提取词典 。图3显示了字典字典训练的良性和恶性。
原子在字典里,蓝线的小正方形区域封闭图3,代表图像的纹理细节,和肿瘤图像是由这些小细节叠加。比较这两个字典,很明显,占良性图像纹理细节和纹理细节构成恶性形象有很大的不同。因此,一个直观的区分良性和恶性的想法是使用字典中的原子(纹理)来表达对图像进行检测和比较用于原子构成的统计差异图像检测识别肿瘤,也就是说,使用执行检测肿瘤图像的稀疏表示字典,然后,稀疏表示系数(纹理信息的描述用于构成肿瘤区域)作为相应的功能和随后发送到分类器作为输入来识别肿瘤。
肿瘤区域被检测到,一本字典用于稀疏代表其相应的图像补丁 。
其中, , 是相应的稀疏表示系数对应 , 是稀疏约束函数,是体重控制参数。因为图像补丁提取不同肿瘤的数量不同,相应的大小是不同的,这是不利于后续分类器的设计。因此,单独图像补丁图像补丁集的稀疏表示,和稀疏表示系数的绝对值平均肿瘤的纹理特征。正交匹配追踪(OMP)算法可以快速、有效地解决了稀疏表示模型方程(1)。
数据4(一)和4 (b)良性和恶性的纹理特性,分别表现出明显的差异。上半年的良性功能(1 ~ 900,对应于良性字典)通常比第二(901 ~ 1800年,相应的良性字典),而恶性特征情况是相反的。也就是说,如图3纹理,良性的图像更代表的良性的字典,和恶性图像更恶性中由原子字典。此外,如图4(一)、良性使用最频繁的纹理信息(黄色箭头)特性系数指出从良性的字典,而在图4 (b)、恶性使用最纹理信息(红色箭头指向的特性系数)的恶性字典。可以看出,两者之间有明显的差异。因此,统计分布差异的两种肿瘤纹理信息对肿瘤的识别具有关键意义。
(一)
(b)
除了纹理特性,先前的研究已经发现,良性和恶性肿瘤形态和灰度相关。因此,我们进一步提取33描述肿瘤形状和灰度特性,如表所示115,其中18灰度特性和形状特性。在实验中,我们将只使用纹理特征的分类结果与分类结果集结构、灰度和形状特性。
2.3。基于稀疏表示的特征选择
存在大量的冗余信息的纹理特性。这些冗余特性不仅增加后续的分类和识别的计算量,但也可能影响识别精度。因此,建立特征选择稀疏表示模型选择少量的高分辨率特性。 在哪里 训练样本的标签,训练样本的数量, 是训练样本的特性集,稀疏表示的控制参数和稀疏对应功能的重要性系数中的元素的绝对值 。而,可以选择关键功能通过一个简单的阈值比较。
值得注意的是,在实际的特征选择,样品的数量将选择有重要影响的结果。一方面,当 ,有效的稀疏系数的解决方案可以通过求解方程(2);然而,由于小数量的样品,稀疏表示系数迭代得到的解决方案不能反映一些功能的重要性;另一方面,当 ,方程(2)不适合多因素决定的问题。此外,对于方程的特征选择(2),特征选择的性能应该增加样本的数量的增加。
迭代的稀疏表示特征选择方法有效地解决了特征选择的样本数量的问题。在每个迭代中, 样本是随机选择的样本集的稀疏表示,确保稀疏解的有效性在方程(2)。此外,样本中的数据集随机选择稀疏,多次获得平均系数,不仅所有样本数据的信息利用稀疏的解决方案的健壮性增加,和选择特性是保证的有效性。图5显示了残差的变化由特性样本标签样本数量的增加功能后按稀疏表示。可以看出,只有第一个300特性影响显著表示标签中提取的特征。
事实上,稀疏表示的本质特征选择是选择几个特性与高度相关样品标签,当OMP算法是用来解决方程(2),选择之间的正交化过程消除了冗余特性,所以最终选择特性满足最大相关性和最小冗余的特征。
2.4。稀疏表示分类(SRC)
筛选功能,SRC方法(7)是用于分类验证。假设 表示训练样本的特性集类,代表了特征选择的结果 ,和是类的样本特性集吗 。字典学习方法的目的是为了学习一些区别的字典 ,可以制定的模型(9]。 在哪里一个标量常数,的互补矩阵在整个功能 。字典对 用于重构和代码 ,分别。是一个原子的字典吗 。当字典对和学习,制定分类模型可以为:
3所示。实验结果
的数据用于回顾性研究128例,其中61例良性和恶性肿瘤67例。超声图像的大小是910630年。随机分为训练数据集和测试根据2:1,包括85训练集和测试集。训练集用于纹理字典训练、功能筛选和分类模型。当模型建立,测试数据直接开始测试。我们使用的准确性(Acc),灵敏度(Sen),特异性(Spe),阳性预测值(Ppv),阴性预测值(Npv),接受者操作特征(ROC)曲线下面积(Auc)来评估模型的分类结果(10]。,森代表正确的数量的比率歧视良性病例总数良性病例,和Spe代表正确的数量的比率歧视恶性案件总数的恶性案件。
在这种方法中,图像块的大小是1515日,提取的图像补丁的滑动距离 ,和培训的良性和恶性字典的大小 。因此,字典大小是 ,和相应的特征提取的数量是1800。特征选择的过程中, , ,和是设置为 , ,和 ,分别。SRC的系数是规范制约 。
我们比较纹理特征的分类性能只使用自适应学习和特性结合纹理,灰色,和形状。结果如表所示2。在表中,我们可以看到,这两种方法取得了良好的性能,和分类精度达到0.8837(仅纹理特征)和0.9070(特性)相结合。这表明我们的基于自适应学习纹理特征能有效区分良性和恶性乳腺癌。Multifeature组合方法比纹理特征。这表明乳腺癌超声图像的形状和灰度特征区分良性和恶性肿瘤中发挥一定作用。图6显示了ROC曲线两种比较方法的分类结果。它可以从分类的指标,如森和Spe曲线和表,该方法不仅具有较高的分类精度也误判的正负样本的比例相对比较相似,因此具有较高的临床适用性。
(一)
(b)
4所示。讨论
乳腺癌的早期发现和诊断是一种有效的方法提高乳腺癌患者的治愈率,降低死亡率(11- - - - - -13]。早期诊断是最重要的一个指标来确定良性和恶性病变。超声图像是容易找到的位置乳房病变,但是很难区分良性和恶性肿瘤和图片,和诊断精度是有限的。组织病理学诊断的金标准是良性和恶性的诊断乳腺癌。然而,针吸活组织检查是侵入性和能给患者带来身体上的痛苦和精神焦虑(14]。基于超声波图像,我们使用动物医学图像数据挖掘方法获得良性和恶性的诊断信息。报道在过去,良性和恶性乳腺癌的超声图像具有不同的结构和纹理。因此,我们提出了一种自适应学习方法来提取纹理特征区别的纹理特征,然后使用稀疏表示系统功能筛选和分类识别。
一些传统的radiomics方法设计手册功能基于机器学习临床经验来构建分类模型(15]。然而,由于现有的临床经验的局限性,一些更深层次和移动有识别力的特性通常很难有效地开采和量化。相反,我们提出了基于自适应学习的图像纹理特征提取方法可以自动提取和量化不同类型的图像固有的纹理结构信息通过字典训练(如图4),改善功能的有效性和模型的鲁棒性。
特征选择是一个关键的步骤构建一个机器学习分类模型,因为选择一些更有识别力的特性可以减少模型过度拟合和的风险模型计算复杂度。的 - - - - - -测试值比较radiomics模型是一种常用的特征选择方法,但这种方法只能单独评估每个特性的重要性,忽视的影响特征组合分类模型的性能。本文使用稀疏表示方法进行特征选择。特征选择的过程中,和类标签之间的关联特性,被认为是之间的冗余特性,这有利于选择最优特征子集。图7显示了模型分类精度变化随着功能的增加数量的特性集,可以清楚地看到,分类精度随功能的增加在一定数量范围。
表3和图8显示不同的分类器的分类结果在相同的特征子集。SRC在我们的模型比支持向量机(SVM)和演算法总体上和分类结果的精度提高了5%以上。这是因为,对于小样本分类问题,非参数培训SRC可以更好地抑制模型过度拟合参数培训支持向量机和演算法。
尽管在我们的实验中,我们严格划分训练集和测试集,模型的稳定性和可靠性需要进一步验证各种乳腺癌数据。因此,在未来的工作中,我们将收集多中心数据,然后训练数据集和测试在不同的中心。
5。结论
以无创获取诊断信息的良性和恶性乳腺癌的超声图像,我们首先提出一个字典培训方法自适应地提取不同纹理特征的不同类型的肿瘤,然后使用稀疏表示方法,特征选择和分类。回顾性研究128例数据表明,该方法取得了令人鼓舞的性能分类精度为0.9070。该方法可以用于良性和恶性乳腺癌的临床诊断,从而提高乳腺癌诊断的效率和减少病人的痛苦。
数据可用性
和/或使用的数据集分析在当前研究可从相应的作者以合理的要求。
的利益冲突
没有报告的作者潜在的利益冲突。
作者的贡献
Huiling锣和Mengjia钱同样起到了推波助澜的作用。
确认
自然科学基金支持的工作是闵行区,上海(2021 mhz095)。