文摘

乳腺癌是一个全球性的流行病,负责女性死亡率最高的国家之一。超声成像是成为一个受欢迎的乳腺癌筛查的工具,和定量超声(屈原)技术被越来越多地应用到研究人员试图描述乳房组织。几种不同的定量描述符乳腺癌研究人员一直在探索。本研究提出了一种乳腺肿瘤分类系统使用三个主要类型的瘤内曲描述符可以从超声射频(RF)中提取数据:光谱特性,包络统计特性和结构特性。总共有16个特征提取超声射频数据在两个不同的数据集,其中一个是平衡的,另一个是严重不平衡。平衡数据集包含射频数据100乳腺癌患者的肿瘤,其中48良性和52是恶性的。不平衡数据集包含射频数据130乳腺癌患者的肿瘤,其中104是良性的,26日是恶性的。坚持验证被用来平衡数据集分割成60%的训练,40%的测试集。特征选择是应用于训练集来确定最相关的子集的良性和恶性乳腺肿瘤分类和特性的性能评估测试集。最大的分类精度为95%,一个接受者操作特征曲线下面积(AUC)获得了0.968的测试集,确定相关的性能特性进一步验证在不平衡数据集,在一个混合重采样策略是首先用来创建一个最优良性和恶性样本之间的平衡。最大分类准确率为93.01%,敏感性为94.62%,特异性为91.4%,和AUC的0.966。 The results indicate that the identified features are able to distinguish between benign and malignant breast lesions very effectively, and the combination of the features identified in this research has the potential to be a significant tool in the noninvasive rapid and accurate diagnosis of breast cancer.

1。介绍

据世界卫生组织(世卫组织)字幕新闻,乳腺癌是世界上最普遍的形式的癌症,惊人的780万患者被诊断出在2016年和2020年之间的5年时间1]。这是最常诊断的癌症,以及女性癌症死亡的第二大原因(2020年2]。乳腺癌的早期诊断是至关重要的生存患者由于其作用治疗选择的预测对治疗的反应(3]。

超声成像已经成为一个重要的非侵入性乳腺癌的筛查技术(4]。它保留了一个重要的优势超过其他形式,如乳房x光检查由于其电离特性,低成本和高可移植性。此外,超声成像可以提高肿瘤检测在乳腺癌诊断高达17% (5),以及减少不必要的活检40% (6]。然而,超声成像系统遭受和运营商的依赖7,8否定它的再现性。此外,传统超声成像过程在本质上是定性的,因此放射性评价超声b型图像严重依赖放射科医生的诊断经验。

定量超声(屈原)技术代表一个域的超声波成像程序提取各种组织微观结构定量措施(9,10]。与传统超声成像技术,什么程序是独立的系统和操作符的相关因素(11,12结果是高度可再生的。此外,什么技术可以提供的诊断不需要鉴定,从而有可能乳腺癌等疾病的快速诊断。什么技术的效用已经建立在多个领域,如区分良性和恶性甲状腺组织(13),检测前列腺癌(14,15),颈动脉斑块的特征(16]。几种不同的量化参数也被研究人员探索关于乳房组织的特征。

瞿光谱包括提取的光谱参数attenuation-corrected规范化原始超声射频信号的功率谱。Lizzi et al。17,18)提出了线性参数化的归一化功率谱为了提取光谱斜率,光谱拦截,中频的超声波回声。这些特性提供一定程度的形状、大小、浓度、和声波散射的力量已经申请两个乳腺病变的诊断(19,20.),以及无创评价化疗反应(21,22引人注目的成功。

超声获得的统计数据包络信号可以被建模为一个概率密度函数(PDF)为了分析软组织的散射特性。几个著名的统计分布可能在这方面利用信封的统计模型,和两个流行分布模型应用于散射信号从乳房Nakagami和零差K分布。Nakagami分布提出了超声后向散射的造型的Shankar [23]。研究人员提出了几种方法的乳腺病变的分类使用Nakagami分布的特点。分布的参数分析了乳腺癌的潜在的定量描述符本身(24),通过复合的方法25),结合其他发行版的参数如K分布(26),以及与其他类型的定量描述符如熵和纹理27,28]。零差K分布,提出了超声回波的造型的达特,另一则29日),后来被赫鲁斯卡对此(30.)和赫鲁斯卡对此Oelze (31日]。应用了零差K分布参数与乳腺影像报告和数据系统(BIRADS)描述符以及弹性剪切波(理念)特性的分类乳房病变(32,33]。

生理学、微环境中肿瘤已知具有异构性问题,和新陈代谢,癌症的特征具有重要意义[34- - - - - -37]。这些异构性问题可能量化使用纹理分析技术(38]。表中超声图像纹理分析提供了一个显示灰度转换通过分析相邻像素之间的空间关系的图像,这是用于评估不同纹理表现出的良性和恶性肿瘤(20.]。用这个理由,纹理分析技术应用于超声波扫描已经被一些研究利用乳腺病变的特征(39- - - - - -42]。

本研究提出了一种乳腺肿瘤分类系统,利用三个主要类型的什么特性被研究人员用来描述乳房病变:光谱特性,包络统计特性和结构特性。据我所知,没有其他研究工作评估的特性在这项研究中同时为乳腺癌的诊断分析。总共有16个不同的特征提取超声评估病人数据在两个不同的数据集,其中一个是平衡的,另一种是严重不平衡。坚持验证被用来平衡数据集分割成60%的训练,40%的测试集,和特性选择顺序前进的形式选择(SFS)应用到训练集识别特性的子集最相关的良性和恶性乳腺肿瘤的分类。识别的性能特性是评估测试集,最大95%的分类精度和接受者操作特征曲线下面积(AUC)为0.968。确定相关的性能特性进一步验证在不平衡数据集,一个混合重采样策略是首先用来创建一个最优良性和恶性样本之间的平衡。最大分类准确率为93.01%,敏感性为94.62%,特异性为91.4%,和AUC的0.966。结果表明,所确定的功能是能够区分良性和恶性乳腺病变非常有效,和特征识别的结合研究工作有可能是一个重要的工具的快速、准确的诊断乳腺癌。

2。材料和方法

2.1。描述数据集
2.1.1。OASBUD数据集

乳房超声数据的开放获取系列(OASBUD) [43)是在这项研究中使用。它由100个乳腺病变的超声射频(RF)数据在华沙的患者肿瘤研究所。其中,52例为恶性病变,和48是良性的。所有恶性病变组织学评估核心穿刺活检。37的48良性病变也组织学检查评估;剩下的13个不符合活检,但观察到放射科医生在两年的时间里。超声波数据记录的超声波,基本技术研究所的波兰科学院和批准的研究机构审查委员会(IRB)。患者是由放射科医生检查18年的经验,在BI-RADS指南以及波兰超声波社会标准。对于每个病变,两个人纵向和横向扫描记录使用Ultrasonix SonixTouch研究超声波扫描仪L14-5/38线性阵列传感器和一个10 MHz的中心频率。每个扫描由512射频线,使用40 MHz采样频率信号被数字化。 The region of interest (ROI) for each individual scan was indicated by the radiologist.

2.1.2。ATL数据集

超声波数据从ATL的上市前的批准(PMA) IRB-approved研究开展1994年(19也被用于这项研究。它包括130例患者的乳腺病变超声射频数据。其中,104是良性的,26例为恶性,组织学评估核心穿刺活检。超声波数据被记录在三个临床基地,托马斯杰弗逊大学、辛辛那提大学和耶鲁大学,在常规超声检查定于活检的患者。肿瘤是由一名有经验的放射科医师使用飞利浦超声检查UM-9 HDI扫描仪,L10-5线性阵列换能器和中心频率为7.5 MHz。L10-5传感器是使用一个默认的功率电平和一个传输焦距,所选择的运营商。所有标准超声乳房检查程序期间维持考试。多个视图是由放射科医生对每个病变,其中包括至少一个径向和一个antiradial视图。是数字化的信号通过接口Spectrasonics Inc .(宾夕法尼亚州普鲁士王)采集模块使用20 MHz的采样频率和一个14位的有效动态范围。Time-gain-control (TGC)获得的数据在每次扫描之前,和获得的数据是TGC之前纠正处理。 As can be observed, the dataset contains quite a high imbalance ratio between benign and malignant cases (4 : 1).

2.2。特征提取

三种类型的特征提取病人超声波扫描用于这项研究:光谱特性,包络统计特性和结构特性。处理代码都写在MATLAB™(MathWorks公司纳蒂克,MA)。

2.2.1。光谱特性

光谱特征参数获得图像形成使用光谱分析参数(18,44,45]。汉明窗的长度2.4毫米是应用于病人的超声射频数据扫描。窗口的射频功率谱的数据然后使用傅里叶变换计算,用分贝表示。线性回归应用于6 dB的功率谱信号的带宽。这种回归分析收益率回归直线的斜率(SL),值的中点(MBF)信号带宽,和拦截在零频率(INT)。这些参数的图像被逐步形成滑动的汉明窗每个射频数据87.5%的重叠和重复上面的序列。

近似的线性回归直线的归一化功率谱可以表示为 在哪里 , , 分别代表频率,SL, INT。因此,MBF可以表示为 代表中心频率的可用带宽。

频率相关的存在衰减影响兆和SL值获得在分析(19]。为了弥补这个缺陷,衰减(dB)假设随频率线性变化,这验证了近似的结果阿拉姆et al。19]和Bamber [46在拦截在衰减的不变性。在这项研究中,兆和SL更正如下: 在哪里 代表了有效衰减系数和 代表的深度干预组织。衰减系数的值 设置为1.0 dB / MHz-cm,基于衰减系数对肌肉的桅杆报道(47]。

1说明了三种类型的光谱参数图像(MBF、INT和SL)形成的超声射频数据。像素值的平均值和标准偏差的瘤内地区这些参数的图像被用于这项研究乳腺癌的分类。

2.2.2。信封的统计特性

超声波脉冲穿过组织受到散射由于工件位于组织,恰当地称为“散射。”因此,背散射超声回波信号接收传感器可以被视为从单个散射散射信号的叠加在组织(48]。应用统计分布模型的反散射超声信封可以提供相关信息组织微观结构。两个这样的统计分布模型,有效地描述了乳房组织的超声回波信号的散射特性Nakagami分布(23)和零差K分布(31日]。

(1)零差K分布。零差K分布是一种分析复杂的模型;然而,它比模型更通用的,如瑞利分布和K分布(49]。的概率密度函数(pdf) 零差K分布表示的广义积分的形式(29日),如下所示 在哪里 是一个零级第一类贝塞尔函数, 相干信号的能量, 是分散的信号能量, 是一个有效的散射的测量靶细胞。相干散射信号的比值可以作为派生参数 定义周期性在散射体的位置。的参数 被认为提供一个准确的描述组织散射特性(49]。

零差K参数估计技术了赫鲁斯卡对此et al。31日)是用于这项研究。这种技术使用信噪比(信噪比),偏斜度和峰度分数阶时间零差K分布的参数估计。

第三个参数,diffuse-to-total信号功率比(50] ,也定义。的参数 , , 被拟合零差K分布估计每个超声波信封的肿瘤区域内的所有样本图像,然后这些参数用于乳腺病变的分类。

(2)Nakagami分布。Nakagami分布(51]介绍了Nakagami(1943、1960)在波传播的背景下。它是分析复杂远远少于零差K分布。pdf 下的超声背散射包络Nakagami分布模型

在这里, 代表了欧拉伽马函数和单位阶跃函数,分别。

Nakagami分布有两个参数,表示如下: 在哪里 代表了超声背散射信封和 被称为形状参数,提供信封统计信息。在Nakagami分布的情况下,这样的限制 (51),在这种情况下,它被称为Nakagami参数。 是一个尺度参数。

Nakagami分布之间的相似性和K分布可以用来定义Nakagami的第三个参数分布。K分布累积分布表达为 在哪里 提供了一个有效的散射的测量目标细胞 是一个尺度参数。的参数K分布可以表示的Nakagami分布(24]:

利用这种关系,参数 可以被定义,在哪里 , 在哪里 被定义为有效散射截面的靶细胞(24]。

的参数 , , 被拟合Nakagami分布估计的肿瘤区域内的所有样本超声信封图像,然后这些参数用于乳腺病变的分类。

2.2.3。纹理特征

超声波信封的纹理图像的量化使用灰度同现矩阵应用灰度共生矩阵建立()技术。GLCM技术量化结构通过评估相邻像素之间的空间关系在一个图像41]。应用灰度共生矩阵建立一个矩阵是由计算频率像素灰度强度值 发生相邻的像素值 应用灰度共生矩阵建立表示矩阵代表概率的相邻像素的灰度强度 在超声图像。让 表示连续的平均值和标准偏差 或列 应用灰度共生矩阵建立的矩阵。以下四个参数可以定义从这样一个矩阵

对比是一个测量参数图像灰度变化的。关联提供了一个指示相邻像素之间的线性相关性。相邻像素之间能量量化统一格式,同质性是衡量像素成对的不同强度的发病率在参数图像。应用灰度共生矩阵建立提取特征,组成的一个ROI的最小边界矩形区域周围的肿瘤超声信封图像形成,类似于所遵循的程序(41]。全方位的灰色的水平在每个ROI线性扩展到16个离散灰色的水平。GLCM矩阵就形成了五点interpixel距离,1,2,3,4,5像素,在四个角的方向, , , , ,和应用灰度共生矩阵建立的四个特征从每个应用灰度共生矩阵建立的矩阵计算。四个纹理特征都是平均距离和角度的方向来获取每个病人的最终值,然后用于分类的乳腺病变。

2.3。重采样的ATL数据集

正如之前提到的,ATL数据集包含一个高水平的不平衡良性和恶性案件(四:1)。应用混合重采样策略以减少类之间的不平衡。的数量多数类实例首先减少使用欠采样减少类之间的不平衡率。然后生成新的少数类样本进行过采样以平衡数据集。混合策略创建一个类之间的最优平衡,确保重新取样数据的质量。合成少数过采样(打)52)用于采样过密,Tomek链接(53用于欠采样。他们在下面描述。

2.3.1。击杀

击杀的过采样技术用于合成少数类实例基于他们最近的邻居,经常应用于address类不平衡在医学领域(54]。考虑一个 - - - - - -多维数据集的样本 ,在哪里 代表的数量特征。让 代表了大多数类 样品和 代表少数类 样品,这样 击杀过程数据集如下:(i)为每个少数类样本 ,确定其 最近的邻居,(2)选择一个样本 最近的邻居的 并生成一个合成数据样本 ,在哪里 是一个随机数,(3)重复 次获得 新合成的样品 在这项工作中, 5使用的价值。

2.3.2。Tomek链接

Tomek链接是一个欠采样方法,用于消除大多数的实例数据集“Tomek链接”时发现。让 表示从少数类样本 表示从多数类样本。然后 据说形成一对Tomek链接如果没有样品吗 这样 ,在哪里 用于表示两个样本之间的距离。在这种情况下,大多数样本 是消除下采样的过程。

2.4。顺序向前选择

顺序向前选择(SFS)是一个包装器方法,增加了相关特性所选特征子集在多个迭代的基础上一个评价标准。这个过程始于一个空的子集选择功能。在第一次迭代模型训练单独使用每一个功能,和表现最好的特性是确定基于评价指标和添加到所选特征子集。在第二次迭代中,模型训练使用配对已经选定的特性以及剩余的每个特性。每一对的性能进行了分析使用的评价指标,并时达到最佳性能的功能搭配第一个特性被添加到所选特征子集,但前提是对的性能高于性能最好的个人特性的评价标准。在多个迭代中重复这个过程,直到没有改善的评价标准是通过添加更多的功能。误分类率作为评价标准。图2说明了SFS过程的流程图。

2.5。绩效评估

总共有16个特征提取超声波扫描OASBUD和瘤内地区的ATL数据集:(i)的意思是兆,(ii) MBF的标准差,(iii)的意思是INT, INT (iv)标准差,SL (v)的意思是,(vi) SL的标准差,(七) (零差K)(八) (零差K),(第九) (零差K), (x) (Nakagami)、(十一) (Nakagami)、(十二) (Nakagami)(十三)对比,(十四)相关(十五)能源和(十六)同质性。大多数病变在多个数据集都是扫描交叉扫描平面,从而提供补充数据对于一个给定的损伤。如果病变有多个扫描,每个量化特征值的多个扫描特定病变平均到达一个数字。一个双边Wilcoxon秩和检验(95%置信)上执行的每个提取的特征在两种数据集评估统计学意义良性和恶性组之间。统计检验的目的仅仅是证明歧视提取的特征的能力。

OASBUD数据集被用来确定乳腺病变的相关特性分类,因为它包含一个健康平衡的良性和恶性案件。坚持验证利用OASBUD数据集分割成60%的训练,40%的测试集。SFS应用在训练集来确定表现最好的特性,这些特性的性能是评价使用测试集。三个不同的算法被用于分类:(i)再(资讯)Mahalanobis距离和K值为5,(ii)内核与线性支持向量机(SVM),和(3)随机森林(RF)。然而,预测未知数据的类示例基于类的“K”最近的样品通过多数投票计划。SVM识别线性超平面的特征空间最大化之间的边缘类和明显分类样本的数据。射频是一个健壮的装袋算法使用一个随机决策树分类的训练样本子集,使最终的分类预测通过多数投票。

ATL数据集被用来验证识别性能的相关特性,确保可转让性。由于有限数量的样本,ATL数据集不能作为完全独立的测试集,但是两个10倍分层交叉验证(SCV)和分析交叉验证(LOOCV)是用来评估ATL数据集上的性能特性,因为这两种方法都适合的绩效评估更小的数据集。此外,ATL数据集包含一个高不平衡比率(4:1之间的正面和负面的样品)。减轻,击杀和混合SMOTE-Tomek重采样技术被应用在ATL数据集,和性能的特性有或没有抽样进行了分析。击杀本身的积极(恶性)样本26到104年,提供一个完全平衡的场景。同时,SMOTE-Tomek过程减少负样本的数量(良性)从104年到93年,积极26个样本的数量增加到93,再提供一个完全平衡的场景。

分类结果进行评估通过分析接受者操作特征(ROC)曲线,特别是曲线下的面积(AUC)、灵敏度、特异性和准确性。AUC是一个标量值,范围在0和1之间(1表示显著的性能)代表一个分类的预测性能的任务。精度的总数的比例是正确的预测实例的数量在一个分类的任务。灵敏度是衡量正确分类积极实例(恶性案件)和特异性的正确分类-实例(良性病例)。MATLAB™(MathWorks公司,纳蒂克,MA)是用于开发模型和评估所有性能指标。

3所示。结果

1表示所有特性的平均值和标准偏差在良性和恶性的OASBUD数据集情况下,以及 价值和水平的统计学意义的功能。基于统计学意义分为三个水平 价值:不是统计学意义( )所示“~”,具有统计学意义( )表示“ ,“和极其重要的( )表示“ ”表2同样表示平均值和标准偏差为良性和恶性特征值情况下的ATL数据集,以及统计学意义的功能。

SFS应用的培训分OASBUD数据集确定4的16特性最重要的乳腺癌的诊断:(我) (零差K)(2) (零差K)(3) (Nakagami)(iv) (Nakagami)

3说明了这四个特征的代表盒和散点图OASBUD数据集。

3表示三个分类器获得的性能参数的测试部分OASBUD数据集使用4选择特性。图4说明了ROC曲线获得的三种分类器。

5说明了代表框和散点图的四个选择特性ATL的数据集。

4表示三个分类器获得的性能参数未取样的ATL数据使用10倍SCV和LOOCV 4选择特性。表5为ATL数据集提供了性能参数打应用后,和表6提供混合SMOTE-Tomek应用后的性能参数。

6说明了ROC曲线上的三个分类器获得的全部和重新取样ATL数据集使用的实例验证方案。

4所示。讨论

本研究提出了一种乳腺肿瘤分类系统使用三个主要类型的瘤内曲描述符。总共有16个不同的瞿参数提取乳腺瘤内地区的超声射频扫描,组成的光谱特性,包络统计特性和结构特性。顺序选择是用来确定最相关的特征子集对乳腺癌的诊断。

统计学意义的分析每一个16功能从OASBUD数据集(表中提取1),可以清楚地看到,信封统计特性(零差K特点: , , 和Nakagami特点: , , )显著多于光谱特性或纹理特性区分良性和恶性样本。类似的情况是观察表2信封,统计特性被发现统计上显著高于其他类型的提取特性为ATL数据集。

OASBUD数据集被用来确定最相关的什么特性的分类乳房病变,是积极和消极类的比例是相似的。利用平衡数据集使特征选择技术来识别关键特性,能有效区分正面和负面的类不偏向任何特定的类。所有四个特征选择的SFS算法相关包络统计数据。因此,似乎特征选择算法选择最统计相关的乳腺癌的诊断功能。具体地说,两个特性从零差K分布,选择和两个特性是选择从Nakagami分布。因此,本研究的一个重要发现是,包络统计特性能够隔离乳房病变类型之间更有效地比光谱和纹理特征分析研究。假设这可能是信封的事实统计能够描述组织的subresolutional属性比光谱分析和提供更多的区分能力比特性获得分析在超声信封图像像素之间的空间关系。

分析获得的性能参数测试的部分使用四个选择特征(表OASBUD数据集3),它可以观察到,所有三个分类器获得类似的AUC约0.96。的分类精度、灵敏度和特异性,获得的支持向量机分类器性能略低于资讯或射频分类器。获得最佳性能显然是使用射频分类器,分类准确率为95%,敏感性为95%,特异性为95%。

ATL数据集被用来验证识别相关的性能特性。然而,由于数量有限的样本在这项研究中,不能使用ATL数据集作为一个独立的测试集对模型训练只有OASBUD数据集进行分类。两个验证方案是用来证明性能不受任何偏见。10倍SCV和LOOCV都建立了验证方案,验证较小的数据集。

如前所述,ATL数据集包含一个高不平衡比率正面和负面的情况。可以观察到的影响从表中提供的性能参数4。这三种分类器无意中成为偏向消极类(代表大多数),灵敏度很低可观测的值和高特异性的值。10倍SCV和LOOCV,资讯分类器提供了最贫穷的性能。最佳的性能是通过射频标识符使用10倍SCV,温和的敏感性为65.38%,准确性为85.38%,和AUC为0.8711。

击杀的应用引入大量合成的正样本(代表少数类)。这显著提高性能,特别是敏感性(表5)。资讯分类器和射频分类器获得的最高灵敏度使用10倍SCV:分别为94.23%和92.31%。不过,敏感性和特异性的值之间的差异在这两种情况下,这两个分类器也相应地获得低特异性措施。因此,应用杀本身可能会引入偏向积极的少数类,尤其是高度不平衡数据集情况下如ATL,需要合成大量的样本。

考虑到这一点,利用混合SMOTE-Tomek过程,首先减少了多数类实例减少类之间的比例失衡,然后执行过采样。这种方法可以确保质量重新取样数据,随着样本数量的需要合成较低。分析表6,它可以观察到,敏感性和特异性之间的差距远低于表获得5,特别是对于上述两种情况。最好的射频性能得到的分类器,分类准确率为93.01%,敏感性为94.62%,特异性为91.4%,使用10倍,AUC 0.9660获得SCV和分类准确率为91.4%,敏感性为93.55%,特异性为89.25%,并使用LOOCV AUC 0.9640了。这两种情况下为乳腺肿瘤带来显著的性能表征。获得的结果与最近的两个multiparametric屈原研究乳腺癌的表7

应该注意的是,收购的过程信封在这部文学作品从其他不同统计特性。一般来说,包络统计特性估计拟合统计分布(即。,Nakagami或零差在几个小窗口生成ROI (K)27,28,33]。这之后,每个分布的统计参数(即。,Nakagami ,Nakagami ,和零差 )估计在每个窗口中,最后一个特征值作为参数值在平均所有的窗户(27,28,33]。这种方法可以减少信号衰减的影响在不同的深度。然而,在这项研究中,而不是使用windows,统计分布模型(Nakagami和零差K)是适用于肿瘤内的所有样本地区,和信封统计特性获得相应。这种方法被选中在它适合分布模型(即有大量的样本。,all the samples within the tumor), which ensures a more stable estimation of the statistical parameter for each distribution. However, it does not take into account signal attenuation like the methodology discussed previously, and future studies may analyze the impact of this on breast tumor characterization.

这项研究有一些局限性。首先,它利用有限的患者数据。理想情况下,这样的研究应该利用庞大的超声射频数据,应用特征选择大训练集,在一组重要的测试和验证性能。尽管两个数据集是利用在这项研究中,他们没有混合。这两个数据集获得的差异大约20年,因此,超声波信号的质量在OASBUD数据集应该远优于在ATL数据集。这可能是一个可能的原因的差异两个数据集(特性值表12)。此外,关注ATL数据集采样频率数据收集期间使用。一般来说,选择采样频率约为4倍传感器中心频率(56]。20 MHz采样频率用于传感器中心频率为7.5 MHz可能会导致信息丢失。应该注意的是,这种情况是在OASBUD数据集的情况下,使用一个40 MHz采样频率的换能器中央10 MHz的频率。因此,而不是结合两个数据集,数据集被人为地相结合,在最近收购了OASBUD数据集被用来识别相关特性,和ATL数据集被用来验证识别的性能特性。本研究的另一个限制是大不平衡出现在ATL数据集,这需要重采样技术的应用。在理想的情况下,抽样不应该应用于测试集,测试集的特点应该配合医疗数据可用在现实世界中,不平衡是非常普遍。然而,没有取样,本研究中使用的分类器变得非常强烈偏向于积极的多数类和提供灵敏度差,凸显了在表4。这是不可接受的,因为正确地识别恶性案件至关重要。本文中使用的重采样技术是为了显示,在一个情况下,积极和消极类相当平衡,确定功能将能够区分良性和恶性病变非常有效。实现这一目标考虑到性能明显改善,特别是在灵敏度方面,经过重采样技术被用来平衡ATL数据集(表56)。另一个问题是使用欠采样的方法。Tomek链接技术去除良性特征空间中样本接近恶性样本,这也不可避免的翻译过于乐观的结果。然而,在这项研究中,Tomek链接并不应用于ATL数据集本身,而是作为混合SMOTE-Tomek策略的一部分。Tomek链接在这个框架的目的是作为数据清洗方法和消除重叠打样品之后创建应用程序,而不是简单地删除良性最初出现在数据集的样本。这些技术通常利用应用程序后击杀,以防止过度泛化。接下来,在评估过程中所获得的超声信号的频谱谱特性不仅取决于组织属性还双向传递函数的传感器和超声波模块(系统的影响),相对应的梁属性双向范围依赖衍射函数(衍射效应)和声学衰减23]。因为大多数病变分析在这项研究中躺在类似的深度(2 - 3厘米),系统和衍射效果不会明显影响了光谱分析参数,因此,这些影响并不占在这项研究。然而,声衰减被认为是,因为它是已知的明显影响SL和MBF值获得超声图像(23]。此外,本研究选择顺序向前选择(SFS)来确定最相关的纹理特性,因为它是一个相对简单的包装技术已被证明是非常有效的57]。未来的研究可以分析更健壮的选择算法,如模糊粗糙集合选择程序(58)或合奏的选择方法(59]。

5。结论

本研究提出了一个乳房病变分类系统使用三个主要类型的瘤内曲描述符,可以从超声射频(RF)中提取数据。总共16瞿特性相应的光谱特性,提取包络统计特性和结构特性超声波患者数据。四个特征从信封统计被确认为最重要的特征选择。这四个特性能够区分肿瘤类型与高水平的准确性在两个数据集。这说明的能力确定良性和恶性乳腺病变的特征描述,并结合特征识别的研究工作有可能援助相关的诊断过程的无创性筛查和诊断乳腺肿瘤。本研究的范围,可以进一步增强将更先进的特征选择程序,将更多的病人数据,包括其他类型的特性分析,例如更先进的纹理特性的获得灰度运行长度矩阵(GLRLM)和灰度区大小的矩阵(GLSZM)技术,以及统计信息熵等特性。

数据可用性

OASBUD数据集通过Zenodo公开可用的存储库(10.5281 / zenodo.545928),而ATL数据集可以通过相应的作者在合理的请求。

的利益冲突

没有利益冲突。

确认

作者表示感谢美国Kaisar阿拉姆博士计算中心生物医学成像和造型,罗格斯大学,新泽西州州立大学提供的一个数据集和贡献的研究。