文摘
大量已标示数据的可用性在许多医学成像任务构成了重大挑战。即使在的可能性获得足够的数据,准确地标识数据的过程是一个艰苦和耗时,需要专业知识技能。再一次,数据不平衡的问题进一步加剧了上述问题,为许多机器学习算法提出了一个相当大的挑战。代替,开发算法的能力,可以利用大量的未标记数据和少量的带安全标签的数据时,同时展示数据的鲁棒性不平衡,可以在构建高效的分类提供了广阔的前景。这项工作提出了一个semisupervised相结合的学习方法自我训练和自主学习为乳腺癌组织病理学分类生成和选择pseudolabeled样本图片。小说pseudolabel生成和选择算法介绍了学习方案生成和选择高度自信pseudolabeled样本两类更易较少类。这样的学习方法提高性能通过共同学习模型和优化代pseudolabels unlabeled-target数据增加训练数据和再培训模型生成的标签。类平衡框架,可实现来说信心得分也提出了防止模型忽略样本少代表类(努力学习样本),因此有效地处理数据不平衡的问题。广泛BreakHis数据集上的实验评价该方法演示了该方法的有效性。
1。介绍
乳腺癌是女性最常见的癌症之一,全球第二个最常见的癌症,每年影响大约210万名妇女。统计从全球癌症报告记录,2018年估计有627000妇女死于乳腺癌[1]。这个数字是大约15%的所有女性癌症死亡。同时,最近的一份报告由美国癌症协会2019年的预报预测,将有近286600新病例的乳腺浸润性癌约63930新的无创性病例,在美国大约有41760妇女死亡(2]。这种令人担忧的趋势需要自动化的必要性乳腺癌检测和诊断(3]。计算机辅助检测和诊断(CAD)系统可以在乳腺癌的早期诊断很有帮助。早期检测是至关重要的,因为它可以帮助减少乳腺癌患者中的患病率(4]。
现有手册对乳腺癌的诊断方法包括使用放射学图像识别领域的异常。这些图像,然而,不能用于准确地确定肿瘤区域(5]。活组织检查(6并帮助识别一个癌变区域图像。乳房组织活检有助于病理组织学检查评估乳房组织的微观结构和元素。活检的结果仍然需要histopathologist仔细检查结果确认从histopathologist以来唯一临床公认的方法。然而,由于所提供的诊断活检组织和苏木精和伊红染色图像是重要的,经常有一些分歧最后诊断histopathologists [7]。与上述方法驱动相关的缺陷需要计算机辅助系统对乳腺癌的诊断系统提高诊断效率,增加诊断专家之间的一致性,减少时间,减轻负担histopathologists [4,8]。
深卷积神经网络(cnn)取得了巨大的成功在几个学科包括但不限于目标检测(9,10],分割[11),和分类(12,13]。最近的进步在机器学习和深度学习在医学诊断激励很多研究乳腺癌组织病理学图像的分类(14,15]。cnn的建设性质使得他们能够学习从分类数据的分层特性表示,这是基本原理cnn的成功完成任务。在特定情况下乳腺癌的分类,现有文献中采用了cnn工作在实现最先进的成果。一些文献中提到的这些方法都是基于hand-engineered特性(16- - - - - -18]。然而,依靠手工特性的方法效率低下,不健壮,他们仅仅是有益的组织病理学分类图像中提取足够的特性,更不用说,整个过程是一个费力而计算昂贵的一个。文献中提到的其他方法采用深度学习方法对乳腺癌组织病理学分类图像。深度学习方法提供了更好的替代方法,依靠hand-engineered特性,实现出色的性能在许多分类任务19- - - - - -22]。特别是卷积神经网络实现了先进的表演在乳腺癌组织病理学分类图像。在[23相比),作者两个二进制机器学习方案和多级分类乳腺癌组织学图像。在第一种方法中,作者提取一组手工特性通过袋子的单词和locality-constrained线性编码。他们用支持向量机训练的这些特性。接下来,他们尝试了结合hand-engineered特性与CNN以及CNN的特性与分类器的配置。BreakHis数据集,作者称精度在96.15%和98.33%之间的二元分类和multiclassification精度在83.31%和88.23%之间。类似的成功也被报道在8,24,25]。
尽管这些成功,也是相关的注意,深层与CNN模型关联意味着他们需要大量已标示数据在训练达到令人满意的结果。培训相对较小的数据量使得模型容易过度拟合和,随后,可怜的泛化。在医学成像领域,获得丰富的标签图像样本是一个重大的挑战,更不用说,还需要大量的图像示例帮助模型泛化能力的数据。标签图像样本的过程是一个耗时和昂贵的,需要专业知识。现有的方法在文献中提到执行的组织病理学分类图像采取培训CNN模型与随机初始化和数据增强技术,以提高模型的性能(23,25,26]。这种方法使一个模型能够适应新的数据模式与增强自己的数据样本,提高训练样本的数量。这些方法通常只使用带安全标签的数据时,由于学习过程是一个监督。然而,降低标签成本的有效途径和产生更多的训练样本,利用标记和未标记数据,通过semisupervised学习(SSL) (27,28]。Semisupervised学习的目标是将标记数据和未标记数据构建更好的学习者充分考虑监管知识由标记数据和无监督数据结构在无标号的(27]。semisupervised学习的核心是培训学习者带安全标签的数据时,使用学习者预测无标号数据标签。此外,相比获得已标示数据的过程中,标记和丰富的数据是相当便宜的。Semisupervised学习算法被采用在某些作品中提到的文献分类任务(27,29日- - - - - -34]。
在[35),作者报道的具有成本效益的主动学习方法分类深度图像。他们的建议的方法首先逐步提要样本无标号数据到CNN。那么显然分类样本选择和最丰富的样本通过一个选择标准和应用分类器的CNN。CNN模型之后更新user-annotated少数不确定样本添加到标记集和pseudolabeling大多数特定样本。然而,这种方法获得至少某些标记标签的示例和同时分配预测pseudolabels大多数特定的例子,和这种技术并不总是有用的36]。在[30.),作者利用标记数据和未标记数据培训深模型在学习周期。作者采用无监督特征学习和semisupervised学习。无监督特征学习是用于所有数据一旦开始主动学习管道和生成的参数用于初始化模型在每个主动学习周期。作者使用semisupervised学习上所有的数据在每一个学习周期,取代监督学习在标签的例子,这是典型的传统的主动学习方法。这项工作中采用的方法相似的作品(30.,37在pseudolabel是为每个标记生成的例子,但它不同于工作37],所有未标记的pseudolabeled而不是只有大多数高信任度样本。这项工作雇佣semisupervised学习与自我训练训练一个分类器,而不是采用主动学习。工作(29日古典的多媒体注释问题忽略不同标签之间的相关性结合标签相关矿业和semisupervised特征选择到一个单一的框架。他们的方法利用标记数据和未标记数据选择特性修正同时开采而标签的相关性和特性。相比之下,与选择功能通过semisupervised学习,我们的工作为未标记样本生成pseudolabels并选择最自信pseudolabeled样品通过pseudolabel生成和选择算法。通过将自主学习的概念纳入选择过程,模型的学习样本,和较少的类,而解决问题的模型偏差在选择样本。然后基本模型学习功能的标记数据和所选pseudolabeled样本在训练。我们也解决类不平衡问题通过引入类平衡框架。这两个问题没有解决他们的工作。
在[31日),作者提出一种名为semisupervised模型自适应semisupervised跨模态检索的特征选择。在他们semisupervised框架,无标号数据的标签是基于预测的标签传播。然后预测的无标号数据标签结合学习带安全标签的数据映射矩阵。同时,映射矩阵更新预测标签矩阵,从而确保原始特征分布将尽可能一致的语义分布在若干次迭代后的子空间。我们的工作相似之处提出工作对预测标签标记数据和预测结合的标签标记数据更新训练数据的另一个迭代。区别在于这样一个事实:我们的方法首先使用基础学习者预测pseudolabels标记样本后第一次训练学习者标记样本,而不是基于标签传播。然后,pseudolabel选择算法选择最自信pseudolabeled采样样本之前更新这些选择的训练样本pseudolabeled通过自我训练样本和标签样本。这个对比映射矩阵用于更新标签矩阵预测方法。再一次,我们的工作着重于生成自信pseudolabeled增加训练数据样本,对学习者进行更可靠的数据在训练,以及解决问题的类不平衡数据集模型展览同时确保事实公平选拔过程的学习,和较少的样本。此外,在工作32]介绍了小说区别的最小二乘回归(LSR)装备每个标签与调整向量。这种技术避免了错误的处罚远离边界的样本,同时促进了多类分类的几何距离扩大实例属于不同的类。作者分配一个适合每个样本概率向量,因此确保带安全标签的数据时,描述的贡献的重要性无标号实例根据其不确定性。我们的方法主要关注的是一代的可靠pseudolabeled样本增加训练数据。pseudolabeled样本的可靠性是由pseudolabel选择算法确保pseudolabeled样本的选择和最自信的概率。这可以防止错误的标签样本的情况被添加到训练样本。semisupervised学习方法也取决于自我训练和自主学习的概念,区分我们的方法的报道在我们的工作。相似点在于这样一个事实:他们提出的工作和我们的利用标记数据和未标记数据的学习过程。
为此,这项工作提出了一个新颖的semisupervised学习框架,使用自我训练和自我学习(SPL) [38)对乳腺癌组织病理学图像进行分类。自我训练是一种semisupervised技术能力的学习更好的决策边界标记和未标记数据。自我训练是通过交替的生成一组pseudolabels unlabeled-target域中的对应选择大的成绩和训练一个网络(通常通过微调)基于这些选择pseudolabels及其对应的pseudolabeled样品和标记的训练数据。这里的假设是,目标样本概率更高的预测是正确的,有更好的预测精度。在拟议的方法,生成的过程和选择pseudolabels实现通过小说pseudolabel生成和选择算法,选择只pseudolabels最高的概率。选择过程是基于SPL,在最初的学习阶段,选择“容易”样本,然后“hard-to-transfer”样本正逐渐以一种有意义的方式,使分类器更健壮。简而言之,这项工作的主要贡献如下:我们提出一个新的semisupervised学习框架,利用自我训练与自主学习在乳腺癌组织病理学分类图像通过制定损失最小化方案的问题,可以使用一个端到端的方法来解决。我们引入一个新的pseudolabel生成和选择算法选择pseudolabels相对高信任度的概率增加培训模型的训练样本。在培训模型,优化过程开始通过选择pseudolabeled样本与相对较高的信心(“简单”样本)然后逐渐增加了“硬”样本训练数据。这样可以确保pseudolabels精度高和防止错误的选择强化。解决类不平衡问题与自我训练方法在生成和选择pseudolabels有关,我们实施信心成绩来说,使用规范化的生成和选择pseudolabels均衡分布。我们获得重大精度性能BreakHis数据集比较先进的方法。
2。方法
我们提供一个概览的配方问题损失最小化方案可以使用一个端到端的方法来解决。自我训练和自主学习的概念应用于该方案也提出了。
2.1。预赛
对于一个给定的样本类,分类任务是定义为一个标准softmax损失源数据作为输入的标签 和目标数据 :
在方程(1),其目的是产生一个分类器能够正确分类样本的测试目标,以最小的损失。尽管如此,基于假设通常有一个有限的标记目标数据(可能只有一小部分感兴趣的类别),有效转移的表示变得有限。因此,分类器放弃较少类样本的学习过程,只关注上流阶级样本。这最终会阻碍分类器的学习能力强劲的表现。学习分类器的两个关键问题在于得分函数和一个健壮的有效配方配方的损失函数。再次,学习者的健壮性取决于配方的损失函数,以减轻噪声的影响和混乱的数据39]。此外,在[工作40,41]证明了替代SPL解决优化问题的优化算法等价于一个健壮的损失最小化问题解决majorization-minimization算法。针对这一点,问题是制定减少损失函数: 表示图像的源域索引 。 代表真正的标签图像(n= 1,2,…,N) 。W表示网络权重。 将softmax输出包含类的概率。类似的定义保持 和 在评估。这个问题制定不同于(35),样品的数量表示为联盟告诉自己高信任度样品和手动标注样本由一个活跃的用户。我们进一步制定减少损失函数方程(3)。不可用的情况下一些目标标签,这些标签都认为是隐藏的,近似的模型学习目标标签为(样本)。在方程(3),称为pseudolabels:
2.2。自我训练与自主学习
Semisupervised学习方法通常采用自我训练利用未标记样本(42- - - - - -45]。假设的基础上传统的自我训练,学习者可以加强早期错误的错误的预测在接下来的训练集训练迭代。为了解决这个问题,一个更好的选择是采取添加样品采用“easy-to-hard”的方法通过自主学习。在自主学习的主要思想是生成pseudolabels从“简单”的预测,理由是这些近似正确标签是正确的和近似地面真理标签,然后探索“硬”或缺乏自信pseudolabels更新模型。这项工作中使用的自我训练过程中算法1。深CNN模型是第一次与标记训练样本。然后模型用于预测无标号数据生成pseudolabels 。类似于(30.),所有未标记样本pseudolabeled。小说类平衡机制选择算法是用于选择nonannotated和样品highest-confident概率预测。这些样本连同他们的近似标签被添加到训练集训练迭代。这个循环执行迭代直到满足停止条件。我们的方法的总体工作流程见图1。
|
||||||||||||||||||||||||
将自主学习和自我训练方案,损失函数修改如下:
在培训期间,被分配到零,这意味着将被忽略。调节pseudolabeled样本的数量被选中的类,介绍了。大量的选择pseudolabels是同义的一个较大的值 。添加在方程(4来说)引入了一个偏见方案,当选择pseudolabels处理类不平衡问题。pseudolabel选择过程是完成两个步骤:(1)初始化和最小化损失(方程(4)关于和(2)集和优化的目标函数关于 。我们认为执行步骤1和2的过程作为一个迭代和两个步骤重复或者几个迭代。解决步骤1的任务需要一个非线性函数,因此,第一步是reexpressed
来说一个偏见的介绍正常化来说信心成绩区分这个配方的提议在21作者采取了)调整,以避免pseudolabels的场景,最被忽略。在解决pseudolabel框架优化器,工作在21)利用表达的解决以下方程:
有了这样一个配方,生成和选择的过程pseudolabels取决于输出概率 。本质上,这种方法不能处理类不平衡问题。为了解决这个问题,方程(3)reexpressed如下:
在方程(最小化优化框架7的损失函数)是通过使用方程(5来说),但解算器,包含了规范术语(不同于一个提议21])表示为
生成和选择的过程来说pseudolabeled样本依赖于标准化的输出 在方程(8)。使用归一化输出确保平衡朝着类分数较低但同类信心得分高的过程中分配pseudolabels未标记样本。
调节pseudolabeled样本选择的数量在每个训练迭代更新模型,设置使用算法的过程吗2。在发现和修复一个值 ,排名算法C类概率预测的全部样本图像为C类。这样设置在迭代的概率等于排名吗 ,与图像的数量预测作为每个未标记样本的类c,最大输出概率摄于降序排列这些概率是解决所有样本。优化pseudolabels导致 最自信pseudolabeled样本(用于训练模型是一个按比例缩小的比例[0,1])。这样一个计划可以确保概率排名 是独立于每个类(1)阈值的信心得分和(2)正常化的信心的分数。首先初始化最有信心的预测的10%,在每一个额外的回合,5%添加到下一个pseudolabel生成和选择的过程。
|
||||||||||||||||||||||||||||||||||
3所示。材料和实验
3.1。数据集
我们对BreakHis数据集进行实验18]。BreakHis数据集包含良性和恶性乳腺肿瘤的显微切片图像共计7909张图片。图像样本来自乳腺组织活检幻灯片,苏木精和伊红染色(他)。每个图像的像素大小为700×460 (PNG格式),三路RGB,并在每个通道8位深度。良性和恶性类都进一步细分为四个不同的类型。良性的亚型类腺病、纤维腺瘤、叶状柄肿瘤和表格腺瘤。恶性类导管癌亚型,小叶癌、粘液癌,乳头状癌。获得的图像使用四个放大因素−40 x, 100倍,200倍,400倍。图片展览细粒度特征图像不同的类之间只有细微的差别以及较高的一致性,这是典型的癌细胞。这些因素,加上这一事实在同一类图像有不同的对比和决议,使BreakHis数据集具有挑战性,更不用说亚型的高不平衡类(2480图像属于良性类和5429个图像属于恶性类)。 Figure2从每个亚型类和表显示了示例图像1显示了每个类的分布图像。
3.2。实验设置
的pretrained Inception_ResNetV2 [46),Inception_V3模式的一种变体47),被用来作为基准模型实验。Inception_ResNetV2能够大大提高分类和识别性能在低计算成本。输入图像的大小为299×299之前美联储到模型中。在充分监督学习阶段,调整基线模型初始化模型权重也降低方差。微调的pretrained模型已经证明是一种有效的方法来实现更高的结果即使在小规模的数据。监督学习阶段,模型训练总共五十(50)时代使用亚当优化器(48), , 和一个初始学习通过多项式衰减率0.001的腐朽调度(用方程表示9))。一个多项式衰减调度允许学习速率衰减在固定数量的时代: initLR基础学习速率,是时代的总数,是权力指数,它被设置为1。模型训练与批处理大小为32。随机旋转的范围和水平翻转被实现为数据增加技术协助打击过度拟合。自我训练阶段,模型也与hyperparameters重新训练用5%、10%、和20%的pseudolabeled未标记的样本数据。70%的数据作为训练数据,30%添加到测试样品的无标号数据作为自我训练计划。训练数据进一步分成70:30%比例作为培训和验证数据,分别。模型训练总共5在semisupervised阶段迭代。我们尝试了5 8和10个迭代和意识到不仅8和10个迭代花太多时间来训练,他们也没有显著贡献模型的精度比训练5次迭代。有效地优化训练时间,我们决定为5迭代训练这导致优秀的准确性在有限的时间内。每个实验重复三次,结果取平均值。迭代时停止没有进一步提高精度。
该方法不会增加额外的计算开销在训练期间,允许训练在一个有效的方式完成。所有实验的平均总培训时间如表所示2和3,分别。所有的实验都使用Keras(2.2.4版)与TensorFlow后端(版本1.12)和CUDA 9.0。两个RTX 2080图形卡,每8 GB内存和32 GB RAM,担任硬件平台。评价指标用于访问模型分类精度,精度,还记得,F1-score,混淆矩阵。这些参数与真阳性(TP),真阴性(TN),假阳性(FP),分别和假阴性(FN)率。真正的积极措施如何正确分类器预测积极类。真阴性正确衡量分类器预测负类。假阳性衡量,不正确,分类器预测积极类。假阴性衡量,不正确,一个分类器预测负类。
4所示。结果与讨论
该方案评估使用前5%,10%和20% pseudolabeled样本。报告和调查的目的,我们也报告值获得当所有pseudolabeled样品(100%)。我们提出并讨论结果为二进制和多级分类任务。
4.1。二元分类
二进制分类任务的实验结果如表所示4。图像的放大倍数40 x,精度最好的结果是99.52% - 10%顶部pseudolabeled样本选择。类似地,100倍的放大倍数,最好的精度结果pseudolabeled样品前99.44% - 5%。使用10% pseudolabeled样本导致99.48%的精度对图像放大倍数为200 x,和使用最高——10%取得了99.47%的精度结果与图像扫描400 x。
的生成和选择pseudolabeled样品通过提出策划是一个至关重要的关键在控制和确定pseudolabeled样本选择的数量在下一次迭代更新模型。选择方案,加上自我学习和自我训练的方法确保类表示最少的否则会被忽视了,还是选择并添加到训练样本。这被证明是一个有效的和高效的学习过程。再一次,结果在表4显示选择顶部pseudolabels被证明是更有效的方法,而不是使用所有pseudolabeled样本。提议的方法的精度结果显示显著提高准确性。
的准确性和损失情节40和100 x数据所示3和4分别表示地块为200 x 400 x。深层网络训练时,过度拟合仍然是一个重要的问题需要解决,因为它影响的能力训练模型来概括新数据。它是观察到的情节,准确性和损失值是不稳定的,直到时代30(在监督学习阶段)。值一直跳跃在不同的时间间隔从一开始的训练直到时代三十。我们把这种现象归因于距离源和目标数据之间的差距。在微调pretrained模型二次任务,有假设源和目标域是相互关联的。然而,在这种情况下,不满足这种假设,蛮力转移学习可能不会成功,即使在最坏的情况下,降低学习的性能在目标域(49]。
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
pretrained模型用作ImageNet的基准模型训练数据集(由自然图像)对BreakHis数据集包含乳腺癌组织病理学图像。这样,在监督训练的开始阶段,该模型开始学习这个相对较新的模式从目标域(乳腺癌图像)导致峰值所描述的情节。然而,三十岁过去的时代,大幅下跌的损失值是观察和精度值稳步增加。年底时代五十,损失值大大降低,训练和验证准确性(监督学习阶段和自我训练阶段)几乎是一致的。这是一个迹象表明,提出的方法也有效地抑制了过度拟合。BreakHis数据集的不平衡性质意味着独自精度不能被用于访问的性能模型。结果精度、召回和F1-score值也呈现在表5。混淆矩阵也呈现在图5。BreakHis数据集包含更多样本的类恶性与良性类相比,这也反映在混淆矩阵。尽管如此,遴选过程一起类平衡框架采用这项工作确保模型的准确分类以最小的虚假陈述各自的类。
(一)
(b)
(c)
(d)
4.2。多类分类
总结了多类分类的精度结果表6。在40 x,图像扫描获得的最高精度是94.28% - 10%选择pseudolabels顶部。100年x,最好的精度是93.84% - 20%选择pseudolabels顶部。选择最高——5% pseudolabels取得了94.93%的精度对图像扫描的放大倍数200 x。扫描图像的放大倍数400倍,最好的精度是93.75% - 10%选择pseudolabels顶部。类似于二进制分类任务,选择顶部pseudolabels增加训练样本在接下来的训练迭代被证明是更有效的比选择pseudolabels。这一结果进一步基本的意义在建议的方法。
损失和准确性的情节(在40和100 x)图像扫描图所示6和相应的情节为200 x 400 x图所示7。情节遵循从解释的性质提供二进制分类图。精度、召回和F1-score值表中提供7和所有放大因素的混淆矩阵在图提供8。
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
混淆矩阵也带来了不平衡数据集。性导管癌类样本比其余类腺病类有最少的样本。结果,这两个类代表最高和最低的样品数量,如图8。再次的微妙性质不同的图像的外观/不同的类也构成挑战模型准确地类之间的差别。在[23),作者指出这种困难,特别是当区分性导管癌和小叶癌以及纤维腺瘤和表格腺瘤。然而,从混淆矩阵,可以看出这样的虚假陈述实际上是由该方法。性导管癌和小叶癌之间,平均四个样本之间的歪曲,而纤维腺瘤和管状腺瘤,只有两个样品歪曲对图像扫描的放大倍数200 x。
准确性、精密、召回和F1-score值以及混淆矩阵所有显示使用的有效性在确定的比例pseudolabels用于在每个训练迭代更新模型也证明添加样品在一个“easy-to-hard”的方法确保即使是最少样品仍在培训过程中考虑。总的来说,这些计划导致模型非常多才多艺的和健壮的即使面对图像样本之间的相似性和一致性数据集。
4.3。与其他作品
我们比较建议的方法的性能与其他提到的文学作品如表所示8二进制分类任务)和表9分别(多级分类的任务)。所有这些underlisted BreakHis数据集先进的方法进行评估,提供一个公平的比较和评估建议的方法在这工作。工作(23)利用CNN模型组成的五个卷积层和两层完全连接二进制和多级分类的任务。使用一个方法,作者报道的准确性为98.33%,97.12%,97.85%,96.15%,放大因素40 x, x 100 x 200 x,和400的二进制分类任务。多级分类,他们报告的准确性88.23%,84.64%,83.31%,83.39%,40 x放大因素,100倍,200倍,400倍。
在[24),作者提出了一个结构化的深度学习模型分类乳腺癌组织病理学图像。在他们的工作中,作者认为组织病理学特征空间相似性的图像通过利用内部和组内的标签作为先验知识。他们还采用了数据扩充方案,生成更多的数据模型在训练。使用pretrained深CNN模型作为基础网络,作者报道的准确性为95.8%,96.9%,96.7%,和94.9%的二元分类任务。多级任务时,他们报告的准确性92.8%,93.9%,93.7%,92.9%,40 x放大因素,100 x 200 x,和400 x。它可以观察到,他们的方法取得了0.06%的增益精度对图像扫描在100 x多级任务相比,我们的方法。数据扩增方法的工作积累更多的数据用于模型在微调阶段相比,我们的方法和他们的整体方法是一个监督(即只使用带安全标签的数据时)而不是semisupervised时尚在我们的(SSL住假设有标记样本比标记样本(27])。,尽管我们的方法产生了重大的精度改善其他放大因素。
在[51),作者提出了一个新颖的L-Isomap-aided流形学习和堆叠稀疏autoencoder公元前一个健壮的框架分类使用他。作者报道的准确性为96.8%,98.1%,98.2%,97.5%,图像放大40 x因素,100倍,200倍,400倍,分别。在[50),作者使用了CNN模型从输入图像中提取本地和频域信息分类乳腺癌BreakHis数据集上的图像。他们报告的准确性为94.40%,95.93%,97.19%,和96.00%的二元分类任务。文献中提到的这些算法只利用监督学习方法。
在这项工作中,我们有70%的数据用于训练在监督学习阶段,剩下的30%是添加到测试集无标号数据用于自我训练阶段。最自信的选择pseudolabeled样品增加训练样本已被证明有效的为模型提供可靠的样本,并最终扩大训练集,从而提供更多的数据模型(以满足饥饿的模型更多的数据)。该方法的有效性,结果是显而易见的,这描绘重大精度的改进与上述方法相比,主要是监督学习方法,只有带安全标签的数据时使用。该算法已经在乳腺癌组织病理学检测图像,因为它符合我们的研究目标。因此,我们迅速增加,该算法的意义并不局限或专门为乳腺癌的分类。根据获得的结果,我们相信,这个算法可以扩展到其他分类任务在医学成像或计算机视觉寻求雇佣semisupervised学习技术在解决各种任务。
5。结论
获得大量的已标示数据在医学领域是一项具挑战性的工作,更乏味的任务是准确地提供标签的数据。在这项工作中,我们提出了一个semisupervised学习培训方案相结合的自主学习模式和自我训练模型标记和未标记数据。自主学习起着至关重要的作用在抑制钢筋的问题错误,在错误pseudolabels钢筋为训练样本生成的。根据选择pseudolabels最自信的概率,我们展示提出了一种新颖的选择算法向CNN模型只有pseudolabels最有信心。实验结果使用前5%,10%和20%生成pseudolabels训练表现出了重大的精度改进二进制和多级分类任务相比,最先进的方法。对于未来的工作,我们打算把多样性融入自主学习计划,以及结合组织病理学图像的特征空间的相似之处。这些元素的结合到自主学习计划将导致一个多才多艺的和健壮的学习者。
数据可用性
这项工作中所使用的数据可以从[18](DOI:https://doi.org/10.1109/TBME.2015.2496264)。
的利益冲突
作者宣称他们没有利益冲突有关的出版。