文摘

背景。交互式翻译是一种有效的教育功能掌握心脏解剖学。加强学生的理解进行像素级超声心动图和理论上素描图像之间的翻译。先前的研究图像分割和合成的分裂成两个方面。这将很难实现进行像素级对应的翻译。除此之外,它还具有挑战性利用deep-learning-based方法在每个阶段,为数不多的注释是可用的。方法。解决有限的交互式翻译注释,我们提出一个两步转移学习方法。首先,我们训练父母两个独立的网络,超声波草图(u2)父母网络和素描超声波(S2U)父母网络。u2翻译是类似于分割与部门边界推理任务。因此,u2父母网络与U-Net训练网络的公共数据集分割VOC2012。S2U旨在恢复超声纹理。S2U父母网络是译码器网络,产生超声随机输入的数据。编码器pretraining父网络后,网络连接S2U父母网络超声波图像转化为素描图像。我们共同把学习u2和S2U CGAN框架之内。结果和结论。 Quantitative and qualitative contrast from 1-shot, 5-shot, and 10-shot transfer learning show the effectiveness of the proposed algorithm. The interactive translation is achieved with few-shot transfer learning. Thus, the development of new applications from scratch is accelerated. Our few-shot transfer learning has great potential in the biomedical computer-aided image translation field, where annotation data are extremely precious.

1。背景

超声心动图教育极大地帮助学生掌握心脏结构评估结合心脏超声图像与模拟器。然而,一个更有效的方法之间的交互式翻译理论上超声图像和素描图像仍然缺乏。这将导致图像处理的困难在我们的例子中:超声心动图特点是可变形的外观和空间分辨率差,而有限的注释,建筑障碍实现良好的性能以及利用先进的深度学习方法。

u2和S2U往往在不同的调查方法。u2通常分割中指定的任务。用以下方法:它是解决水平集(LS) [1分割,可变形模板(2,3),主动形状模型(ASM) [4,5),活动轮廓的方法,主动外观模型(AAM),自底向上的方法,Database-guided (DB-guided)分割。LS和可变形模板存在一些缺点关于先验知识中优化功能。活动轮廓的方法激励的发展水平集方法(LS)。ASM -和DB-guided方法需要大量的注释的图片(6]。自底向上的方法对初始条件敏感和缺乏鲁棒性。此外,这些方法是用来推断该行业边界,这是必不可少的理解在教育。

S2U典型模型的组织响应作为一个集合点散射中心(7]。不同振幅被分配到散射从血池或肌肉。然而,由于忽略周围的条件,如乳头肌、杂波噪声,和当地的强度变化,合成超声波图像的真实性仍不满意。一些改进的结合超声记录作为模板合成真实的斑纹材质提出了解决上述问题(8,9]。然而,这些方法在模拟散斑结构不可避免地引入了不切实际的扭曲。

GAN-based翻译方法最近在生成显示其潜在应用程序(10]。结构(11和纹理12,13代探索在不同的应用程序。同时给一位杰出的性能,氮化镓方法需要足够的注释,这是费时和昂贵的生物医学应用。

在本文中,我们设计一个GAN-based转移学习框架交互超声波图像转化为素描图像(u2翻译)和素描图像成超声图像(S2U翻译)和少量的注释。图1显示了示例的结果最终u2翻译和S2U翻译。

2。方法

我们的方法的交互式翻译包括两个步骤:pretrain u2父母网络和S2U父母一起网络和训练两个网络的端到端传输的学习。

转移学习用于快速适应和避免过度拟合,因为我们只有少量的注释。在我们的例子中,家长网络精心设计和pretrained监督和非监督学习。GAN-based few-shot转移学习然后用来微调最终结果。

拟议的u2网络(图2)包含一个家长网络,遵循U-net [14)的体系结构。摘要U-net结构包含10块层。前五块卷积downsampling网络。内核大小是3步是2,和填充是1。每一层是紧随其后的是一批标准层和relu层。相应地,过去的五层deconvolutional upsampling网络。其内核大小是4,跨越2,填充是1。批处理规范和relu层也采用。Skip-connection实现对称层之间的连接层。u2父母网络pretrained VOC2012数据集(15]。在pretraining过程中,损失函数是class-balanced叉。

当父母u2网络准备好了,我们就会转移u2父网络进入草图转换。条件生成对抗网络(CGAN) (16转移过程中)框架选择这里学习来推断部门边界。现在,u2父母网络被认为是一代网络CGAN的一部分。它将超声波图像转化为素描图像。CGAN框架可以直观地生成与部门素描图像边界。同时,我们添加L1损失作为一个可选的标准。

在方程(1),D年代鉴频器。它包含5块层。块层包含卷积、批量标准化和relu层。D年代确定输入图像转换数据或地面实况。年代代表了地面实况图像素描。U代表地面实况超声波图像。G年代是发电机(与u2父母网络初始化)。它将超声图像转化为一个素描形象。

从草图S2U复苏超声纹理。素描图像仅包含结构和纹理信息。我们首先提取和维护结构内的父母网络,然后合成纹理在特定的草图。

如图3S2U父网络是译码器网络。我们的方法训练GAN生成一个超声图像随机输入的条件。这样,氮化镓的发电机部分,S2U父母网络学习超声纹理从训练数据集。S2U父母网络由4块层。第一个3块包含一个反褶积层,一批标准化层,和一个relu层。最后一块包含一个反褶积层和双曲正切层。

S2U父网络训练阶段如图4。发电机和鉴别器损失图表中列出第二行。S2U父母网络的结果是第一行所示。发电机和鉴频器。因此,发电机学习增长质量的超声纹理。

当父母S2U网络准备好了,我们可以前进S2U转移学习。直到现在,我们S2U父母网络仍有两个缺陷。首先,它不能生成一个超声图像素描输入的条件,即使进行像素级的翻译。其次,出人意料的转折和图像模糊发生在超声波父母网络。

旨在弥补这两个缺陷,我们进一步改革网络S2U架构,如图5。Pretrained S2U父母网络是深蓝色的部分。在浅蓝色连接到一个编码器网络明显S2U父母网络。这种联系使得一代从草图到超声图像,从随机初始化。事实上,编码器网络素描图像转化为随机输入的子集。因此,转移学习学习素描和超声图像之间的对应pixel-wise翻译。此外,知觉损失(17)和全变差损失损失函数。我们试图最大化的空间分辨率的忠诚通过最小化GAN损失和知觉损失。损失函数所示

直观地说,S2U类似于方程的损失函数(1)。DU鉴频器。它确定输入图像合成的网络,或来自地面的真相。DU有5块层,如图5U代表超声波地面实况。GU是发电机(海军编码器和译码器的组合)。它将素描图像转化为超声波图像。

lPcpt是地面真理之间的感知损失超声波图像和生成的超声图像。这里的感知损失计算的特征图谱VGG16网络,更不变的像素空间的变化(18]。l电视是生成的L1平滑图像。λ1,λ2,λ3摘要6e−3、2e−8,1,可以进一步优化。

正如上面提到的,损失函数在u2在S2U相似。他们都是训练有素的CGAN框架下。此外,它们共享相同的输入对。在数据24,我们强调这种相似性,标志着黄色的缓冲块。

因此,我们整合u2和S2U交互式翻译。

转移学习期间,S2U网络训练与TVL1损失,知觉丧失、L1损失,和CGAN损失保持超声纹理。转让后学习两个网络,每个网络分成下面的交互式应用程序(图6展示了我们的应用程序)。

2.1。交互式u2翻译

在某些情况下,学生将仔细研究静态图片,在动态回波视频捕获。在这种互动过程中,当地应该放大,转化为一个草图以极快的速度。否则,互动会卡住,导致一次可怕的经历。

在这篇文章中,我们完成草图翻译的互动。然后选择感兴趣的区域(ROI)并放大到原始图像的大小。注意,素描图像是黑白图像,选择三次插值放大。三次插值是高效的和足够的识别。

2.2。视频u2翻译

在培训期间,自动u2翻译将极大地帮助学生理解。在这里,我们把u2网络部分从整个网络。u2网络输入超声图像和输出素描图像。所以每一帧是翻译成素描图像。我们处理一帧,将所有帧转换成视频。这翻译素描视频动态对比超声心动图来说明结构信息。

2.3。交互式S2U翻译

如果学生画了一个草图,概述了心脏结构、素描与临床超声图像如何?反过来,这种互动可以发人深省和帮助理解。

我们提取译码器网络S2U父母网络和把它变成一个S2U网络编码器网络。S2U输入草图和输出超声波图像。它严格生成输出适当的超声纹理。所以,学生完成他们的草图在画板后,素描图像交互可以翻译成超声波图像。

3所示。结果

在本节中,我们比较u2的方法翻译和S2U翻译1次,5岁,10-shot转移学习。首先,通过视觉的性能进行了分析比较和转移学习过程的可视化。然后,性能是研究通过数值比较。每个实验数值的比较,总结了通过45条注释。此外,我们补充S2U翻译性能有或没有知觉丧失和TVL1损失在数值比较。

3.1。数据集

两个数据集使用本文VOC2012和超声心动图数据集。VOC2012开放访问细分数据集用于pretraining u2的父母网络。超声心动图数据集收集在医院医生的指导下。它包含5152四腔心切面echocardiographs没有注释,和55对注释四腔心切面echocardiographs(在本文中,我们使用10双培训和左45双带注释的图像进行验证)。这些注释是由医生和艺术教师的团队精神。图像与室完全注释(心房和心室),部门边界和心肌。敏感的患者信息是手动删除。

3.2。视觉比较

选择一双验证图像分析我们提出了网络的性能。如图7,左列是一对地面真理。第一行显示S2U结果1次,5岁,10-shot。心肌和室之间的反差越来越明显而输入更多转移学习数据。图像分辨率是越来越好,使心肌更为现实。

与真正的超声波图像相比,S2U结果的结构更类似于训练数据。蓝色的酒吧和一些评论从训练数据合成S2U结果。在第二行,1次,5岁和10-shot u2订单所示的结果。u2的结果是得到的形状类似于地面真理。u2的行业边界也越来越合理的训练数据。

3.3。转移学习过程

传输性能的学习过程研究在两个方面,损失函数值和相应的性能在训练。的损失函数值S2U和u2是一个代表,显示在图5岁8

作为显示在图8,第一行是第一个三个方面lU,第二行是条款l年代。鉴别器和生成器S2U和u2的损失是前两个图片在第一行和第二行。S2U和u2,发电机和相互鉴别器大赛,而知觉丧失S2U和L1 u2保持下降的损失。敌对的损失函数和额外的损失函数共同调整最终结果。图9显示了性能测试数据。

在图9,十字路口在联盟(借据)和峰值信噪比(PSNR)结果是典型地体现在1次,5岁,10-shot。由于该损失函数,S2U培训期间和u2实现提高性能。具体来说,训练样本越多,性能就越好。比5岁10-shot转移学习达到更好的性能,而5岁达到更好的性能比1次。

3.4。数值比较

在u2的翻译中,我们采用掷骰子的医学图像分割指数损失,容积重叠误差(小海湾),和交叉联盟(借据)。在S2U翻译,我们使用峰值信噪比(PSNR)和结构相似度指数(SSIM)来评估我们的表现。

下面的有说服力的结果(表12)显示的有效性提出few-shot转移学习1次,5岁,10-shot。在表1的逐渐增加训练样本会导致更好的性能指数。在表2的索引PSNR和SSIM相比,没有额外的损失函数。

如表所示1few-shot学习导致了可接受的结果在所有的索引。它使我们现在u2的初始版本功能而缺乏注释。

据表的结果2S2U,训练有素的知觉和TVL1损失通常是更好的没有这些损失函数。

4所示。结论

本文提出了交互式few-shot GAN转移学习超声心动图翻译。u2父母网络和S2U父母网络单独设计和事先pretrained。然后,他们转移学习组装在一起。这个联合学习转移先验知识转移到目标网络。定性分析和可视化的视觉比较转移的学习过程,定量分析数值指数显示了该方法的有效性。

该方法有两个优点在先前的研究。首先,它同时实现超声波和素描图像之间的交互式翻译few-shot注释,使一个新的教育互动功能之前足够的注释。其次,也希望与更多的培训数据和承诺进一步改善其他相关生物医学应用。

数据可用性

在当前的研究中使用数据集的一部分是可以从相应的作者在一个合理的请求。我们的代码是开源:https://github.com/tlok666/Interactive-Echocardiograhpy-Translation-with-Few-Shot-GAN

伦理批准

这个研究是医学伦理委员会批准的华西医院,四川大学,从每个参与者获得的书面知情同意。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

长腾了同样的工作。长腾,ZhongLiang傅,Kai朱镕基设计研究。长腾完成的所有代码和纸材料。张钱妈,Bing, Ping Li准备数据集。玉姚负责该算法的应用。

确认

作者要感谢医生的麻醉学,华西医院,四川大学,对他们有用的贡献与收集和验证数据。这项研究是由四川省新一代的人工智能主要特殊项目(批准号2018 gzdzx0036)。