Text-to-image合成是计算机视觉的一个重要及具有挑战性的应用。许多有趣的和有意义的text-to-image合成模型被提出。然而,大多数的作品注重质量的合成图像,但很少考虑这些模型的大小。大型模型包含许多参数和延迟高,这使得它很难被部署在移动应用程序。为了解决这个问题,我们提出一个有效的架构CPGAN text-to-image生成对抗网络(GAN)基于规范polyadic分解(CPD)。它是一个通用的方法来设计的轻量级架构text-to-image甘。改善CPGAN的稳定性,我们引入调节增大,在培训过程中autoencoder的想法。实验结果证明我们的架构CPGAN可以维护生成的图像的质量和减少至少20%的参数和失败。
Text-to-image合成是一项具有挑战性的交叉生成,生成图像根据给定的文本。它从文本中提取常见的模态数据语义的数据转移到图像。Text-to-image合成在计算机视觉中扮演着越来越重要的作用。在过去的图像编辑图像。随着text-to-image合成的发展,图像也可以编辑文本,大大扩展了计算机视觉的应用。Text-to-image合成可以广泛应用于人机交互,如交叉检索(
传统text-to-image合成使用变分autoencoder (VAE),注意机制,递归神经网络(RNN)一步一步生成图像
然而,这些模型引入了许多约束和模块生成逼真的图像。这将大大增加参数和浮点操作每秒(失败)的模型。它需要更多的硬件资源(CPU、GPU内存和带宽)来部署这些模型。高的复杂性也会导致延迟。这大大限制了text-to-image GAN在移动终端中的应用。有必要压缩text-to-image GAN。规范polyadic分解(CPD)是一种简单高效的压缩方法和加速在张量分解模型。很多实现卷积神经网络(CNN)压缩基于CPD (
在本文中,我们提出一个通用的压缩架构CPGAN text-to-image GAN减少设计参数和失败。CPGAN重新设计每一层用CPD的原始神经网络。最初的卷积层分解为三个卷积层具有不同等级和小尺寸。一层小排名几乎没有参数。根据应用程序的需要,我们可以与不同的压缩比设计架构通过设置不同的排名。在训练过程中模型的不同,选择合适的学习速率是耗时的。为此,我们使用周期性学习速率(CLR) [
我们的贡献可以概括如下:
我们建议CPGAN减少参数和维护text-to-image GAN的生殖能力。这是一个设计的轻量级架构GAN一般方法。
减少高资源消耗引起的分解操作,我们训练CPGAN从头开始,不需要pretrain模型。我们所知,这是第一次用CPD设计不使用pretrained text-to-image GAN模型。
稳定的端到端培训,我们引入autoencoder的想法。培训后的添加解码器模块可以删除。
实验结果在两个代表交叉数据集(牛津- 102和幼崽)证明我们的架构CPGAN可以维护生成的图像的质量,减少失败的参数和原始模型有效地同时。在牛津- 102和幼崽,CPGAN执行更好的《盗梦空间》里的分数(是)和邻初始距离比原始模型(FID)。它减少了
剩下的纸是组织如下。介绍了我们的论文工作
神经网络的本质是输入数据矩阵的矩阵转换过程使用重量参数。每一层的神经网络是一个很大的张量,它可以分解成几个小的张量。规范polyadic分解(CPD)是一个标准的张量分解方法。这是希区柯克在1927年提出的(
丹顿et al。
阿斯特丽德et al。
Text-to-image合成是计算机视觉的一个分支,根据给定的文本生成图像。它可以用于图像编辑、交叉检索,艺术创作。氮化镓生成能力强。它能生成逼真的图像和被广泛用于图像生成。自芦苇et al。
里德et al。
徐et al。
在本节中,我们介绍了高效的体系结构的设计(CPGAN)和培训过程。
GAN由发电机和一个鉴别器一般而言,这两个卷积神经网络。卷积是一个四维张量的张量体重
CPD是一个近似法,一个张量分解为一个一阶张量的总和。CPD,张量
在卷积层,空间维度
执行重新排列和组合,我们可以得到以下三个连续表达式:
原始卷积层基于CPD和卷积分解三层。上面的图是原始过滤器的大小
我们把古典模型与原始模型GAN-int-cls压缩。这个模型最紧凑的结构和参数。主发电机的卷积层在其他类似于GAN-int-cls text-to-image GAN模型。我们重新设计GAN-int-cls展示我们的压缩架构的有效性和通用性。如图
CPGAN的架构。三个编码层蓝色虚线框表示的是三个分解滤波器卷积分解得到的原始层。
条件作用增强
Autoencoder (AE)是用于表示学习通过重建输入。分解架构是比原来的模型,这就增加了不稳定的训练。因此,我们使用AE稳定训练过程。AE由编码器和译码器。我们把每个卷积层作为卷积编码器,并添加一个解码器对应每一层。AE的培养目标是重建的损失。我们使用均方误差(MSE)
原始的发电机目标GAN-int-cls包含matching-aware损失和插值损失,如所示
在发电机模型的目标中,我们添加了KL散度和MSE重建损失到原始模型目标,见以下方程:
最初的模型,我们的模型的鉴别器目标既是matching-aware损失:
我们使用上面的计划从头开始训练一个有效的体系结构。所示的训练算法的算法
使用方程(
为文本添加CA模块嵌入和添加解码器层;
选择一个合适的学习速率的分解模型;
编码嵌入文本描述
饲料
样本
连接
更新鉴频器
更新发电机
抛弃所有的解码器和CPGAN训练。
我们进行广泛的实验评估拟议中的CPGAN。在
显示我们的方法的普遍性,我们选择经典模型GAN-int-cls作为我们的原始模型。GAN-int-cls一样,我们的方法是评估在幼崽
为了评估我们的模型,我们使用《盗梦空间》得分(是)和邻初始距离(FID)来评估质量生成的图像。是使用pretrained InceptionNet-V3判断生成的图像是清楚的和多样化。高分数意味着图像清晰和多样化。支撑材计算特性之间的距离真正的形象和假的形象是评价指标的补充。这两个指标被广泛用于评估生成图像的质量。
学习速率是一个非常重要的hyperparameter深度学习。合理的学习速率可以使模型收敛于最小值点,而不是当地的最佳点或鞍点。在本文中,我们使用CLR方法(
CLR是史密斯提出的。它改变了学习速率定期在迭代过程中,而不是一个固定值。它是用来找到最优学习速率自动代替手动实验。我们使用CLR学习速率设置。CLR方法需要设置三个参数,最低学习速率(min_lr),最大的学习速率(max_lr)和迭代。min_lr和max_lr学习速率的最小值和最大的价值,分别。迭代测试的迭代的数量在每个学习速率。我们增加了学习速率从0.00001到0.001,损失曲线在不同学习速率(见图
选择合适的学习速率CPGAN。(一)不同的学习速率牛津- 102的损失。(b)不同学习速率对幼崽的损失。
我们选择合适的学习速率根据斜率最大绝对标准。根据图
MultistepLR PyTorch学习速率衰减的方法。它有三个hyperparameters:初始学习速率(
在本文中,我们设置MultistepLR hyperparameters
在CP分解中,排名表示压缩比和很难选择。由于text-to-image合成任务的需要,我们设计轻量级模型在保证质量的前提下生成的图像。我们做大量的实验来平衡性能和压缩比。
如表所示
实验结果的不同等级比率CPGAN在牛津- 102。
| 比 | 支撑材 | 是 | 失败 | #参数 |
| 0.1 | 158.74 | 3.26±0.05 |
|
|
| 0.2 | 98.06 | 3.43±0.06 |
|
|
| 0.3 | 85.08 | 2.98±0.05 |
|
|
| 0.4 | 81.17 | 2.96±0.04 |
|
|
| 0.5 |
|
|
|
|
| 0.6 | 77.59 | 3.54±0.06 |
|
|
| 0.7 | 76.50 | 2.80±0.06 |
|
|
| 0.8 | 79.04 | 3.56±0.05 |
|
|
| 0.9 | 76.97 | 3.17±0.05 |
|
|
| 1.0 | 77.07 | 3.23±0.05 |
|
|
如表所示
表
对比我们的模型和原始模型。
| 模型 | 牛津- 102 | 幼崽 | 失败 | #参数 | ||
|---|---|---|---|---|---|---|
| 支撑材 | 是 | 支撑材 | 是 | |||
| 原始 | 79.55 | 2.66±0.03 | 68.79 | 2.88±0.04 |
|
|
| 重新设计 | 74.40 | 3.68±0.08 | 65.94 | 5.03±0.07 |
|
|
生成的图像由我们提出的模型和原始模型在牛津- 102。
生成的图像由我们提出的模型和原始模型在幼崽。
在本文中,我们提出一个简单而有效的架构基于CPD CPGAN。CPGAN可以减少大量参数和失败的原始模型。它也提高了同时生成的图像的质量。CPGAN模型设计过程中,我们将卷积层替换为三个CP分解小层达到一定的压缩。以稳定的训练过程中,我们引入调节增加减少文本嵌入稀疏造成的不稳定。以进一步提高端到端培训我们的模型,autoencoder是集成到模型的想法。每个分解一层一层可以被视为一个编码器,配上一个额外的译码器层。译码器层培训后可以删除。实验证明CPGAN参数减少了约23%和29%失败的小改进生成图像质量在牛津- 102。大量实验结果表明,我们建议的CPGAN可以设计一个有效text-to-image GAN。 We have also decomposed similar convolution layers in other GAN models and these experiment results were similar to the experiment results of GAN-int-cls. The main convolution layers of the generator in other text-to-image GAN models are similar to GAN-int-cls. It is applicable for other cross modal GANs to use CPD. In the existing methods, the rank is set manually, which is time-consuming. Therefore, the automatic selection of rank may be a research direction in the future.
本文使用的数据集是公共数据集可以通过访问以下网站:
作者宣称没有利益冲突有关的出版。