基于正则多进分解的文本-图像生成对抗网络体系结构设计

摘要

文本-图像合成是计算机视觉的一个重要而富有挑战性的应用，已经提出了许多有意义和有意义的文本到图像合成模型，但是大多数的工作都关注合成图像的质量，但很少考虑这些模型的大小，大模型包含许多参数和高延迟，为了解决这一问题，我们提出了一种基于规范多位分解（CPD）的文本图像生成对抗网络（GAN）的高效体系结构CPGAN为了提高CPGAN的稳定性，我们在训练过程中引入了条件增强和自动编码器的思想。实验结果证明，我们的CPGAN结构可以保持生成图像的质量，并将参数减少至少20%失败和失败。

1.导言

文本到图像的合成是一种具有挑战性的交叉模态生成，它根据给定的文本生成图像。它从文本中提取公共模态数据，并将语义数据转换为图像。文本-图像合成在计算机视觉中起着越来越重要的作用。图像是由过去的图像编辑的。随着文本到图像合成技术的发展，图像也可以通过文本进行编辑，这极大地扩展了计算机视觉的应用。文本-图像合成可广泛应用于人机交互，如交叉模态检索[1]艺术创作[2，3.]．

传统的文本图像合成采用变分自动编码器（VAE）、注意机制和递归神经网络（RNN）逐步生成图像[4，5]．由于VAE生成能力的限制，生成的图像不如真实图像清晰。2014年Goodfellow等人提出了一种新的生成模型GAN [6]．GAN由于其强大的生成能力而成为图像生成任务中的一种流行模型。Reed等人[7]证明了GAN可以从文本描述中生成清晰的图像，并提出了GAN int cls。它使用DCGAN作为主干，文本嵌入和随机噪声作为生成器的输入。生成的图像、文本嵌入和真实图像是鉴别器的输入。随后，提出了许多复杂的模型。这些模型els可以根据一般文本、场景图或对话框生成图像，生成的图像质量得到了很大的提高。

然而，这些模型引入了许多约束和模块来生成真实的图像。这将大大增加模型的参数和每秒浮点运算（flops）。部署这些模型将需要越来越多的硬件资源（CPU、GPU、内存和带宽）。高复杂性也会导致高延迟。这极大地限制了移动终端中文本图像转换的应用。有必要将文本压缩为图像。正则多元分解（CPD）是张量分解中压缩和加速模型的一种简单有效的方法。基于CPD的卷积神经网络（CNN）压缩的许多实现[7- - - - - -9]已经有人提议了。

在本文中，我们提出了一种通用的压缩结构CPGAN，用于设计文本到图像的GAN，以减少参数和故障。CPGAN利用CPD对原神经网络的每一层进行重新设计。将原卷积层分解为三个级别不同、大小较小的卷积层。等级越小的层参数越少。根据应用的需要，我们可以通过设置不同的等级来设计具有不同压缩比的架构。在不同等级模型的训练过程中，选择合适的学习率比较费时。为此，我们使用循环学习率(CLR) [11方法为重新设计的建筑选择最佳学习率。此外，GAN还存在训练不稳定的问题。CPGAN是一个比经典GAN更深层次的架构，很难从头开始训练。为了解决这一问题，我们增加了调理增强模块，并引入了自编码器方法的思想。

我们的贡献可以总结如下：(我)我们提出CPGAN来减少参数和保持文本到图像GAN的生成能力，这是设计GAN轻量级结构的一种通用方法。(ii)为了减少分解操作造成的高资源消耗，我们从头开始训练CPGAN，不需要对模型进行预训练。据我们所知，这是第一次在不使用预训练模型的情况下使用CPD将文本设计为图像GAN。(3)为了稳定端到端的训练，我们引入了自编码器的思想。增加的解码器模块可以在训练后删除。

在两个具有代表性的跨模态数据集（Oxford-102和CUB）上的实验结果证明，我们的体系结构CPGAN可以同时有效地保持生成图像的质量，减少原始模型的参数和失败。在Oxford-102和CUB中，CPGAN在初始分数（IS）和Fréchet初始距离（FID）方面表现更好比原来的模型。它减少了彻底失败了这些表明我们的架构可以有效地将文本重新设计为图像，而不会损失图像质量。

论文的其余部分组织如下。第二节介绍了与本文相关的工作2．在第三节在此基础上，我们提出了一种基于规范多位分解（CPD）的文本图像生成对抗网络（GAN）的高效体系结构CPGAN。第四节描述实验设置和实验结果。最后，对本文进行了总结第五节．

2.1。规范Polyadic分解

神经网络的实质是利用权值参数对输入数据矩阵进行矩阵变换的过程。神经网络的每一层都是一个大张量，可以分解成几个小张量。正则多元分解(CPD)是一种标准的张量分解方法。它是希区柯克在1927年提出的[12]它可以将一个张量分解为一阶张量之和。CPD已应用于心理测量学[13]，信号处理[14，计算机视觉[15]、数据挖掘[16]，以及其他地方。它在模型压缩方面也表现良好。

Denton等人[8]利用CPD对原始卷积核进行逼近，提出了两种改进逼近准则的方法。他们通过固定其他层对分解后的内核进行微调。Jaderberg等人[9]应用CPD将4D核分解为两个小核，并使用两种方法重建原始滤波器[10]使用CPD将4D卷积核张量用非线性最小二乘法分解为四个小核，然后替换原始层。然后，他们使用反向传播对整个网络进行微调。Lebedev等人[10]方法以1%的精度损失为代价，将AlexNet的第二卷积层提高了6.6倍。这超过了其他两项工作，其中Denton等人[8]得到2倍的加速，Jaderberg等人[9提高了4.5倍的速度，但损失了1%的精度。

Astrid等[17]提出了一种基于CPD: CP-TPM的CNN压缩方法。在AlexNet中实现了6.98倍的参数缩减和3.53倍的加速。它比基于塔克的方法要好[18]在同一网络中[19和Tai等[20.]也应用CPD压缩CNN。在Astrid等人的模型中，对原始层进行预训练，以最小化分解层与原始张量之间的差异[17， Zhang等[19，和Tai等[20.]．由于CP分解操作消耗大量资源，因此我们没有对预先训练的权值张量进行分解，而是直接使用CP分解来设计一种有效的文图GAN体系结构。

２.２.Text-to-Image合成

文本-图像合成是计算机视觉的一个分支，它根据给定的文本生成图像。它可以用于图像编辑、跨模态检索和艺术创作。GAN具有较强的生成能力。它能生成逼真的图像，在图像生成中得到了广泛的应用。自Reed等人[7]首先成功地将GAN用于文本图像生成，GAN也成为文本-图像合成中的一种流行模型。

Reed等人[7]通过修改DCGAN提出了GAN int cls，并成功生成了合理的64 × 64个来自文本的鸟和花的图像。为了产生高分辨率的图像，在文本到图像的合成中引入了多级生成，如StackGAN[21]，StackGAN++[22]，HDGAN[23]及LAPGAN [24]．StackGAN [21通过叠加两个条件gan分两步生成高分辨率的纯图像。StackGAN++中使用多个生成器利用树结构生成不同尺度的图像[22]赫德根先生[23]采用层次嵌套鉴别器，帮助单流发生器生成高分辨率图像。LAPGAN [24]通过集成一组生成器，提出了一个拉普拉斯金字塔框架。

Xu等[25]乔等[26]增加了注意力机制来合成具有细粒度细节的图像[27]自适应的包围框和关键零件信息，以提高生成图像的质量。ACGAN [28]和TAC-GAN[29使用辅助类信息生成多样化图像。由于这些模型显示出出色的跨模态生成能力，文本-图像GAN已被用于图像编辑[30.，31，跨模态检索[1]，故事可视化[2]，以及绘画[3.]．然而，这些模型过于复杂，无法部署在移动端。为此，我们提出了一个基于CPD的端到端压缩框架。与Shu等人相比[32]李等[33]，我们不需要预先训练GAN模型，我们从头开始设计和训练压缩模型。

3.典型多进生成对抗网络(CPGAN)

在本节中，我们介绍了高效体系结构(CPGAN)的设计和培训过程。3.1节描述如何用三个小核替换四维卷积权张量。3.2节描述重新设计的体系结构的稳定训练过程的技术。

3.1.典型多原子分解

GAN一般由一个生成器和一个鉴别器组成，两者都是卷积神经网络。卷积的权张量是一个四维张量，哪个映射输入到另一个表示．它可以写成其中是空间维度(通常是3或5)，第三维是输入通道，第四维是输出通道。

CPD是一种近似方法，它将一个张量分解成一个秩1张量的和。CPD,张量∈可以表示为在哪里是张量秩，它是秩一张量的和，和张量有大小吗，分别。第一级张量是向量的外积。秩选择决定压缩比，是秩分解中的NP-hard问题。

在卷积层中，空间维度不需要分解，因为空间分解的好处很小。利用CP分解的变体，张量可以分解为在哪里是一个大小张量．代换方程(3.)平衡(2)，我们得到卷积的近似表示如下:

进行重组和组合，我们可以得到以下三个连续的表达式: 在哪里和中间张量是大小的吗和，分别。原始的大层可以分解为三个小层，如图所示1例如，GAN int cls的第三卷积层具有128个输入通道、512个输出通道和3个输出通道 × 3个过滤器( );我们可以使用以下参数将其分解为三个卷积层：，，和．是可根据任务需要设置为不同值的等级。

图1

原始卷积层，并基于CPD分解了三个卷积层。上面的数字是原始的尺寸过滤器．下面的图是大小的三个分解过滤器，，和．三个分解后的滤波器可以近似于原始滤波器。

3.2.总体框架

我们将经典模型GAN-int-cls作为原始模型进行压缩。该型号的结构和参数最为紧凑。在其他文本-图像GAN模型中，生成器的主要卷积层类似于GAN-int-cls。我们重新设计GAN-int-cls，以显示我们的压缩体系结构的有效性和通用性。如图所示2所提出的CPGAN包含了两个能够稳定分解GAN训练的新成分:条件增强和自编码器模块。

条件作用增强(CA)由Zhang等人提出[21，缓解了文本嵌入稀疏性给GAN训练带来的困难。CA是从独立高斯分布中随机抽取隐藏变量作为生成器的输入．是通过编码文本描述生成的文本嵌入。和文本嵌入的均值和对角协方差矩阵是函数吗，分别。我们使用预先训练的char-CNN-RNN [34]要获得文本嵌入．然后,我们吃进入CA，并获得和．类似于斯塔克根[21]，我们也将KL散度加入到我们的训练目标中，即标准高斯分布之间的KL散度和条件高斯分布，式中:

自动编码器（AE）通过重构输入用于表示学习。分解后的结构比原始模型更深，增加了训练的不稳定性。因此，我们使用AE来稳定训练过程。AE通常由编码器和解码器组成。我们将每个卷积层视为一个编码器，并为每个卷积层添加一个对应的解码器。AE的训练目标是重建损失。我们使用均方误差（MSE）为声发射损失，其中是层和的输入吗是声发射的函数。训练结束后，解码器将被移除。

原始GAN-int-cls的生成目标包含匹配感知损耗和插值损耗，如图所示在哪里为随机噪声，和文本嵌入，和是否在0和1之间的小数和用于插入文本嵌入之间和．

在我们模型的生成器目标中，我们在原模型目标中加入KL发散和MSE重构损失，如下式所示:

原始模型和我们的模型的鉴别器目标都是匹配感知损失：

我们使用上面的方案从头开始训练一个有效的架构。训练算法如算法所示1首先，通过方程将原始卷积分解为三层(5)- (7)．其次，将每一层看作一个编码器，并在每一层上添加一个解码器。第三，对匹配文本进行编码和不匹配的文本获取文本嵌入。然后利用CA对文本嵌入进行处理，得到独立的高斯分布。从独立高斯分布，我们抽样变量，并将其与随机噪声连接。下面的训练过程与GAN-int-cls相同，只是发电机的训练目标不同。该模型的目标函数在原模型目标函数的基础上增加了CA和自编码器的损耗。直到训练结束，我们删除添加的解码器层，得到CPGAN模型。

	输入:小批量图像，文本描述，以及训练批处理步骤的数量．
	输出:CPGAN模型。
(1）	使用方程式(5)- (7)在生成器中分解原始卷积层;
（2）	增加CA模块进行文本嵌入，增加解码层；
（3)	为分解后的模型选择合适的学习速率；
(4)	为来做
(5）	将文本描述编码为嵌入；
（6)	喂进入CA，并获得；
（7)	样本从…起随机噪声；
(8)	连接和然后输入发电机;
(9)	更新鉴别器D由方程(11);
（10)	更新发电机G由方程(10);
（11）	结束了
(12)	丢弃所有解码器并获得一个经过培训的CPGAN。

4.实验

我们进行了大量的实验来评估所提出的CPGAN4.1节介绍了实验数据集和评价指标。4.2节介绍了学习率的设置和其他实验超参数。在4.3节，我们将我们的CPGAN与以前的GAN int cls文本图像合成模型进行了比较。

4．1.总体框架

为了说明我们方法的通用性，我们选择经典模型GAN int-cls作为我们的原始模型。与GAN int-cls一样，我们的方法在CUB上进行了评估[35]和Oxford-102 [36].CUB数据集涵盖200种鸟类，包括5994张训练图像和5794张测试图像。除类别标签外，每张图像还包含边界框、鸟类信息的关键部分和鸟类属性。Oxford-102 flowers数据集是一个包含8189张图像的花卉数据集。它分为102个类别和每个类别包含40到258张图像。每张图像都有较大的比例、姿势和光线变化。数据集分为训练集、验证集和测试集。两个数据集都是基准图像数据集，每张图像对应10个句子描述。

为了评价我们的模型，我们使用inception score (IS)和Fréchet inception distance (FID)来评价生成图像的质量。IS使用预先训练的InceptionNet-V3来判断生成的图像是否清晰多样。IS得分高，说明图像清晰多样。FID计算真实图像和假图像之间的特征距离，作为IS评价指标的补充。这两个指标被广泛用于评价生成图像的质量。

4.2. 实施细节

学习速率是深度学习中一个非常重要的超参数，合理的学习速率可以使模型收敛到最小点，而不是局部最优点或鞍点[11]和MultistepLR设置学习率和学习率衰减。

CLR是Smith提出的。它不是一个固定的值，而是在迭代过程中周期性地改变学习率。该算法用于自动寻找最优学习速率，而不是手工实验。我们使用CLR来获得学习率设置。CLR方法需要设置最小学习率(min_lr)、最大学习率(max_lr)和迭代三个参数。Min_lr和max_lr分别是学习率的最小值和最大值。迭代是在每个学习速率下的测试迭代次数。我们将学习率从0.00001提高到0.001，得到不同学习率下的损耗曲线(见图)3.)．

（a）

(b)

我们根据最大绝对斜率准则选择合适的学习率3.，我们选择0.0002和0.00015作为牛津-102数据集的学习速率，0.0001和0.00008作为CUB数据集的学习速率。

MultistepLR是PyTorch中的一种学习速率衰减方法。它有三个超参数:初始学习率( ),更新学习率( ),和乘法因子( )．为训练期间的初始学习率。是我们改变学习速率的时代。为学习率衰减系数。在MultistepLR实验中，初始学习率为．当实验进行时时代，学习率变了．

在本文中，我们设置了多步超参数，，和在Oxford-102中，体积分别为0.0001600和0.8，体积分别为0.0002600和0.75。我们实验中的批量大小为64。CPGAN的优化器为Adam[37，动量为0.5。

4．3．与原模型比较

在CP分解中，等级代表压缩比，难以选择。由于文本到图像合成任务的需要，在保证生成图像质量的前提下，设计了轻量级模型。我们做了大量的实验来平衡性能和压缩比。

如表所示1，我们做了大量的实验来寻找平衡。该比值为秩比，其中1.0为满秩分解，0.9为原层输入通道数的0.9倍左右。等级越小的层参数越少。表格1结果表明，随着秩的增加，触发器和参数都会增加。当分解秩接近0.7时，参数开始超过原始模型的参数( )．随着秩的增加，模型生成的图像质量并没有得到很大的改善。FID值随着模型参数的增加先减小后略有变化，而IS不稳定。可能是IS的计算需要使用数据的边缘分布，而Oxford-102中生成的样本则不稳定足够得到精确的边缘分布。


比率	氢火焰离子化检测器	是	失败	#参数
0.1	158.74	3.26±0.05
0.2	98.06	3.43±0.06
0.3	85.08	2.98 ± 0.05
0.4	81.17	2.96 ± 0.04
0.5	74.69	3.04±0.05
0.6	77.59	3.54±0.06
0.7	76.50	2.80±0.06
0.8	79.04	3.56±0.05
0.9	76.97	3.17±0.05
1	77.07	3.23±0.05

如表所示1，等级比为0.5时FID值最佳。该模型压缩了约23%的参数和29%的失败。在FID和IS上，生成的图像优于原始模型。证明了我们的方法可以在参数更少的情况下生成比原始模型更好的图像。利用CP分解重建模型和设计紧凑的文本-图像GAN是有效的，而不损失图像质量。虽然彻底失败了减少了参数，CPGAN生成的图像在IS和FID上得到了一点改进。这表明，由参数更多的模型生成的图像可能不会更好。因此，在0.5的秩附近，我们寻找一个更好的模型来确保生成的图像的质量。

表格2展示了我们最好的生成模型与原始模型在IS, FID, parameters, flops上的比较。原始模型的FID和IS在Oxford-102中分别为79.55和2.66±0.03，而我们最佳模型的FID和IS分别为74.40和3.68±0.08。在CUB中，我们的最佳模型在FID上得到65.94，在IS上得到5.03±0.07，而原始模型的图像分别为68.79和2.88±0.04。Oxford-102和CUB数据集上具有代表性的图像对比如图所示4和5,分别。CPGAN生成的图像质量较好，表明本文方法可以从文本描述生成更真实的图像。这些结果也证明了现有的文本-图像GAN中存在冗余参数。基于CPD可以设计出更简洁高效的文本-图像GAN模型。


模型	牛津- 102		幼崽		失败	#参数
	氢火焰离子化检测器	是	氢火焰离子化检测器	是

起初的	79.55	2.66±0.03	68.79	2.88±0.04
重新设计	74.40	3.68 ± 0.08	65.94	5.03 ± 0.07

5.结论

本文提出了一种简单高效的CPGAN体系结构。CPGAN可以减少原始模型的广泛参数和触发器。同时也提高了生成图像的质量。在设计CPGAN模型的过程中，我们将卷积层替换为三个CP分解的小层来实现一定的压缩。为了稳定训练过程，我们引入条件增强，以减少文本嵌入稀疏性造成的不稳定性。为了进一步改进模型的端到端训练，在模型中引入了自编码器的思想。每一分解层可视为编码器层，并与附加的解码器层配对。解码器层可以在训练后删除。实验表明，CPGAN减少了23%的参数和29%的失败，生成的图像质量略有改善。大量的实验结果表明，我们提出的CPGAN可以设计出一种有效的文本-图像GAN。 We have also decomposed similar convolution layers in other GAN models and these experiment results were similar to the experiment results of GAN-int-cls. The main convolution layers of the generator in other text-to-image GAN models are similar to GAN-int-cls. It is applicable for other cross modal GANs to use CPD. In the existing methods, the rank is set manually, which is time-consuming. Therefore, the automatic selection of rank may be a research direction in the future.

数据可用性

本文使用的数据集为公共数据集，可通过以下网站访问:http://www.vision.caltech.edu/visipedia/CUB-200-2011.html和https://www.robots.ox.ac.uk/∼vgg /数据/花/ 102 /

利益冲突

作者声明，本论文的发表不存在利益冲突。

工具书类

顾建军，蔡建军，刘建军等，“基于生成模型的文本-视觉跨模态检索研究”，发表论文计算机视觉与模式识别会议论文集， pp. 7181-7189，盐湖城，UT，美国，2018。浏览：谷歌学者
李勇，李志刚，沈勇等，“故事Gan:故事视觉化的顺序条件Gan”，发表于计算机视觉与模式识别会议论文集，第6329-6338页，美国华盛顿州西雅图，2019年。浏览：谷歌学者
李伟平，张炳良，张立群等，“通过对抗训练进行的对象驱动的文本到图像合成”，年计算机视觉与模式识别会议论文集，第12174-12182页，美国华盛顿州西雅图，2019年。浏览：谷歌学者
E.Mansimov、E.Parisotto、J.L.Ba和R.Salakhutdinov在《从字幕中产生注意力的图像》一书中写道国际学习表示会议论文集，加利福尼亚州圣地亚哥，美国，2016年。浏览：谷歌学者
A. van den Oord, N. Kalchbrenner, L. Espeholt等，“PixelCNN解码器的条件图像生成”，神经信息处理系统研究进展，第29卷，第4790-4798页，2016。浏览：谷歌学者
I. J. Goodfellow, J. Pouget-Abadie, M. Mirza et al.，“生成对抗网”，神经信息处理系统研究进展，第二卷，第2672-26802014页。浏览：谷歌学者
S.Reed，Z.Akata，X.Yan等人，“生成性对抗性文本图像合成，”机器学习研究进展，第48卷，第1060-1069页，2016年。浏览：谷歌学者
E.Denton，W.Zaremba，J.Bruna等人，“利用卷积网络中的线性结构进行有效评估，”神经信息处理系统研究进展， vol. 27, pp. 1269-1277, 2014。浏览：谷歌学者
M.Jaderberg、A.Vedaldi和A.Zisserman，“用低阶扩展加速卷积神经网络，”英国机器视觉会议论文集, 2014.浏览：谷歌学者
V.Lebedev，Y.Ganin，M.Rakhuba等人，“使用微调cp分解加速卷积神经网络”，2014年，http://arxiv.org/abs/1412.6553．浏览：谷歌学者
L. N.史密斯，“用于训练神经网络的循环学习速率”2017年IEEE计算机视觉应用冬季会议记录（WACV），第464-472页，美国加利福尼亚州圣罗莎，2017年。浏览：谷歌学者
希区柯克，“张量或多边形作为乘积和的表达”，数学与物理杂志，第6卷，第1-4号，第164-189页，1927年。浏览：出版商的网站|谷歌学者
p . m . Kroonenberg应用多向数据分析， Wiley-Interscience，霍博肯，新泽西州，美国，2008。
F. Roemer和M. Haardt，“通过同时矩阵对角化(SECSI)近似CP分解的半代数框架”，信号处理，第93卷，第9期，第2722-2738页，2013年。浏览：出版商的网站|谷歌学者
M.A.O.Vasilescu和D.Terzopoulos，“图像集合的多线性分析：张量脸”，年欧洲计算机视觉会议论文集，第447-460页，丹麦哥本哈根，2002年。浏览：谷歌学者
E.Acar，S.A.Çamtepe，M.S.Krishnamoorthy等人，“聊天室张量的建模和多路分析”，年情报和安全信息学国际会议论文集，页256-268，加州圣地亚哥，美国，2005。浏览：谷歌学者
M.Astrid和S.I.Lee，“卷积神经网络压缩的张量幂法CP分解”，年2017 IEEE大数据与智能计算国际会议论文集(BigComp)，第115-118页，韩国济州，2017年。浏览：谷歌学者
Y. D. Kim, E. Park, S. Yoo等，“用于快速和低功耗移动应用的深度卷积神经网络压缩”，计算机科学，第71卷，第2期，第576-584页，2015年。浏览：谷歌学者
张骞，杨利涛，陈振堂等，“基于正则多进分解的深度计算模型的改进，”《IEEE系统、人与控制论汇刊:系统》，第48卷，第48期10, pp. 1657-1666, 2017。浏览：谷歌学者
Tai，T.Xiao，Y.Zhang等，“低阶正则化卷积神经网络”，2015，http://arxiv.org/abs/1404.3978．浏览：谷歌学者
张浩，徐天堂，李浩等，“StackGAN：具有堆叠生成对抗网络的文本到照片真实感图像合成”，年IEEE计算机视觉国际会议论文集，第5907-5915页，意大利威尼斯，2017。浏览：谷歌学者
张浩，徐天涛，李海峰等，“StackGAN++：堆叠生成对抗网络的真实感图像合成，”模式分析与机器智能学报，第41卷，第8期，第1947-1962页，2018年。浏览：谷歌学者
Zhang，Y.Xie和L.Yang，“具有层次嵌套对抗网络的摄影文本到图像合成”，年计算机视觉与模式识别会议论文集， pp. 6199-6208，盐湖城，UT，美国，2018。浏览：谷歌学者
E.L.Denton、S.Chintala和R.Fergus，“使用拉普拉斯金字塔对抗网络的深层生成图像模型，”神经信息处理系统研究进展，第28卷，第1486-1494页，2015年。浏览：谷歌学者
徐天明，张炳平，黄秋秋等，“AttnGAN：具有注意生成对抗网络的细粒度文本到图像生成”，年计算机视觉与模式识别会议论文集，第1316-1324页，美国犹他州盐湖城，2018年。浏览：谷歌学者
“学习、想象和创造:基于先验知识的文本到图像生成”，《中国科学(d辑)》，神经信息处理系统研究进展, 2019.浏览：谷歌学者
S. E. Reed, Z. Akata, S. Mohan等人，“学习画什么和在哪里画，”神经信息处理系统研究进展, 2016.浏览：谷歌学者
A.Odena和C.Olah，“带辅助分类器的条件图像合成”，年国际机器学习会议记录，第2642-2651页，澳大利亚悉尼，2017年。浏览：谷歌学者
A.Dash，J.C.Gamboa，S.Ahmed等人，“TAC-GAN-文本条件辅助分类器生成对抗网络”，2017年，http://arxiv.org/abs/1703.06412．浏览：谷歌学者
董辉，于淑君等，“基于对抗性学习的语义图像合成”，《计算机科学与技术》IEEE计算机视觉国际会议论文集，第5706-5714页，意大利威尼斯，2017。浏览：谷歌学者
D. M. Vo和A. Sugimoto，“对d GAN的语义图像合成”，发表于亚洲计算机视觉会议录，第468-484页，美国犹他州盐湖城，2018年。浏览：谷歌学者
舒玉英，王玉英，贾晓阳等，“非成对图像翻译的协同进化压缩”，年IEEE计算机视觉国际会议论文集，第3234-3243页，韩国首尔，2019年。浏览：谷歌学者
李明明，林俊杰，丁勇等，“GAN压缩：交互式条件GAN的有效架构”，年IEEE/CVF计算机视觉和模式识别会议记录，第5283-5293页，韩国首尔，2020年。浏览：谷歌学者
S. Reed, Z. Akata, H. Lee等人，“学习精细视觉描述的深度表示”计算机视觉与模式识别会议论文集，第49-58页，美国内华达州拉斯维加斯，2016年。浏览：谷歌学者
C. Wah, S. Branson, P. Welinder等人，“加州理工大学- ucsd鸟类-200-2011数据集”，技术代表，2011，计算和神经系统技术报告。浏览：谷歌学者
M. E. Nilsback和a . Zisserman，“在大量类别上的自动化花卉分类”2008年第六届印度计算机视觉、图形和图像处理会议论文集，第722-729页，IEEE，布巴内斯瓦尔，印度，2008。浏览：谷歌学者
D.P.Kingma和J.Ba，“亚当：随机优化的方法”，年学习表示国际会议论文集，加利福尼亚州圣地亚哥，美国，2015年。浏览：谷歌学者

科学规划