raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

科学的规划

1875 - 919 x 1058 - 9244

Hindawi

10.1155 / 2021/5573751

5573751

研究文章

CPGAN:一个有效的建筑设计Text-to-Image生成对抗网络基于规范Polyadic分解

https://orcid.org/0000 - 0003 - 1811 - 5212

马

锐信

https://orcid.org/0000 - 0003 - 4098 - 5660

卢

junie

邹

梁

学校的软件

大连理工大学

大连116024

中国

dlut.edu.cn

2021年

2 4 2021年

2021年 20. 1 2021年 24 2 2021年 11 3 2021年 2 4 2021年

2021年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

Text-to-image合成是计算机视觉的一个重要及具有挑战性的应用。许多有趣的和有意义的text-to-image合成模型被提出。然而,大多数的作品注重质量的合成图像,但很少考虑这些模型的大小。大型模型包含许多参数和延迟高,这使得它很难被部署在移动应用程序。为了解决这个问题,我们提出一个有效的架构CPGAN text-to-image生成对抗网络(GAN)基于规范polyadic分解(CPD)。它是一个通用的方法来设计的轻量级架构text-to-image甘。改善CPGAN的稳定性,我们引入调节增大,在培训过程中autoencoder的想法。实验结果证明我们的架构CPGAN可以维护生成的图像的质量和减少至少20%的参数和失败。

1。介绍

Text-to-image合成是一项具有挑战性的交叉生成,生成图像根据给定的文本。它从文本中提取常见的模态数据语义的数据转移到图像。Text-to-image合成在计算机视觉中扮演着越来越重要的作用。在过去的图像编辑图像。随着text-to-image合成的发展,图像也可以编辑文本,大大扩展了计算机视觉的应用。Text-to-image合成可以广泛应用于人机交互,如交叉检索( 1和艺术创作 2, 3]。

传统text-to-image合成使用变分autoencoder (VAE),注意机制,递归神经网络(RNN)一步一步生成图像 4, 5]。有限的VAE的生殖能力,生成的图像不像真正的清晰图像。一个新的生成模型GAN格拉汉姆·古德费勒等人于2014年提出了( 6]。甘成为一个受欢迎的模型图像生成任务由于其发电能力强。里德et al。 7甘]证明可以用于从文本描述并提出GAN-int-cls生成清晰的图像。它使用DCGAN为骨干,文本嵌入和随机噪声发生器的输入。生成的图像、文本嵌入和真实图像鉴别器的输入。随后,许多复杂的模型被提出。这些模型可以根据一般的文本生成图像,场景图,或对话框。生成的图像的质量已经改进了很多。

然而,这些模型引入了许多约束和模块生成逼真的图像。这将大大增加参数和浮点操作每秒(失败)的模型。它需要更多的硬件资源(CPU、GPU内存和带宽)来部署这些模型。高的复杂性也会导致延迟。这大大限制了text-to-image GAN在移动终端中的应用。有必要压缩text-to-image GAN。规范polyadic分解(CPD)是一种简单高效的压缩方法和加速在张量分解模型。很多实现卷积神经网络(CNN)压缩基于CPD ( 7- - - - - - 9)已经提出。

在本文中,我们提出一个通用的压缩架构CPGAN text-to-image GAN减少设计参数和失败。CPGAN重新设计每一层用CPD的原始神经网络。最初的卷积层分解为三个卷积层具有不同等级和小尺寸。一层小排名几乎没有参数。根据应用程序的需要,我们可以与不同的压缩比设计架构通过设置不同的排名。在训练过程中模型的不同,选择合适的学习速率是耗时的。为此,我们使用周期性学习速率(CLR) [ 11)方法来选择最佳的学习速率重新设计的体系结构。此外,甘不稳定问题的培训。CPGAN比古典GAN和更深层次的架构是很难从头培养。为了解决这个问题,我们添加调节增强模块和介绍autoencoder方法的想法。

我们的贡献可以概括如下: (我)

我们建议CPGAN减少参数和维护text-to-image GAN的生殖能力。这是一个设计的轻量级架构GAN一般方法。

(2)

减少高资源消耗引起的分解操作,我们训练CPGAN从头开始,不需要pretrain模型。我们所知,这是第一次用CPD设计不使用pretrained text-to-image GAN模型。

(3)

稳定的端到端培训,我们引入autoencoder的想法。培训后的添加解码器模块可以删除。

实验结果在两个代表交叉数据集(牛津- 102和幼崽)证明我们的架构CPGAN可以维护生成的图像的质量,减少失败的参数和原始模型有效地同时。在牛津- 102和幼崽,CPGAN执行更好的《盗梦空间》里的分数(是)和邻初始距离比原始模型(FID)。它减少了 8.8 × 10 9 彻底失败了 1.31 × 10 6 参数在牛津- 102。这些表明我们的体系结构可以有效地设计text-to-image甘而不损失图像质量。

剩下的纸是组织如下。介绍了我们的论文工作 2。在第三节,我们建议的有效架构CPGAN text-to-image生成对抗网络(GAN)基于规范polyadic分解(CPD)。第四节描述了实验设置和实验结果。最后,我们得出结论本文第五节。

2。相关工作 2.1。规范Polyadic分解

神经网络的本质是输入数据矩阵的矩阵转换过程使用重量参数。每一层的神经网络是一个很大的张量,它可以分解成几个小的张量。规范polyadic分解(CPD)是一个标准的张量分解方法。这是希区柯克在1927年提出的( 12]。它可以一个张量分解为一个一阶张量的总和。CPD已经应用在心理测验学 13),信号处理( 14,计算机视觉 15,数据挖掘 16),和其他地方。它在模型压缩的表现也不错。

丹顿et al。 8CPD)用来近似原始的卷积内核和提出了两种改善方法近似标准。他们对分解内核进行微调解决其他层。Jaderberg et al。 9CPD)应用于4 d内核分解成两个小内核和使用两种方法来重建原始的过滤器。列别捷夫et al。 10]用CPD 4 d卷积核张量分解成四个小内核与非线性最小二乘法,然后替换原始层。然后,他们使用反向传播调整整个网络。列别捷夫et al。( 10]第二卷积方法加速层AlexNet 6.6倍成本的1%精度的损失。这超过了其他两个作品,丹顿et al。 8有2倍的加速和Jaderberg et al。 9)有4.5倍加速1%精度损失为代价的。

阿斯特丽德et al。 17提出了一种基于CPD CNN压缩方法:CP-TPM。它实现了减少参数的6.98倍和3.53倍AlexNet提速。它比Tucker-based方法( 18在相同的网络。Zhang et al。 19和大等。 20.)应用CPD压缩CNN。原始层pretrained最小化之间的不同分解层和原来的张量模型的阿斯特丽德et al。 17),Zhang et al。 19],Tai et al。 20.]。因为CP分解操作消耗大量的资源,我们不分解pretrained重量张量,但直接使用CP分解在text-to-image GAN设计一个有效的体系结构。

2.2。Text-to-Image合成

Text-to-image合成是计算机视觉的一个分支,根据给定的文本生成图像。它可以用于图像编辑、交叉检索,艺术创作。氮化镓生成能力强。它能生成逼真的图像和被广泛用于图像生成。自芦苇et al。 7GAN)首次成功用于文本图像生成,GAN text-to-image合成也成为一个受欢迎的模型。

里德et al。 7]GAN-int-cls提出的修改DCGAN并成功地生成合理的64×64图像文本的鸟类和鲜花。为了得到高分辨率的图像,生成多个阶段引入text-to-image合成,如StackGAN [ 21),StackGAN + + ( 22],HDGAN [ 23],LAPGAN [ 24]。StackGAN [ 21]堆叠两个条件甘斯生成高分辨率和图像在两个阶段。多个不同尺度的发电机被用来生成图像中使用树结构StackGAN + + ( 22]。HDGAN [ 23)采用hierarchically-nested鉴别器帮助的生成器生成高分辨率的图像。LAPGAN [ 24)提出了拉普拉斯算子金字塔框架通过集成一套发电机。

徐et al。 25和乔et al。 26)添加机制与细粒度合成图像细节的关注。此外,里德et al。 27]适应边界框和关键部分信息以提高质量生成的图像。ACGAN [ 28]和TAC-GAN [ 29日)使用辅助类信息生成多样化的图像。因为这些模型显示良好的交叉生成能力,text-to-image GAN已被用于图像编辑( 30., 31日),交叉检索( 1,故事可视化 2),和绘画( 3]。然而,这些模型过于复杂的部署在移动端。为此,我们提出一个端到端的压缩框架基于CPD。而蜀et al。 32和李et al。 33),我们不需要pretrain GAN模型。我们从头开始设计和训练压缩模型。

3所示。规范Polyadic生成对抗网络(CPGAN)

在本节中,我们介绍了高效的体系结构的设计(CPGAN)和培训过程。 3.1节描述了如何用三个小内核替换四维卷积张量体重。 3.2节描述了畜舍重新设计架构的培训过程的技术。

3.1。规范Polyadic分解

GAN由发电机和一个鉴别器一般而言,这两个卷积神经网络。卷积是一个四维张量的张量体重 W ∈ ℝ K × K × 年代 × T ,这地图输入 X ∈ ℝ 我 × J × 年代到另一个表示 Y ∈ ℝ X × Y × T 。它可以写成 (1) Y x , y , t = ∑ 我 = 1 K ∑ j = 1 K ∑ 年代 = 1 年代 W k , k , 年代 , t X 我 , j , 年代 , 前两个维度在哪里 W k , k , 年代 , t 是空间维度( K 通常是3或5),第三个维度是输入通道,第四维是输出通道。

CPD是一个近似法,一个张量分解为一个一阶张量的总和。CPD,张量 W ∈ ℝ K × K × 年代 × T 可以表示成 (2) W 我 , j , 年代 , t = ∑ r = 1 R W 我 , r 1 W j , r 2 W 年代 , r 3 W t , r 4 , 在哪里 R 是张量排名和一阶张量的总和, W 我 , r 1 , W j , r 2 , 和 W 年代 , r 3 , W t , r 4 张量的大小 K × R , K × R , 年代 × R , T × R ,分别。一阶张量是向量叉积。排名选择决定了压缩比和秩分解是一个np难问题。

在卷积层,空间维度 K 不需要分解因为空间分解的好处是非常小。通过使用CP分解的变体,张量可以分解 (3) W 我 , j , 年代 , t = ∑ r = 1 R W 年代 , r 1 W 我 , j , r 2 W t , r 3 , 在哪里 W 我 , j , r 2 是一个张量的尺寸吗 K × K × R 。用方程( 3)方程( 2),我们得到以下的近似表示卷积: (4) Y x , y , t = ∑ r = 1 R W t , r 3 ∑ j = 1 D ∑ 我 = 1 D W r , j , 我 2 ∑ r = 1 R W r , 年代 1 X 我 , j , 年代。

执行重新排列和组合,我们可以得到以下三个连续表达式: (5) Y 1 我 , j , r = ∑ 年代 = 1 年代 W r , 年代 1 X 我 , j , 年代 , (6) Y 2 x , y , r = ∑ j = 1 D ∑ 我 = 1 D W r , j , 我 2 Y 1 我 , j , r , (7) Y x , y , t = ∏ r = 1 R W t , r 3 Y 2 x , y , r , 在哪里 Y 1 和 Y 2 中间张量的大小吗我 × J × R 和我 ” × J ” × R ,分别。原大层可以分解成三个小层,如图 1。例如,第三层GAN-int-cls卷积有128个输入通道,512输出通道,3×3过滤器( 128年 × 512年 × 3 × 3 );我们可以将它分解成三个卷积层以下参数: 128年 × R × 1 × 1 , R × R × 3 × 3 , R × 512年 × 1 × 1 。 R 是排名,可以设置为不同的值根据任务的需要。

图1

原始卷积层基于CPD和卷积分解三层。上面的图是原始过滤器的大小 D × D × 年代 × T 。下面图是三个分解过滤器的大小 1 × 1 × 年代 × R , K × K × R × R , 1 × 1 × R × T 。三个分解过滤器可以近似原始的过滤器。

3.2。总体框架

我们把古典模型与原始模型GAN-int-cls压缩。这个模型最紧凑的结构和参数。主发电机的卷积层在其他类似于GAN-int-cls text-to-image GAN模型。我们重新设计GAN-int-cls展示我们的压缩架构的有效性和通用性。如图 2该小说CPGAN包含两个组件,可以稳定的培养分解GAN:调节增大和autoencoder模块。

图2

CPGAN的架构。三个编码层蓝色虚线框表示的是三个分解滤波器卷积分解得到的原始层。

条件作用增强 (CA)提出了由张et al。 21甘)缓解困难的训练造成的文本嵌入稀疏。CA是随机样本隐藏变量作为输入的发电机独立的高斯分布 N μ φ t , Σ φ t 。 φ t 是文本嵌入编码生成的文本描述。 μ φ t 和 Σ φ t 均值和对角协方差矩阵函数的文本嵌入 φ t ,分别。我们使用pretrained char-CNN-RNN [ 34)的文本嵌入 φ t 。然后,我们吃 φ t CA和获得 μ φ t 和 Σ φ t 。类似于StackGAN [ 21),我们也添加Kullback-Leibler(吉隆坡)发散到我们的培训目标,即KL背离标准的高斯分布 N 0 , 我和调节高斯分布 N μ φ t , Σ φ t ,见以下方程: (8) D 吉隆坡 N μ φ t , Σ φ t 为 N 0 , 我。

Autoencoder (AE)是用于表示学习通过重建输入。分解架构是比原来的模型,这就增加了不稳定的训练。因此,我们使用AE稳定训练过程。AE由编码器和译码器。我们把每个卷积层作为卷积编码器,并添加一个解码器对应每一层。AE的培养目标是重建的损失。我们使用均方误差(MSE) x 1 − h x 1 2 2 AE损失, x 1 是输入层和 h ⋅ 是AE的功能。培训后的译码器将被删除。

原始的发电机目标GAN-int-cls包含matching-aware损失和插值损失,如所示 (9) G 让奥 = G 1 z , t + G 2 z , β t 1 + 1 − β t 2 , 在哪里 z 随机噪声, t 1 和 t 2 文本嵌入的, β 小数在0和1之间,用于文本嵌入之间插入 t 1 和 t 2 。

在发电机模型的目标中,我们添加了KL散度和MSE重建损失到原始模型目标,见以下方程: (10) G = G 让奥 + D 吉隆坡 N μ φ t , Σ φ t 为 N 0 , 我 + x 1 − h x 1 2 2 。

最初的模型,我们的模型的鉴别器目标既是matching-aware损失: (11) D = D 1 x , t + D 2 x , t ^ + D 3 G z , t 。

我们使用上面的计划从头开始训练一个有效的体系结构。所示的训练算法的算法 1。首先,原始曲线玲珑被分解成三层,通过方程( 5)- ( 7)。其次,每一层都被视为一个编码器和译码器添加对应每一层。第三,我们编码匹配的文本 t 和失配文本 t ^ 并获得文本嵌入。然后,我们使用CA来处理文本嵌入和得到独立的高斯分布。从独立的高斯分布,我们与随机噪声样本变量和连接它。以下培训过程是一样的GAN-int-cls不同培训目标的发电机。我们模型的目标函数增加了CA的丧失和autoencoder根据原始模型的目标函数。直到训练完成后,我们删除添加了译码器层和获得CPGAN模型。

<大胆>算法1:< /大胆> CPGAN算法的总体方案。

输入:mini-batch图片 x 、文本描述 t ,和培训一批数量的步骤年代。

输出:CPGAN模型。

(1)

使用方程( 5)- ( 7)分解原始卷积在发电机层;

(2)

为文本添加CA模块嵌入和添加解码器层;

(3)

选择一个合适的学习速率的分解模型;

(4)

为 N = 1 来年代做

(5)

编码嵌入文本描述 t ;

(6)

饲料 t CA和获得 N μ φ t , Σ φ t ;

(7)

样本 c ^ 从 N μ φ t , Σ φ t 和随机噪声 z ;

(8)

连接 z 和 c ^ 和饲料进入发生器;

(9)

更新鉴频器 D由方程( 11);

(10)

更新发电机 G由方程( 10);

(11)

结束了

(12)

抛弃所有的解码器和CPGAN训练。

4所示。实验

我们进行广泛的实验评估拟议中的CPGAN。在 4.1节介绍实验数据集和评价指标。 4.2节描述了学习速率的设置和其他实验hyperparameters。在 4.3节,我们比较与先前的GAN-int-cls CPGAN text-to-image合成模型。

4.1。总体框架

显示我们的方法的普遍性,我们选择经典模型GAN-int-cls作为我们的原始模型。GAN-int-cls一样,我们的方法是评估在幼崽 35)和牛津- 102 ( 36]。幼崽数据集涵盖了200种鸟类,其中包括5994 5794训练图像和测试图像。除了分类标签,每个图像包含边界框,鸟鸟信息的关键部分,和鸟的属性。牛津- 102花的数据集是花朵数据集包含8189张图片。分为102个类别,每个类别包含40到258张图片。每个图片都有大规模的,姿势和光线的变化。数据集分为训练集,验证集和测试集。这两个数据集是基准图像数据集和每个图像对应于10一句话描述。

为了评估我们的模型,我们使用《盗梦空间》得分(是)和邻初始距离(FID)来评估质量生成的图像。是使用pretrained InceptionNet-V3判断生成的图像是清楚的和多样化。高分数意味着图像清晰和多样化。支撑材计算特性之间的距离真正的形象和假的形象是评价指标的补充。这两个指标被广泛用于评估生成图像的质量。

4.2。实现细节

学习速率是一个非常重要的hyperparameter深度学习。合理的学习速率可以使模型收敛于最小值点,而不是当地的最佳点或鞍点。在本文中,我们使用CLR方法( 11)和MultistepLR设置学习速度和学习速率衰减。

CLR是史密斯提出的。它改变了学习速率定期在迭代过程中,而不是一个固定值。它是用来找到最优学习速率自动代替手动实验。我们使用CLR学习速率设置。CLR方法需要设置三个参数,最低学习速率(min_lr),最大的学习速率(max_lr)和迭代。min_lr和max_lr学习速率的最小值和最大的价值,分别。迭代测试的迭代的数量在每个学习速率。我们增加了学习速率从0.00001到0.001,损失曲线在不同学习速率(见图 3)。

图3

选择合适的学习速率CPGAN。(一)不同的学习速率牛津- 102的损失。(b)不同学习速率对幼崽的损失。

(一) (b)

我们选择合适的学习速率根据斜率最大绝对标准。根据图 3,我们选择0.0002和0.00015作为学习牛津- 102数据集和0.0001和0.00008的学习速率数据集幼崽。

MultistepLR PyTorch学习速率衰减的方法。它有三个hyperparameters:初始学习速率( ini_lr ),时代更新学习速率( 促红细胞生成素 ),乘法因子( mfc )。 ini_lr 是初始培训期间学习速率。促红细胞生成素的时代,当我们改变学习速率。 mfc 是学习速率的衰减系数。在实验中使用MultistepLR,最初的学习速率我 n 我 _ l r 。实验运行时促红细胞生成素时代,学习速率变化 ini _ lr ∗ mfc 。

在本文中,我们设置MultistepLR hyperparameters ini_lr , 促红细胞生成素 , mfc 幼崽600年为0.0001,0.8,0.0002,600年,在牛津和0.75 - 102。批处理大小在我们的实验中是64。CPGAN是亚当的优化器 37动量为0.5。

4.3。与原始模型比较

在CP分解中,排名表示压缩比和很难选择。由于text-to-image合成任务的需要,我们设计轻量级模型在保证质量的前提下生成的图像。我们做大量的实验来平衡性能和压缩比。

如表所示 1,我们做大量的实验来找到平衡点。比例排名比,1.0是满秩分解和0.9意味着大约0.9倍的原始层的输入通道的数量。一层小排名几乎没有参数。表 1表明,随着等级的升高,失败和参数增加。分解等级接近0.7时,参数开始超过原始模型的参数( 5.76 × 10 6 )。同等级的增加,模型生成的图像的质量并没有得到很大的提高。支撑材的价值降低,然后稍微变化与模型参数的增加,虽然是不稳定的。可能需要使用边缘分布的计算数据,但生成的样本在牛津- 102不足以获得准确的边缘分布。

表1

实验结果的不同等级比率CPGAN在牛津- 102。

比	支撑材	是	失败	#参数
0.1	158.74	3.26±0.05	1.20 × 10 10	2.91 × 10 6
0.2	98.06	3.43±0.06	1.35 × 10 10	3.13 × 10 6
0.3	85.08	2.98±0.05	1.54 × 10 10	3.46 × 10 6
0.4	81.17	2.96±0.04	1.80 × 10 10	3.90 × 10 6
0.5	74.69	3.04 ± 0.05	2.14 × 10 10	4.45 × 10 6
0.6	77.59	3.54±0.06	2.53 × 10 10	5.10 × 10 6
0.7	76.50	2.80±0.06	3.00 × 10 10	5.87 × 10 6
0.8	79.04	3.56±0.05	3.53 × 10 10	6.74 × 10 6
0.9	76.97	3.17±0.05	4.14 × 10 10	7.72 × 10 6
1.0	77.07	3.23±0.05	4.83 × 10 10	8.82 × 10 6

如表所示 1排名时,支撑材得到最好的价值比是0.5。模型参数压缩23%和29%的失败。生成的图像比原始模型在支撑材和。它可以证明我们的方法可以生成更好的图像比原始模型参数较少。有效使用CP分解重构模型和设计紧凑text-to-image甘而不损失图像质量。虽然 8.8 × 10 9 彻底失败了 1.31 × 10 6 参数降低,生成的图像CPGAN得到一点改善和支撑材。这表明,生成的图像模型与多个参数可能不是更好。所以约0.5的秩,我们寻找一个更好的模式确保生成的图像的质量。

表 2显示了我们最好的生成模型和原始模型之间的比较是,FID,参数和失败。FID,原始模型的79.55和2.66±0.03在牛津- 102,而最好的模型74.40和3.68±0.08,分别。在幼崽,我们最好的模型生成的图像在支撑材65.94和5.03±0.07,而原始模型的68.79和2.88±0.04,分别。代表图像的比较在牛津- 102和幼崽数据集的数据中可以看到 4和 5,分别。CPGAN更好的生成的图像表明,我们的方法可以生成更现实的图像从文本描述。这些结果也证明有冗余参数在现有text-to-image甘。更简洁和高效text-to-image GAN模型可以根据CPD设计。

表2

对比我们的模型和原始模型。

模型	牛津- 102		幼崽		失败	#参数
模型	支撑材	是	支撑材	是	失败	#参数
原始	79.55	2.66±0.03	68.79	2.88±0.04	3.02 × 10 10	5.76 × 10 6
重新设计	74.40	3.68±0.08	65.94	5.03±0.07	2.33 × 10 10	5.07 × 10 6

图4

生成的图像由我们提出的模型和原始模型在牛津- 102。

图5

生成的图像由我们提出的模型和原始模型在幼崽。

5。结论

在本文中,我们提出一个简单而有效的架构基于CPD CPGAN。CPGAN可以减少大量参数和失败的原始模型。它也提高了同时生成的图像的质量。CPGAN模型设计过程中,我们将卷积层替换为三个CP分解小层达到一定的压缩。以稳定的训练过程中,我们引入调节增加减少文本嵌入稀疏造成的不稳定。以进一步提高端到端培训我们的模型,autoencoder是集成到模型的想法。每个分解一层一层可以被视为一个编码器,配上一个额外的译码器层。译码器层培训后可以删除。实验证明CPGAN参数减少了约23%和29%失败的小改进生成图像质量在牛津- 102。大量实验结果表明,我们建议的CPGAN可以设计一个有效text-to-image GAN。 We have also decomposed similar convolution layers in other GAN models and these experiment results were similar to the experiment results of GAN-int-cls. The main convolution layers of the generator in other text-to-image GAN models are similar to GAN-int-cls. It is applicable for other cross modal GANs to use CPD. In the existing methods, the rank is set manually, which is time-consuming. Therefore, the automatic selection of rank may be a research direction in the future.

数据可用性

本文使用的数据集是公共数据集可以通过访问以下网站: http://www.vision.caltech.edu/visipedia/cub - 200 - 2011. - html和 https://www.robots.ox.ac.uk/∼vgg /数据/花/ 102 /

的利益冲突

作者宣称没有利益冲突有关的出版。

顾

J。

蔡

J。

Joty

s R。

看,想象和匹配:改善textual-visual跨通道检索与生成模型

《IEEE计算机视觉与模式识别会议

2018年

美国犹他盐湖城

7181年 7189年

李

Y。

氮化镓

Z。

沈

Y。

甘StoryGAN:连续条件为可视化的故事

《IEEE计算机视觉与模式识别会议

2019年

美国西雅图,华盛顿州

6329年 6338年

李

W。

张

P。

张

Object-driven text-to-image合成通过对抗训练

《IEEE计算机视觉与模式识别会议

2019年

美国西雅图,华盛顿州

12174年 12182年

Mansimov

E。

Parisotto

E。

英航

j·L。

Salakhutdinov

R。

从字幕生成图像与关注

美国学习国际会议上表示

2016年

圣地亚哥,加州,美国

van den Oord

一个。

Kalchbrenner

N。

Espeholt

有条件的图像生成与PixelCNN解码器

先进的神经信息处理系统 2016年 29日 4790年 4798年

格拉汉姆·古德费勒

i . J。

Pouget-Abadie

J。

阁下

M。

生成敌对的网

先进的神经信息处理系统 2014年 2 2672年 2680年

里德

年代。

Akata

Z。

杨ydF4y2Ba

X。

生成敌对的文本图像合成

机器学习研究的程序 2016年 48 1060年 1069年

丹顿

E。

扎

W。

米菲

J。

利用线性结构在卷积网络有效的评估

先进的神经信息处理系统 2014年 27 1269年 1277年

Jaderberg

M。

Vedaldi

一个。

Zisserman

一个。

加快卷积神经网络较低等级的扩张

《英国机器视觉会议 2014年

列别捷夫

V。

Ganin

Y。

Rakhuba

M。

使用调整cp-decomposition加快卷积神经网络

2014年

http://arxiv.org/abs/1412.6553

史密斯

l . N。

周期性的学习训练神经网络

学报2017年IEEE冬季会议上的应用计算机视觉(WACV)

2017年

圣罗莎、钙、美国

464年 472年

希区柯克

f . L。

一个张量的表达或polyadic作为笔产品

数学和物理学杂志》上 1927年 6 1 - 4 164年 189年

10.1002 / sapm192761164

Kroonenberg

p . M。

应用多路数据分析 2008年

美国新泽西州霍博肯

Wiley-Interscience

罗默

F。

Haardt

M。

semi-algebraic近似CP分解框架通过矩阵同时对角化(SECSI)

信号处理 2013年 93年 9 2722年 2738年

10.1016 / j.sigpro.2013.02.016

2 - s2.0 - 84877995250

Vasilescu

m·a·O。

Terzopoulos

D。

多重线性分析图像的集合体:tensorfaces

欧洲计算机视觉的诉讼

2002年

丹麦哥本哈根

447年 460年

Acar

E。

Camtepe

美国一个。

Krishnamoorthy

m . S。

建模和多路聊天室张量分析

诉讼的情报与安全信息学国际会议

2005年

圣地亚哥,加州,美国

256年 268年

阿斯特丽德

M。

李

我美国。

CP-decomposition与张量力量卷积神经网络压缩的方法

学报2017年IEEE大数据和智能计算国际会议(BigComp)

2017年

济州岛,韩国

115年 118年

金

y D。

公园

E。

柳

年代。

压缩的卷积神经网络快速和低功率的移动应用程序

计算机科学 2015年 71年 2 576年 584年

张

Q。

杨

l . T。

陈

Z。

一种改进的基于正则polyadic分解深度计算模型

IEEE系统,人,和控制论:系统 2017年 48 10 1657年 1666年

20.

大

C。

肖

T。

张

Y。

与低秩正规化卷积神经网络

2015年

http://arxiv.org/abs/1404.3978

张

H。

徐

T。

李

H。

StackGAN:文本与叠加生成敌对的网络照片真实感图像的合成

《IEEE计算机视觉国际会议

2017年

意大利的威尼斯

5907年 5915年

张

H。

徐

T。

李

H。

StackGAN + +:现实的图像合成和叠加生成对抗的网络

IEEE模式分析与机器智能 2018年 41 8 1947年 1962年

张

Z。

谢

Y。

杨

摄影text-to-image合成与hierarchically-nested敌对的网络

《IEEE计算机视觉与模式识别会议

2018年

美国犹他盐湖城

6199年 6208年

丹顿

e . L。

Chintala

年代。

费格斯

R。

深度图像生成模型使用一个敌对的网络的拉普拉斯算子的金字塔

先进的神经信息处理系统 2015年 28 1486年 1494年

徐

T。

张

P。

黄

Q。

AttnGAN:细粒度的文本图像生成与注意力生成对抗的网络

《IEEE计算机视觉与模式识别会议

2018年

美国犹他盐湖城

1316年 1324年

乔

T。

张

J。

徐

D。

学习、想象和创造:text-to-image代从先验知识

先进的神经信息处理系统 2019年 887年 897年

里德

s E。

Akata

Z。

莫汉

年代。

学习什么和在哪里画

先进的神经信息处理系统 2016年 217年 225年

Odena

一个。

Olah

C。

有条件的图像合成与辅助分类器甘斯

机器学习的国际会议

2017年

澳大利亚悉尼

2642年 2651年

29日

破折号

一个。

Gamboa

j . C。

艾哈迈德

年代。

TAC-GAN——文本条件辅助分类器生成对抗的网络

2017年

http://arxiv.org/abs/1703.06412

30.

越南盾

H。

余

年代。

吴

C。

通过对抗性的学习语义图像合成

《IEEE计算机视觉国际会议

2017年

意大利的威尼斯

5706年 5714年

31日

签证官

d . M。

杉本学

一个。

Paired-D甘为语义图像合成

计算机视觉的亚洲会议

2018年

美国犹他盐湖城

468年 484年

蜀

H。

王

Y。

贾

X。

进化论对未配对图像压缩的翻译

《IEEE计算机视觉国际会议

2019年

首尔,韩国

3234年 3243年

李

M。

林

J。

丁

Y。

氮化镓压缩:高效的互动条件甘斯架构

《IEEE / CVF计算机视觉与模式识别会议

2020年

首尔,韩国

5283年 5293年

里德

年代。

Akata

Z。

李

H。

学习的深度表示细粒度的视觉描述

《IEEE计算机视觉与模式识别会议

2016年

美国内华达州拉斯维加斯

49 58

哇

C。

布兰森

年代。

Welinder

P。

Caltech-UCSD鸟数据集- 200 - 2011

2011年计算与神经系统技术报告

Nilsback

m E。

Zisserman

一个。

自动分类花在大量的类

学报2008年第六印度计算机视觉、图形和图像处理

2008年

布巴内斯瓦尔,印度

IEEE

722年 729年

Kingma

d . P。

英航

J。

亚当:一个随机优化方法

美国学习国际会议上表示

2015年

圣地亚哥,加州,美国