标题图像生成方法的概述

文摘

近年来,随着人工智能技术的迅速发展,图像标题已逐渐引起了许多研究者的注意在人工智能领域,已经成为一个有趣的和艰巨的任务。图像标题,根据内容自动生成自然语言描述观察到的图像,是场景理解的一个重要组成部分,结合了计算机视觉和自然语言处理的知识。图片标题的应用广泛和重要,例如,实现人机交互。本文总结了相关的方法和重点关注机制,在计算机视觉中扮演着很重要的角色,最近广泛用于图像标题一代的任务。此外,这些方法的优点和缺点进行了讨论,提供了常用的数据集和评估标准。最后,本文强调了一些开放的挑战在图像标题的任务。

1。介绍

图像描述系统的发展可以帮助视力受损的人“看”世界的未来。最近,它吸引了越来越多的关注,成为计算机视觉(最重要的话题之一1- - - - - -11]。早期图像描述生成方法总图像信息使用静态图像中的对象类库和使用统计语言模型建模。阿克尔和Gaizauskas12)使用依赖模型总结多个web文档包含相关信息图像位置和提出一个方法来自动标记标记图像。李等人。13)提出一个语法方法基于网络规模、收集候选人短语并把它们合并形成句子描述图片从0。杨et al。14)提出一个从英语语言模型训练Gigaword语料库获取图像中的运动估计和托管的名词的概率,场景,介词和使用这些作为隐马尔可夫模型的参数估计。获得的图像描述预测最可能的名词,动词,场景,和介词构成句子。Kulkarni et al。15]提出使用检测器来检测图像中的对象,每个候选区域进行分类和处理通过介词的关系函数,最后应用条件随机场(CRF)预测图像标记生成自然语言描述。对象检测也上执行图像。林等。16)使用了一个3 d视觉分析系统来推断对象、属性和关系,在一个图像,并将其转换为一系列语义树,然后学习语法为这些树生成文本描述。

一些间接的方法也提出了处理图像描述问题,如提出的查询扩展方法Yagcioglu et al。17),通过检索相似的图像从一个大数据集和使用中所描述的分布与检索到的图像。表达式是用来创建一个扩展查询,然后是候选人描述被评估重新排序之间的余弦分布的代表性和扩展的查询向量,最后,最接近的描述作为一个输入图像的描述。总之,头脑风暴和描述的方法都有自己的特点,但都有共同的缺点,他们不进行直观的特性观测图像中对象或行动,他们也不给一个端到端的成熟的一般模型来解决这个问题。神经网络的效率和推广取得了突破领域的形象描述,看到新的希望,直到大数据时代的到来和爆发的深度学习方法。

在本文中,我们回顾近年来图像描述方法的开发过程和总结的基本框架和一些改进的方法。然后,我们分析现有模型的优缺点和比较他们的结果在公共大规模数据集。最后,我们总结一些开放的挑战在这个任务中。

本文组织如下。第二部分详细介绍了基本的模型和方法。第三部分侧重于关注机制的引入优化模型和弥补的缺点。第四部分介绍了常见的图像标题和比较数据集出现的结果在不同的模型。不同的评价方法进行了讨论。第五部分总结了现有的工作,提出了今后工作的方向和期望。

2。特征提取方法

形象说明模型可以分为两大类:一个方法基于统计概率的语言模型来生成手工艺特性和神经网络模型基于encoder-decoder语言模型来提取深特性。两个模型的具体细节将分别讨论。

2.1。手工艺特性统计语言模型

这个方法是一个蚊系统基于最大似然估计,直接学习图像的视觉探测器和语言模型描述数据集,如图1。方等。18首先分析图像,检测对象,然后生成一个标题。词是被应用卷积神经网络(CNN)的图像区域(19)和集成信息与密尔(20.]。这个句子的结构是直接从标题尽量减少训练关于句子结构的先验假设。最后,它变成一个图像字幕生成问题转化为一个优化问题,寻找最可能的句子。

实现的步骤如下:(1)检测一组单词,可能是图片说明的一部分。从给定的词汇根据我们检测单词的内容对应的图像基于弱监测方法在多实例学习(MIL)为了训练迭代探测器。(2)运行一个完全卷积网络在一个图像,我们得到一个粗略的空间响应图。每个位置的响应图对应一个响应应用最初的美国有线电视新闻网获得的输入图像的区域转移的转移(因此有效扫描图像中不同位置找到可能的对象)。通过upsampling图像,我们得到一个响应映射在最后完全连接层,然后实现noisy-OR版本的MIL为每个图像地图上的响应。每个单词生成一个单一的概率。(3)说明生成的过程是寻找最可能的视觉检测条件下的句子词集。语言模型是这个过程的核心,因为它定义了一个序列的概率分布的单词。虽然最大熵语言模型(我)是一个统计模型,它可以编码非常有意义的信息。例如,“运行”更有可能遵循“马”比”这个词来说。“这个信息可以帮助识别错误的单词和编码常识知识。(4)有类似的方法使用的组合属性检测器和语言模型来处理图像标题。Devlin et al。21)结合CNN和基于事例的方法和结合最大熵模型和RNN处理图像描述生成任务。肯尼斯·Tran提出了一个图像描述系统,22]利用CNN作为视觉模型检测广泛的视觉概念,地标,名人,和其他实体到语言模型,输出结果是相同的提取的CNN。向量在一起作为输入多路depth-similar模型来生成一个描述。

2.2。深度学习和神经网络特性

递归神经网络(RNN) (23)吸引了大量的关注领域的深入学习。它原本是广泛应用于自然语言处理的领域,取得了良好的效果在语言建模(24]。领域的演讲,RNN相互转换文本和语音(25- - - - - -31日),机器翻译(32- - - - - -37],问答[38- - - - - -43),等等。当然,他们也作为强大的语言模型的字符和单词。目前,模型似乎比也能进行字符级别的模型,但这肯定是暂时的。在计算机视觉RNN也迅速普及。例如,框架水准仪视频分类(44- - - - - -46],序列建模[47,48问答),和最近的视觉任务。

如图2,图像生成方法提出了基于encoder-decoder模型描述的兴起和广泛应用递归神经网络(49]。在模型中,编码器是一种卷积神经网络,最后完全连接层的特性或卷积层作为图像的特征提取。解码器是一个递归神经网络,它主要用于图像描述的一代。因为RNN训练是很困难的50),有一种普遍的梯度下降的问题,虽然可以通过正则化(稍微补偿51],RNN仍有一个致命缺陷,只记得以前的内容有限的时间单位,和LSTM52)是一种特殊的RNN架构,可以解决问题,如梯度消失,它有长期记忆。近年来,LSTM网络表现良好在处理video-related上下文(53- - - - - -55]。类似于视频上下文,LSTM模型结构如图3一般用于文本上下文解码阶段。

3所示。注意机制

注意机制,源于人类的视觉的研究,是一个复杂的认知能力,人类在认知神经学。当人们接收信息的时候,他们能有意识地忽略掉一些主要信息而忽略其他次要的信息。这种自我选择的能力被称为注意力。这种机制被首次提出应用于图像分类领域的视觉图像使用RNN的注意机制模型(56]。在自然语言处理中,当人们读长文本,人类的注意力集中在关键字,事件,或实体。大量的实验证明,注意机制应用于文本处理,例如,机器翻译(35,57()、抽象代58,59)、文本理解(60- - - - - -63年),文本分类(64年- - - - - -66年),视觉字幕(67年,68年),以及其他问题,取得了显著的结果,和下面描述了图像中不同的注意机制的应用方法描述基本框架中引入第二部分,以便提高其效果。

在神经网络模型中,注意机制的实现,它允许神经网络有能力专注于其子集的输入(或特性)——选择特定的输入或特性。的主要部分的注意机制是以下两个方面:决定需要注意哪些输入的一部分;有限的信息处理资源的分配的重要组成部分。目前,主流的注意机制计算公式方程所示(1)和(2);设计理念是将目标模块米_t与源模块米_年代通过一个函数和最后规范化得到概率分布:

基于上面提到的注意机制的优势,本章详细介绍了各种成就的关注机制算法及其应用在图像描述的一代。

3.1。软的关注

Dzmitry et al。57)首次提出软注意力模型和应用机器翻译。事实上,“软”是指注意分配的概率分布。对于任何单词输入句子年代根据上下文,概率向量Z_t(69年]。最后,计算所有区域的加权和的概率分布:

确定的注意模型制定通过计算软注意加权向量(57]:

目标函数可以写成:

软的关注是参数化的,因此可以嵌入和直接建模培训。梯度可以通过关注机制模块模型的其他部分。

3.2。努力关注

与软注意力机制不同,其重点是计算所有区域的加权和,艰难的注意力只集中在一个位置,是一个过程的随机选择一个独特的位置。它隐藏状态的输入样本的概率,而不是整个编码器的隐藏状态。上下文向量Z_t(69年计算如下: 在哪里是指是否选择我th位置l特征图,如果选择,设置为1,否则相反。

为了实现梯度反向传播,蒙特卡罗抽样需要估计模块的梯度。努力关注的一个缺点是信息选择基于最大抽样或随机抽样的方法。因此,最终的损失函数之间的功能关系和注意分配是不可以实现的,在不能使用反向传播算法和训练。

3.3。多线程的关注

一般来说,我们可以代表着一个键-值对输入信息格式,在“关键”是用来计算注意力分配和“价值”是用于生成所选信息。多头的注意机制使用多元化的键,值,计算和查询信息的多元化选择并行输入信息的线性投影。如图3,每一个注意力集中在输入信息的不同部分来生成输出值,最后,这些输出值连接和投影来生成最终的价值70年]:

3.4。按比例缩小的点积的关注

按比例缩小的点积(注意70年)执行一个关注函数使用钥匙,价值观,和查询矩阵:

额外注意兼容性函数使用一个单隐层前馈网络。在实践中,缩小点积比多头空间效率更快、更关注机制,因为它可以使用一个高度优化的实现矩阵乘法的代码。

3.5。全球的关注

全球关注的主要思想71年是考虑所有编码器的隐层的状态。它获得关注重量分布通过比较当前解码器隐层状态与每个编码器隐藏层的状态。它类似于软;在解码的过程中,每个时间步都需要计算编码中的每个单词的注意体重,然后权重向量的上下文。整个流程如图4。因为它选择关注所有编码器输入计算每个解码器状态时,计算量相对较大。

3.6。当地的关注

当地的关注(71年)首先发现一个对齐的位置,然后计算体重的关注在左和右窗口位置所在,最后权重向量的上下文。这实际上是一个混合的软、硬之间的妥协。地方关注的主要优势是减少注意力机制的成本计算。计算,当地的注意力是不考虑所有的单词在源语言方面,但预测源语言的位置在当前解码显示一致预测函数,然后通过上下文导航窗口,窗口中只考虑这句话。

3.7。自适应关注视觉前哨

大部分注意力模型用于图像标题和视觉问题和答案,无论图像生成下一个词,重点是在每个时间步72年- - - - - -74年]。然而,不是所有的单词都有相应的视觉信号。自适应的注意机制和视觉前哨(75年)当添加的注意力机制的解决问题,把它们以单词序列的提取有意义的信息。如图5,上下文向量被认为是LSTM剩余视觉信息的隐藏状态。它减少了不确定性和补充下一个单词的信息预测在当前隐藏状态。计算如下: 自适应上下文向量的定义是在哪里 ,这是建模为空间图像特征(即的混合物。,the context vector of the spatial attention model) and the visual sentinel vector 。它决定了多少新的信息网络考虑从解码的图像和它已经知道什么记忆。

3.8。语义的关注

语义(注意76年)有选择地处理语义概念,融合成LSTM的隐藏状态和输出。选择和融合形式反馈连接自顶向下和自底向上计算。首先,多个属性和自底向上的特性从输入图像中提取使用多个属性检测器(AttrDet),然后所有的视觉特性输入关注体重递归神经网络(RNN)输入和状态计算。实现如下:

整个模型体系结构如图6。

3.9。空间和Channel-Wise关注

空间和通道(注意77年是根据需要选择语义属性的过程如图句子的上下文7。它使用注意力机制根据提取的语义在编码过程中,为了克服一般注意力机制解码。注意的问题使用的最后一层时超量程的过程。例如,当我们想要预测“蛋糕”channel-wise关注(例如,“卷积5 _3 /卷积5 _4特征地图”)将基于“蛋糕”,“火”,“光”和“蜡烛”,相当于形状语义,和更多的重量分配渠道。其次,由于地图功能取决于它的底层特征提取,是很自然的在多层应用的注意;这允许获得视觉注意力在多个语义抽象。

3.10。领域的关注

Pedersoli et al。4模型(图)提出了一个笔记8)。该方法使用三对交互来实现一个注意机制模型的图像区域之间的依赖关系,标题文字,RNN语言模型的状态。与以前的方法相比将只有图像区域与RNN的状态,这种方法允许标题文字和图像之间的直接联系,不仅考虑国家和预测之间的关系词,但也考虑到图像(78年]。地区和这个词和国家之间的关系是更全面。

3.11。刻意的关注

高et al。79年(图)提出了一个深思熟虑的注意力模型9)。提出的方法是通过观察人们的日常习惯处理的事情,如常见的行为改善或完善工作在人民日报写作,绘画,阅读。在本文中,作者提出一个新颖的深思熟虑的残余关注网络,即达,为图像字幕。初步的residual-based注意层准备隐状态和视觉注意力产生初步版本的字幕,而第二次故意residual-based层改进他们的关注。以来,第二轮是基于粗糙的全球特性被隐藏层和初步的视觉注意力,达有可能产生更好的句子。他们还进一步装备DA区别的损失和强化学习来消除歧义图像/标题对和减少偏见。

本章分析了不同的注意机制的算法模型。表1总结了注意力机制的应用在图像描述和不同的注意机制的评论指出,他们添加模型,这是方便读者选择合适的在未来的研究。注意机制提高了模型的影响。


Ref。	注意名字	方法	评论

(69年]	软的关注	给出一个概率根据任何词上下文向量输入句子当寻求关注概率分布	参数化导数使肯定

(69年]	努力关注	只关注一个随机选择的位置使用蒙特卡罗抽样估计梯度	随机概率的基础上简单的

(70年]	多线程的关注	线性预测多个并行的信息从输入中选择使用多个键值,查询	线性投影平行关注信息子空间在不同的位置不同的表示多注意头

(70年]	按比例缩小的点积的关注	执行一个关注函数使用键,值,和查询矩阵	高速节省空间

(71年]	全球的关注	考虑到隐层的所有编码器状态,注意力的重量分布是通过比较当前解码器隐层状态和每个编码器隐藏层的状态	全面的耗费时间的大量的计算

(71年]	当地的关注	首先找到一个位置,然后计算注意体重的左和右窗口位置,最后体重上下文向量	降低成本的计算

(75年]	自适应的关注	定义一种新的自适应上下文向量建模为一个混合的空间参加图像特征和视觉哨兵向量。这个交易多少新的信息网络正在考虑从图像解码器已经知道什么记忆	解决时间和地点添加关注为了提取有意义的信息序列

(76年]	语义的关注	选择语义概念,并纳入LSTM隐藏状态和输出	可选合并从上到下从下到上

(77年]	空间和channel-wise关注	选择语义属性基于句子上下文的需要	多个语义为了克服超量程的使用时一般关注的问题

(4]	领域的关注	建模图像区域之间的依赖关系,标题文字和RNN语言模型的状态	交互全面的

4所示。数据集和评价

本章主要介绍开源数据集的评价方法和生成的句子。数据、计算能力和算法的三个主要元素是当前人工智能的发展。三个相辅相成、相互加强。可以说,一个好的数据集可以使算法或模型更有效。图像描述任务类似于机器翻译,及其评价方法从机器翻译延伸形成自己独特的评价标准。

4.1。数据集

数据是人工智能的基础。人们越来越多地发现,许多法律,很难找到可以从大量的数据中找到。在图像描述生成任务,目前有丰富多彩的数据集,如MSCOCO Flickr8k, Flickr30k,帕斯卡1 k, AI对手数据集,楼梯和字幕,逐步成为一种趋势的焦点。在数据集,每个图像有五个参考描述,和表2总结了图像在每个数据集的数量。为了有多个独立的每个图像的描述,数据集使用不同的语法来描述相同的形象。如下图示例10,同一幅图像的不同描述关注现场的不同方面或使用不同的语法构造。MSCOCO。微软可可字幕数据集(80年),由微软开发团队目标场景的理解,从复杂的日常场景捕捉图像,可以用来执行多个任务,如图像识别,分割,和描述。数据集使用亚马逊的“机械土耳其人”服务来人为地为每个图像生成至少五句,共有超过150万个句子。训练集包含82783张图片,验证集的40504张图片,测试集有40775图片。2014年版本的数据共有大约20 g图片和注释文件的约500马克一个图像之间的对应关系及其描述。Flickr8k / Flickr30k(81年,82年]。Flickr8k形象来自雅虎Flickr相册网站,其中包含8000张照片,6000年形象培训、1000图像验证,1000图像测试。Flickr30k包含从Flickr网站收集的31783张图片,主要描绘人类参与事件。相应的手动标签为每个图像仍然是5个句子。帕斯卡1 k(83年]。著名的帕斯卡VOC挑战图像数据集的一个子集,它提供了一个标准的图像标注数据集和一个标准的评价体系。帕斯卡VOC照片收集由20个类别,和20个类别,50图像被随机选中的总共1000张图片。然后,亚马逊的土耳其机器人服务用于手动为每个图像标记5描述。数据集的图像质量好,标签齐全,非常适合测试算法性能。另类投资会议。中国形象描述数据集来自AI的挑战者,中国是第一个大型数据集描述领域的图像标题。数据集包含210000张照片30000年的训练集和验证集的照片。类似于MSCOCO,照片是伴随着5中文描述,突出图像中的重要信息,覆盖主要人物,场景,行动,和其他内容。与英语相比,数据集常见的类似的科研任务,中国在语法和词汇化的句子通常有更大的灵活性,以及算法实现的可能性也更大的挑战。楼梯。日本形象描述数据集(84年),构造基于MSCOCO的图像数据集。楼梯由164062张照片和一个共有820310名日本描述对应每个五张照片。它是日本最大的形象描述数据集。


数据集名称	大小
数据集名称	火车	有效的	测试

MSCOCO	82783年	40504年	40775年
Filckr8k	6000年	1000年	1000年
Filckr30k	28000年	1000年	1000年
帕斯卡1 k	- - - - - -	- - - - - -	1000年
另类投资会议	210000年	30000年	30000年
楼梯	82783年	40504年	40775年

4.2。评估标准

在句子生成的评估结果,蓝色85年],流星[86年],胭脂[87年),苹果酒(88年),和香料89年通常作为评价指标。五个指标,蓝色为机器翻译和流星,胭脂是自动汇总,苹果酒和香料存在图像标题。他们测量的一致性之间的语法生成的句子,这是语法意义和罕见的影响。同时,所有四个指标可以直接计算MSCOCO标题评估工具。源代码是公开的。蓝色。它是最广泛使用的评价指标;设计的初衷不是为了形象说明问题,但对于机器翻译问题基于准确率评估。它是用来分析语法翻译语句之间的相关性计算和参考翻译语句。它的核心理念是,越接近人类专业翻译机器翻译语句是一个声明,性能就越好。在这个任务中,处理是一样的机器翻译:多个图像相当于多个源语言句子的翻译。蓝色的优点是,它认为粒度是一个语法而不是一个词,考虑再匹配信息。蓝色的劣势是,无论什么样的语法匹配、这将是相同的对待。例如,动词匹配的重要性应该直观地大于文章。蓝色的分数越高,性能越好。流星。流星还用于评估机器翻译,将翻译从模型中生成的参考翻译和匹配的准确性,回忆,和F价值的各种情况。流星之所以特别,是因为它不希望产生非常“破”的翻译方法是基于1克的精度和召回的调和平均数。回忆的重量比精度稍高。这一标准也有功能不可用。它的目的是用蓝色解决的一些问题。人类判断和是高度相关的,不像蓝色,它具有很高的相关性与人类的判断不仅在整个集合,而且在句子和段的水平。流星的分数越高,性能越好。胭脂。胭脂是一组自动化评估标准用来评估文本摘要算法。RUGE得分越高,性能越好。苹果酒。苹果酒是专门为图像注释的问题。通过执行措施的一致性图像注释术语Frequency-Inverse文档频率为每个语法(TF-IDF)重量计算。这个指标对每个句子作为一个“文档”,代表它的形式TF-IDF向量,然后计算参考的余弦相似性描述描述生成的模型作为一个分数。换句话说,它是向量空间模型。这个指标弥补了蓝色的缺点之一,也就是说,所有单词匹配处理是相同的,但事实上,有些字应该更重要。苹果酒的分数越高,性能越好。香料。这是一个语义评价指标有效地恢复图像标题,衡量图像标题对象,属性以及它们之间的关系。对自然图像标题数据集,香料是能够更好地捕捉人类的判断模型的字幕,而不是现有的语法标准。

表3显示了分数的注意机制在第3部分中引入的。从表3,我们发现分数不同的评估标准对不同模型的表现是不一样的。虽然有一些评估标准的差异,如果注意力模型的改进效果非常明显,一般来说,所有评价指标相对较高的评级。


Ref。	注意模型	BLEU-4	流星	ROUGE-L	苹果酒

(69年]	软的关注	24.3	23.9	- - - - - -	- - - - - -
(69年]	努力关注	25.0	23.0	51.6	86.5
(70年]	多线程/扩展点积	28.4	- - - - - -	- - - - - -	- - - - - -
(71年]	全局/局部注意力	25.9	- - - - - -	- - - - - -	- - - - - -
(75年]	自适应的关注	33.2	26.6	55.0	108.5
(76年]	语义的关注	30.4	24.3	53.5	94.3
(77年]	空间和channel-wise	31.1	25.4	53.0	94.3
(4]	领域的关注	31.9	25.2	- - - - - -	98.1
(79年]	刻意的关注	37.5	28.5	58.2	125.6

基于NIC模型(49最先进的性能,徐et al。69年]描述标题代方法,试图把一种关注两个变量:一个机制和“软”“硬”关注关注机制。鼓励最新进展说明生成和灵感来自最近的成功使用注意机器翻译(57和对象识别90年,91年),他们调查模型,可以参加一个突出部分的图像,产生了它的标题。

现有方法是自上而下的,从图像并将其转换为文字的大意,或者自底向上,拿出单词描述一个图像,然后把它们的各个方面。你等。89年提出一个新算法,该算法结合了这两种方法通过一个模型语义的注意。算法学会有选择地参加语义概念提案和融合成递归神经网络的隐状态和输出。选择和融合形成一个反馈连接的自顶向下和自底向上计算。的方法是更有效的比“软”和“硬”的关注。

视觉注意力模型一般只空间。陈等人。77年]介绍小说卷积神经网络被称为SCA-CNN包含空间和CNN channel-wise殷勤。在任务的图像字幕,SCA-CNN动态调节的句子生成环境多层特征图谱,编码,和视觉注意力是什么。Pedersoli和卢卡斯89年提出”领域的关注,”模型图像区域之间的依赖关系的方法,标题文字,RNN语言模型的状态,使用三个两两交互,这种方法允许直接标题文字和图像区域之间的联系。以上两种方法都在一起产生结果,前面提到的MSCOCO数据集。

陆et al。75年)提出一个自适应与视觉注意模型前哨。模型不仅决定是否参加视觉的图像或哨兵还决定,为了提取有意义的信息顺序词的一代。这组新的先进的到目前为止以压倒性优势胜出。

5。结论

在这篇概述中,我们收集了所有方面的图像的标题一代任务,讨论了模型框架提出了近年来解决描述任务,集中在算法的本质不同的注意机制,并总结了如何注意机制应用。我们总结了大型数据集和评价标准在实践中常用的。

尽管图像标题可以应用于图像检索(92年),视频标题(93年,94年),和视频运动(95年)和各种各样的图像说明系统是可用的今天,实验结果表明,该任务仍有更好的性能和改进系统。主要面临以下三个挑战:第一,如何生成完成自然语言句子像人类;第二,如何使生成的句子语法正确;第三,如何让标题尽可能清晰的语义和符合给定的图像内容。对于未来的工作,我们提出以下四个可能的改进:(1)一个图像往往是内容丰富。模型应该能够描述句子生成对应于多个主要对象有多个目标对象的图像,而不是仅仅描述一个目标对象。(2)对语料库的描述语言不同的语言,一般图像的描述系统应该能够处理多种语言开发。(3)评估的结果自然语言生成系统是一个困难的问题。最好的方法来评估质量的自动生成文本语言学家的主观评价,这是难以实现的。为了提高系统性能,评价指标应优化使其更符合人类专家的评估。(4)一个非常现实的问题是速度的训练,测试,并生成句子的模型应该被优化以提高性能。

数据可用性

论文中所涉及的数据集都公开:MSCOCO [75年),Flickr8k / Flickr30k [76年,77年],帕斯卡[4)、AIC AI对手网站:https://challenger.ai/dataset/caption和楼梯78年]。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持部分由中国国家自然科学基金(61603080和61603080),中央大学的基础研究基金(N182608004),和医生辽宁省(201601019)的启动基金。

引用

p·安德森,x, c·比勒et al .,“图像字幕,自下而上和自上而下的注意”《IEEE计算机视觉与模式识别会议美国盐湖城,UT, 2018年6月。视图:谷歌学术搜索
j . Aneja a Deshpande,亚历山大,“卷积图像字幕,”《IEEE计算机视觉与模式识别会议美国盐湖城,UT, 2018年6月。视图:谷歌学术搜索
t .姚明,y, y, z秋和t·梅,“与属性,提高图像字幕”《IEEE会议上国际Conferenceon计算机视觉拉斯维加斯,页4904 - 4912年,NV,美国,2016年6月。视图:谷歌学术搜索
m . Pedersoli t·卢卡斯、c·施密德和j . Verbeek“图像字幕区域的关注,”IEEE会议程序在计算机视觉国际会议,第1259 - 1251页,威尼斯,意大利,2017年10月。视图:谷歌学术搜索
h . r . Tavakoli r·谢蒂b·阿里和j . Laaksonen”关注由图像字幕生成模型,描述”IEEE会议程序在计算机视觉国际会议,第2515 - 2506页,威尼斯,意大利,2017年10月。视图:谷歌学术搜索
a·马修斯·l·谢,x,他“SemStyle:学习生成程式化图像标题使用对齐文本”《IEEE计算机视觉与模式识别会议美国盐湖城,UT, 2018年6月。视图:谷歌学术搜索
郭宏源。陈,中州。廖,彭译葶。壮族,W.-T。许,j .傅和m .太阳”显示,适应并告诉:对抗训练的跨域图像标题,”《IEEE会议上国际会议在计算机视觉和模式识别火奴鲁鲁,页521 - 530年,美国,2017年7月,你好。视图:谷歌学术搜索
c . c .公园、b . Kim和g .金”走向个性化的形象通过多通道记忆网络字幕,”IEEE模式分析与机器智能,卷99,p . 2018。视图:谷歌学术搜索
x,马琳、江w . j .姚明,和w·刘,“起居RNNs标题代重建过去与现在,”《IEEE计算机视觉与模式识别会议美国盐湖城,UT, 2018年6月。视图:谷歌学术搜索
r·周x王:张x Lv, L.-J。李,“深基于强化学习图像字幕嵌入奖励,”《IEEE计算机视觉与模式识别会议火奴鲁鲁,页1151 - 1159年,美国,2017年7月,你好。视图:谷歌学术搜索
张问:你,z, j·罗,“端到端语义映射进行卷积,”《IEEE计算机视觉与模式识别会议,页5735 - 5744,盐湖城犹他,美国,2018年6月。视图:谷歌学术搜索
阿克尔和r . Gaizauskas“使用依赖关系模式,生成图像的描述”美国48计算语言学协会的年度会议卷,49号9日,页。1250 - 1258年,乌普萨拉,瑞典,2010年7月。视图:谷歌学术搜索
s, g . Kulkarni t·l·伯格和崔y”组合使用网络级的简单形象的描述字格”自然语言学习十五会议进行计算,页220 - 228,计算语言学协会,波特兰,或者美国,2011年6月。视图:谷歌学术搜索
y, c . l . Teo h . Daume和y Aloimonos“Corpus-guided句子一代的自然图像,”会议的进行自然语言处理的经验方法英国爱丁堡,页444 - 454,,2011年7月。视图:谷歌学术搜索
g . Kulkarni诉Premraj诉Ordonez et al .,”话题:理解和生成简单的形象描述,”IEEE模式分析与机器智能,35卷,不。12日,第2903 - 2891页,2013年。视图:出版商的网站|谷歌学术搜索
林d、c .香港、美国费德勒,r . Urtasun”生成multi-sentence舌室内场景的描述,“第9721 - 2333页,2015年,http://arxiv.org/abs/1503.00064计算机科学。视图:谷歌学术搜索
s Yagcioglu伊斯坦布尔~圣文亚当,e . A . Erdem那样预言正发党胜利和r . Cakıcı“分布式图像字幕,表示基于查询扩展方法”协会学报》第53届计算语言学和第七届国际联合会议上自然语言处理,10卷,不。3115年,北京,中国,2015年7月。视图:谷歌学术搜索
h, s . Gupta f . Iandola et al .,“从标题到视觉概念和回来,”《IEEE计算机视觉与模式识别会议美国,波士顿,MA, 2015年6月。视图:谷歌学术搜索
r . Girshick j·多纳休、d·特雷弗和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”《IEEE计算机视觉与模式识别会议哥伦布,页580 - 587年,哦,美国,2014年6月。视图:谷歌学术搜索
c·张,j·c·普拉特和诉保罗,“多个实例对象检测、提高”神经信息处理系统的进步18麻省理工学院出版社,页1417 - 1424年,伦敦,英国,2005年。视图:谷歌学术搜索
h·j·德夫林h . Cheng方,古普塔,李邓,他和x,“语言模型的图像字幕:怪癖和作品,”2015年,http://arxiv.org/abs/1505.01809计算机科学。视图:谷歌学术搜索
k . Tran x l·张,他和j .太阳,“丰富的图像字幕在野外,”《IEEE计算机视觉与模式识别会议研讨会拉斯维加斯,页434 - 441年,NV,美国,2016年6月。视图:谷歌学术搜索
p . Razvan g卡,k .赵,b . Yoshua”如何构造深度递归神经网络,”2014年,http://arxiv.org/abs/1312.6026计算机科学。视图:谷歌学术搜索
t . Mikolov m . Karafiat l . Burget j .“Honza”Cernocky和s . Khudanpur“递归神经网络建立语言模型,”第十一学报》国际言语交际协会的年会,DBLP千叶,页1045 - 1048年,日本,2010年9月。视图:谷歌学术搜索
c . Valentini-Botinhao x王,高木s和j·山”调查RNN-based noise-robust文本-语音,语音增强方法”《9日ISCA语音合成车间,页146 - 152,桑尼维尔,美国,2016年9月。视图:谷歌学术搜索
s . o . Arik m . Chrzanowski a·科茨和g . Diamos”低沉的声音:实时神经语音”,2017年,http://arxiv.org/abs/1702.07825。视图:谷歌学术搜索
s . o . Arik m . Chrzanowski a·科茨和g . Diamos”低沉的声音2:multi-speaker神经语音,”2017年,http://arxiv.org/abs/1705.08947。视图:谷歌学术搜索
t . Nakashika t Takiguchi, y Ariki”声音转换使用RNN pre-trained复发时间限制玻耳兹曼机,”IEEE / ACM交易音频、语音和语言处理,23卷,不。3、580 - 587年,2015页。视图:出版商的网站|谷歌学术搜索
t·休斯和k . Mierle“复发性神经网络的语音活动检测、音响、”《IEEE国际会议音响、演讲和信号处理7382年,页7378 -温哥华,加拿大,2013年5月。视图:谷歌学术搜索
g . Andrew p、k .彭,j·米勒,”低沉的声音3:2000 -议长神经语音,”2017年,http://arxiv.org/abs/1710.07654。视图:谷歌学术搜索
x王,高木s和j·山”一个RNN-based量子化F0模型与多层反馈链接文本-语音合成、”2017年Interspeech学报》上,页1059 - 1063,斯德哥尔摩,瑞典,2017年8月。视图:谷歌学术搜索
k .赵b . van Merrienboer c . Gulcehre f . Bougares,“学习短语表示使用RNN encoder-decoder统计机器翻译,”2014年,http://arxiv.org/abs/1406.1078计算机科学。视图:谷歌学术搜索
k .赵b . van Merrienboer d . Bahdanau y Bengio,”神经机器翻译的性质:encoder-decoder方法,”2014年,http://arxiv.org/abs/1409.1259计算机科学。视图:谷歌学术搜索
d . Bahdanau k .赵,y Bengio”神经共同学习对齐和翻译机器翻译,”2014年,http://arxiv.org/abs/1409.0473计算机科学。视图:谷歌学术搜索
l . Minh-Thang h·范教授和c·d·曼宁,引起神经机器翻译的有效方法,”2015年,http://arxiv.org/abs/1508.04025计算机科学。视图:谷歌学术搜索
g . Klein k . Yoon y邓,a . m .,”神经机器翻译OpenNMT:开源工具包,”2017年,http://arxiv.org/abs/1701.02810。视图:谷歌学术搜索
吴y、m .舒斯特尔、陈z和j·迪恩,”谷歌的神经机器翻译系统:人类和机器翻译之间的鸿沟方面,“2016年,http://arxiv.org/abs/1609.08144。视图:谷歌学术搜索
h, h . Yu, w .徐,“听着,互动和讨论:通过互动学习说话,”2017年,http://arxiv.org/abs/1705.09906。视图:谷歌学术搜索
b .谢尔曼和z Hammoudeh”,又使深度学习伟大:字符级RNN演讲一代风格的唐纳德·特朗普,”2017年。视图:谷歌学术搜索
美国有k·库马尔,l . Gulrajani和y Bengio,“SampleRNN:无条件的端到端神经音频生成模型,”2016年,http://arxiv.org/abs/1612.07837。视图:谷歌学术搜索
f .田,b高、Di他和T.-Y。刘”,句子水平复发性话题模型:让主题不言自明,”2016年,http://arxiv.org/abs/1604.02038。视图:谷歌学术搜索
工程学系。陈和c c。Ho "混合统计/台湾TTS RNN韵律合成方法,”学报第六届国际会议上口头语言处理高松,页613 - 616年,日本,October-Novemver 2000。视图:谷歌学术搜索
理事长绪方w . Hinoshita t·h·Kozima h .神田t .高桥和h . g . Okuno”出现的进化与声音和运动两个机器人之间的交互使用RNN智能机器人和系统”《IEEE / RSJ智能机器人和系统国际会议,页4186 - 4192年,圣路易斯,密苏里州,美国,2009年10月。视图:谷歌学术搜索
x z . Wu Wang Y.-G。江、h .你们和x天雪,“建模时空线索在混合深度学习视频分类框架”第23届ACM国际会议多媒体学报》上卷,99年,页461 - 470,布里斯班,澳大利亚,2015年10月。视图:谷歌学术搜索
和j . Kautz x, p .莫尔恰诺夫表示,“多层和多通道融合的深层神经网络视频分类,”学报2016 ACM多媒体会议,页978 - 987年,荷兰阿姆斯特丹,2016年10月。视图:谷歌学术搜索
x z . Wu Wang Y.-G。江、h .你们和x天雪,“Multi-stream多层次融合深度网络视频分类,”学报2016 ACM多媒体会议,页791 - 800年,荷兰阿姆斯特丹,2016年10月。视图:谷歌学术搜索
s . Ilya o . Vinyals,诉勒,“序列序列学习神经网络,”先进的神经信息处理系统2014年,页3104 - 3112,http://arxiv.org/abs/1409.3215。视图:谷歌学术搜索
答:坟墓,”与复发性神经网络生成序列”,2013年,http://arxiv.org/abs/1308.0850计算机科学。视图:谷歌学术搜索
o . Vinyals t·亚历山大·s . Bengio, d . Erhan”展示说明:神经图像标题生成器,”《IEEE计算机视觉与模式识别会议哥伦布,页3156 - 3164年,哦,美国,2014年6月。视图:谷歌学术搜索
r . Pascanu t Mikolov, y Bengio“递归神经网络训练的难度。”国际会议上机器学习,52卷,不。3、1310 - 1318年,2012页。视图:谷歌学术搜索
w·扎,即Sutskever, o . Vinyals“复发性神经网络正规化,”2014年,http://arxiv.org/abs/1409.2329。视图:谷歌学术搜索
k . Andrej j·约翰逊和之。李”,观察和了解复发性网络,“2015年,http://arxiv.org/abs/1506.02078。视图:谷歌学术搜索
l . x Wang高,p . Wang”二束3 d行动事先融合识别与任意大小和长度,视频”程序的IEEE多媒体,20卷,不。3,2017。视图:出版商的网站|谷歌学术搜索
l . j .歌曲,h .张x Li高,m . Wang和r .香港”与分层二进制auto-encoder Self-supervised视频哈希,”IEEE图像处理,27卷,不。7,3210 - 3221年,2018页。视图:出版商的网站|谷歌学术搜索
l . x Wang高,j .歌曲和h .沈,“除了框架水准仪CNN: saliency-aware 3 d与LSTM CNN视频动作识别,”IEEE信号处理信件,24卷,不。4、510 - 514年,2016页。视图:出版商的网站|谷歌学术搜索
诉Mnih: Heess a坟墓,“复发性的视觉注意力模型,”先进的神经信息处理系统,3卷,第2212 - 2204页,2014年。视图:谷歌学术搜索
b . Dzmitry k .赵,y Bengio”神经共同学习对齐和翻译机器翻译,“2014年,http://arxiv.org/abs/1409.0473计算机科学。视图:谷歌学术搜索
m·亚历山大,Chopra, j·韦斯顿,“摘要式的句子总结神经注意力模型,”会议的程序在自然语言处理的经验方法2015年9月,里斯本,葡萄牙,。视图:谷歌学术搜索
彭h . m . Allamanis, c·萨顿“卷积关注网络极端的源代码,总结”Thirty-Third机器学习国际会议的程序美国,纽约,纽约,2016年6月。视图:谷歌学术搜索
k·m·赫尔曼·t·Kočisky大肠Grefenstette et al .,“教学机器阅读和理解”诉讼进展的神经信息处理系统2015年12月,蒙特利尔,加拿大,。视图:谷歌学术搜索
w .阴,h . Schutze b, b .周,“引起机器理解卷积神经网络,”《车间人机问题回答美国圣地亚哥CA, 2016年6月。视图:谷歌学术搜索
r . Kadlec m·施密德o . Bajgar, j . Kleindienst“文本与读者的关注和理解网络》美国学习国际会议上表示2016年5月,波多黎各圣胡安。视图:谷歌学术搜索
b . Dhingra h .刘、杨z和w·威廉,”科恩,ruslan salakhutdinov gated-attention读者对文本的理解,”学报55计算语言学协会的年度会议,1卷,页1832 - 1846,柏林,德国,2016年8月。视图:谷歌学术搜索
c . l . Wang, g . de Melo z . Liu,“cnn关系分类通过多层次的关注,”美国第54计算语言学协会的年度会议,1卷,页1298 - 1307,柏林,德国,2016年8月。视图:谷歌学术搜索
p .周w·史,j .田et al .,“引起双向长期短期记忆网络关系分类,”美国第54计算语言学协会的年度会议,16卷,不。2,页207 - 212,柏林,德国,2016年8月。视图:谷歌学术搜索
z杨,杨d、c·代尔x,亚历克斯·Smola和e . Hovy“层次关注网络文档分类,”学报2016年大会北美的计算语言学协会章:人类语言技术圣地亚哥,页1480 - 1489,美国2016年6月。视图:谷歌学术搜索
j .歌曲、郭y l .高,x, a . Hanjalic h .沈,“从确定性生成:综合随机RNNS视频字幕,“IEEE事务在神经网络和学习系统,30卷,不。10日,3047 - 3058年,2018页。视图:出版商的网站|谷歌学术搜索
l . j .歌曲,x Li高,和h .沈,“与自适应分层LSTMs关注视觉字幕”,2018年,http://arxiv.org/abs/1812.11004。视图:谷歌学术搜索
k .徐j .英航k . Ryan et al .,”节目,参加并告诉:神经图像标题代视觉注意力,”《IEEE计算机视觉与模式识别会议,页2048 - 2057,波士顿,MA,美国,2015年6月。视图:谷歌学术搜索
答:Vaswani: Shazeer: Parmar et al .,“注意你所需要的,”神经信息处理系统的程序美国长滩,CA, 2017年12月。视图:谷歌学术搜索
l . Minh-Thang h·范教授和c·d·曼宁,引起神经机器翻译的有效方法,”会议的程序在自然语言处理的经验方法2015年9月,里斯本,葡萄牙,。视图:谷歌学术搜索
杨z、x, j .高,李邓,和亚历克斯·Smola”堆放注意网络形象问题回答,”《IEEE计算机视觉与模式识别会议美国拉斯维加斯,NV, 2016年6月。视图:谷歌学术搜索
c, s . Merity, r . Socher”动态内存网络视觉和文本问题回答,”机器学习的国际会议,页21,IEEE计算机协会,纽约,纽约,美国,2016年6月。视图:谷歌学术搜索
j . Lu j .杨d·巴特拉,d·帕里克说,“分层question-image co-attention视觉问题回答,”30学报》国际会议上神经信息处理系统西班牙巴塞罗那,页289 - 297,,2016年12月。视图:谷歌学术搜索
j . Lu c, d·帕里克说,r . Socher“知道什么时候看:自适应通过视觉图像字幕前哨,注意”《IEEE计算机视觉与模式识别会议拉斯维加斯,页3242 - 3250年,NV,美国,6 - 2016。视图:谷歌学术搜索
问:你,h·金,z . Wang c .方和j·罗,“图像与语义的注意,字幕”《IEEE计算机视觉与模式识别会议拉斯维加斯,页4651 - 4659年,NV,美国,6 - 2016。视图:谷歌学术搜索
h·l . Chen, j·肖et al .,“SCA-CNN:在回旋的空间和channel-wise关注网络图像字幕,”《IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,页6298 - 6306年,NV,美国,6 - 2016。视图:谷歌学术搜索
m . Cornia l . Baraldi g·塞拉,r . Cucchiar”视觉图像字幕在新的多媒体服务的特点,”《IEEE国际多媒体会议及博览会研讨会(ICMEW),页309 - 314,香港,中国,2017年7月。视图:谷歌学术搜索
l .高k .粉丝,j .歌曲,x, x,和h .沈,“刻意关注网络图像字幕,”人工智能学报AAAI会议33卷,第8327 - 8320页,火奴鲁鲁,嗨,美国2019年1 - 2月刊。视图:出版商的网站|谷歌学术搜索
h . x Chen, T。林易et al .,“微软可可标题:数据收集和评估服务器,”2015年,http://arxiv.org/abs/1504.00325计算机科学。视图:谷歌学术搜索
m . Hodosh p .年轻,j . Hockenmaier”框架图像描述作为一个任务:排名数据、模型和评价指标,”人工智能研究杂志》上47卷,第899 - 853页,2013年。视图:出版商的网站|谷歌学术搜索
c·m·b·a·普卢默l . Wang塞万提斯,j . c . Caicedo j . Hockenmaier和s . Lazebnik”Flickr30k实体:为丰富image-to-sentence收集region-to-phrase通讯模型,”《IEEE国际会议在计算机视觉和模式识别卷,123年,页74 - 93,波士顿,MA,美国,2015年6月。视图:谷歌学术搜索
c . Rashtchian p .年轻、m . Hodosh和j . Hockenmainer”收集图像注释使用亚马逊的土耳其机器人”学报NAACL停止2010年研讨会上创建与亚马逊的土耳其机器人语言数据洛杉矶,页139 - 147,美国2010年6月。视图:谷歌学术搜索
y Yoshikawa、y Shigeto和竹内,“楼梯标题:构建一个大规模的日本图像标题的数据集,”学报55计算语言学协会的年度会议,卷2,页417 - 421,温哥华,加拿大,2017年7月。视图:谷歌学术搜索
p基肖尔,s . Roukos t·沃德,W.-J。朱,“蓝色:机器翻译的自动评价方法,”美国40对计算语言学协会年度会议美国宾夕法尼亚州,费城,2002年7月。视图:谷歌学术搜索
Banerjee和l .阿龙,“流星:自动度量太评价与改进的相关性与人类的判断,”学报ACL研讨会内在和外在的评价措施,机器翻译和/或总结,页65 - 72,安阿伯市,美国,2005年6月。视图:谷歌学术搜索
彭译葶。林,“胭脂:一个包进行自动评估总结,”程序的文本摘要分支,文本总结研讨会分支2004年7月、西班牙的巴塞罗那。视图:谷歌学术搜索
r . Vedantam c·劳伦斯Zitnick, d·帕里克说,“苹果酒:一致同意的形象描述评价,”《IEEE计算机视觉与模式识别会议,页4566 - 4575,波士顿,MA,美国,2015年6月。视图:谷歌学术搜索
p·安德森,b .费尔南多·m·约翰逊,古尔德,“香料:语义命题形象说明评估,”电脑Vision-ECCV 2016,11卷,不。4,页382 - 398,施普林格,可汗,瑞士,2016。视图:出版商的网站|谷歌学术搜索
j·l .英航m .之上,k . Koray“多个物体识别与视觉注意力,”2014年,http://arxiv.org/abs/1412.7755计算机科学。视图:谷歌学术搜索
m .之上,h·尼古拉斯·a .坟墓,k . Koray“复发性的视觉注意力模型,”神经信息处理系统,3卷,第2212 - 2204页,2014年。视图:谷歌学术搜索
f·乔,c .王、张x和h . Wang”大规模near-duplicate名人web图片检索使用视觉和文本特征,“科学世界日报ID 795408条,卷。2013年,11页,2013年。视图:出版商的网站|谷歌学术搜索
Lei, g .谢,g .严”小说帧提取方法对视频摘要和视频索引,“在物联网最新进展ID 695168条,卷。2014年,9页,2014。视图:出版商的网站|谷歌学术搜索
李和金,“多通道特性为视频字幕学习,”计算智能和神经科学卷,2018篇文章ID 3125879、8页,2018。视图:出版商的网站|谷歌学术搜索
a . Nunez-Marcos g . Azkune, i Arganda-Carreras”的下降与卷积神经网络检测,建立“无线通信和移动计算卷,2017篇文章ID 9474806, 16页,2017年。视图:出版商的网站|谷歌学术搜索

计算智能和神经科学

文摘