复杂性gydF4y2Ba 复杂性gydF4y2Ba 1099 - 0526gydF4y2Ba 1076 - 2787gydF4y2Ba HindawigydF4y2Ba 10.1155 / 2020/2509018gydF4y2Ba 2509018gydF4y2Ba 研究文章gydF4y2Ba 语音学和歧义理解的关注网络幽默的认可gydF4y2Ba 风扇gydF4y2Ba XiaochaogydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba https://orcid.org/0000 - 0003 - 0872 - 7688gydF4y2Ba 林gydF4y2Ba 红飞gydF4y2Ba 1gydF4y2Ba 杨gydF4y2Ba 梁gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0001 - 8837 - 2818gydF4y2Ba 刁gydF4y2Ba 玉丰gydF4y2Ba 1gydF4y2Ba 3gydF4y2Ba 沈gydF4y2Ba 陈gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 2140 - 5694gydF4y2Ba 楚gydF4y2Ba 永和gydF4y2Ba 1gydF4y2Ba 张gydF4y2Ba TongxuangydF4y2Ba 1gydF4y2Ba ComminiellogydF4y2Ba 达尼洛gydF4y2Ba 1gydF4y2Ba 计算机科学与技术学院的gydF4y2Ba 大连理工大学gydF4y2Ba 大连gydF4y2Ba 中国gydF4y2Ba dlut.edu.cngydF4y2Ba 2gydF4y2Ba 计算机科学与技术学院的gydF4y2Ba 新疆师范大学gydF4y2Ba 乌鲁木齐gydF4y2Ba 中国gydF4y2Ba xjnu.edu.cngydF4y2Ba 3gydF4y2Ba 物理与电子工程学院gydF4y2Ba 内蒙古大学NatinalitiesgydF4y2Ba 通辽市gydF4y2Ba 中国gydF4y2Ba 2020年gydF4y2Ba 29日gydF4y2Ba 4gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 02gydF4y2Ba 11gydF4y2Ba 2019年gydF4y2Ba 30.gydF4y2Ba 01gydF4y2Ba 2020年gydF4y2Ba 26gydF4y2Ba 02gydF4y2Ba 2020年gydF4y2Ba 29日gydF4y2Ba 4gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 版权©2020 Xiaochao风扇等。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

幽默是指被有趣的质量。随着人工智能的发展,幽默识别是吸引大量的研究关注。尽管语音学和歧义已经被先前的研究,介绍了现有的识别方法仍然缺乏适合神经网络的功能设计。在本文中,我们说明语音结构和模糊与混乱的话需要学会通过神经网络对自己的表现。然后,我们提出了语音学和歧义理解的关注网络(PACGA)学习语音结构和幽默语义表示认可。PACGA模型可以表示语音信息和语义信息与模棱两可的话说,这是幽默的好处的认可。在两个公共数据集实验结果证明我们的模型的有效性。gydF4y2Ba

中国国家自然科学基金gydF4y2Ba 61632011gydF4y2Ba 61572102gydF4y2Ba 61702080gydF4y2Ba 61602079gydF4y2Ba 61806038gydF4y2Ba 教育部人文社会科学项目gydF4y2Ba 16 yjczh12gydF4y2Ba 中央大学基础研究基金gydF4y2Ba DUT18ZD102DUT19RC 016 (4)gydF4y2Ba 中国国家重点研究发展计划gydF4y2Ba 2018年yfc0832101gydF4y2Ba 中国博士后科学基金会gydF4y2Ba 2018年m631788gydF4y2Ba
1。介绍gydF4y2Ba

幽默是经常使用在日常交流gydF4y2Ba 1gydF4y2Ba]。跟人沟通的时候,如果人工智能(AI)系统,比如聊天机器人,可以检测中的幽默对话,这将帮助他们更好地理解人类的情感,帮助AI做出更合适的决定。因此,幽默计算值得特别注意,因为它有可能把电脑变成人类活动的创意和激励工具(gydF4y2Ba 2gydF4y2Ba]。gydF4y2Ba

幽默的识别是指在给定上下文中判断一个句子表达了一定程度的幽默。杨et al。gydF4y2Ba 3gydF4y2Ba)确定三个语义结构和一个语音幽默背后的结构。实验结果表明,模糊和语音结构对幽默识别很重要。gydF4y2Ba

在幽默的文字,语音结构,用作设备通常采用头韵和押韵的形式。头韵、押韵或词重复通常用来唤起或增强幽默的效果,即使不是幽默的内容。gydF4y2Ba

实验1。“你可以调一架钢琴,但你不能金枪鱼。”gydF4y2Ba

在实验1中,幽默不是来自这个句子的内容,但这句话“调整”和“金枪鱼”有相同的发音,并产生一种喜剧效果。因此,它表明,语音结构,如头韵、押韵,和词的重复,扮演着重要的角色在幽默短信。gydF4y2Ba

模棱两可(gydF4y2Ba 4gydF4y2Ba)是指一些单词与多个句子的含意造成不同的句子理解。模棱两可和幽默经常一起去gydF4y2Ba 5gydF4y2Ba),这是一个至关重要的组成部分,很多幽默文本(gydF4y2Ba 6gydF4y2Ba]。gydF4y2Ba

实验2。“你知道那个家伙的左侧被切断了?他现在好了。”gydF4y2Ba

实验2显示了幽默引起的歧义。“正确的”这个词是模棱两可的词,意思“右侧”或“好”。gydF4y2Ba

检测的语音结构和歧义幽默的文字,最受欢迎的方法是基于复杂的工程特性,如语义相似度和押韵连锁店的数量。工程特性的概念很简单,但它是耗时和无法轻易捕获幽默背后的潜在语义信息。最近,由于强大的特征提取能力,神经网络方法对这个任务有成为主流。然而,大多数研究人员简单地使用深层神经网络没有建模的语音结构和歧义。此外,很难分析幽默识别的结果。gydF4y2Ba

为了解决这个问题,我们提出一个名为语音学和歧义理解的神经网络的端到端封闭的关注网络检测幽默文本。该模型捕获通过卷积神经网络(CNN)的语音信息,结合双向封闭的复发性单位(Bi-GRU)和注意力机制构建信息的上下文和模棱两可的词,并封闭机制适用于调整的影响两种幽默识别的任务的信息。我们的工作使三个贡献:gydF4y2Ba

幽默解决语音结构和模糊特性识别,我们提出一个新的框架命名语音学和歧义理解的关注网络(PACGA),它可以理解语音表示CNN模型,和学习与潜在语义表示模棱两可的单词Bi-GRU和注意力机制。gydF4y2Ba

我们建议封闭的关注战略利用语音的组合结构和歧义幽默的认可。实验结果表明,它是有用的幽默识别。gydF4y2Ba

实验结果在pun-of-the-day [gydF4y2Ba 3gydF4y2Ba和一个衬垫16000gydF4y2Ba 7gydF4y2Ba)数据表明,我们的方法达到最先进的性能比较,并有很强的基线。此外,详细的分析揭示了幽默识别模型的解释能力。gydF4y2Ba

1.1。相关工作gydF4y2Ba

在本节中,我们将回顾相关工作基于机器学习方法和基于深度学习幽默识别的方法。gydF4y2Ba

基于机器学习的方法已被广泛用于检测幽默文本,通常取决于从文本特征提取来训练分类器。Mihalcea和StrapparavagydF4y2Ba 8gydF4y2Ba)带来的经验证据表明,计算方法可以成功地应用于幽默的任务识别文本。张,刘gydF4y2Ba 9gydF4y2Ba)五类设计大约50的特性来源于有影响力的幽默理论,语言规范,和情感维度。巴比里和SaggiongydF4y2Ba 10gydF4y2Ba)提出了一组丰富的功能,包括歧义和语音结构。在最近的工作中,刘和张gydF4y2Ba 11gydF4y2Ba)建模人气检测幽默话语单位之间的联系。他们发现一些句法结构特征始终与幽默在一个单独的纸(gydF4y2Ba 12gydF4y2Ba]。大部分的上述实验结果表明,语音结构和歧义幽默识别的主要特征。然而,建造大量的成本特性高,这也限制了模型的泛化能力。gydF4y2Ba

最近,基于深度学习方法在幽默识别获得了巨大的成功。虽然和冯gydF4y2Ba 13gydF4y2Ba)复合句和音频框架水准仪的特性和使用RNN和CNN预测幽默的话语。在其他文献[gydF4y2Ba 14gydF4y2Ba),CNN是用于编码话语,然后Bi-LSTM用来预测幽默在对话gydF4y2Ba 15gydF4y2Ba]。系统、幽默的性能识别基于CNN与一些行之有效的传统方法相比,使用手动功能。陈和秀(gydF4y2Ba 16gydF4y2Ba)使用CNN和高速公路网络的深度增加网络幽默检测。赵et al。gydF4y2Ba 17gydF4y2Ba)提出了一个张量嵌入方法捕捉词汇相似度检测幽默。Blinov et al。gydF4y2Ba 18gydF4y2Ba)收集的数据集的笑话和有趣的对话在俄罗斯和使用语言模型用于文本分类的微调。毫无疑问,基于深度学习方法可以提取高维特征自动识别,实现高性能的幽默。然而,以往的研究没有考虑使用深度学习时幽默的语言特征。他们忽略了幽默理论的指导,大部分实验结果很难说明和解释。gydF4y2Ba

2。方法gydF4y2Ba

在本节中,我们介绍了我们的模型,PACGA。我们的模型能够提高幽默通过考虑语音表示和识别潜在的语义信息与模棱两可的词。gydF4y2Ba

PACGA如图的总体架构gydF4y2Ba 1gydF4y2Ba。框架主要包括三个部分:(1)理解卷积神经网络的语音结构,(2)Bi-GRU结合关注语义理解机制与模棱两可的单词,和(3)封闭的注意策略用于利用语音表征和语义表示认识到幽默。我们在以下部分中描述的细节我们的模型。gydF4y2Ba

语音学的框架和歧义理解的关注网络。gydF4y2Ba

2.1。语音理解网络(PCN)gydF4y2Ba

许多幽默短信玩声音,创造不协调的声音或词(gydF4y2Ba 3gydF4y2Ba]。Mihalcea和StrapparavagydF4y2Ba 7gydF4y2Ba]声称幽默文本的语音特征至少他们的内容一样重要。例如,“更多的阳光和空气的儿子和继承人;”“太阳”和“儿子”和“空气”和“继承人”同音。他们不仅使句子和谐和愉快的而且有趣和幽默。gydF4y2Ba

单词的发音并不像他们的拼写完全相同。为了得到的语音表示的话,我们使用卡内基梅隆大学(CMU)发音字典。当前音素的卡耐基-梅隆的有39个音素,哪个更准确比版本没有词汇压力。我们将每个单词转换成相应的音素。例如,“单词”的发音(“W”“嗯,”“D”)。应该注意的是,一个字可能有多个在CMU音标。我们使用一个字典条目的所有发音的语音扩展和匹配任何发音的语音扩展词。Jaech(后gydF4y2Ba 19gydF4y2Ba工作,我们应用一个替换矩阵元音与元音和辅音和辅音。它可以用作语音扩展原始词的发音时发现在CMU音素替代。gydF4y2Ba

2.1.1。语音学嵌入层gydF4y2Ba

在语音学嵌入层,每个单词的发音可以被映射到一个高维特征空间捕捉有意义的语义信息。为每一个词gydF4y2Ba wgydF4y2Ba 我gydF4y2Ba ,在一个句子gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba wgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba wgydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba 我们把gydF4y2Ba wgydF4y2Ba 我gydF4y2Ba 成gydF4y2Ba PgydF4y2Ba =gydF4y2Ba pgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba pgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba pgydF4y2Ba lgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba ′gydF4y2Ba 是一个词的发音,在哪里gydF4y2Ba dgydF4y2Ba和gydF4y2Ba dgydF4y2Ba ′gydF4y2Ba 维向量,gydF4y2Ba NgydF4y2Ba句子的长度,gydF4y2Ba lgydF4y2Ba的长度是gydF4y2Ba wgydF4y2Ba 我gydF4y2Ba 。语音学嵌入,我们随机启动。gydF4y2Ba

2.1.2。交换层gydF4y2Ba

交换层可以交换的尺寸根据一个给定的输入模式。在我们的工作中,我们的目标是找出头韵和押韵的模式排列的层。之间的转换矩阵代表不同的单词的发音语音学喂卷积对应层。gydF4y2Ba

2.1.3。卷积的层gydF4y2Ba

我们采用卷积操作来学习语音的地方特色表示。一般来说,卷积层使用一个过滤器来提取当地语法功能。一个过滤器可以使用的窗口gydF4y2Ba hgydF4y2Ba言语生成新功能映射。gydF4y2Ba cgydF4y2Ba tgydF4y2Ba是一个功能图由一个窗口的单词是哪个gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba :gydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba 。公式如下:gydF4y2Ba (1)gydF4y2Ba cgydF4y2Ba tgydF4y2Ba =gydF4y2Ba fgydF4y2Ba wgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba :gydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba bgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba fgydF4y2Ba是ReLU非线性函数,gydF4y2Ba wgydF4y2Ba 过滤器生产特征地图吗gydF4y2Ba cgydF4y2Ba tgydF4y2Ba,gydF4y2Ba lgydF4y2Ba窗口的长度,gydF4y2Ba bgydF4y2Ba是偏见。gydF4y2Ba

2.1.4。MaxPooling层gydF4y2Ba

GlobalMaxPool2D用于生成语音捕捉当地的演讲后表示特性使用二维CNN。gydF4y2Ba

在这一点上,我们得到的语音表示gydF4y2Ba rgydF4y2Ba pgydF4y2Ba目标句子的语音理解网络。gydF4y2Ba

2.2。歧义理解网络(ACN)gydF4y2Ba

歧义消歧的语句(gydF4y2Ba 20.gydF4y2Ba]。幽默和歧义通常一起去当一个侦听器预计一个意义,但被迫使用另一个意义(gydF4y2Ba 3gydF4y2Ba]。一个幽默的例子,“它很热,所有的球迷棒球比赛后离开。球迷“的表面含义是球赛的球迷,但电风扇的含义可能是多种可能的含义。一个模棱两可的词,可能导致读者误解了这句话。幽默是关键字触发。此外,我们还注意到的多个含义模棱两可的词往往是完全不同的。总之,我们注意捕捉模棱两可的单词在一个句子,可以帮助我们提高幽默的认可。gydF4y2Ba

2.2.1。字嵌入gydF4y2Ba

幽默文本的每一个字特征可以被映射到一个高维特征空间的这一层获取有意义的语义规律。在这里,手套(gydF4y2Ba 21gydF4y2Ba)应用pretrained词向量以产生嵌入检测幽默这个词。gydF4y2Ba

2.2.2。模棱两可的词,嵌入gydF4y2Ba

一个模棱两可的词,这是一个词的定义在一个幽默的句子语义相似度最高的多重含义。我们的工作是基于直觉强烈,幽默来自模棱两可的词。换句话说,更多的含义词和它们之间的语义距离越高,更导致了幽默的句子。在这里,我们使用WordNet识别模糊词检测幽默。首先,我们忽略了停止的一个句子。然后,我们计算每个单词的同义词集的数量虽然WordNet和选择gydF4y2Ba TgydF4y2Ba作为候选人模棱两可的词汇。之间的语义相似度计算每个候选词的含义。然后,我们选择余弦相似度函数来测量语义距离。让gydF4y2Ba XgydF4y2Ba =gydF4y2Ba xgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba 字嵌入,gydF4y2Ba XgydF4y2Ba 我gydF4y2Ba ′gydF4y2Ba =gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba KgydF4y2Ba 的同义词集gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba KgydF4y2Ba是这个词的同义词gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 。相似度计算如下:gydF4y2Ba (2)gydF4y2Ba Sim卡gydF4y2Ba XgydF4y2Ba 我gydF4y2Ba ′gydF4y2Ba =gydF4y2Ba 马克斯gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 米gydF4y2Ba ⋅gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 。gydF4y2Ba

因此,这个词相似度最高的是选中的模棱两可的词,来表达幽默一个句子中去。模棱两可的词,表示为gydF4y2Ba xgydF4y2Ba 一个gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba 。gydF4y2Ba

结合模棱两可的信息和上下文,我们学习嵌入幽默识别模棱两可的词。展览自常用词嵌入表示一个线性结构,它可以有效地结合单词的elementwise添加他们的向量表示gydF4y2Ba 22gydF4y2Ba]。为了更好地利用信息含糊不清,模棱两可的词,表示我们附加到每个字嵌入在文本。模棱两可的词,嵌入的一个字gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ′gydF4y2Ba 为一个特定的目标gydF4y2Ba xgydF4y2Ba 一个gydF4y2Ba 是gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ′gydF4y2Ba =gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ⊕gydF4y2Ba xgydF4y2Ba 一个gydF4y2Ba ,在那里gydF4y2Ba ⊕gydF4y2Ba 是向量连接操作。gydF4y2Ba

2.2.3。双向封闭的复发性单位(Bi-GRU)gydF4y2Ba

我们利用Bi-GRU嵌入的模棱两可的词,捕捉幽默的特征识别。使用Bi-GRU结束gydF4y2Ba XgydF4y2Ba生成一个隐藏的向量序列gydF4y2Ba hgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba NgydF4y2Ba 。在每一步gydF4y2Ba 年代gydF4y2Ba,隐藏的向量gydF4y2Ba hgydF4y2Ba 年代gydF4y2Ba 基于当前计算向量gydF4y2Ba xgydF4y2Ba 年代gydF4y2Ba 和前面的向量gydF4y2Ba hgydF4y2Ba 年代gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba 。公式如下:gydF4y2Ba (3)gydF4y2Ba zgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba σgydF4y2Ba WgydF4y2Ba zgydF4y2Ba xgydF4y2Ba 年代gydF4y2Ba +gydF4y2Ba UgydF4y2Ba zgydF4y2Ba hgydF4y2Ba 年代gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba bgydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba rgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba σgydF4y2Ba WgydF4y2Ba rgydF4y2Ba xgydF4y2Ba 年代gydF4y2Ba +gydF4y2Ba UgydF4y2Ba rgydF4y2Ba hgydF4y2Ba 年代gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba bgydF4y2Ba rgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba ˜gydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 双曲正切gydF4y2Ba WgydF4y2Ba hgydF4y2Ba xgydF4y2Ba 年代gydF4y2Ba +gydF4y2Ba rgydF4y2Ba 年代gydF4y2Ba ⋄gydF4y2Ba UgydF4y2Ba hgydF4y2Ba hgydF4y2Ba 年代gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba bgydF4y2Ba hgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba zgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 年代gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba zgydF4y2Ba 年代gydF4y2Ba ⋄gydF4y2Ba hgydF4y2Ba ˜gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba σgydF4y2Ba是乙状结肠函数,gydF4y2Ba zgydF4y2Ba 年代gydF4y2Ba 重置门,gydF4y2Ba rgydF4y2Ba 年代gydF4y2Ba 是更新门,gydF4y2Ba xgydF4y2Ba 年代gydF4y2Ba 代表输入,gydF4y2Ba hgydF4y2Ba ˜gydF4y2Ba 年代gydF4y2Ba 候选人隐藏状态和吗gydF4y2Ba hgydF4y2Ba 年代gydF4y2Ba 是隐藏的状态在时间吗gydF4y2Ba 年代gydF4y2Ba,⋄代表gydF4y2Ba rgydF4y2Baelementwise乘法操作。gydF4y2Ba

Bi-GRU包含两个隐状态在每一个时间步长史:一个是格勒乌gydF4y2Ba hgydF4y2Ba ⟶gydF4y2Ba 年代gydF4y2Ba ,另一个是向后格勒乌gydF4y2Ba hgydF4y2Ba ←gydF4y2Ba 年代gydF4y2Ba 。最后,上述两部分连接:gydF4y2Ba hgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba hgydF4y2Ba ⟶gydF4y2Ba 年代gydF4y2Ba ;gydF4y2Ba hgydF4y2Ba ←gydF4y2Ba 年代gydF4y2Ba 。gydF4y2Ba

2.2.4。歧义关注Bi-GRUgydF4y2Ba

的标准Bi-GRU不能注意歧义幽默识别,即使我们在嵌入层添加模棱两可的信息。为了解决这个问题,我们利用注意机制,抓住句子的主要部分,以应对一个给定的模棱两可的词。gydF4y2Ba

对于每一个时间步,Bi-GRU产生一个隐藏的向量gydF4y2Ba hgydF4y2Ba 我gydF4y2Ba 。此外,模棱两可的词,表示gydF4y2Ba xgydF4y2Ba 一个gydF4y2Ba 和隐藏的向量gydF4y2Ba hgydF4y2Ba 我gydF4y2Ba 连接,gydF4y2Ba HgydF4y2Ba ′gydF4y2Ba =gydF4y2Ba hgydF4y2Ba 1gydF4y2Ba ′gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 2gydF4y2Ba ′gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba NgydF4y2Ba ′gydF4y2Ba ,gydF4y2Ba HgydF4y2Ba ′gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba 2gydF4y2Ba dgydF4y2Ba ×gydF4y2Ba NgydF4y2Ba 。gydF4y2Ba HgydF4y2Ba ′gydF4y2Ba 是隐藏的矩阵向量,在哪里gydF4y2Ba dgydF4y2Ba神经元和的数量吗gydF4y2Ba NgydF4y2Ba句子的长度。然后,我们使用注意机制产生注意力权向量gydF4y2Ba αgydF4y2Ba隐藏和加权向量gydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba。公式如下:gydF4y2Ba (4)gydF4y2Ba 米gydF4y2Ba =gydF4y2Ba 双曲正切gydF4y2Ba WgydF4y2Ba 一个gydF4y2Ba HgydF4y2Ba ′gydF4y2Ba +gydF4y2Ba bgydF4y2Ba ,gydF4y2Ba αgydF4y2Ba =gydF4y2Ba 经验值gydF4y2Ba WgydF4y2Ba αgydF4y2Ba 米gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 经验值gydF4y2Ba WgydF4y2Ba αgydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba HgydF4y2Ba ′gydF4y2Ba αgydF4y2Ba TgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 米gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba 2gydF4y2Ba dgydF4y2Ba ×gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba αgydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba rgydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba NgydF4y2Ba 。gydF4y2Ba WgydF4y2Ba 一个gydF4y2Ba 和gydF4y2Ba WgydF4y2Ba αgydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba 2gydF4y2Ba dgydF4y2Ba 是参数。gydF4y2Ba αgydF4y2Ba 是一个向量的歧义关注重量和gydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba是一个给定的权重表示句子特别模棱两可的词。gydF4y2Ba

在这一点上,我们得到了模糊表示gydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba的歧义理解网络。gydF4y2Ba

2.3。封闭的注意机制gydF4y2Ba

学习语音学和歧义理解网络后,我们把两部分综合表示。直观地说,语音结构和模糊贡献不同的幽默。因此,封闭的注意力是杠杆模型两部分所提供的线索的信心。我们计算注意门的价值如下:gydF4y2Ba (5)gydF4y2Ba ggydF4y2Ba =gydF4y2Ba σgydF4y2Ba wgydF4y2Ba rgydF4y2Ba pgydF4y2Ba ;gydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba +gydF4y2Ba bgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba σgydF4y2Ba 是乙状结肠函数,gydF4y2Ba wgydF4y2Ba 是权重矩阵,gydF4y2Ba bgydF4y2Ba是偏见。gydF4y2Ba

为了控制语音之间的信息和模糊信息,我们使用注意门的价值gydF4y2Ba ggydF4y2Ba 和gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ggydF4y2Ba 组合权重。最后表示一个句子如下:gydF4y2Ba (6)gydF4y2Ba rgydF4y2Ba pgydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba ggydF4y2Ba ⊙gydF4y2Ba rgydF4y2Ba pgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ggydF4y2Ba ⊙gydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba rgydF4y2Ba 巴勒斯坦权力机构gydF4y2Ba综合表现,gydF4y2Ba rgydF4y2Ba pgydF4y2Ba是语音表示,gydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba模糊语义表示,gydF4y2Ba ggydF4y2Ba 组合权重,⊙elementwise乘法。gydF4y2Ba

幽默的识别可以正式到文本分类。gydF4y2Ba rgydF4y2Ba 巴勒斯坦权力机构gydF4y2Ba是文本的向量表示,它可以用作输入得到最终的分类结果:gydF4y2Ba (7)gydF4y2Ba pgydF4y2Ba =gydF4y2Ba WgydF4y2Ba pgydF4y2Ba rgydF4y2Ba pgydF4y2Ba 一个gydF4y2Ba +gydF4y2Ba bgydF4y2Ba pgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba pgydF4y2Ba幽默文本和预测的概率的吗gydF4y2Ba WgydF4y2Ba pgydF4y2Ba 和gydF4y2Ba bgydF4y2Ba pgydF4y2Ba 是偏见。gydF4y2Ba

2.4。模型训练gydF4y2Ba

模型可以被反向传播训练在一个端到端的方式,我们使用crossentropy损失作为损失函数。让gydF4y2Ba ygydF4y2Ba是真正的分布和gydF4y2Ba ygydF4y2Ba ^gydF4y2Ba 文本数据集的预测分布。培训的目标是最小化之间的损失函数gydF4y2Ba ygydF4y2Ba和gydF4y2Ba ygydF4y2Ba ^gydF4y2Ba 对所有样本。我们可以形式化过程如下:gydF4y2Ba (8)gydF4y2Ba 损失gydF4y2Ba =gydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba ygydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 日志gydF4y2Ba ygydF4y2Ba ^gydF4y2Ba 我gydF4y2Ba jgydF4y2Ba +gydF4y2Ba λgydF4y2Ba θgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 我gydF4y2Ba是句子的指数,gydF4y2Ba jgydF4y2Ba是指数类,gydF4y2Ba λgydF4y2Ba 是gydF4y2Ba lgydF4y2Ba 2gydF4y2Ba 正则化项,gydF4y2Ba θgydF4y2Ba 参数集。gydF4y2Ba

3所示。实验gydF4y2Ba

在本节中,我们首先介绍数据集和评价指标。然后,我们比较我们的模型的性能与几个幽默的强劲基线识别。最后,我们给出一个详细的分析方法,包括烧蚀实验,可视化的结果和误差分析。gydF4y2Ba

3.1。数据集和评价指标gydF4y2Ba

我们广泛应用Pun-of-the-day数据集进行实验,oneliners 16000数据集。表gydF4y2Ba 1gydF4y2Ba显示详细的统计分布。gydF4y2Ba

统计:双关语和利诺同时。gydF4y2Ba

数据集gydF4y2Ba 积极的gydF4y2Ba 负gydF4y2Ba
双关语gydF4y2Ba 2423年gydF4y2Ba 2403年gydF4y2Ba
利诺同时gydF4y2Ba 16000年gydF4y2Ba 16000年gydF4y2Ba
3.1.1。Pun-of-the-Day(双关语)gydF4y2Ba

这个数据集是由杨et al。gydF4y2Ba 3gydF4y2Ba]。双关语的幽默文本的这个数据集的网站,和负样本来自美联社消息,纽约时报,Yahoo !回答,谚语。数据集包含一个相同数量的正负样本。句子的平均长度是13.5的话。gydF4y2Ba

3.1.2。oneliners - 16000(利诺同时)gydF4y2Ba

这个数据集是由(gydF4y2Ba 7gydF4y2Ba]。Oneliners在这个数据集来自一些著名幽默网站,和负样本来自路透社新闻的标题。这也是一个平衡的数据集。句子的平均长度是12.6的话。gydF4y2Ba

3.1.3。评价指标gydF4y2Ba

我们使用的准确性(Acc)、精密(gydF4y2Ba PgydF4y2Ba),回忆(gydF4y2Ba RgydF4y2Ba),F-measure (F1)在我们的实验中测量表现幽默的认可。gydF4y2Ba

3.1.4。培训细节gydF4y2Ba

我们提出的模型应用于幽默的识别任务。在我们的实验中,歧义理解网络,初始化所有词向量手套上火车6 b标记和400 k 2014年维基百科词汇,和尺寸是300。单位的大小Bi-GRU 150和辍学gydF4y2Ba dpgydF4y2Ba在{0.25,0.35,0.5}范围。学习优化器gydF4y2Ba 人事处gydF4y2Ba在{RMSprop Adadelta,亚当}范围。学习速率是0.0001。我们使用学习速率衰减和早期训练过程中停止。语音理解网络,我们首先将标记化的用语音输入句子向量通过随机初始化。过滤器的范围大小是{[2、3、4],[3、4、5]}。对于每个过滤器的大小,128过滤器被应用到模型中。顶部gydF4y2Ba TgydF4y2Ba在{1,3,5}候选人模棱两可的词。gydF4y2Ba

我们用5倍crossvalidation与网格搜索方法选择最优参数。以细节为每个参数,下面crossvalidation操作执行。(1)原始数据集随机分为五个同样大小的子集。(2)五个子集,四个子集用于训练模型和剩余子集是用作测试验证数据模型。(3)重复步骤(2)五次,五子集作为验证数据一次。(4)五个折叠的结果平均产生的结果。最后,最高的参数对结果的crossvalidation过程设置为最优参数。在我们的实验中,dp是0.35,op是亚当,过滤器尺寸(2、3、4)gydF4y2Ba TgydF4y2Ba是3。gydF4y2Ba

3.2。与现有的方法比较gydF4y2Ba

我们比较模型与多个基线:gydF4y2Ba

3.2.1之上。支持向量机(SVM)gydF4y2Ba

这种方法使用本文中提到的所有特性(gydF4y2Ba 3gydF4y2Ba]。gydF4y2Ba

3.2.2。HCFWord2vegydF4y2Ba

杨等人提出的方法。gydF4y2Ba 3gydF4y2Ba]。gydF4y2Ba

3.2.3。美国有线电视新闻网gydF4y2Ba

提出的这种方法是陈和李gydF4y2Ba 15gydF4y2Ba]。gydF4y2Ba

3.2.4。CNN +环+ FgydF4y2Ba

该方法提出了陈和秀(gydF4y2Ba 16gydF4y2Ba]。gydF4y2Ba

3.2.5。TMgydF4y2Ba

该方法提出了赵et al。gydF4y2Ba 17gydF4y2Ba]。gydF4y2Ba

3.2.6。语法gydF4y2Ba

刘(gydF4y2Ba 12gydF4y2Ba)提出提高幽默rrecognition利用句法结构特性。gydF4y2Ba

3.2.7。Bi-LSTM +有线电视新闻网gydF4y2Ba

这个方法是一个完整的重新实现该方法虽然和冯(gydF4y2Ba 14gydF4y2Ba]。gydF4y2Ba

3.2.8。Bi-GRUgydF4y2Ba

我们采用字嵌入和学习通过Bi-GRU潜在语义表征。gydF4y2Ba

3.2.9。Bi-GRU + FgydF4y2Ba

除了使用语义表征由Bi-GRU自动学习,上面提到的人工特征也纳入网络。gydF4y2Ba

3.2.10。Bi-GRU +丙氨酸gydF4y2Ba

我们实现深度学习Bi-GRU架构关注识别幽默文本。gydF4y2Ba

3.2.11。PACGAgydF4y2Ba

我们把语音结构和模糊信息和使用的机制调整的影响两部分。gydF4y2Ba

比较的结果列在表中gydF4y2Ba 2gydF4y2Ba和gydF4y2Ba 3gydF4y2Ba。从结果中,我们观察到gydF4y2Ba

传统的机器学习方法执行不能令人满意地。两个数据集的结果表明,他们的表现低于神经网络在许多评价指标。此外,同样的人工特性集,传统的机器学习方法表现出不同的在两个数据集的表现。双关语,HCFWord2vec更好,但对于利诺同时,SVM更好。这表明基于机器学习方法依赖于功能的建设,和他们的泛化能力是不够的。gydF4y2Ba

TM雇佣semisupervised标签传播过程。它使用张量嵌入幽默小样本识别的方法,但只有约70%的F1。gydF4y2Ba

CNN的表现比两个数据集上的Bi-GRU (85.7%, 88.15%, 86.09%, 86.94%)。CNN与广泛的过滤器尺寸,数量和高速公路网络实现高性能。其原因可能是对幽默的深度网络检测。gydF4y2Ba

Bi-LSTM + CNN, Bi-LSTM和CNN的结合,表现比Bi-GRU数据集。通过叠加一层神经网络到另一个上,深入学习模型可以自动学习高级特性。然而,混合LSTM和CNN不能更好的提取潜在语义信息识别幽默。gydF4y2Ba

Bi-GRU + F添加人工Bi-GRU幽默的特征模型。我们预期比Bi-GRU更高的性能,但结果而不是低得多的大多数评估指标。手动的输入构造特征可能与语义冲突由Bi-GRU自动学习功能。因此,添加太多的人工功能进入深度的学习方法不能有效提高幽默在一定程度上识别。gydF4y2Ba

Bi-GRU + Att使用注意机制,没有模棱两可的词的信息。很明显,它的实验性能没有很大的提高,在很大程度上是由于其无法密切关注功能密切相关的幽默。gydF4y2Ba

PACGA,我们建议的方法,实现了类似的F1的性能在两个数据集。对于双关语,PACGA改进普通Bi-GRU 2.12% F1,和利诺同时2.27%。即便是与强烈的基线相比CNN +环+ F,我们的模型的性能是优越的。我们建议的模型表现好于CNN与公路网络利诺同时双关语,取得了类似的结果(90.81与90.1%和90.28%相比,这一比例为90.3%)。这表明我们提出的语音信息,模糊信息,封闭的注意机制在幽默识别性能优越。gydF4y2Ba

与基线方法相比,我们的模型达到一个更高的准确性分数和F1分数为双关语,但较低的精度和召回。我们认为这是不同类型的附加信息导致这一现象。我们的模型可以学习幽默背后的潜在语义和语音信息,如语音结构和模糊的信息,和封闭的注意机制应用于调整它们之间的重量证明更多的相关特性由幽默理论,而其他方法通常只采用语义信息获取高精度相比PACGA和回忆。我们的模型达到类似的性能在两个数据集,这表明,我们的模型有更好的泛化能力。gydF4y2Ba

对数据集实验结果双关语。最好的结果是大胆。结果与上标gydF4y2Ba ∗gydF4y2Ba 从文献[进口gydF4y2Ba 3gydF4y2Ba,gydF4y2Ba 15gydF4y2Ba- - - - - -gydF4y2Ba 17gydF4y2Ba]。gydF4y2Ba

模型gydF4y2Ba Acc (%)gydF4y2Ba PgydF4y2Ba(%)gydF4y2Ba RgydF4y2Ba(%)gydF4y2Ba F1 (%)gydF4y2Ba
支持向量机gydF4y2Ba ∗gydF4y2Ba 83.85gydF4y2Ba 85.91gydF4y2Ba 82.52gydF4y2Ba 84.18gydF4y2Ba
HCFW2VgydF4y2Ba ∗gydF4y2Ba 85.4gydF4y2Ba 83.4gydF4y2Ba 88.8gydF4y2Ba 85.9gydF4y2Ba
语法gydF4y2Ba ∗gydF4y2Ba - - - - - -gydF4y2Ba - - - - - -gydF4y2Ba - - - - - -gydF4y2Ba - - - - - -gydF4y2Ba
TMgydF4y2Ba ∗gydF4y2Ba 74.5gydF4y2Ba 75.2gydF4y2Ba 72.3gydF4y2Ba 73.7gydF4y2Ba
美国有线电视新闻网gydF4y2Ba ∗gydF4y2Ba 86.1gydF4y2Ba 86.4gydF4y2Ba 86.4gydF4y2Ba 85.7gydF4y2Ba
CNN +环+ FgydF4y2Ba ∗gydF4y2Ba 89.4gydF4y2Ba 86.6gydF4y2Ba 94.0gydF4y2Ba 90.1gydF4y2Ba
Bi-lstm +有线电视新闻网gydF4y2Ba 85.38gydF4y2Ba 81.42gydF4y2Ba 91.97gydF4y2Ba 86.37gydF4y2Ba
Bi-GRUgydF4y2Ba 87.72gydF4y2Ba 84.23gydF4y2Ba 92.46gydF4y2Ba 88.15gydF4y2Ba
Bi-GRU + FgydF4y2Ba 87.14gydF4y2Ba 89.87gydF4y2Ba 83.34gydF4y2Ba 86.48gydF4y2Ba
PACGAgydF4y2Ba 88.69gydF4y2Ba 88.94gydF4y2Ba 92.76gydF4y2Ba 90.81gydF4y2Ba

利诺同时数据集上实验结果。最好的结果是大胆。结果与上标gydF4y2Ba ∗gydF4y2Ba 从文献[进口gydF4y2Ba 3gydF4y2Ba,gydF4y2Ba 12gydF4y2Ba,gydF4y2Ba 16gydF4y2Ba,gydF4y2Ba 17gydF4y2Ba]。gydF4y2Ba

模型gydF4y2Ba Acc (%)gydF4y2Ba PgydF4y2Ba(%)gydF4y2Ba RgydF4y2Ba(%)gydF4y2Ba F1 (%)gydF4y2Ba
支持向量机gydF4y2Ba ∗gydF4y2Ba 83.12gydF4y2Ba 88.04gydF4y2Ba 80.26gydF4y2Ba 82.24gydF4y2Ba
HCFW2VgydF4y2Ba ∗gydF4y2Ba 79.7gydF4y2Ba 77.6gydF4y2Ba 83.6gydF4y2Ba 80.5gydF4y2Ba
语法gydF4y2Ba ∗gydF4y2Ba 85.0gydF4y2Ba 82.7gydF4y2Ba 89.1gydF4y2Ba 85.8gydF4y2Ba
TMgydF4y2Ba ∗gydF4y2Ba 70.5gydF4y2Ba 72.1gydF4y2Ba 66.7gydF4y2Ba 69.3gydF4y2Ba
美国有线电视新闻网gydF4y2Ba ∗gydF4y2Ba 84.24gydF4y2Ba 85.73gydF4y2Ba 86.46gydF4y2Ba 86.09gydF4y2Ba
CNN +环+ FgydF4y2Ba ∗gydF4y2Ba 89.7gydF4y2Ba 87.2gydF4y2Ba 93.6gydF4y2Ba 90.3gydF4y2Ba
Bi-lstm +有线电视新闻网gydF4y2Ba 85.97gydF4y2Ba 86.30gydF4y2Ba 85.21gydF4y2Ba 85.75gydF4y2Ba
Bi-GRUgydF4y2Ba 85.92gydF4y2Ba 87.81gydF4y2Ba 86.08gydF4y2Ba 86.94gydF4y2Ba
Bi-GRU + FgydF4y2Ba 84.78gydF4y2Ba 84.11gydF4y2Ba 84.69gydF4y2Ba 84.40gydF4y2Ba
PACGAgydF4y2Ba 89.47gydF4y2Ba 88.78gydF4y2Ba 91.84gydF4y2Ba 90.28gydF4y2Ba
3.3。详细的分析gydF4y2Ba

我们进行额外的实验详细分析模型。gydF4y2Ba

3.4。PACGA的不同部分的分析gydF4y2Ba

为了显示我们的模型的不同部分的有效性,验证我们的模型分割成两部分。首先,我们只使用Bi-GRU没有语音理解和歧义的理解。然后,我们实现PCN考虑语音嵌入作为输入,和CNN模型被用来识别幽默。除了语音信息,我们也试图区分幽默只有通过使用语义信息。接下来,我们设计一个ACN模型,利用嵌入和模棱两可的词信息学习潜在的幽默特性基于Bi-GRU和注意力机制。最后,我们介绍我们PACGA提出的模型。表gydF4y2Ba 4gydF4y2Ba和gydF4y2Ba 5gydF4y2Ba显示所有的模型的性能在两个数据集:gydF4y2Ba

表gydF4y2Ba 4gydF4y2Ba和gydF4y2Ba 5gydF4y2Ba表明Bi-GRU达到符合我们的直觉的性能下降。没有语音信息结构和模棱两可的词,在幽默Bi-GRU识别性能不理想。gydF4y2Ba

PCN只使用语音信息,以及基督教民主党其性能明显低于两个数据集上的其他模型。显然,只使用一个模型来捕获检测幽默语音特性无法给出一个竞争性能。语义信息中发挥着重要作用的识别幽默。gydF4y2Ba

与Bi-GRU相比,ACN的性能略有提高。这表明模糊词信息和注意力机制有利于Bi-GRU关注幽默的潜在语义特征。gydF4y2Ba

在所有的方法中,这个任务PACGA达到最佳性能。原因是我们的模型考虑了语音信息,文字信息与模棱两可的词,和封闭的注意机制。gydF4y2Ba

双关语PACGA模型的分析。gydF4y2Ba

模型gydF4y2Ba Acc (%)gydF4y2Ba PgydF4y2Ba(%)gydF4y2Ba RgydF4y2Ba(%)gydF4y2Ba F1 (%)gydF4y2Ba
Bi-GRUgydF4y2Ba 87.72gydF4y2Ba 84.23gydF4y2Ba 92.46gydF4y2Ba 88.15gydF4y2Ba
PCNgydF4y2Ba 84.43gydF4y2Ba 83.92gydF4y2Ba 88.14gydF4y2Ba 85.98gydF4y2Ba
ACNgydF4y2Ba 87.38gydF4y2Ba 86.69gydF4y2Ba 91.02gydF4y2Ba 88.80gydF4y2Ba
PACGAgydF4y2Ba 8gydF4y2Ba 8.69gydF4y2Ba 88.94gydF4y2Ba 92.76gydF4y2Ba 90.81gydF4y2Ba

利诺同时PACGA模型的分析。gydF4y2Ba

模型gydF4y2Ba Acc (%)gydF4y2Ba PgydF4y2Ba(%)gydF4y2Ba RgydF4y2Ba(%)gydF4y2Ba F1 (%)gydF4y2Ba
Bi-GRUgydF4y2Ba 85.92gydF4y2Ba 87.81gydF4y2Ba 86.08gydF4y2Ba 86.94gydF4y2Ba
PCNgydF4y2Ba 83.97gydF4y2Ba 85.12gydF4y2Ba 83.87gydF4y2Ba 84.49gydF4y2Ba
ACNgydF4y2Ba 86.64gydF4y2Ba 87.39gydF4y2Ba 87.47gydF4y2Ba 87.42gydF4y2Ba
PACGAgydF4y2Ba 89.47gydF4y2Ba 88.78gydF4y2Ba 91.84gydF4y2Ba 90.28gydF4y2Ba
3.5。不同的组合策略的影响gydF4y2Ba

幽默的组合策略可能会影响性能识别和测量的重要性,我们的两个主要部分。因此,我们设计了一系列的实验来探索不同的组合策略的影响。我们采用三种策略。(1)PAC-ST1:它直接结合语音表示和模糊表示。(2)PAC-ST2:它假设两部分的信息是相同的重要性,和参数gydF4y2Ba ggydF4y2Ba 是一个常数,值是0.5。(3)PAC-ST3:两部分的信息有不同的重要性。封闭的注意力用于模型两部分所提供的线索的信心。gydF4y2Ba

我们比较单一模型和组合模型和不同的策略,并给出结果表gydF4y2Ba 6gydF4y2Ba。从结果,我们发现所有的模型比单一模型相结合,既表明语音结构和语义信息导致幽默的认可。之间的组合模型,PAC-ST1的性能和PAC-ST2是大致相同的,和PAC-ST2略有改善。此外,PAC-ST3打败他们两人以很大的优势在F1(1.48%或1.56%)数据集。这表明我们提出的关注战略组装信息可以更好地捕捉幽默背后的固有特性。gydF4y2Ba

组合策略的性能。gydF4y2Ba

策略gydF4y2Ba 模型gydF4y2Ba 双关语F1 (%)gydF4y2Ba 利诺同时F1 (%)gydF4y2Ba
单gydF4y2Ba PCNgydF4y2Ba 85.98gydF4y2Ba 84.49gydF4y2Ba
ACNgydF4y2Ba 88.80gydF4y2Ba 87.42gydF4y2Ba

结合gydF4y2Ba PAC-ST1gydF4y2Ba 89.21gydF4y2Ba 88.63gydF4y2Ba
PAC-ST2gydF4y2Ba 89.33gydF4y2Ba 88.72gydF4y2Ba
PAC-ST3gydF4y2Ba 90.81gydF4y2Ba 90.28gydF4y2Ba
3.6。可视化的关注gydF4y2Ba

为了验证模型的有效性,PACGA,我们想象的关注层句子标签的正确预测。gydF4y2Ba

从图gydF4y2Ba 2gydF4y2Ba常用单词,我们可以看到,如“是”和“,”由我们的模型很少给予关注,这证明常用单词的直觉使识别幽默的小贡献。与此同时,一些幽默的具体单词是至关重要的。在图gydF4y2Ba 2(一个)gydF4y2Ba,“战争”,“对了,”“决定”,和“左”关注权重更高,这意味着我们的模型注重这些话,我们期望。这表明模棱两可的单词可以提供有用的信息的上下文调整注意力,它幽默识别任务中起着重要作用。在图gydF4y2Ba 2 (b)gydF4y2Ba模棱两可,显然,不是幽默的主要原因,我们注重语音结构,这意味着我们的模型可以学习语音结构和歧义幽默的重要性的认可。因此,通过PACGA,我们可以语音模型结构和模棱两可,分别由封闭的注意机制,然后连接他们的表现幽默有助于识别。gydF4y2Ba

可视化的关注。一个深点的颜色意味着更多的重要性。饼图显示了两个部分的权重基于封闭的注意机制。gydF4y2Ba

3.7。误差分析gydF4y2Ba

本节我们也进行初步误差分析。我们的目标是找到一些问题通过研究一些更进一步的测试用例,提高在未来的幽默识别模型。gydF4y2Ba

实验3。谁发明了门环没有贝尔奖。gydF4y2Ba

经验4。整理桌子上的标志是一个凌乱的办公桌的抽屉里。gydF4y2Ba

实验3,真正的标签是“幽默”,但我们的模型预测其标签为“nonhumor。“在这个例子中,妙语”没有贝尔奖,”听起来像“诺贝尔奖。“很明显,这种类型的幽默是由相似的发音,但“诺贝尔奖”并没有出现在句子,和我们的模型不能捕获任何语音信息。因此,一些需要背景知识来预测正确的标签。实验4,“整洁”和“混乱”是对立的,而这种冲突使一个句子幽默。幽默有时依赖于两个或两个以上的不一致,不合适,或者不协调的部分情况。因此,我们的模型需要能够同时识别不一致。gydF4y2Ba

4所示。结论和未来的工作gydF4y2Ba

在本文中,我们设计一个自动计算神经网络语音和歧义理解的关注网络(PACGA)检测幽默。PACGA的主要想法是使用语音结构和歧义幽默的认可。在我们的模型中,语音理解网络是用于理解的语音表示CNN CMU发音字典。歧义理解网络利用潜在语义表征与Bi-GRU模棱两可的词。基于语音理解网络和歧义理解网络,封闭的注意机制用于建模的信心的线索。双关语和利诺同时实验数据集验证我们提出PACGA可以学习有效的语音结构和语义信息,为检测幽默提供重要的信息。此外,详细分析和可视化的关注也从不同的角度展示有效性和解释能力。gydF4y2Ba

在未来,我们想进一步如何幽默特点融入深学习模型。当然,如何使用常识幽默识别也是一个值得研究的问题。gydF4y2Ba

数据可用性gydF4y2Ba

所有数据分析在这项研究是公共语料库,这可以将电子邮件发送到数据集构建器。数据“双关语”支持这项研究的发现是公开可用的(gydF4y2Ba 3gydF4y2Ba]。数据“onelienrs - 16000”,公开支持本研究的发现可以在[gydF4y2Ba 7gydF4y2Ba]。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突。gydF4y2Ba

确认gydF4y2Ba

这项工作是支持的部分自然科学基金(61632011号,61572102,61702080,61602079,和61806038),教育部人文社会科学项目(没有。16 yjczh12),基础研究基金为中央大学(没有。DUT18ZD102DUT19RC(4) 016年),中国(没有国家重点研究发展计划。2018 yfc0832101),中国博士后科学基金会(没有。2018 m631788)。gydF4y2Ba

杨ydF4y2Ba X。gydF4y2Ba 泰德gydF4y2Ba P。gydF4y2Ba 德卢斯semeval - 2017任务6:幽默语言模型检测gydF4y2Ba 2017年gydF4y2Ba https://arxiv.org/abs/1704.08390gydF4y2Ba 股票gydF4y2Ba O。gydF4y2Ba StrapparavagydF4y2Ba C。gydF4y2Ba NijholtgydF4y2Ba 一个。gydF4y2Ba 愚人节车间计算幽默gydF4y2Ba 特文特学报二十语言技术研讨会gydF4y2Ba 2002年4月gydF4y2Ba 特兰托、意大利gydF4y2Ba 杨gydF4y2Ba D。gydF4y2Ba 李维gydF4y2Ba 一个。gydF4y2Ba 戴尔gydF4y2Ba C。gydF4y2Ba HovygydF4y2Ba E。gydF4y2Ba 幽默识别和幽默锚提取gydF4y2Ba 学报2015年大会在自然语言处理的经验方法gydF4y2Ba 2015年9月gydF4y2Ba 葡萄牙里斯本gydF4y2Ba 2367年gydF4y2Ba 2376年gydF4y2Ba BucariagydF4y2Ba C。gydF4y2Ba 词法和句法歧义幽默的来源:报纸头条gydF4y2Ba 幽默gydF4y2Ba 2004年gydF4y2Ba 17gydF4y2Ba 3gydF4y2Ba 279年gydF4y2Ba 310年gydF4y2Ba 10.1515 / humr.2004.013gydF4y2Ba 2 - s2.0 - 3142680117gydF4y2Ba 雷耶斯gydF4y2Ba 一个。gydF4y2Ba 罗索gydF4y2Ba P。gydF4y2Ba BuscaldigydF4y2Ba D。gydF4y2Ba 从幽默讽刺识别检测:社交媒体的形象语言gydF4y2Ba 数据与知识工程gydF4y2Ba 2012年gydF4y2Ba 74年gydF4y2Ba 1gydF4y2Ba 12gydF4y2Ba 10.1016 / j.datak.2012.02.005gydF4y2Ba 2 - s2.0 - 84861093687gydF4y2Ba 卡斯特罗gydF4y2Ba 年代。gydF4y2Ba CuberogydF4y2Ba M。gydF4y2Ba GaratgydF4y2Ba D。gydF4y2Ba MoncecchigydF4y2Ba G。gydF4y2Ba 这是一个笑话吗?检测用西班牙语幽默tweetgydF4y2Ba 《人工智能开始会议gydF4y2Ba 2016年11月gydF4y2Ba 哥斯达黎加的圣何塞gydF4y2Ba 139年gydF4y2Ba 150年gydF4y2Ba MihalceagydF4y2Ba R。gydF4y2Ba StrapparavagydF4y2Ba C。gydF4y2Ba 让电脑笑:调查在幽默的自动识别gydF4y2Ba 人类语言的会议在自然语言处理技术和经验方法gydF4y2Ba 2005年gydF4y2Ba 加拿大温哥华gydF4y2Ba 531年gydF4y2Ba 538年gydF4y2Ba MihalceagydF4y2Ba R。gydF4y2Ba StrapparavagydF4y2Ba C。gydF4y2Ba 计算笑:自动识别的幽默俏皮话gydF4y2Ba 认知科学学报》会议gydF4y2Ba 2005年gydF4y2Ba 丹顿,美国gydF4y2Ba 1513年gydF4y2Ba 1518年gydF4y2Ba 张gydF4y2Ba R。gydF4y2Ba 刘gydF4y2Ba N。gydF4y2Ba 认识到幽默在推特上gydF4y2Ba 学报》第23届ACM国际会议会议信息和知识管理gydF4y2Ba 2014年11月gydF4y2Ba 中国上海gydF4y2Ba 889年gydF4y2Ba 898年gydF4y2Ba 巴比里gydF4y2Ba F。gydF4y2Ba SaggiongydF4y2Ba H。gydF4y2Ba 自动检测twitter的讽刺和幽默gydF4y2Ba 学报》第五届国际会议上计算创造力(ICCC)gydF4y2Ba 2014年6月gydF4y2Ba 卢布尔雅那(斯洛文尼亚gydF4y2Ba 155年gydF4y2Ba 162年gydF4y2Ba 刘gydF4y2Ba lgydF4y2Ba 张gydF4y2Ba D。gydF4y2Ba 首歌gydF4y2Ba W。gydF4y2Ba 建模话语幽默情绪协会认可gydF4y2Ba 2gydF4y2Ba 美国第56计算语言学协会的年度会议gydF4y2Ba 2018年7月gydF4y2Ba 澳大利亚墨尔本gydF4y2Ba 586年gydF4y2Ba 591年gydF4y2Ba 刘gydF4y2Ba lgydF4y2Ba 张gydF4y2Ba D。gydF4y2Ba 首歌gydF4y2Ba W。gydF4y2Ba 利用句法结构幽默识别gydF4y2Ba 美国27日计算语言学国际会议gydF4y2Ba 2018年8月gydF4y2Ba 美国纳米圣达菲gydF4y2Ba 1875年gydF4y2Ba 1883年gydF4y2Ba 虽然gydF4y2Ba D。gydF4y2Ba 冯gydF4y2Ba P。gydF4y2Ba 深度学习幽默的音频和语言特性的预测gydF4y2Ba 学报第十届国际会议语言资源和评价gydF4y2Ba 2016年5月gydF4y2Ba Portorož、斯洛文尼亚gydF4y2Ba 496年gydF4y2Ba 501年gydF4y2Ba 虽然gydF4y2Ba D。gydF4y2Ba 冯gydF4y2Ba P。gydF4y2Ba 很长一段短期记忆预测幽默对话的框架gydF4y2Ba 学报2016年大会北美的计算语言学协会章:人类语言技术gydF4y2Ba 2016年6月gydF4y2Ba 圣地亚哥,加州,美国gydF4y2Ba 130年gydF4y2Ba 135年gydF4y2Ba 陈gydF4y2Ba lgydF4y2Ba 李gydF4y2Ba c . M。gydF4y2Ba 卷积神经网络幽默的认可gydF4y2Ba 2017年gydF4y2Ba https://arxiv.org/pdf/1702.02584.pdfgydF4y2Ba 陈gydF4y2Ba p Y。gydF4y2Ba 秀gydF4y2Ba 诉W。gydF4y2Ba 幽默识别使用深度学习gydF4y2Ba 学报2018年大会北美的计算语言学协会章:人类语言技术gydF4y2Ba 2018年gydF4y2Ba 2gydF4y2Ba 113年gydF4y2Ba 117年gydF4y2Ba 赵gydF4y2Ba Z。gydF4y2Ba 牛gydF4y2Ba 一个。gydF4y2Ba PapalexakisgydF4y2Ba E。gydF4y2Ba 嵌入词法特征通过张量分解为小样本幽默的认可gydF4y2Ba 学报2019年会议上实证方法在自然语言处理和第九届国际联合会议上自然语言处理(EMNLP-IJCNLP)gydF4y2Ba 2019年11月gydF4y2Ba 中国香港gydF4y2Ba 6377年gydF4y2Ba 6382年gydF4y2Ba BlinovgydF4y2Ba V。gydF4y2Ba Bolotova-BaranovagydF4y2Ba V。gydF4y2Ba BraslavskigydF4y2Ba P。gydF4y2Ba 大型数据集和语言模型fun-tuning幽默的认可gydF4y2Ba 学报》第57届计算语言学协会的年度会议gydF4y2Ba 2019年gydF4y2Ba 4027年gydF4y2Ba 4032年gydF4y2Ba JaechgydF4y2Ba 一个。gydF4y2Ba Koncel-KedziorskigydF4y2Ba R。gydF4y2Ba OstendorfgydF4y2Ba M。gydF4y2Ba 语音pun-derstandinggydF4y2Ba 学报2016年大会北美的计算语言学协会章:人类语言技术gydF4y2Ba 2016年gydF4y2Ba 圣地亚哥,加州,美国gydF4y2Ba 654年gydF4y2Ba 663年gydF4y2Ba 风扇gydF4y2Ba 一个。gydF4y2Ba 刘易斯gydF4y2Ba M。gydF4y2Ba 多芬gydF4y2Ba Y。gydF4y2Ba 分层神经故事一代gydF4y2Ba 2018年gydF4y2Ba https://arxiv.org/abs/1805.04833gydF4y2Ba 彭宁顿gydF4y2Ba J。gydF4y2Ba SochergydF4y2Ba R。gydF4y2Ba 曼宁gydF4y2Ba C。gydF4y2Ba 手套:全球词向量表示gydF4y2Ba 学报2014年会议上实证方法在自然语言处理(EMNLP)gydF4y2Ba 2014年gydF4y2Ba 卡塔尔多哈gydF4y2Ba 1532年gydF4y2Ba 1543年gydF4y2Ba 杜gydF4y2Ba J。gydF4y2Ba 徐gydF4y2Ba R。gydF4y2Ba 他gydF4y2Ba Y。gydF4y2Ba GuigydF4y2Ba lgydF4y2Ba 立场和有针对性的分类神经网络的关注gydF4y2Ba 人工智能国际联合会议gydF4y2Ba 2017年8月gydF4y2Ba 澳大利亚墨尔本gydF4y2Ba