语音和歧义理解门控注意网络的幽默识别

摘要

幽默是指有趣的质量。随着人工智能的发展，幽默的认可是吸引了很多研究的关注。虽然先前的研究已经引入了语音和歧义，但现有的识别方法仍然缺乏适用于神经网络的特征设计。在本文中，我们说明了通过神经网络来学习与令人困惑的词语相关的语音结构和歧义。然后，我们提出语音和模糊性理解所需的关注网络（PACGA）来学习幽默识别的语音结构和语义表示。PACGA模型可以很好地代表语音信息和语义信息，以含糊不清的话，这对幽默识别有很大的好处。两个公共数据集的实验结果证明了我们模型的有效性。

1.介绍

幽默经常用于日常通信[1］.与人们互动时，如果人工智能（AI）系统，例如Chatbots，可以检测到谈话中的幽默，它将帮助他们更好地了解人类的情绪并帮助AI做出更适当的决策。因此，幽默的计算值得特别关注，因为它有可能将计算机转化为人类活动的创造性和动机工具[2］.

幽默识别是指确定一个句子在一定的语境中是否表达了一定程度的幽默。Yang等人[3.]确定了三种语义结构和幽默背后的语音结构。实验结果表明，歧义和拼音结构对于幽默识别很重要。

语音结构在幽默文本中用作手段，通常采用头韵或押韵的形式。即使内容不幽默，也经常使用头韵、押韵或单词重复来唤起或增强幽默效果。

Exp 1. “You can tune a piano, but you can’t tuna fish.”

在实验1中，幽默并不来自于句子的内容，但是“tune”和“tuna”的发音相同，产生了喜剧效果。由此可见，语音结构如头韵、押韵、重复等在幽默文本中起着重要的作用。

歧义[4.]是指在一个句子中有多个意思的词，导致不同的句子理解。模棱两可和幽默常常相伴而生[5.]，这是许多幽默文本的重要组成部分[6.］.

实验2。“你听说过那个人的整个左半边身体都被切掉了吗?”他现在好了。”

EXP 2显示了由歧义引起的幽默。“右”这个词是暧昧的词，意思是“右侧”或“好”。

对于幽默文本中的语音结构和歧义的检测，最常用的方法是基于语义相似度和韵律链数等复杂特征工程。特征工程的思想是简单的，但它是费时的，并不能很容易地捕捉幽默背后的潜在语义信息。近年来，由于特征提取能力强，基于神经网络的方法已成为该任务的主流。然而，大多数研究人员只是使用更深层次的神经网络，而没有对语音结构和歧义进行建模。另外，对幽默识别结果的分析也存在一定的难度。

为了解决这个问题，我们提出了一个名为语音和模糊理解所指定的注意网络的端到端神经网络，以检测文本的幽默。所提出的模型通过卷积神经网络（CNN）捕获语音信息，与双向门控复发单元（Bi-Gru）和注意机制组合，以构建上下文和模糊的词语的信息，并应用门控机制来调整两者的效果幽默识别任务中的各种信息。我们的工作提出了三项贡献：（1）为了解决幽默识别中的语音结构和歧义特征，我们提出了一种名为语音和模糊的理解所通注网络（PACGA）的新颖框架，这可以了解CNN模型的语音表示，并学习与BI的模糊单词相关的潜在语义表示-GRU和注意机制。（2）我们提出了门控注意策略，利用语音结构和歧义在幽默识别中的结合。实验结果表明，该方法对幽默识别是有效的。（3）当日双关语的实验结果[3.]和一行16000 [7.数据集表明，与强基线相比，我们的方法实现了最先进的性能。此外，详细分析揭示了我们提出幽默识别模型的解释能力。

1．1.相关工作

在本节中，我们将回顾基于机器学习和基于深度学习的幽默识别方法的相关工作。

基于机器学习的幽默检测方法在文本幽默检测中得到了广泛的应用，通常需要从文本中提取特征来训练分类器。mihalcea和Strapparava [8.]带来了经验证据，即计算方法可以成功应用于文本中幽默识别的任务。张和刘[9.]设计了大约五个类别的五十个特征，来自有影响力的幽默理论，语言规范和情感尺寸。Barbieri和Saggion [10]提出了一套丰富的特征，包括歧义和语音结构。在最近的研究中，Liu和Zhang [11话语单位之间的建模情绪关联，以检测幽默。他们发现一些句法结构的特征与单独的论文中的幽默始终相关[12］.大多数上述实验结果表明，语音结构和歧义是幽默识别的主要特征。然而，构建大量特征的成本很高，它还限制了模型的泛化能力。

近年来，基于深度学习的幽默识别方法在幽默识别领域取得了巨大的成功。Bertero和Fung [13]结合词级和音频帧级特征，并使用RNN和CNN预测幽默话语。在他们的另一篇论文中[14[CNN用于编码话语，然后使用Bi-LSTM预测对话中的幽默[15］.系统地比较了基于CNN的幽默识别方法与传统的人工特征识别方法的性能。陈和苏[16]使用CNN和公路网络来增加幽默检测网络的深度。赵等人。[17提出了一种张量的嵌入方法来捕获词汇相似性以检测幽默。Blinov等人。[18]收集俄语笑话和搞笑对话数据集，并使用语言模型微调文本分类。基于深度学习的幽默识别方法可以自动提取高维特征，实现高效的幽默识别。然而，以往的研究并没有考虑到深度学习时幽默的语言特征。他们忽视了幽默理论的指导，大部分实验结果难以说明和解释。

2.方法

在本节中，我们介绍了我们的模型，PACGA。我们的模型能够通过考虑与模糊词语相关的语音表示和潜在语义信息来提高幽默识别。

PACGA的总体架构如图所示1．框架主要由三部分组成:(1)卷积神经网络用于语音结构理解;(2)Bi-GRU结合注意机制用于歧义词的语义理解;(3)门控注意策略用于语音表征和语义表征对幽默的识别。我们将在下面的小节中详细描述我们的模型。

2.1。语音理解网络（PCN）

许多幽默的文本用声音玩，创造不协调的声音或单词[3.］.mihalcea和Strapparava [7.]声称幽默文本的语音特征至少与他们的内容一样重要。例如，“儿子和继承人更多的太阳和空气;”“太阳”和“儿子”和“空气”和“继承人”是同音钟声。他们俩都不仅使句子不仅和谐愉快，而且很有趣和幽默。

单词的发音与他们的拼写完全相同。为了获得单词的语音表示，我们使用Carnegie Mellon University（CMU）发音词典。CMU的当前音素集有39个音素，比没有词汇压力的版本更准确。我们将每个单词转换为其相应的音素。例如，“Word”的发音是[“W，”“ER”，“D”]。应该注意的是，一个单词可以在CMU中具有多于一个语音符号。我们使用语音扩展名称条目的所有发音，并将任何发音与单词的语音扩展匹配。遵循jaech的[19，我们在元音和元音，辅音和辅音之间应用一个替代矩阵。当音素替换后，在CMU中发现原词的发音时，可以作为原词的语音延伸。

2.1.1。语音嵌入层

在语音嵌入层中，每个单词的读音都可以映射到一个高维特征空间，以获取有意义的语义信息。为每一个词那在一个句子S. 那然后我们转换成一个单词的发音，在哪里D.和是维度向量，N是句子的长度，和L.是的长度．对于语音嵌入，采用随机初始化。

2.1.2。换班

欠换层可以根据给定图案吹扫输入的尺寸。在我们的工作中，我们的目的是通过欠紧层找出头韵或押韵的模式。变换的矩阵表示相应语音之间的不同词的发音以馈送卷积层。

2.1.3。卷积的层

我们采用卷积操作，以便学习语音表示的本地特征。通常，卷积层使用过滤器来提取局部n-gram特征。过滤器可以使用窗口H单词生成新功能映射。C_T.是由文字窗口生成的feature map吗．公式如下: 在哪里F是非线性功能relu，过滤器是否生成特征图C_T.那L.窗的长度是多少B.是偏见。

2.1.4。MaxPooling层

GlobalMaxPool2D用于使用二维CNN捕获本地语音特征后生成语音表示。

此时，我们得到语音代表R._P.语音理解网络的目标句子。

２.２.歧义理解网络(ACN)

歧义是具有多种含义的单词的歧义[20.］.当听众期望一种意思，但却被迫使用另一种意思时，幽默和歧义往往同时出现。3.］.对于一个幽默的例子，“棒球比赛之后的所有粉丝都太热了。”“粉丝”的表面含义是球比赛风扇，但含义可能是电风扇脱落。具有多种可能含义的含糊不清的词可能导致读者误解句子。这是触发幽默的关键字。此外，我们还注意到，模糊词的多种含义通常是完全不同的。总而言之，我们注意一个可以帮助我们改善幽默认可的句子中的模糊词。

2.2.1。单词嵌入

幽默文本的每一个词特征都可以映射到该层的高维特征空间，以获取有意义的语义规律。在这里,手套(21]作为预训练的词向量，生成用于幽默检测的词嵌入。

2.2.2。模棱两可的词,嵌入

在这里，歧义词的定义是在一个幽默的句子中，有多个意思，语义相似度最高的词。我们的研究强烈地基于这样一种直觉，即幽默源于模棱两可的词语。换句话说，一个词的意义越多，它们之间的语义距离越高，它对幽默句子的贡献就越大。在这里，我们使用WordNet来识别歧义词，以检测幽默。首先，我们忽略句子中的停顿词。然后，通过WordNet计算每个单词的同义词集数量，并选择topT.言语作为候选人含糊不清的词。可以在每个候选词的含义之间计算语义相似性。然后，我们选择余弦相似函数来测量语义距离。让字嵌入, syn 那和K.是单词的同义词的数量．相似度计算如下:

因此，在句子中选择相似度最高的歧义词来表达幽默。这个有歧义的词被表示为．

结合歧义和上下文的信息，我们学习陷入幽默识别的含糊不清的词。由于公共词嵌入表示表现出线性结构，因此可以通过元素添加它们的向量表示可以将可以混合地组合单词[22］.为了更好地利用歧义中的信息，我们将歧义词表示附加到文本中每个嵌入的词中。一个词的歧义嵌入对于特定的目标是那在哪里是矢量连接操作。

2.2.3。双向门控复发单位（Bi-Gru）

我们在歧义词嵌入的基础上利用Bi-GRU来捕捉幽默识别的特征。Bi-GRU已经用完了X生成一个隐藏的向量序列．在每个步骤S.，隐向量是基于当前矢量计算的吗和之前的矢量．公式如下: 在哪里σ是sigmoid函数，是复位门和是更新门，代表输入,是候选人隐藏状态是时候隐藏的状态S.，和⋄代表R.elementwise乘法操作。

Bi-GRU在每个时间步骤中包含两个隐藏状态:一个是前向GRU而另一个是向后gru ．最后，将以上两部分连接起来: ．

2.2.4。歧义注意双gru

即使我们在嵌入层中添加了模糊信息，标准BI-GRU无法注意幽默识别的歧义。为了解决这个问题，我们利用注意机制响应给定的含糊不清的单词捕获句子的关键部分。

对于每次步骤，Bi-Gru产生隐藏的向量．此外，歧义词的表示和隐藏的向量连接，．一个隐藏向量的矩阵，在哪里D.是神经元的数量和N是句子的长度。然后，利用注意机制生成注意权向量α和加权隐藏的矢量R._一种．公式如下: 在哪里那那和．和是参数。是歧义注意力的矢量R._一种是具有特殊模糊词的给定句子的加权表示。

在这一点上，我们得到了歧义的表示R._一种通过歧义理解网络。

2.3。门控机制

在由语音和歧义理解网络学习之后，我们将两部分组合以获得集成表示。直观，语音结构和歧义与幽默不同。因此，利用门控注意力来模拟两部分提供的线索的置信度。我们计算注意门的价值如下：在哪里是sigmoid函数，是权矩阵，和B.是偏见。

为了控制语音信息和歧义信息之间的信息，我们使用了注意门的值和作为组合权重。句子的最后表示方式如下: 在哪里R._pa是积分表示，R._P.是语音表示，R._一种是模棱两可的语义表示，是组合重量，⊙是元素乘法。

幽默识别可以正式化为文本分类。R._pa是文本的矢量表示，它可以用作获取最终分类结果的输入：在哪里P.幽默文本的预测概率是多少和是偏见。

２.４.模型训练

该模型可以通过BackPropagation以端到端的方式训练，我们使用基于损耗作为损耗功能。让y是真正的分布和为文本数据集的预测分布。训练的目标是使之间的损失函数最小y和对于所有样本。我们可以将此过程正式化如下：在哪里一世是句子的索引，j是课程的指数，是个 -正则化术语和是参数集。

3.实验

在本节中，我们首先介绍数据集和评估指标。然后，我们比较了我们的模型与几个强基线在幽默识别方面的性能。最后，对该方法进行了详细的分析，包括烧蚀实验、可视化结果和误差分析。

3．1.数据集和评估指标

我们对广泛使用的日期数据集和Oneliners 16000数据集进行实验。桌子1显示他们的详细统计分布。


数据集	积极的	负

双关语	2423.	2403
奥林斯	16000	16000

3.1.1。双关语（双关语）

该数据集由Yang等人构建。[3.］.这个数据集的幽默文本来自一天的外国网站，负面样本来自AP新闻，纽约时报，雅虎！回答，谚语。数据集包含相同数量的正和阴性样本。平均句子长度为13.5字。

3.1.2。oneliners - 16000(利诺同时)

该数据集由[7.］.这个数据集中的oneliners来自一些着名的幽默网站，负面样本来自路透社新闻的标题。它也是一个平衡的数据集。句子的平均长度为12.6字。

3.1.3。评价指标

我们使用精度(Acc)、精度(P.），记起（R.）和F测量（F1）在我们的实验中测量幽默识别的性能。

3.1.4。培训细节

我们将建议的模型应用于幽默识别任务。在我们的实验中，对于模棱两可的理解网络，所有字向量都是通过手套初始化的，该手套在6B令牌和400K 2014的400K词汇单词中列举，维度为300. Bi-Gru中的单位大小为150并丢弃DP.在{0.25,0.35,0.5}范围内。学习优化器op.在范围内{RMSPROP，Adadelta，ADAM}。学习率为0.0001。我们在培训过程中使用学习率衰减和早期停止。对于语音理解网络，我们首先通过随机初始化使用语音向量转换标记输入句子。过滤尺寸范围是{[2,3,4]，[3,4,5]}。对于每个过滤器大小，将应用128个过滤器。顶端T.在{1,3,5}范围内的是候选的歧义词。

我们使用5倍交叉验证使用网格搜索方法来选择最佳参数。详细地，对于每个参数，执行以下交叉验证操作。（1）原始数据集随机分为五个等大小的子集。（2）对于五个子集，四个子集用于训练模型，其余子集用作测试模型的验证数据。（3）我们重复步骤（2）五次，使得五个子集中的每一个用作验证数据一次。（4）折叠的五个结果平均以产生结果。最后，将具有CrossValidation过程获得的最高结果的参数对设置为最佳参数。在我们的实验中，DP为0.35，OP为ADAM，过滤尺寸为[2,3,4]，T.是3。

３．２．与现有方法的比较

我们将拟议模型与几个基线进行比较：

3.2.1。支持向量机（SVM）

此方法使用纸张中提到的所有功能[3.］.

3.2.2。hcfword2ve.

杨等人提出了该方法。[3.］.

3.2.3。CNN.

该方法由陈和李提出[15］.

3.2.4。cnn + hn + f

该方法由Chen和Soo提出[16］.

3.2.5。TM

这种方法由Zhao等人提出。[17］.

3.2.6。语法

刘[12]建议利用句法结构功能来增强幽默recognition。

3.2.7。Bi-LSTM +有线电视新闻网

该方法是Bertero和Fung提出的方法的完全重新实现[14］.

3.2.8。Bi-Gru.

我们使用单词嵌入，通过Bi-GRU学习潜在的语义表示。

3.2.9。Bi-Gru + F.

除了使用Bi-GRU自动学习的语义表示外，上述人工特征也被纳入到网络中。

3.2.10。Bi-GRU +丙氨酸

我们实施了深入学习的双格架构，专注于识别幽默文本。

3.2.11。PACGA.

我们结合了语音结构和模糊的信息，并使用门控机制来调整两部分的效果。

比较结果列于表中2和3.．从结果中，我们观察到（1）传统的机器学习方法令人不满意地进行。两个数据集上的结果表明，它们的性能低于许多评估指标中的神经网络。此外，对于相同的人工特征集，传统的机器学习方法在两个数据集上表现出不同的性能。对于双关语，HCFWORD2VEC更好，但对于奥林斯来说，SVM更好。这显示了基于机器学习的方法取决于特征的构建，其泛化能力不足。（2）TM采用半熟标签传播程序。它使用了张量嵌入方法，用于小样本幽默识别，但仅实现了大约70％的F1。（3）CNN在两种数据集上的双GRU进行差（85.7％，而88.15％和86.09％，而86.94％）。CNN具有广泛的滤波器尺寸，数量和公路网络实现了高性能。原因可能是深度网络对幽默检测有益。（4）Bi-LSTM + CNN，Bi-LSTM和CNN的组合，比在两个数据集上的BI-GRU执行差。通过将一个神经网络层堆叠在另一个神经网络上，深入学习模型可以自动学习高级功能。然而，混合LSTM和CNN不能更好地提取识别幽默的潜在语义信息。（5）Bi-Gru + F增加了幽默的人工特征到Bi-Gru模型。我们预计比Bi-Gru更高的性能，但在大多数评估度量上获得的结果在大多数评估度量上较低。手动构造的功能的输入可能与双GRU自动学习的语义功能冲突。因此，将太多人工特征添加到深度学习方法中无法在一定程度上有效地提高幽默识别。（6）Bi-Gru + Att使用注意机制而无需含糊不清的字。显然，其实验性能并未大大提高，这主要是由于无法密切关注与幽默强烈相关的功能。（7）PACGA是我们所提出的方法，在F1的两个数据集上实现了可比性。对于双关语，PACGA对F1的普通BI-GRU改善2.12％，并为氧化铝剂达2.27％。甚至与强大的基线CNN + HN + F相比，我们的模型的性能很高。我们所提出的模型比PUNS上的高速公路网络表现优于CNN，并达到果林的可比结果（90.81，而与90.3％相比90.1％和90.28％相比）。这表明我们所提出的语音信息，歧义信息和所门控注意机制具有卓越的幽默识别性能。（8）与基线方法相比，我们的模型实现了更高的准确度分数和PUNS的F1分数，但较低的精度和召回。我们认为它是导致这种现象的不同类型的其他信息。我们的模型可以学习幽默后面的潜在语义和语音信息，例如语音结构和模糊的信息，并应用门控注意机制来调整它们之间的重量，以证明由幽默理论驱动的更相关的功能，而其他方法通常只采用语义与PACGA相比，获得高精度和召回的信息。我们的模型在两个数据集中实现了可比性，这表明我们的模型具有更好的泛化能力。


楷模	Acc (%)	P.（%）	R.（%）	F1 (%)

支持向量机	83.85	85.91.	82.52	84.18
HCFW2V.	85.4	83.4	88.8	85.9
语法	-	-	-	-
TM	74.5	75.2	72.3.	73.7
CNN.	86.1.	86.4	86.4	85.7
cnn + hn + f	89.4	86.6	94.0	90.1.
Bi-lstm +有线电视新闻网	85.38	81.42	91.97	86.37
Bi-Gru.	87.72	84.23	92.46	88.15
Bi-Gru + F.	87.14	89.87	83.34	86.48
PACGA.	88.69	88.94	92.76	90.81


楷模	Acc (%)	P.（%）	R.（%）	F1 (%)

支持向量机	83.12	88.04	80.26	82.24
HCFW2V.	79.7	77.6	83.6	80.5
语法	85.0	82.7	89.1.	85.8
TM	70.5	72.1	66.7	69.3
CNN.	84.24	85.73	86.46.	86.09
cnn + hn + f	89.7	87.2	93.6	90.3
Bi-lstm +有线电视新闻网	85.97	86.30.	85.21	85.75
Bi-Gru.	85.92	87.81	86.08	86.94
Bi-Gru + F.	84.78	84.11	84.69	84.40
PACGA.	89.47	88.78	91.84	90.28

3.3。详细分析

我们进行额外的实验，详细介绍我们的模型。

3．4．PACGA的不同部分分析

为了显示模型不同部分的有效性，我们将模型分为两个部分进行验证。首先，我们只使用Bi-GRU，没有语音理解和歧义理解。然后，我们实现了以语音嵌入为输入的PCN，并利用CNN模型对幽默进行识别。除了语音信息，我们还试图仅通过语义信息来区分幽默。接下来，我们设计了一个基于Bi-GRU和注意机制的ACN模型，该模型利用词嵌入和歧义词信息来学习潜在的幽默特征。最后，介绍了我们提出的PACGA模型。表4.和5.显示两个数据集上所有模型的性能：（1）表4.和5.Bi-GRU表现较差，这与我们的直觉一致。在没有语音结构和歧义词信息的情况下，Bi-GRU在幽默识别中的表现不尽人意。（2）PCN仅使用语音信息，其性能显着低于两个数据集上的其他模型。显然，只有使用单一模型来捕获语音特征，以检测幽默无法赋予竞争性能。语义信息在幽默的识别中起着重要作用。（3）与Bi-GRU相比，ACN的性能略微改善。这表明模糊的Word信息和注意机制有助于对Bi-Gru专注于幽默的潜在语义特征。（4）在所有方法中，PACGA实现了这项任务的最佳表现。原因是我们的模型考虑了语音信息，用暧昧的词语，并门控注意机制。


楷模	Acc (%)	P.（%）	R.（%）	F1 (%)

Bi-Gru.	87.72	84.23	92.46	88.15
PCN.	84.43	83.92	88.14	85.98
ACN.	87.38	86.69	91.02	88.80
PACGA.	8.8.69	88.94	92.76	90.81


楷模	Acc (%)	P.（%）	R.（%）	F1 (%)

Bi-Gru.	85.92	87.81	86.08	86.94
PCN.	83.97	85.12	83.87	84.49
ACN.	86.64	87.39	87.47	87.42
PACGA.	89.47	88.78	91.84	90.28

3.5。不同组合策略的影响

组合策略可能影响幽默识别的性能，并衡量我们两个主要部分的重要性。因此，我们设计了一系列实验来探索不同组合策略的影响。我们采用了三种策略。（1）PAC-ST1：它直接结合了语音表示和歧义表示。（2）PAC-ST2：它假设两个部分的信息具有相同的重要性和参数为常数，其值为0.5。(3) PAC-ST3:这两部分信息的重要性不同。门控注意力用于模拟两部分提供线索的置信度。

我们比较了不同策略下的单模型和组合模型，结果如表所示6.．从结果中，我们发现所有组合的模型都优于单一模型，这表明语音结构和语义信息都有助于幽默识别。在组合模型中，PAC-ST1和PAC-ST2的性能大致相同，PAC-ST2具有轻微的改善。此外，PAC-ST3对于两个数据集，PAC-ST3以大边距（F1上的1.48％或1.56％）击败它们。这表明我们所提出的Gated Peparess策略组装信息可以更好地捕捉幽默背后的固有功能。


策略	楷模	双关语F1 (%)	利诺同时F1 (%)

单	PCN.	85.98	84.49
单	ACN.	88.80	87.42

结合	PAC-ST1	89.21	88.63
	PAC-ST2	89.33	88.72
	PAC-ST3.	90.81	90.28

3.6。可视化的关注

为了验证我们模型的有效性PACGA，我们可以为正确预测的标签的句子可视化注意层。

从图中2，我们可以看到普通词语，例如“是”和“做”，我们的模型得到了很少的关注，这证明了普通词对识别幽默的贡献几乎没有贡献。同时，一些特定的词对幽默至关重要。在图中2（a）在美国，“战争”、“右”、“决定”和“左”这些词具有更高的关注权重，这意味着我们的模型会像我们预期的那样关注这些词。研究表明，歧义词可以为其语境提供有用的信息来调节其注意，在幽默识别任务中起着重要作用。在图中2（b）显然，歧义并不是幽默产生的主要原因，而且我们非常关注语音结构，这意味着我们的模型可以认识到语音结构和歧义对幽默识别的重要性。因此，通过PACGA，我们可以分别很好地模拟语音结构和歧义，然后通过门控注意机制将它们的表征连接起来，这有助于幽默识别。

(一)

(b)

3.7。误差分析

在本节中我们还进行了初步的误差分析。我们的目的是通过对一些错误分类的测试用例的研究，发现一些存在的问题，从而提高我们模型的幽默识别能力。

Exp 3. The one who invented the door knocker got a no bell prize.

Exp 4. A tidy desk is a sign of a cluttered desk drawer.

对于Exp 3，真正的标签是“幽默”，但我们的模型预测它的标签是“非幽默”。在这个例子中，妙语是“没有贝尔奖”，听起来像“诺贝尔奖”。显然，这种幽默是由发音相似引起的，但是“Nobel Prize”并没有出现在句子中，我们的模型也没有捕捉到任何语音信息。因此，为了正确地预测标签，需要一些背景知识。对于Exp 4，“整洁”和“杂乱”是对立的，这种冲突使句子变得幽默。幽默有时依赖于两个或两个以上不一致、不合适或不协调的部分或环境。因此，我们的模型需要能够同时识别不一致性。

4.结论和未来的工作

本文设计了一个用于幽默检测的自动计算神经网络——语音学和歧义理解门控注意网络(PACGA)。PACGA的主要思想是利用语音结构和歧义来识别幽默。在我们的模型中，我们使用一个语音理解网络来理解CMU发音字典的语音表示。歧义理解网络利用Bi-GRU与歧义词相关的潜在语义表示。基于语音理解网络和歧义理解网络，采用门控注意机制对线索置信度进行建模。在双关语和oliner数据集上的实验表明，该算法能够有效地学习语音结构和语义信息，为幽默检测提供重要信息。此外，注意力的详细分析和可视化也从不同的角度展示了有效性和阐释能力。

未来，我们将进一步研究如何将幽默特征融入到深度学习模型中。当然，如何用常识来识别幽默也是一个值得研究的问题。

数据可用性

本研究中分析的所有数据都是公共语料库，可以通过向DataSet Builder发送电子邮件来获得。支持本研究结果的数据“二号”公开可用于[3.］.支持本研究结果的数据“ONELIENRS-16000”公开可用于[7.］.

的利益冲突

作者声明他们没有利益冲突。

致谢

该工作得到了中国自然科学基金（No.61632011,61572102,61702080,61602079和61806038）的部分支持，教育部人文和社会科学项目（第16YJCZH12），中央大学的基本研究资金（没有。DUT18ZD102DUT19RC（4）016），中国国家重点研究开发计划（2018年汇款0832101），中国博士后科学基金会（2018M631788号）。

参考文献

X. Yan和P. Ted，“Semeval-2017的Duluth任务6：幽默检测中的语言模型，”2017年，https://arxiv.org/abs/1704.08390.．查看在：谷歌学术
O. Stock, C. Strapparava, and A. Nijholt，“关于计算幽默的愚人节研讨会”，在第二十届Twente语言技术讲习班论文集，特伦托，意大利，2002年4月。查看在：谷歌学术
D. Yang, A. Lavie, C. Dyer，和E. Hovy，“幽默识别和幽默锚提取”，在2015年度自然语言处理中实证方法的会议，第2367-2376页，葡萄牙里斯本，2015年9月。查看在：谷歌学术
C. Bucaria，“作为幽默的词汇和句法歧义：报纸头条新闻的案例，”幽默，第十七卷，第二期3，页279 - 310,2004。查看在：出版商的网站|谷歌学术
A. Reyes，P. Rosso和D. Buscaldi，“从幽默认识到讽刺检测：社交媒体的比喻语言”数据与知识工程，第74卷，第1-12页，2012。查看在：出版商的网站|谷歌学术
s·卡斯特罗(S. Castro)、m·库贝罗(M. Cubero)、d·加拉(D. Garat)和g·蒙切奇(G. Moncecchi):“这是在开玩笑吗?在西班牙语推特中发现幽默伊比利亚人工智能大会的诉讼程序San José，哥斯达黎加，2016年11月。查看在：谷歌学术
R.米哈尔恰和C.斯特拉帕拉瓦，《让电脑发笑:自动幽默识别的研究》，刊于自然语言处理中人体语言技术和实证方法会议的诉讼程序，页531-538，加拿大温哥华，2005。查看在：谷歌学术
R.Mihalcea和C. Strapparava，“计算笑：自动识别幽默的单行，”认知科学会议的诉讼程序，第1513-1518页，Denton, TX, USA, 2005。查看在：谷歌学术
R. Zhang和N. Liu，“识别Twitter上的幽默”第23届ACM信息和知识管理会议国际会议的诉讼程序，PP。中国上海889-898，2014年11月。查看在：谷歌学术
F. Barbieri和H. Saggion，《twitter中讽刺和幽默的自动检测》，发表于第五届国际计算创造力会议论文集，pp。155-162，卢布尔雅那，斯洛文尼亚，2014年6月。查看在：谷歌学术
L. Liu，D.张和W.歌曲，“幽默认可话语中的语言建模关联”第56届计算语言学协会第56届年会的诉讼程序，第2卷，586-591页，澳大利亚墨尔本，2018年7月。查看在：谷歌学术
刘磊，张德成，宋伟，“基于句法结构的幽默识别”，《中国心理学杂志》第27届国际计算语言信息会议的诉讼程序，第1875-1883页，圣达菲，NM，美国，2018年8月。查看在：谷歌学术
D. Bertero和P. Fung，“深度学习音频和语言特征的幽默预测”，在第十次语言资源和评估会议的诉讼程序，pp.496-501，Portoroć，斯洛文尼亚，2016年5月。查看在：谷歌学术
D. BERTERO和P. FUNG，“一个长期的短期记忆框架，用于预测对话中的幽默，”计算机语言学协会北美分会2016年会议论文集:人类语言技术，pp.130-135，美国圣地亚哥，美国，2016年6月。查看在：谷歌学术
L. Chen和C. M. Lee，“卷积神经网络在幽默识别中的应用”，2017，https://arxiv.org/pdf/1702.02584.pdf．查看在：谷歌学术
P. Y. Chen和V. W. Soo，“使用深度学习的幽默识别”2018年2018年北美章节会议的核查委员会的计算语言学协会：人类语言技术，卷。2，pp。113-117，2018。查看在：谷歌学术
赵志刚，张晓东，“基于张量分解的小样本幽默识别”，《中文信息学报》2019年度自然语言处理的实证方法和第9次国际自然语言处理联席会议（EMNLP-IJCNLP）的诉讼程序， pp. 6377-6382，中国香港，2019年11月。查看在：谷歌学术
V. Blinov, V. Bolotova-Baranova，和P. Braslavski，“大数据集和语言模型幽默识别的趣味调优”，在计算语言学协会第57届年会的诉讼程序， pp. 4027-4032, 2019。查看在：谷歌学术
A. Jaech，R. koncel-Kedziorski，以及M. Ostendorf，“言语双重卫生，”计算机语言学协会北美分会2016年会议论文集:人类语言技术，pp.654-663，圣地亚哥，加州，美国，2016年。查看在：谷歌学术
A. Fan, M. Lewis和Y. Dauphin，《层次神经故事生成》，2018，https://arxiv.org/abs/1805.04833．查看在：谷歌学术
J. Pennington，R. Socher和C. Manning，“手套：全球向量表示，”2014年自然语言处理经验方法学术会议论文集，第1532-1543页，卡塔尔多哈，2014年。查看在：谷歌学术
J. du，R. Xu，Y。他和L.Gui，“与目标特定的神经关注网络的立场分类”，国际人工智能联合会议，澳大利亚墨尔本，2017年8月。查看在：谷歌学术

复杂

摘要