1。介绍gydF4y2Ba
幽默是经常使用在日常交流gydF4y2Ba
1gydF4y2Ba]。跟人沟通的时候,如果人工智能(AI)系统,比如聊天机器人,可以检测中的幽默对话,这将帮助他们更好地理解人类的情感,帮助AI做出更合适的决定。因此,幽默计算值得特别注意,因为它有可能把电脑变成人类活动的创意和激励工具(gydF4y2Ba
2gydF4y2Ba]。gydF4y2Ba
幽默的识别是指在给定上下文中判断一个句子表达了一定程度的幽默。杨et al。gydF4y2Ba
3gydF4y2Ba)确定三个语义结构和一个语音幽默背后的结构。实验结果表明,模糊和语音结构对幽默识别很重要。gydF4y2Ba
在幽默的文字,语音结构,用作设备通常采用头韵和押韵的形式。头韵、押韵或词重复通常用来唤起或增强幽默的效果,即使不是幽默的内容。gydF4y2Ba
实验1。“你可以调一架钢琴,但你不能金枪鱼。”gydF4y2Ba
在实验1中,幽默不是来自这个句子的内容,但这句话“调整”和“金枪鱼”有相同的发音,并产生一种喜剧效果。因此,它表明,语音结构,如头韵、押韵,和词的重复,扮演着重要的角色在幽默短信。gydF4y2Ba
模棱两可(gydF4y2Ba
4gydF4y2Ba)是指一些单词与多个句子的含意造成不同的句子理解。模棱两可和幽默经常一起去gydF4y2Ba
5gydF4y2Ba),这是一个至关重要的组成部分,很多幽默文本(gydF4y2Ba
6gydF4y2Ba]。gydF4y2Ba
实验2。“你知道那个家伙的左侧被切断了?他现在好了。”gydF4y2Ba
实验2显示了幽默引起的歧义。“正确的”这个词是模棱两可的词,意思“右侧”或“好”。gydF4y2Ba
检测的语音结构和歧义幽默的文字,最受欢迎的方法是基于复杂的工程特性,如语义相似度和押韵连锁店的数量。工程特性的概念很简单,但它是耗时和无法轻易捕获幽默背后的潜在语义信息。最近,由于强大的特征提取能力,神经网络方法对这个任务有成为主流。然而,大多数研究人员简单地使用深层神经网络没有建模的语音结构和歧义。此外,很难分析幽默识别的结果。gydF4y2Ba
为了解决这个问题,我们提出一个名为语音学和歧义理解的神经网络的端到端封闭的关注网络检测幽默文本。该模型捕获通过卷积神经网络(CNN)的语音信息,结合双向封闭的复发性单位(Bi-GRU)和注意力机制构建信息的上下文和模棱两可的词,并封闭机制适用于调整的影响两种幽默识别的任务的信息。我们的工作使三个贡献:gydF4y2Ba
幽默解决语音结构和模糊特性识别,我们提出一个新的框架命名语音学和歧义理解的关注网络(PACGA),它可以理解语音表示CNN模型,和学习与潜在语义表示模棱两可的单词Bi-GRU和注意力机制。gydF4y2Ba
我们建议封闭的关注战略利用语音的组合结构和歧义幽默的认可。实验结果表明,它是有用的幽默识别。gydF4y2Ba
实验结果在pun-of-the-day [gydF4y2Ba
3gydF4y2Ba和一个衬垫16000gydF4y2Ba
7gydF4y2Ba)数据表明,我们的方法达到最先进的性能比较,并有很强的基线。此外,详细的分析揭示了幽默识别模型的解释能力。gydF4y2Ba
1.1。相关工作gydF4y2Ba
在本节中,我们将回顾相关工作基于机器学习方法和基于深度学习幽默识别的方法。gydF4y2Ba
基于机器学习的方法已被广泛用于检测幽默文本,通常取决于从文本特征提取来训练分类器。Mihalcea和StrapparavagydF4y2Ba
8gydF4y2Ba)带来的经验证据表明,计算方法可以成功地应用于幽默的任务识别文本。张,刘gydF4y2Ba
9gydF4y2Ba)五类设计大约50的特性来源于有影响力的幽默理论,语言规范,和情感维度。巴比里和SaggiongydF4y2Ba
10gydF4y2Ba)提出了一组丰富的功能,包括歧义和语音结构。在最近的工作中,刘和张gydF4y2Ba
11gydF4y2Ba)建模人气检测幽默话语单位之间的联系。他们发现一些句法结构特征始终与幽默在一个单独的纸(gydF4y2Ba
12gydF4y2Ba]。大部分的上述实验结果表明,语音结构和歧义幽默识别的主要特征。然而,建造大量的成本特性高,这也限制了模型的泛化能力。gydF4y2Ba
最近,基于深度学习方法在幽默识别获得了巨大的成功。虽然和冯gydF4y2Ba
13gydF4y2Ba)复合句和音频框架水准仪的特性和使用RNN和CNN预测幽默的话语。在其他文献[gydF4y2Ba
14gydF4y2Ba),CNN是用于编码话语,然后Bi-LSTM用来预测幽默在对话gydF4y2Ba
15gydF4y2Ba]。系统、幽默的性能识别基于CNN与一些行之有效的传统方法相比,使用手动功能。陈和秀(gydF4y2Ba
16gydF4y2Ba)使用CNN和高速公路网络的深度增加网络幽默检测。赵et al。gydF4y2Ba
17gydF4y2Ba)提出了一个张量嵌入方法捕捉词汇相似度检测幽默。Blinov et al。gydF4y2Ba
18gydF4y2Ba)收集的数据集的笑话和有趣的对话在俄罗斯和使用语言模型用于文本分类的微调。毫无疑问,基于深度学习方法可以提取高维特征自动识别,实现高性能的幽默。然而,以往的研究没有考虑使用深度学习时幽默的语言特征。他们忽略了幽默理论的指导,大部分实验结果很难说明和解释。gydF4y2Ba
2。方法gydF4y2Ba
在本节中,我们介绍了我们的模型,PACGA。我们的模型能够提高幽默通过考虑语音表示和识别潜在的语义信息与模棱两可的词。gydF4y2Ba
PACGA如图的总体架构gydF4y2Ba
1gydF4y2Ba。框架主要包括三个部分:(1)理解卷积神经网络的语音结构,(2)Bi-GRU结合关注语义理解机制与模棱两可的单词,和(3)封闭的注意策略用于利用语音表征和语义表示认识到幽默。我们在以下部分中描述的细节我们的模型。gydF4y2Ba
语音学的框架和歧义理解的关注网络。gydF4y2Ba
2.1。语音理解网络(PCN)gydF4y2Ba
许多幽默短信玩声音,创造不协调的声音或词(gydF4y2Ba
3gydF4y2Ba]。Mihalcea和StrapparavagydF4y2Ba
7gydF4y2Ba]声称幽默文本的语音特征至少他们的内容一样重要。例如,“更多的阳光和空气的儿子和继承人;”“太阳”和“儿子”和“空气”和“继承人”同音。他们不仅使句子和谐和愉快的而且有趣和幽默。gydF4y2Ba
单词的发音并不像他们的拼写完全相同。为了得到的语音表示的话,我们使用卡内基梅隆大学(CMU)发音字典。当前音素的卡耐基-梅隆的有39个音素,哪个更准确比版本没有词汇压力。我们将每个单词转换成相应的音素。例如,“单词”的发音(“W”“嗯,”“D”)。应该注意的是,一个字可能有多个在CMU音标。我们使用一个字典条目的所有发音的语音扩展和匹配任何发音的语音扩展词。Jaech(后gydF4y2Ba
19gydF4y2Ba工作,我们应用一个替换矩阵元音与元音和辅音和辅音。它可以用作语音扩展原始词的发音时发现在CMU音素替代。gydF4y2Ba
2.1.1。语音学嵌入层gydF4y2Ba
在语音学嵌入层,每个单词的发音可以被映射到一个高维特征空间捕捉有意义的语义信息。为每一个词gydF4y2Ba
wgydF4y2Ba
我gydF4y2Ba
,在一个句子gydF4y2Ba
年代gydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
wgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
wgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
wgydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
wgydF4y2Ba
我gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
我们把gydF4y2Ba
wgydF4y2Ba
我gydF4y2Ba
成gydF4y2Ba
PgydF4y2Ba
=gydF4y2Ba
pgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
pgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
pgydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
pgydF4y2Ba
我gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
′gydF4y2Ba
是一个词的发音,在哪里gydF4y2Ba
dgydF4y2Ba和gydF4y2Ba
dgydF4y2Ba
′gydF4y2Ba
维向量,gydF4y2Ba
NgydF4y2Ba句子的长度,gydF4y2Ba
lgydF4y2Ba的长度是gydF4y2Ba
wgydF4y2Ba
我gydF4y2Ba
。语音学嵌入,我们随机启动。gydF4y2Ba
2.1.2。交换层gydF4y2Ba
交换层可以交换的尺寸根据一个给定的输入模式。在我们的工作中,我们的目标是找出头韵和押韵的模式排列的层。之间的转换矩阵代表不同的单词的发音语音学喂卷积对应层。gydF4y2Ba
2.1.3。卷积的层gydF4y2Ba
我们采用卷积操作来学习语音的地方特色表示。一般来说,卷积层使用一个过滤器来提取当地语法功能。一个过滤器可以使用的窗口gydF4y2Ba
hgydF4y2Ba言语生成新功能映射。gydF4y2Ba
cgydF4y2Ba
tgydF4y2Ba是一个功能图由一个窗口的单词是哪个gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
:gydF4y2Ba
我gydF4y2Ba
+gydF4y2Ba
lgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
。公式如下:gydF4y2Ba
(1)gydF4y2Ba
cgydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
fgydF4y2Ba
wgydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
:gydF4y2Ba
我gydF4y2Ba
+gydF4y2Ba
lgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
fgydF4y2Ba是ReLU非线性函数,gydF4y2Ba
wgydF4y2Ba
过滤器生产特征地图吗gydF4y2Ba
cgydF4y2Ba
tgydF4y2Ba,gydF4y2Ba
lgydF4y2Ba窗口的长度,gydF4y2Ba
bgydF4y2Ba是偏见。gydF4y2Ba
2.1.4。MaxPooling层gydF4y2Ba
GlobalMaxPool2D用于生成语音捕捉当地的演讲后表示特性使用二维CNN。gydF4y2Ba
在这一点上,我们得到的语音表示gydF4y2Ba
rgydF4y2Ba
pgydF4y2Ba目标句子的语音理解网络。gydF4y2Ba
2.2。歧义理解网络(ACN)gydF4y2Ba
歧义消歧的语句(gydF4y2Ba
20.gydF4y2Ba]。幽默和歧义通常一起去当一个侦听器预计一个意义,但被迫使用另一个意义(gydF4y2Ba
3gydF4y2Ba]。一个幽默的例子,“它很热,所有的球迷棒球比赛后离开。球迷“的表面含义是球赛的球迷,但电风扇的含义可能是多种可能的含义。一个模棱两可的词,可能导致读者误解了这句话。幽默是关键字触发。此外,我们还注意到的多个含义模棱两可的词往往是完全不同的。总之,我们注意捕捉模棱两可的单词在一个句子,可以帮助我们提高幽默的认可。gydF4y2Ba
2.2.1。字嵌入gydF4y2Ba
幽默文本的每一个字特征可以被映射到一个高维特征空间的这一层获取有意义的语义规律。在这里,手套(gydF4y2Ba
21gydF4y2Ba)应用pretrained词向量以产生嵌入检测幽默这个词。gydF4y2Ba
2.2.2。模棱两可的词,嵌入gydF4y2Ba
一个模棱两可的词,这是一个词的定义在一个幽默的句子语义相似度最高的多重含义。我们的工作是基于直觉强烈,幽默来自模棱两可的词。换句话说,更多的含义词和它们之间的语义距离越高,更导致了幽默的句子。在这里,我们使用WordNet识别模糊词检测幽默。首先,我们忽略了停止的一个句子。然后,我们计算每个单词的同义词集的数量虽然WordNet和选择gydF4y2Ba
TgydF4y2Ba作为候选人模棱两可的词汇。之间的语义相似度计算每个候选词的含义。然后,我们选择余弦相似度函数来测量语义距离。让gydF4y2Ba
XgydF4y2Ba
=gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
字嵌入,gydF4y2Ba
XgydF4y2Ba
我gydF4y2Ba
′gydF4y2Ba
=gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
KgydF4y2Ba
的同义词集gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba是这个词的同义词gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
。相似度计算如下:gydF4y2Ba
(2)gydF4y2Ba
Sim卡gydF4y2Ba
XgydF4y2Ba
我gydF4y2Ba
′gydF4y2Ba
=gydF4y2Ba
马克斯gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
ngydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
米gydF4y2Ba
⋅gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
ngydF4y2Ba
。gydF4y2Ba
因此,这个词相似度最高的是选中的模棱两可的词,来表达幽默一个句子中去。模棱两可的词,表示为gydF4y2Ba
xgydF4y2Ba
一个gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
。gydF4y2Ba
结合模棱两可的信息和上下文,我们学习嵌入幽默识别模棱两可的词。展览自常用词嵌入表示一个线性结构,它可以有效地结合单词的elementwise添加他们的向量表示gydF4y2Ba
22gydF4y2Ba]。为了更好地利用信息含糊不清,模棱两可的词,表示我们附加到每个字嵌入在文本。模棱两可的词,嵌入的一个字gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
′gydF4y2Ba
为一个特定的目标gydF4y2Ba
xgydF4y2Ba
一个gydF4y2Ba
是gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
′gydF4y2Ba
=gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
⊕gydF4y2Ba
xgydF4y2Ba
一个gydF4y2Ba
,在那里gydF4y2Ba
⊕gydF4y2Ba
是向量连接操作。gydF4y2Ba
2.2.3。双向封闭的复发性单位(Bi-GRU)gydF4y2Ba
我们利用Bi-GRU嵌入的模棱两可的词,捕捉幽默的特征识别。使用Bi-GRU结束gydF4y2Ba
XgydF4y2Ba生成一个隐藏的向量序列gydF4y2Ba
hgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
NgydF4y2Ba
。在每一步gydF4y2Ba
年代gydF4y2Ba,隐藏的向量gydF4y2Ba
hgydF4y2Ba
年代gydF4y2Ba
基于当前计算向量gydF4y2Ba
xgydF4y2Ba
年代gydF4y2Ba
和前面的向量gydF4y2Ba
hgydF4y2Ba
年代gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
。公式如下:gydF4y2Ba
(3)gydF4y2Ba
zgydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
σgydF4y2Ba
WgydF4y2Ba
zgydF4y2Ba
xgydF4y2Ba
年代gydF4y2Ba
+gydF4y2Ba
UgydF4y2Ba
zgydF4y2Ba
hgydF4y2Ba
年代gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
年代gydF4y2Ba
,gydF4y2Ba
rgydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
σgydF4y2Ba
WgydF4y2Ba
rgydF4y2Ba
xgydF4y2Ba
年代gydF4y2Ba
+gydF4y2Ba
UgydF4y2Ba
rgydF4y2Ba
hgydF4y2Ba
年代gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
rgydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
˜gydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
双曲正切gydF4y2Ba
WgydF4y2Ba
hgydF4y2Ba
xgydF4y2Ba
年代gydF4y2Ba
+gydF4y2Ba
rgydF4y2Ba
年代gydF4y2Ba
⋄gydF4y2Ba
UgydF4y2Ba
hgydF4y2Ba
hgydF4y2Ba
年代gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
hgydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
zgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
年代gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
zgydF4y2Ba
年代gydF4y2Ba
⋄gydF4y2Ba
hgydF4y2Ba
˜gydF4y2Ba
年代gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
σgydF4y2Ba是乙状结肠函数,gydF4y2Ba
zgydF4y2Ba
年代gydF4y2Ba
重置门,gydF4y2Ba
rgydF4y2Ba
年代gydF4y2Ba
是更新门,gydF4y2Ba
xgydF4y2Ba
年代gydF4y2Ba
代表输入,gydF4y2Ba
hgydF4y2Ba
˜gydF4y2Ba
年代gydF4y2Ba
候选人隐藏状态和吗gydF4y2Ba
hgydF4y2Ba
年代gydF4y2Ba
是隐藏的状态在时间吗gydF4y2Ba
年代gydF4y2Ba,⋄代表gydF4y2Ba
rgydF4y2Baelementwise乘法操作。gydF4y2Ba
Bi-GRU包含两个隐状态在每一个时间步长史:一个是格勒乌gydF4y2Ba
hgydF4y2Ba
⟶gydF4y2Ba
年代gydF4y2Ba
,另一个是向后格勒乌gydF4y2Ba
hgydF4y2Ba
←gydF4y2Ba
年代gydF4y2Ba
。最后,上述两部分连接:gydF4y2Ba
hgydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
hgydF4y2Ba
⟶gydF4y2Ba
年代gydF4y2Ba
;gydF4y2Ba
hgydF4y2Ba
←gydF4y2Ba
年代gydF4y2Ba
。gydF4y2Ba
2.2.4。歧义关注Bi-GRUgydF4y2Ba
的标准Bi-GRU不能注意歧义幽默识别,即使我们在嵌入层添加模棱两可的信息。为了解决这个问题,我们利用注意机制,抓住句子的主要部分,以应对一个给定的模棱两可的词。gydF4y2Ba
对于每一个时间步,Bi-GRU产生一个隐藏的向量gydF4y2Ba
hgydF4y2Ba
我gydF4y2Ba
。此外,模棱两可的词,表示gydF4y2Ba
xgydF4y2Ba
一个gydF4y2Ba
和隐藏的向量gydF4y2Ba
hgydF4y2Ba
我gydF4y2Ba
连接,gydF4y2Ba
HgydF4y2Ba
′gydF4y2Ba
=gydF4y2Ba
hgydF4y2Ba
1gydF4y2Ba
′gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
2gydF4y2Ba
′gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
NgydF4y2Ba
′gydF4y2Ba
,gydF4y2Ba
HgydF4y2Ba
′gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
2gydF4y2Ba
dgydF4y2Ba
×gydF4y2Ba
NgydF4y2Ba
。gydF4y2Ba
HgydF4y2Ba
′gydF4y2Ba
是隐藏的矩阵向量,在哪里gydF4y2Ba
dgydF4y2Ba神经元和的数量吗gydF4y2Ba
NgydF4y2Ba句子的长度。然后,我们使用注意机制产生注意力权向量gydF4y2Ba
αgydF4y2Ba隐藏和加权向量gydF4y2Ba
rgydF4y2Ba
一个gydF4y2Ba。公式如下:gydF4y2Ba
(4)gydF4y2Ba
米gydF4y2Ba
=gydF4y2Ba
双曲正切gydF4y2Ba
WgydF4y2Ba
一个gydF4y2Ba
HgydF4y2Ba
′gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
,gydF4y2Ba
αgydF4y2Ba
=gydF4y2Ba
经验值gydF4y2Ba
WgydF4y2Ba
αgydF4y2Ba
米gydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
ngydF4y2Ba
经验值gydF4y2Ba
WgydF4y2Ba
αgydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
rgydF4y2Ba
一个gydF4y2Ba
=gydF4y2Ba
HgydF4y2Ba
′gydF4y2Ba
αgydF4y2Ba
TgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
米gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
2gydF4y2Ba
dgydF4y2Ba
×gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
αgydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
rgydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
NgydF4y2Ba
。gydF4y2Ba
WgydF4y2Ba
一个gydF4y2Ba
和gydF4y2Ba
WgydF4y2Ba
αgydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
2gydF4y2Ba
dgydF4y2Ba
是参数。gydF4y2Ba
αgydF4y2Ba
是一个向量的歧义关注重量和gydF4y2Ba
rgydF4y2Ba
一个gydF4y2Ba是一个给定的权重表示句子特别模棱两可的词。gydF4y2Ba
在这一点上,我们得到了模糊表示gydF4y2Ba
rgydF4y2Ba
一个gydF4y2Ba的歧义理解网络。gydF4y2Ba
2.3。封闭的注意机制gydF4y2Ba
学习语音学和歧义理解网络后,我们把两部分综合表示。直观地说,语音结构和模糊贡献不同的幽默。因此,封闭的注意力是杠杆模型两部分所提供的线索的信心。我们计算注意门的价值如下:gydF4y2Ba
(5)gydF4y2Ba
ggydF4y2Ba
=gydF4y2Ba
σgydF4y2Ba
wgydF4y2Ba
rgydF4y2Ba
pgydF4y2Ba
;gydF4y2Ba
rgydF4y2Ba
一个gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
σgydF4y2Ba
是乙状结肠函数,gydF4y2Ba
wgydF4y2Ba
是权重矩阵,gydF4y2Ba
bgydF4y2Ba是偏见。gydF4y2Ba
为了控制语音之间的信息和模糊信息,我们使用注意门的价值gydF4y2Ba
ggydF4y2Ba
和gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
ggydF4y2Ba
组合权重。最后表示一个句子如下:gydF4y2Ba
(6)gydF4y2Ba
rgydF4y2Ba
pgydF4y2Ba
一个gydF4y2Ba
=gydF4y2Ba
ggydF4y2Ba
⊙gydF4y2Ba
rgydF4y2Ba
pgydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
ggydF4y2Ba
⊙gydF4y2Ba
rgydF4y2Ba
一个gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
rgydF4y2Ba
巴勒斯坦权力机构gydF4y2Ba综合表现,gydF4y2Ba
rgydF4y2Ba
pgydF4y2Ba是语音表示,gydF4y2Ba
rgydF4y2Ba
一个gydF4y2Ba模糊语义表示,gydF4y2Ba
ggydF4y2Ba
组合权重,⊙elementwise乘法。gydF4y2Ba
幽默的识别可以正式到文本分类。gydF4y2Ba
rgydF4y2Ba
巴勒斯坦权力机构gydF4y2Ba是文本的向量表示,它可以用作输入得到最终的分类结果:gydF4y2Ba
(7)gydF4y2Ba
pgydF4y2Ba
=gydF4y2Ba
WgydF4y2Ba
pgydF4y2Ba
rgydF4y2Ba
pgydF4y2Ba
一个gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
pgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
pgydF4y2Ba幽默文本和预测的概率的吗gydF4y2Ba
WgydF4y2Ba
pgydF4y2Ba
和gydF4y2Ba
bgydF4y2Ba
pgydF4y2Ba
是偏见。gydF4y2Ba
2.4。模型训练gydF4y2Ba
模型可以被反向传播训练在一个端到端的方式,我们使用crossentropy损失作为损失函数。让gydF4y2Ba
ygydF4y2Ba是真正的分布和gydF4y2Ba
ygydF4y2Ba
^gydF4y2Ba
文本数据集的预测分布。培训的目标是最小化之间的损失函数gydF4y2Ba
ygydF4y2Ba和gydF4y2Ba
ygydF4y2Ba
^gydF4y2Ba
对所有样本。我们可以形式化过程如下:gydF4y2Ba
(8)gydF4y2Ba
损失gydF4y2Ba
=gydF4y2Ba
−gydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
∑gydF4y2Ba
jgydF4y2Ba
ygydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
日志gydF4y2Ba
ygydF4y2Ba
^gydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
+gydF4y2Ba
λgydF4y2Ba
θgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
我gydF4y2Ba是句子的指数,gydF4y2Ba
jgydF4y2Ba是指数类,gydF4y2Ba
λgydF4y2Ba
是gydF4y2Ba
lgydF4y2Ba
2gydF4y2Ba
正则化项,gydF4y2Ba
θgydF4y2Ba
参数集。gydF4y2Ba
3所示。实验gydF4y2Ba
在本节中,我们首先介绍数据集和评价指标。然后,我们比较我们的模型的性能与几个幽默的强劲基线识别。最后,我们给出一个详细的分析方法,包括烧蚀实验,可视化的结果和误差分析。gydF4y2Ba
3.1。数据集和评价指标gydF4y2Ba
我们广泛应用Pun-of-the-day数据集进行实验,oneliners 16000数据集。表gydF4y2Ba
1gydF4y2Ba显示详细的统计分布。gydF4y2Ba
统计:双关语和利诺同时。gydF4y2Ba
| 数据集gydF4y2Ba |
积极的gydF4y2Ba |
负gydF4y2Ba |
| 双关语gydF4y2Ba |
2423年gydF4y2Ba |
2403年gydF4y2Ba |
| 利诺同时gydF4y2Ba |
16000年gydF4y2Ba |
16000年gydF4y2Ba |
3.1.1。Pun-of-the-Day(双关语)gydF4y2Ba
这个数据集是由杨et al。gydF4y2Ba
3gydF4y2Ba]。双关语的幽默文本的这个数据集的网站,和负样本来自美联社消息,纽约时报,Yahoo !回答,谚语。数据集包含一个相同数量的正负样本。句子的平均长度是13.5的话。gydF4y2Ba
3.1.2。oneliners - 16000(利诺同时)gydF4y2Ba
这个数据集是由(gydF4y2Ba
7gydF4y2Ba]。Oneliners在这个数据集来自一些著名幽默网站,和负样本来自路透社新闻的标题。这也是一个平衡的数据集。句子的平均长度是12.6的话。gydF4y2Ba
3.1.3。评价指标gydF4y2Ba
我们使用的准确性(Acc)、精密(gydF4y2Ba
PgydF4y2Ba),回忆(gydF4y2Ba
RgydF4y2Ba),F-measure (F1)在我们的实验中测量表现幽默的认可。gydF4y2Ba
3.1.4。培训细节gydF4y2Ba
我们提出的模型应用于幽默的识别任务。在我们的实验中,歧义理解网络,初始化所有词向量手套上火车6 b标记和400 k 2014年维基百科词汇,和尺寸是300。单位的大小Bi-GRU 150和辍学gydF4y2Ba
dpgydF4y2Ba在{0.25,0.35,0.5}范围。学习优化器gydF4y2Ba
人事处gydF4y2Ba在{RMSprop Adadelta,亚当}范围。学习速率是0.0001。我们使用学习速率衰减和早期训练过程中停止。语音理解网络,我们首先将标记化的用语音输入句子向量通过随机初始化。过滤器的范围大小是{[2、3、4],[3、4、5]}。对于每个过滤器的大小,128过滤器被应用到模型中。顶部gydF4y2Ba
TgydF4y2Ba在{1,3,5}候选人模棱两可的词。gydF4y2Ba
我们用5倍crossvalidation与网格搜索方法选择最优参数。以细节为每个参数,下面crossvalidation操作执行。(1)原始数据集随机分为五个同样大小的子集。(2)五个子集,四个子集用于训练模型和剩余子集是用作测试验证数据模型。(3)重复步骤(2)五次,五子集作为验证数据一次。(4)五个折叠的结果平均产生的结果。最后,最高的参数对结果的crossvalidation过程设置为最优参数。在我们的实验中,dp是0.35,op是亚当,过滤器尺寸(2、3、4)gydF4y2Ba
TgydF4y2Ba是3。gydF4y2Ba
3.2。与现有的方法比较gydF4y2Ba
我们比较模型与多个基线:gydF4y2Ba
3.2.1之上。支持向量机(SVM)gydF4y2Ba
这种方法使用本文中提到的所有特性(gydF4y2Ba
3gydF4y2Ba]。gydF4y2Ba
3.2.2。HCFWord2vegydF4y2Ba
杨等人提出的方法。gydF4y2Ba
3gydF4y2Ba]。gydF4y2Ba
3.2.3。美国有线电视新闻网gydF4y2Ba
提出的这种方法是陈和李gydF4y2Ba
15gydF4y2Ba]。gydF4y2Ba
3.2.4。CNN +环+ FgydF4y2Ba
该方法提出了陈和秀(gydF4y2Ba
16gydF4y2Ba]。gydF4y2Ba
3.2.5。TMgydF4y2Ba
该方法提出了赵et al。gydF4y2Ba
17gydF4y2Ba]。gydF4y2Ba
3.2.6。语法gydF4y2Ba
刘(gydF4y2Ba
12gydF4y2Ba)提出提高幽默rrecognition利用句法结构特性。gydF4y2Ba
3.2.7。Bi-LSTM +有线电视新闻网gydF4y2Ba
这个方法是一个完整的重新实现该方法虽然和冯(gydF4y2Ba
14gydF4y2Ba]。gydF4y2Ba
3.2.8。Bi-GRUgydF4y2Ba
我们采用字嵌入和学习通过Bi-GRU潜在语义表征。gydF4y2Ba
3.2.9。Bi-GRU + FgydF4y2Ba
除了使用语义表征由Bi-GRU自动学习,上面提到的人工特征也纳入网络。gydF4y2Ba
3.2.10。Bi-GRU +丙氨酸gydF4y2Ba
我们实现深度学习Bi-GRU架构关注识别幽默文本。gydF4y2Ba
3.2.11。PACGAgydF4y2Ba
我们把语音结构和模糊信息和使用的机制调整的影响两部分。gydF4y2Ba
比较的结果列在表中gydF4y2Ba
2gydF4y2Ba和gydF4y2Ba
3gydF4y2Ba。从结果中,我们观察到gydF4y2Ba
传统的机器学习方法执行不能令人满意地。两个数据集的结果表明,他们的表现低于神经网络在许多评价指标。此外,同样的人工特性集,传统的机器学习方法表现出不同的在两个数据集的表现。双关语,HCFWord2vec更好,但对于利诺同时,SVM更好。这表明基于机器学习方法依赖于功能的建设,和他们的泛化能力是不够的。gydF4y2Ba
TM雇佣semisupervised标签传播过程。它使用张量嵌入幽默小样本识别的方法,但只有约70%的F1。gydF4y2Ba
CNN的表现比两个数据集上的Bi-GRU (85.7%, 88.15%, 86.09%, 86.94%)。CNN与广泛的过滤器尺寸,数量和高速公路网络实现高性能。其原因可能是对幽默的深度网络检测。gydF4y2Ba
Bi-LSTM + CNN, Bi-LSTM和CNN的结合,表现比Bi-GRU数据集。通过叠加一层神经网络到另一个上,深入学习模型可以自动学习高级特性。然而,混合LSTM和CNN不能更好的提取潜在语义信息识别幽默。gydF4y2Ba
Bi-GRU + F添加人工Bi-GRU幽默的特征模型。我们预期比Bi-GRU更高的性能,但结果而不是低得多的大多数评估指标。手动的输入构造特征可能与语义冲突由Bi-GRU自动学习功能。因此,添加太多的人工功能进入深度的学习方法不能有效提高幽默在一定程度上识别。gydF4y2Ba
Bi-GRU + Att使用注意机制,没有模棱两可的词的信息。很明显,它的实验性能没有很大的提高,在很大程度上是由于其无法密切关注功能密切相关的幽默。gydF4y2Ba
PACGA,我们建议的方法,实现了类似的F1的性能在两个数据集。对于双关语,PACGA改进普通Bi-GRU 2.12% F1,和利诺同时2.27%。即便是与强烈的基线相比CNN +环+ F,我们的模型的性能是优越的。我们建议的模型表现好于CNN与公路网络利诺同时双关语,取得了类似的结果(90.81与90.1%和90.28%相比,这一比例为90.3%)。这表明我们提出的语音信息,模糊信息,封闭的注意机制在幽默识别性能优越。gydF4y2Ba
与基线方法相比,我们的模型达到一个更高的准确性分数和F1分数为双关语,但较低的精度和召回。我们认为这是不同类型的附加信息导致这一现象。我们的模型可以学习幽默背后的潜在语义和语音信息,如语音结构和模糊的信息,和封闭的注意机制应用于调整它们之间的重量证明更多的相关特性由幽默理论,而其他方法通常只采用语义信息获取高精度相比PACGA和回忆。我们的模型达到类似的性能在两个数据集,这表明,我们的模型有更好的泛化能力。gydF4y2Ba
对数据集实验结果双关语。最好的结果是大胆。结果与上标gydF4y2Ba
∗gydF4y2Ba
从文献[进口gydF4y2Ba
3gydF4y2Ba,gydF4y2Ba
15gydF4y2Ba- - - - - -gydF4y2Ba
17gydF4y2Ba]。gydF4y2Ba
| 模型gydF4y2Ba |
Acc (%)gydF4y2Ba |
PgydF4y2Ba(%)gydF4y2Ba |
RgydF4y2Ba(%)gydF4y2Ba |
F1 (%)gydF4y2Ba |
| 支持向量机gydF4y2Ba
∗gydF4y2Ba
|
83.85gydF4y2Ba |
85.91gydF4y2Ba |
82.52gydF4y2Ba |
84.18gydF4y2Ba |
| HCFW2VgydF4y2Ba
∗gydF4y2Ba
|
85.4gydF4y2Ba |
83.4gydF4y2Ba |
88.8gydF4y2Ba |
85.9gydF4y2Ba |
| 语法gydF4y2Ba
∗gydF4y2Ba
|
- - - - - -gydF4y2Ba |
- - - - - -gydF4y2Ba |
- - - - - -gydF4y2Ba |
- - - - - -gydF4y2Ba |
| TMgydF4y2Ba
∗gydF4y2Ba
|
74.5gydF4y2Ba |
75.2gydF4y2Ba |
72.3gydF4y2Ba |
73.7gydF4y2Ba |
| 美国有线电视新闻网gydF4y2Ba
∗gydF4y2Ba
|
86.1gydF4y2Ba |
86.4gydF4y2Ba |
86.4gydF4y2Ba |
85.7gydF4y2Ba |
| CNN +环+ FgydF4y2Ba
∗gydF4y2Ba
|
89.4gydF4y2Ba |
86.6gydF4y2Ba |
94.0gydF4y2Ba |
90.1gydF4y2Ba |
| Bi-lstm +有线电视新闻网gydF4y2Ba |
85.38gydF4y2Ba |
81.42gydF4y2Ba |
91.97gydF4y2Ba |
86.37gydF4y2Ba |
| Bi-GRUgydF4y2Ba |
87.72gydF4y2Ba |
84.23gydF4y2Ba |
92.46gydF4y2Ba |
88.15gydF4y2Ba |
| Bi-GRU + FgydF4y2Ba |
87.14gydF4y2Ba |
89.87gydF4y2Ba |
83.34gydF4y2Ba |
86.48gydF4y2Ba |
| PACGAgydF4y2Ba |
88.69gydF4y2Ba |
88.94gydF4y2Ba |
92.76gydF4y2Ba |
90.81gydF4y2Ba |
利诺同时数据集上实验结果。最好的结果是大胆。结果与上标gydF4y2Ba
∗gydF4y2Ba
从文献[进口gydF4y2Ba
3gydF4y2Ba,gydF4y2Ba
12gydF4y2Ba,gydF4y2Ba
16gydF4y2Ba,gydF4y2Ba
17gydF4y2Ba]。gydF4y2Ba
| 模型gydF4y2Ba |
Acc (%)gydF4y2Ba |
PgydF4y2Ba(%)gydF4y2Ba |
RgydF4y2Ba(%)gydF4y2Ba |
F1 (%)gydF4y2Ba |
| 支持向量机gydF4y2Ba
∗gydF4y2Ba
|
83.12gydF4y2Ba |
88.04gydF4y2Ba |
80.26gydF4y2Ba |
82.24gydF4y2Ba |
| HCFW2VgydF4y2Ba
∗gydF4y2Ba
|
79.7gydF4y2Ba |
77.6gydF4y2Ba |
83.6gydF4y2Ba |
80.5gydF4y2Ba |
| 语法gydF4y2Ba
∗gydF4y2Ba
|
85.0gydF4y2Ba |
82.7gydF4y2Ba |
89.1gydF4y2Ba |
85.8gydF4y2Ba |
| TMgydF4y2Ba
∗gydF4y2Ba
|
70.5gydF4y2Ba |
72.1gydF4y2Ba |
66.7gydF4y2Ba |
69.3gydF4y2Ba |
| 美国有线电视新闻网gydF4y2Ba
∗gydF4y2Ba
|
84.24gydF4y2Ba |
85.73gydF4y2Ba |
86.46gydF4y2Ba |
86.09gydF4y2Ba |
| CNN +环+ FgydF4y2Ba
∗gydF4y2Ba
|
89.7gydF4y2Ba |
87.2gydF4y2Ba |
93.6gydF4y2Ba |
90.3gydF4y2Ba |
| Bi-lstm +有线电视新闻网gydF4y2Ba |
85.97gydF4y2Ba |
86.30gydF4y2Ba |
85.21gydF4y2Ba |
85.75gydF4y2Ba |
| Bi-GRUgydF4y2Ba |
85.92gydF4y2Ba |
87.81gydF4y2Ba |
86.08gydF4y2Ba |
86.94gydF4y2Ba |
| Bi-GRU + FgydF4y2Ba |
84.78gydF4y2Ba |
84.11gydF4y2Ba |
84.69gydF4y2Ba |
84.40gydF4y2Ba |
| PACGAgydF4y2Ba |
89.47gydF4y2Ba |
88.78gydF4y2Ba |
91.84gydF4y2Ba |
90.28gydF4y2Ba |
3.3。详细的分析gydF4y2Ba
我们进行额外的实验详细分析模型。gydF4y2Ba
3.4。PACGA的不同部分的分析gydF4y2Ba
为了显示我们的模型的不同部分的有效性,验证我们的模型分割成两部分。首先,我们只使用Bi-GRU没有语音理解和歧义的理解。然后,我们实现PCN考虑语音嵌入作为输入,和CNN模型被用来识别幽默。除了语音信息,我们也试图区分幽默只有通过使用语义信息。接下来,我们设计一个ACN模型,利用嵌入和模棱两可的词信息学习潜在的幽默特性基于Bi-GRU和注意力机制。最后,我们介绍我们PACGA提出的模型。表gydF4y2Ba
4gydF4y2Ba和gydF4y2Ba
5gydF4y2Ba显示所有的模型的性能在两个数据集:gydF4y2Ba
表gydF4y2Ba
4gydF4y2Ba和gydF4y2Ba
5gydF4y2Ba表明Bi-GRU达到符合我们的直觉的性能下降。没有语音信息结构和模棱两可的词,在幽默Bi-GRU识别性能不理想。gydF4y2Ba
PCN只使用语音信息,以及基督教民主党其性能明显低于两个数据集上的其他模型。显然,只使用一个模型来捕获检测幽默语音特性无法给出一个竞争性能。语义信息中发挥着重要作用的识别幽默。gydF4y2Ba
与Bi-GRU相比,ACN的性能略有提高。这表明模糊词信息和注意力机制有利于Bi-GRU关注幽默的潜在语义特征。gydF4y2Ba
在所有的方法中,这个任务PACGA达到最佳性能。原因是我们的模型考虑了语音信息,文字信息与模棱两可的词,和封闭的注意机制。gydF4y2Ba
双关语PACGA模型的分析。gydF4y2Ba
| 模型gydF4y2Ba |
Acc (%)gydF4y2Ba |
PgydF4y2Ba(%)gydF4y2Ba |
RgydF4y2Ba(%)gydF4y2Ba |
F1 (%)gydF4y2Ba |
| Bi-GRUgydF4y2Ba |
87.72gydF4y2Ba |
84.23gydF4y2Ba |
92.46gydF4y2Ba |
88.15gydF4y2Ba |
| PCNgydF4y2Ba |
84.43gydF4y2Ba |
83.92gydF4y2Ba |
88.14gydF4y2Ba |
85.98gydF4y2Ba |
| ACNgydF4y2Ba |
87.38gydF4y2Ba |
86.69gydF4y2Ba |
91.02gydF4y2Ba |
88.80gydF4y2Ba |
| PACGAgydF4y2Ba |
8gydF4y2Ba
8.69gydF4y2Ba |
88.94gydF4y2Ba |
92.76gydF4y2Ba |
90.81gydF4y2Ba |
利诺同时PACGA模型的分析。gydF4y2Ba
| 模型gydF4y2Ba |
Acc (%)gydF4y2Ba |
PgydF4y2Ba(%)gydF4y2Ba |
RgydF4y2Ba(%)gydF4y2Ba |
F1 (%)gydF4y2Ba |
| Bi-GRUgydF4y2Ba |
85.92gydF4y2Ba |
87.81gydF4y2Ba |
86.08gydF4y2Ba |
86.94gydF4y2Ba |
| PCNgydF4y2Ba |
83.97gydF4y2Ba |
85.12gydF4y2Ba |
83.87gydF4y2Ba |
84.49gydF4y2Ba |
| ACNgydF4y2Ba |
86.64gydF4y2Ba |
87.39gydF4y2Ba |
87.47gydF4y2Ba |
87.42gydF4y2Ba |
| PACGAgydF4y2Ba |
89.47gydF4y2Ba |
88.78gydF4y2Ba |
91.84gydF4y2Ba |
90.28gydF4y2Ba |
3.5。不同的组合策略的影响gydF4y2Ba
幽默的组合策略可能会影响性能识别和测量的重要性,我们的两个主要部分。因此,我们设计了一系列的实验来探索不同的组合策略的影响。我们采用三种策略。(1)PAC-ST1:它直接结合语音表示和模糊表示。(2)PAC-ST2:它假设两部分的信息是相同的重要性,和参数gydF4y2Ba
ggydF4y2Ba
是一个常数,值是0.5。(3)PAC-ST3:两部分的信息有不同的重要性。封闭的注意力用于模型两部分所提供的线索的信心。gydF4y2Ba
我们比较单一模型和组合模型和不同的策略,并给出结果表gydF4y2Ba
6gydF4y2Ba。从结果,我们发现所有的模型比单一模型相结合,既表明语音结构和语义信息导致幽默的认可。之间的组合模型,PAC-ST1的性能和PAC-ST2是大致相同的,和PAC-ST2略有改善。此外,PAC-ST3打败他们两人以很大的优势在F1(1.48%或1.56%)数据集。这表明我们提出的关注战略组装信息可以更好地捕捉幽默背后的固有特性。gydF4y2Ba
组合策略的性能。gydF4y2Ba
| 策略gydF4y2Ba |
模型gydF4y2Ba |
双关语F1 (%)gydF4y2Ba |
利诺同时F1 (%)gydF4y2Ba |
| 单gydF4y2Ba |
PCNgydF4y2Ba |
85.98gydF4y2Ba |
84.49gydF4y2Ba |
| ACNgydF4y2Ba |
88.80gydF4y2Ba |
87.42gydF4y2Ba |
|
| 结合gydF4y2Ba |
PAC-ST1gydF4y2Ba |
89.21gydF4y2Ba |
88.63gydF4y2Ba |
| PAC-ST2gydF4y2Ba |
89.33gydF4y2Ba |
88.72gydF4y2Ba |
| PAC-ST3gydF4y2Ba |
90.81gydF4y2Ba |
90.28gydF4y2Ba |
3.6。可视化的关注gydF4y2Ba
为了验证模型的有效性,PACGA,我们想象的关注层句子标签的正确预测。gydF4y2Ba
从图gydF4y2Ba
2gydF4y2Ba常用单词,我们可以看到,如“是”和“,”由我们的模型很少给予关注,这证明常用单词的直觉使识别幽默的小贡献。与此同时,一些幽默的具体单词是至关重要的。在图gydF4y2Ba
2(一个)gydF4y2Ba,“战争”,“对了,”“决定”,和“左”关注权重更高,这意味着我们的模型注重这些话,我们期望。这表明模棱两可的单词可以提供有用的信息的上下文调整注意力,它幽默识别任务中起着重要作用。在图gydF4y2Ba
2 (b)gydF4y2Ba模棱两可,显然,不是幽默的主要原因,我们注重语音结构,这意味着我们的模型可以学习语音结构和歧义幽默的重要性的认可。因此,通过PACGA,我们可以语音模型结构和模棱两可,分别由封闭的注意机制,然后连接他们的表现幽默有助于识别。gydF4y2Ba
可视化的关注。一个深点的颜色意味着更多的重要性。饼图显示了两个部分的权重基于封闭的注意机制。gydF4y2Ba
3.7。误差分析gydF4y2Ba
本节我们也进行初步误差分析。我们的目标是找到一些问题通过研究一些更进一步的测试用例,提高在未来的幽默识别模型。gydF4y2Ba
实验3。谁发明了门环没有贝尔奖。gydF4y2Ba
经验4。整理桌子上的标志是一个凌乱的办公桌的抽屉里。gydF4y2Ba
实验3,真正的标签是“幽默”,但我们的模型预测其标签为“nonhumor。“在这个例子中,妙语”没有贝尔奖,”听起来像“诺贝尔奖。“很明显,这种类型的幽默是由相似的发音,但“诺贝尔奖”并没有出现在句子,和我们的模型不能捕获任何语音信息。因此,一些需要背景知识来预测正确的标签。实验4,“整洁”和“混乱”是对立的,而这种冲突使一个句子幽默。幽默有时依赖于两个或两个以上的不一致,不合适,或者不协调的部分情况。因此,我们的模型需要能够同时识别不一致。gydF4y2Ba