文摘

每天数以百万计的模因创建和分享在社交媒体平台。模因是一个伟大的工具传播幽默。然而,有些人用它来目标个人或群体产生攻击性内容的礼貌和讽刺。缺乏适度的模因传播仇恨和可以导致抑郁心理条件。许多成功的研究与分析的语言,如情绪分析和图像分析等图像分类已被执行。然而,大多数这些研究要么只依靠这些组件之一。meme的分类所无法解决的一个问题只依靠其中任何一个方面,目前的标识工作,地址和乐团等方面分析数据。在这个研究中,我们提出一个解决问题的分类取决于多个模型。本文提出了两种不同的方法来解决这个问题的识别恨迷因。第一种方法使用基于图像字幕和文本的情感分析meme上写的。 The second approach is to combine features from different modalities. These approaches utilize a combination of glove, encoder-decoder, and OCR with Adamax optimizer deep learning algorithms. Facebook Challenge Hateful Meme Dataset is utilized which contains approximately 8500 meme images. Both the approaches are implemented on the live challenge competition by Facebook and predicted quite acceptable results. Both approaches are tested on the validation dataset, and results are found to be promising for both models.

1。介绍

在目前的时代,社交媒体是最重要的活动,直接或间接地影响人1]。尽管大众社交媒体是一个很好的平台,发展技能,达到专家,和表达人才,这个平台已经帮助很多人获得成功通过共享和升级他们的工作与互联网在全球范围内。共享模因在社交媒体正在迅速增加。模因传播幽默积极的一面。然而,技术优势和劣势。这些模因消极的一面可以伤害任何团体或个人。网络模因通常可以定义为静态图像与文本在人群中迅速蔓延,成为热潮。他们试图让我们笑的一个主题或一个人。他们经常带着深刻的意义。模因可以由任何人。 A section of audience may find them funny while another section may find them offensive. Memes are widely spread in social media sites such as Quora, Instagram, Twitter, Facebook, Snapchat, and WhatsApp. Memes are a great tool to spread humour; however, some people use it to target an individual or a group and to offend them in a polite and sarcastic way. Such memes spread hatred, and their excess may lead to depression. Nowadays, memes are made on countless topics like politics, movies, games, college life, and comic book characters.

在这项工作中,我们通过使用多个技术解决实际问题的深入学习。大多数研究是针对特定的领域,即,文字识别(2),图像分类(3),对象检测(4),和自然语言处理5]。随着问题直接影响了社会,我们在这里试图管理困难,因此试图提供最好的解决方案结合前面提到的技术,对社会是有益的。尽管大量的研究与情绪分析(6,7),与此相结合的图像(3小说]使问题本身。模因可以成为一个伟大的内容有两个笑。然而,内容搞笑的一个也可以是讨厌到另一个地方。有些人还故意创建的meme的目的是传播仇恨对一个社区或一个人。因为在社交媒体的内容是有限的,没有人(1),它也获得了政党的注意与模因的帮助促进他们的议程。一些政党利用模因传播谬误的信息人们的对立,这间接影响选举。然而,很多人都分享令人不快的模因,并鼓励他们的想法在社交网站上。这样的迷因试图取笑一个目标个人或团体。思想和言论应该禁止这样的迷因以免为时过晚。很多人读这样的模因,可以接受这个想法是可以接受的。来自世界各地的数据分析师试图解决的问题识别这样的模因。每天数以百万计的模因创建和分享在社交媒体平台。不可能手动删除可恨的模因。在这个研究中,我们提出一种算法来确定这样的模因,这样像Facebook这样的社交媒体平台或者Quora可以删除这样的模因。

我们的研究贡献可以概括如下:(我)提出了一种双向分析覆盖文本以及图像组件的模因。(2)数据清洗、预处理、转换和从数据集上执行的图像文本提取提高泛化。(3)专注于一个领域,而是整体的技术提出了多个域。(iv)特征提取的数据集进行考虑文本组件以及图像组件特性的模因。(v)提出了两种新颖的顺序和多通道的方法,我们能够成功地进行比较分析。在序贯方法中,图像形态转换为文本形态使用图像字幕,然后使用文本分类特征。在多通道方法中,图像特征和文本特征提取并结合对模因进行分类。(vi)结果表明,该方法明显优于地面真理。

这项工作是有组织的如下。部分2提供了一个广泛的文献调查的DL恨meme分类问题的技术。节3,我们提出了双向分类模型模因。部分4礼物,详细的比较分析,并讨论结果。最后,工作是总结部分5

图像字幕是正在进行的研究领域之一。很难提取上下文特定的图像,只是看着它。你等。8)提出了一个解决方案来处理这些问题使用DL的编码器和解码器架构。

安德森et al。9)提出了一个类似的方法来处理图像字幕问题使用连接的自顶向下和自底向上的注意机制。这使得用户计算突出的图像部分。他们利用更快R-CNN每个附加到其特征向量的图像部分帮助他们确定适当的权重按架构需求所需的特性。

光学字符识别是研究最多的领域之一,在人工智能和DL。许多研究人员执行各种模型架构,但没有人可以广义这完全取决于他们使用的数据集和帮助我们得到广泛理解我们如何解决类似的问题。在[10),作者试图解释的一个方法来处理这类问题的有效方法。他们有详细解释了如何采取pretrained Google_Incpetion_V3的权重。模型训练在一些随机的54 k +的字符图像帮助他们减少总体21.5%的错误率与现有的OCR的模型。

同样,作者在11)使用更严格的方法,而不是仅仅依靠pretrained模型。他们开发的定制CNN模型通过微调pretrained模型权重和额外的层LSTM款达到更好的结果。然而,为了培养这样的大型网络,有一个很强的GPU和VRam要求。作者试图和管理,为结果提供了著名UW3数据集出错率仅为0.11%。

后来在一些研究提出了“多通道的方法”,它是非常方便的而解决问题依赖于多个模块混合架构。在[12),作者使用了类似的方法来提供解决方案的情感识别在视频捕捉视觉信息解释图像特征提取的人脸检测和提取的音频流的特定运动并使之转化为类似的特征向量进一步解决问题相对。获得的结果比15%的序贯方法讨论了(13),作者转换音频流文本也视频流面对文本使用encoder-decoder模型,进一步把这个问题当做情绪分析(14]。

图像分类是最重要的研究领域之一,和大量的先进水平的研究已发表在过去几年与这个领域有关。一般来说,区域处理这些类型的研究是计算机视觉,图像处理,毫升。克里希纳et al。15)解释他们如何研究DCNN AlexNet架构与CNN对图像分类和用于这一目的。因此,从研究获得的结果非常有前途的作为测试精度MNIST和cifar - 100是76.24%左右。

一个新的和有趣的图像分类方法被称为纸(观察16]正如作者展示的实现传输DL和计算机视觉领域的学习。林等。16]讨论了pretrained模型的方法(Google_Inception_V3)为自定义数据集可用于分类和解释的过程变化的最后一层架构和匹配所需数量的类在输出层。

对象检测(17)是一个最受欢迎的字段的毁灭性的进步可以自2012年以来的研究成果。作者在18]CNN-YOLO的使用另一种解释。该算法是快速对CNN作为其155 FPS,及其地图(18)也可以达到78.6%,这两个从F-RCNN一直遥遥领先。

已经观察到在web文本数据的增长上升指数从过去的几十年。在当今世界,每个数据用户希望非常精确的结果。然而,从给定的文本检索相关信息一直是人工智能方面的挑战。因此,在文献[19),作者讨论了标记的方法,然后推理时间将较短的和准确的。大部分的研究工作提出具体有针对性的基于图像的方法或文本的方法。在目前的工作中,我们提出了一个双向恨迷因分类的解决问题的方法。

3所示。方法

具体目标预测的目的是否给定meme是可恨的,提出的ML模型利用信息meme的图像和文字写在给一个预测。这是一个二元分类问题。目前的工作探索了两种不同的方法来解决这个问题的识别讨厌meme。第一种方法使用基于图像字幕和文本的情感分析写在meme。第二种方法利用特征提取和不同形式的组合。为了解决这个问题,我们使用Facebook的挑战可恨的文化基因数据集(20.包含大约8500 meme图像)。这两种方法在同一测试验证集,和结果都很接受的模型。

3.1。数据预处理

我们使用Facebook可恨的文化基因数据集包含8500个图像具有独特的id和贴上0或1(0:不是有毒;1:有毒)。在数据集,我们发现所有不同大小的图像。因此,我们应用转换技术将所有给定的图像大小(224 224年 3)在224年用于高度和宽度和3指定RGB通道。此外,我们归一化图像和转换成矢量化形式。

将每个图像后,我们从每个图像提取文本。为此,我们使用了一个第三方OCR工具取出所需的文本从给定的图像。此外,通过我们的文本数据到任何具体的神经网络模型,我们需要一些单独的数据预处理,使其在一个合适的格式。在多通道方法中,我们使用FastText [21)这是一个内置库模型由Facebook开发者简化我们的任务,涵盖所有文本的预处理步骤中讨论的方法2和创建所需的特征向量,可以传递给我们最后的神经网络分类器。图像中图片的方法,我们使用手套嵌入算法嵌入文本(22),它是由斯坦福大学。它是一种无监督学习算法训练40万个单词。使用手套,我们获得特征向量是通过在最后NN-based情绪分析模型方法1中详细讨论。

3.2。模型架构
3.2.1之上。顺序排列

在这个模型中,接下来的基本过程是首先找到语义的meme图像使用成像字幕文本格式。这是通过一个encoder-decoder模型。编码器模型包括图像通过pretrained resnet - 152 (23,24)模型(ImageNet训练数据集),我们把最后一层(尺寸2048)作为输出向量。这个向量通过线性层(一样的输入维度resnet - 152输出层维度,和它的输出尺寸等于嵌入输入维度LSTM组件在解码器)(25,26]。在译码器,开始令牌以及图像矢量特性给出预测第一个单词。这个词概率最高的第一个词是使用以及图像特征来预测第二个词。这个过程继续,直到完成令牌不是由LSTM [27,28]。

之后,我们执行一些基本的图像处理技术的图像,然后使用超正方体API (29日,30.)由谷歌开发的写在图片中提取文本。这个提取OCR文字连接句子生成的图像标题模式21,31日]。本文使用手套嵌入,然后通过一个嵌入式NN-based情绪分析模型。这种神经网络模型由卷积层,马克斯池层,全球最大池层,完全连接层,和一个s形的层。如果乙状结肠函数值大于阈值(0.5),然后我们将meme是可恨的,否则我们将meme不可恨。图1详细描述了循序渐进的方法顺序的方法。

3.2.2。多通道的方法

在这个模型中,我们走近这个问题不同,而我们的图像转换成文本,然后解决它作为情绪分析问题。这里,我们首先进行一些预处理之后的图像向量我们通过它通过我们pretrained resnet - 152模型我们将最后一层作为输出向量特征表示。然而,输出特性向量resnet - 152是昏暗的2048。因此,一个线性层添加的输入维度将resnet一样- 152输出维度,及其输出维度是类似于我们的语言特征维度。至于我们的文本数据,而不是手动微调,我们直接使用FastText内置库中提取所需的特性通过添加额外的嵌入层嵌入保持固定的简单。从嵌入层后生成的输出将会通过一个线性层作为一种可训练的微调我们的特征向量来表示。

最后,这些特性收到我们的愿景以及我们的语言模型是连接和转换成另一个单一特征向量。后来这些提取的特征传递给一个完全连接层进行分类。图2描述了完整的模型架构多通道的方法。

4所示。结果与讨论

拟议的方法都是相同的验证集,测试,结果发现非常接受两种模式。详细的结果将在这一节中详细介绍。

4.1。多通道的方法

我们首先解决这个问题只有使用OCR meme文本作为输入。因此,我们获得的结果见表1。这样做是通过训练NN-based情绪分析模型在维基百科上有毒的评论数据集。Adamax优化器提供了最佳的0.55验证的准确性。这样做是通过训练NN-based情绪分析模型在维基百科上有毒的评论数据集。Adamax优化器提供了最佳的0.55验证的准确性。

1描述了一些最好的结果在每个类别一些严格的训练和hyperparameters的测试和优化。我们使用lr_scheduler [32)自动确定学习速率值根据时代的数量。使用调度程序的优点是同时达到全局最小值,步长减少。最初调度器能够采取大量的措施与高等教育率值;它使达到最小值,一步降低。由于PyTorch [32),我们可以使用这个特性来找到合适的学习速率对每次迭代。

我们也使用“早期停止”作为我们的一个hyperparameters这样损失试图超过在训练时,它停止模型进一步提供最优全局最小值点,避免任何类型的高方差模型的问题导致过度拟合。图3说明了AUC曲线得分56.83%,和图4描绘了混淆矩阵相同的分数。

4.2。顺序排列

在前面的方法中,训练后获得的结果数据集和验证在Facebook上讨厌Meme本节所示。我们已经优化hyperparameters从这种方法中获得最好的结果。我们使用学习速率调度程序(功能keras库)来动态调整学习速率。换句话说,作为最优权重距离最小值,将学习速率高,接近最优权重,然后学习速率很低。我们也使用早期停止为了避免任何类型的高方差问题导致过度拟合的模型。表2展示了各种优化器的精度验证用于训练和验证。

我们使用辍学正规化的20%,以避免过度拟合。辍学正规化确保模型权重不受噪音的影响数据,同时培训。

5显示验证集的ROC曲线获得各种各样的优化,而使用双向方法结合文本和图像字幕文本。

从图6,很明显,连续模型(使用Adamax优化器)进行验证组比多通道(使用亚当优化器)。的一个可能的原因是,多通道的方法模型将图像输入特性是它也含有大量的噪声。相比之下,模型使用图像的输入特性形成基于序贯概率最高的句子,过滤掉噪音。然而,顺序模型也有限制,其精度几乎是70%,这意味着它可能给错误的输出句子时,会导致错误的预测这个句子与OCR文字连接,通过情绪分析模型。

最后,可恨的meme分类器的精度的比较分析中描述表3。最好的模型获得的顺序模型验证精度0.64,从多通道的方法获得最好的模型有一个0.59的概率从表12。人类在这个预测精度问题是大约80%,Facebook提供的可恶的模因挑战和数据集20.]。在这个问题上我们取得了一个像样的准确性与人类相比精度。

5。结论和未来的工作

模因在社交媒体上是最受欢迎的一种方式发送虚假和可恶的信息质量。这项工作将可恶的模因针对一个特定的观众,对有些问题的修改意见。数据集提供的模因是Facebook公开挑战。在目前的工作中,我们特别提出一个顺序的方法和多通道从图像中提取信息标题和文本的文化基因。因此,进行双向特征提取,和深度学习模型包括OCR、手套、和encoder-decoder架构应用除了工具如超正方体API进行训练。此外,比较了两种方法在基准,以及从其他来源收集的数据集。对于这个工作,结果发现非常类似人类的准确性。在未来,我们计划将这项工作扩展到其他多通道特征提取方法,以提高训练在给定的数据集。进一步说,社交媒体快速变化的趋势和模式,所以需要实时捕获模因对一个特定的领域,找到有影响力的实体。这项工作可以扩展到捕获实时数据和火车等深度学习模式识别可恨的模因。

缩写

人工智能: 人工智能
有线电视新闻网: 卷积神经网络
简历: 计算机视觉
DCNN: 深卷积神经网络
DL: 深度学习
F-RCNN: 快R-CNN
款: 深层神经网络
GPU: 图形处理单元
ML: 机器学习
NLP: 自然语言处理
神经网络: 神经网络
LSTM: 长时间的短期记忆
光学字符识别: 光学字符识别
R-CNN: 提出卷积神经网络
RGB: 红绿蓝
YOLO:意思 只看一次。

数据可用性

作者参与了可恶的Meme分类由Facebook的挑战。在注册这个竞争,他们不同意外包数据集按照限制内容可能对公众和只能用于研究目的为给定的问题提供解决方案。

的利益冲突

作者宣称他们没有利益冲突有关的出版。

确认

作者要感谢班尼特大学提供平台和基础设施进行这项研究。