文摘

假新闻检测(曾经)包括预测一个特定的新闻文章的可能性(新闻报道、编辑、公开等)是故意欺骗。阿拉伯语曾经在过去的十年中,开始得到越来越多的重视,许多检测方法演示了一些检测假新闻在多个数据集的能力。然而,大多数现有方法并不考虑最近的自然语言处理技术的进步,即。,使用神经网络和变压器。本文语言比起神经网络和综合比较研究的基于变压器模型用于阿拉伯语曾经。比起我们检查使用神经网络和的基于变压器语言模型阿拉伯语曾经和展示他们的性能比较。我们也进行广泛的分析可能原因的差异不同方法获得的性能结果。比起结果证明的基于变压器模型优于神经网络解决方案,导致增加F1得分从0.83(最好的神经网络模型,格勒乌)到0.95(比起最好的基于变压器模型,QARiB),它将精度提高16%相比,神经网络的最佳解决方案。最后,我们强调的主要差距在阿拉伯语曾经研究并提出未来的研究方向。

1。介绍

虚假新闻和谣言被定义为“索赔或验证的信息是不正确的”(1]。虚假信息发布在社交媒体平台是一个重要的问题,因为它可以迅速传播,达到数万人极其迅速。因此,人工的方法检测假新闻并不可行的时间和成本。因此,限制可疑内容的传播和警报的可能性的公共新闻阅读并不是真实的,可以自动识别假新闻的方法是必需的。此外,由于持续的COVID-19大流行,误导或假COVID-19信息正在成为一个严重的问题,会影响人们的健康。

假新闻检测(曾经)被定义为“的可能性的预测一个特定的新闻文章(新闻报道、编辑、公开等)故意欺骗”(2]。其他术语指任务相似或曾经包括[密切相关2谣言检测,谣言的真实性分类、误导性信息检测、姿态分类的新闻文章3],可信度评估,检查“新闻真实性的评估”(4),并要求验证。比较这些术语可以在文献中找到的2]。最近,曾经工作在社区NLP研究吸引了相当大的兴趣。近年来,使用机器学习,特别是基于深度学习方法,找出这种现象吸引了科研界的关注。第一个谣言评价共享任务发生在rumoureval - 2017作为semeval的一部分- 2017会议(5]。自那时以来,吸引了大量关注。两个最近的挑战这个任务,解决rumoureval - 2019 (6[]和Constraint@AAAI2021-COVID19曾经挑战1]。

本研究的目标是实证分析当前进展是否深度学习模型和大规模的阿拉伯语语言模型可以有效地应用于阿拉伯语曾经的任务。我们考虑的问题识别假新闻作为一个分类问题;即。,our goal is to classify a given tweet as fake or real. In this study, the FND task can be defined as follows: “Given a tweet from Twitter on COVID-19, we would like to predict if this piece of news is fake news or real news.” This study will investigate the use of deep learning and transformer-based language models for the task of Arabic FND using four available datasets ArCOV19-Rumors [7],COVID-19-Fakes [8],AraNews [9),和阿拉伯语新闻立场语料库(ANS) [10]。我们进行比较研究,探讨广受欢迎的深度学习比起架构和的基于变压器模型曾经的任务。我们希望为研究团体提供的见解来帮助更好地理解这些模型的行为当应用于COVID-19阿拉伯语新闻。

本文的其余部分组织如下。部分2曾经工作的礼物。节3,我们描述我们的方法和现在的实验细节表现在这项研究。并给出了实验结果的分析和讨论4。结论和未来工作的建议提供了部分5

一些研究认为谣言检测是一个谣言决议任务与一个管道,包括多个组件,如谣言检测、谣言跟踪和姿态分类,有助于确定谣言的真实性的分类(6]。曾经的方法可能取决于他们目标的数据(短社交媒体数据,如微博和帖子,或长网站文章),和ML的方法。有些研究只考虑主要的推特或文章;其他研究考虑其他方面的新闻,如讨论、回答,和评论(11]。

任务7 semeval - 2019为谣言的评估。许多曾经系统提交rumoureval - 2019 (6)的挑战。挑战获得的数据来自Twitter和Reddit,涉及两个子任务和挑战,A和b的子任务,给定一个tweet和它对话线程,推特的任务是分类为支持、否认、查询、或评论微博提到的谣言。
子任务B是关心的准确性预测,即。,whether the rumor in the tweet is classified as true, false, or unverified. The macro F1 score was used to evaluate the models, and the top three scores were 0.5765, 0.2856, and 0.2620. There was a trend toward using neural network approaches in this challenge. The best performing model was an ensemble of classifiers (SVM, RF, LR) including a NN with three connected layers, where individual postrepresentations were created using an Long Short Term Memory (LSTM) with attention At RumourEval-2019, there was also a trend toward using neural network-based approaches and pretrained models, such as BERT [6]。

在Constraint@AAAI2021 COVID19的目标曾经挑战[1)是创建一个模型,将有助于确定是否对COVID-19是真实的还是假的新闻消息。10700年挑战组织者创建了一个带注释的数据集真的和假的社会媒体对COVID-19英文文章和新闻文章。收集到的数据集分为训练集(60%),验证组(20%),和测试组(20%)。在Constraint@AAAI2021, COVID19曾经挑战,TUDublin团队构建一个整体组成的双向LSTM,支持向量机,逻辑回归,朴素贝叶斯和逻辑回归和朴素贝叶斯的组合。该模型(12)实现了F1得分为0.94分,5%以内最好的结果。另一个团队参与Constraint@AAAI2021-COVID19曾经英语挑战一个transformer模型用于曾经(13]。在报道这一任务,作者(9比起]描述使用的基于变压器pretrained模型与附加层构造叠加系综分类器。曾经的pretrained模型调整的任务。挑战测试数据集,模型精度,实现精确,回忆,和F1分数为0.979906542,0.979913119,0.979906542,和0.979907901,分别。

曾经方法,结合潜在狄利克雷分配(LDA)中表示局部分布与语境化XLNet参加Constraint@AAAI2021-COVID19曾经挑战(英文)14]。比较该方法与现有的基线方法表明,与XLNet主题分布,实现了F1得分是0.967,优于其他方法。

巴里斯和Boukhers11)提供了一个曾经的方法,使用双向编码器表示从变形金刚(BERT)语言模型,认为内容信息,先验知识,检测假新闻来源的可信度。作者进行了大量的实验Constraint@AAAI2021-COVID19曾经挑战数据集(英文)14]。F1最高得分介于97.57和98.13之间。同样,一项研究[15)评估深度学习方法在曾经的任务。他们评估的监督文本分类算法提供的数据集Constraint@AAAI2021-COVID19曾经在一个英语的挑战14]。算法包括卷积神经网络(CNN), LSTM和伯特。上最好的98.41%的准确性得到Covid-19曾经数据集。另一个解决方案,这是排名在1.5%的表现最佳的解决方案Constraint@AAAI2021-COVID19曾经在英国的挑战[14为曾经[],使用神经叠加16]。这里,作者采用整体适应异构表示分类任务通过额外的神经分类头包括多个隐藏层。他们理解的行为进行了烧蚀研究提出的方法。

另一项研究[11]研究语义图谣言检测方法基于语义关系的建模主要的帖子和回复。这个模型学习之间的隐含关系主要微博及其基于他们的内容回答。他们比较先进的谣言检测方法的结果在文献中描述的Twitter数据集(17]。他们比较了提出模型基于特征模型和深度学习模型。实验结果表明,深度学习模型比基于特征模型的谣言检测。他们还表明,通过合并隐式语义关系在所有微博在一个线程中,两个数据集上的语义图方法达到最先进的性能方面的准确性。

另一种方法使用异构信息图之前提出了神经网络(18]。作者使用了一个对抗性的活动图上优于异构神经网络(AA-HGNN),拥有一种新型分层注意力机制执行节点表示学习欣。获得的结果在两个假新闻数据集提供了F1的0.57和0.70,和其他这些结果比基于文本和基于模型。

FakeFlow [19]方法模型的情感信息的新闻发现如果一个新闻是假的。目标较长的新闻文本,它是基于这个想法,假新闻的文章经常受到读者关注的情感诉求。作者使用神经结构,即。,a CNN and Bidirectional Gated Recurrent Units (Bi-GRUs), to model the flow of affection in the news article, and they evaluated the models on three datasets (two available datasets and one dataset created by the authors). They compared their results to several baseline models (CNN, LSTM, HAN, BERT, and Longformer), and the scores achieved by FakeFlow are as follows: accuracy, 0.96; precision, 0.93; recall, 0.97; macro F1 score, 0.96. Note that this model was outperformed slightly by the Longformer model (with a macro F1 score of 0.97).

另一种方法(20.)使用一个学习者的方法曾经为英语。实验结果证明了ensemble-based方法优于个体学习者在曾经的任务。

一项研究[21)采用pretrained端到端伯特模型(22]。该系统实现了宏观F1得分为61.67分。他们报告说,添加共同学习了POS、尼珥,依赖标签嵌入和第三段嵌入或显式[9]牌分离源和之前的帖子伯特的输入没有产量提高。

另一项研究[23)分类基于谣言谣言来自Twitter和Reddit文本和相关的讨论线程,即。执行谣言的立场(假/真正的)分类和准确性的预测。作者rumoreval - 2019数据集用于这个目的,研究提出了一种基于分类的方法每个帖子的立场讨论线程(讨论谣言)。这种方法是基于多匝的会话比起建模使用的基于变压器模型,提取的NLP特性对话,共同学习谣言的立场,和真实性的分类。体系结构包括一个基本模型,Longformer [24),和一些句子编码器学习立场的不同特性分类和分类准确性。作者由不同类型的句子训练不同的模型为每个配置编码器和学习速度。增加F1度量和减少过度拟合,作者采用头n个融合策略21)选择最好的模型从池中保存模型。由此产生的模型评估使用相同的准则用于rumoreval - 2019任务(6]。他们实现了宏观F1得分为0.5868分。

一项研究[25比起)描述了一种方法来调整的基于变压器语言模型(罗伯塔和CT_BERT)曾经的任务。这里,对抗训练被用来提高模型的鲁棒性。现有的模型评估COVID-19假新闻数据集(26)和比较先进的方法。结果显示优越的性能相对于不同的评价指标,最好的加权平均F1得分是99.02%。

变压器模型已成功地用于分类的任务,例如,垃圾的分类评价。这样的模型展示了令人鼓舞的结果。例如,在文献[27),作者提出了一个实验利用生成训练前2 (GPT-2)语言模型分类垃圾评论。他们在TripAdvisor和YelpZip数据集评估的方法,结果表明,该方法执行7%比最先进的方法。他们还表明,模型可以支持数据增加时带安全标签的数据是有限的,可以生成合成垃圾邮件/ nonspam评论与合理的困惑。

阿拉伯语曾经是处于起步阶段相比,英语曾经;然而,它正在迅速增长。例如,一项研究[28]介绍了两个新的数据集的假和真正的中东政治新闻。假新闻数据集包括3185篇文章收集了来自两个阿拉伯语讽刺新闻网站、和真正的新闻数据集包括3710篇文章从可信的新闻网站。他们进行了初步探索性分析识别阿拉伯假新闻的语言属性,然后使用这些特性构建传统ML分类器和神经模型来识别类的新闻文章。他们比较这些方法基线和报道98.6%的准确性。

基于特征的方法曾经使用传统ML方法提出了在文献[29日]。在这里,作者利用内容相关,相关的功能和情感分析为假的阿拉伯语新闻生成新特性检测。他们得出的结论是,情绪分析提高了预测精度。他们尝试用随机森林、决策树演算法,和逻辑回归算法,结果表明曾经的准确性为76%。

另一项研究调查了微博新闻的可信度(30.]。作者描述了混合机器学习方法的相关话题和相关特性来评估在Twitter上阿拉伯语新闻的新闻可信度。他们应用了传统决策树、支持向量机和朴素贝叶斯毫升分类器在一个数据集的800阿拉伯语新闻微博手动标记。结果表明,高于SVM决策树达到近2%和7%高于NB。

阿拉伯语变压器模型是阿拉伯NLP社区越来越浓的兴趣。介绍了变压器结构在2017年(31日)基于注意机制的语言翻译没有复发和卷积层。这里,变压器包括编码器和译码器组件,每个包括self-attention模块,结果在一个高度并行的体系结构,可以处理长句(27]。

任务相关的曾经是自动生成内容的检测来确定句子是由人类写的或由机器自动生成。一项研究[32)使用一个传输上优于模型来确定一个阿拉伯语句子是由一个人或被机器自动生成。作者结合AraBERT GPT2检测和分类阿拉伯自动生成文本,他们使用twitter的数据集和GPT2-Small-Arabic模型生成假阿拉伯语的句子。他们评估模型通过比较递归神经网络(RNN)词embeddings-based基线模型(LSTM BI-LSTM,格勒乌,BI-GRU)比起一个的基于变压器模型。他们报道的准确性高达98%。

同样,另一项研究[9)利用变压器产生阿拉伯语假新闻。这种方法使用真正的网络故事和演讲的一部分开发AraNews尾随者,一个大POS-tagged新闻数据集可以使用现成的。作者还提出了模型检测操纵阿拉伯语新闻,他们取得的成果在阿拉伯语曾经任务宏观F1得分为70.06。请注意,那项研究中使用的模型和数据是公开的。

从我们回顾相关工作领域的曾经,很明显,在阿拉伯语曾经使用神经的方法是有限的;因此,需要进一步的研究和调查。此外,之前我们所知,没有研究已经试验了变形金刚曾经任务的阿拉伯语。因此,本研究旨在填补这一空白,并阐明neural-based比起和的基于变压器方法曾经的任务。

3所示。材料和方法

阿拉伯语曾经的可用性数据集(33),比起最近阿拉伯变压器和进步的基于变压器方法鼓励阿拉伯语阿拉伯语NLP社区进一步发展的变形金刚,例如,AraBERT [34],AraELECTRA [35],AraGPT2 [36],QARiB [37]Arbert, Marbert [38]。总结了变压器用于我们的实验。(我)AraBERT [34)是一个为阿拉伯语pretrained更符合实际的文本表示模型。AraBERT有很多版本,包括AraBERT v1, AraBERT v02,和AraBERT v2。这些模型增加了最近的流行,因为他们采用转移学习通过微调大pretrained语言模型(self-supervised) NLP任务少量标记的例子才能获得良好的效果。AraBERT pretrained使用现代标准阿拉伯语(MSA)的数据,这限制了AraBERT任务涉及方言的适用性。AraBERT评估在三个任务,即,sentiment analysis, named entity recognition, and question answering.(2)AraELECTRA [35)是基于准确有效地学习一个编码器,把令牌替换(依勒克拉)的方法(39]。(3)AraGPT2 [36)是阿拉伯语的pretrained变压器的一代。AraGPT2是互联网上大阿拉伯语语料训练文本和新闻文章。有许多变体(如可用。基地,中号、大号和兆)。最大的模型(AraGPT2-mega)有14.6亿个参数。(iv)Arbert和Marbert38比起)的基于变压器模型,利用large-to-massive规模数据集。这些模型已经被评估在几个NLP任务,包括情绪分析、社会意义预测,主题分类、方言识别,命名实体识别。

我们设计了一个实验使用的词和文档级别嵌入的线性和深度学习模型比起(CNN, RNN格勒乌)的基于变压器模型(AraBERT v1, AraBERT v02, AraBERT v2, ArElectra, QARiB, Arbert,和Marbert)。

我们第一次使用tweet id检索和编译每个数据集。然后我们对数据集进行文本预处理。数据集被分成训练(80%)和验证(20%)。这两个字所包含的特征提取和字符的水平。最后,模型构建和评估。

在下面,我们将讨论数据集、评价指标、文本预处理步骤,特性,模型架构,并实验设置。

3.1。数据集和评价指标

在这项研究中,我们使用阿拉伯语COVID-19流行微博收集并发表在《ArCOV19-Rumors [7]和Covid-19-Fakes [8)数据集。我们也使用两个通用阿拉伯语假新闻的数据集,即。,AraNews数据集9]和ANS语料库[10]。

ArCOV19-Rumors [7是曾经的human-annotated阿拉伯语COVID-19 Twitter数据集。它包含两个子集,即。,the claims subset, which includes all relevant tweets of the claims (labeled as true, false, or other), and a tweet verification subset, which only includes relevant tweets that are either expressing or denying. In our experiments, we only utilized the claims subset. The Covid-19-Fakes [8]是一种自动注释双语(阿拉伯语/英语)COVID-19 Twitter数据集用于误导性信息检测。

AraNews [9]数据集是一个通用的阿拉伯语错误信息数据集收集来自多个报纸在多个主题从15个阿拉伯国家,英国和美国。俺们[10)是一个语料库包括阿拉伯语新闻标题。收集的数据来自多个新闻媒体,例如,BBC和CNN,用于声明验证任务。

我们使用了三个数据集训练和验证,和第四个数据集是用于评估。这些数据集的细节和训练集和验证集的分布表1。谣言的数据集,我们确定培训和验证数据集的大小随机配给80 - 20%;因此,积极的和消极的标签的数量在每个数据集不是常数。俺们和AraNews训练和验证数据集提供了作为独立的数据集。

评价指标是在这项研究中(精度、召回、准确性和F1的分数)类似文献中用于曾经的任务。

3.2。文本预处理

在我们的实验中,我们使用一个常见的文本预处理和另外两个管道,管道。,一个用于embedding-based模型比起和其他的基于变压器模型。下面将描述这些管道。(1)常见的管道。(一)用相关的令牌替换标签(xxHash)。(b)用相关的令牌替换emojis (xxemoji)。(c)取代HTML。(d)替换重复的单词,人物,和连续的空间。(e)大写字母换成小写并添加特殊令牌(xxmaj)。(f)嵌入的句子令牌(xxbos)。(2)Embedding-based模型(后常见的管道)。(一)分割使用farasa [40]。(b)词元化使用farasa [40]。(c)用相关的令牌(xxhttps)代替HTTPS。(d)提到替换相关的令牌(xxMention)。(e)删除停止词、标点、diacritization正常化,非阿拉伯字母。(f)字符分割的字符嵌入的水平。(g)宽大的记号赋予器。(3)Transformer-based模型(后常见的管道)。(一)用正式库预处理方法(当提到)。(b)负载变压器记号赋予器。(c)记号赋予器词汇。(d)饲料记号赋予器和分类词汇从fastai文本块组件(https://github.com/fastai/fastai)。

这里的变压器模型有自己的编译器,可以处理原始数据;因此,我们减少了管道等记号赋予器记号赋予器输出文本相似模型的训练。我们使用了fastai库加载数据。文本块组件获得文本文件或数据帧,标记和numericalization适用于给定的文本,并提供一个简单的API用于创建数据加载程序。

排序的数据加载器类型文本的基础上尽可能减少填充长度单位。

3.3。模型的体系结构和设置

1显示自定义的体系结构模型。请注意,所有模型共享相同的嵌入向量大小的100。线性模型由两个线性层,卷积(Conv)层,批量标准化层,ReLU激活。序列模型包括一个单向层隐藏的大小(100)。最后一个线性层附加模式分类。

根据定义,嵌入在所有模型体系结构是一种常见的块。我们将嵌入的矢量大小设置为100,这样我们才能保持线性模型的可行性和统一的嵌入不同的体系结构。

线性模型由两个线性层:线性(5700、1024),ReLU,线性(1024 1),57是最长的文本语料库。除了嵌入,添加文档嵌入在doc2vec,其次是ReLU,线性(5700、100),和线性(200 1)。在这里,200年代表文档向量和输出之间的连接第一个线性层。在CNN模型中,我们使用四个Conv_layers (1、4), Conv_layers (4、8), Conv_layers (8、16), Conv_layers(16、32),自适应平均池层和线性(100 1)。这里,Conv_layers每个组成一个二维卷积的内核层大小3和步幅2,紧随其后的是一批标准化层最后ReLU激活。在序列模型,我们使用一个单向RNN (100100), ReLU、线性(100 1)。注意,相同的体系结构应用于格勒乌。(我)线性模型词级别(WL)和人物等级(背影)四个设置(Word2Vec-W2V、Glove-G fastText-F, Doc-D)(2)同样,DL (CNN, RNN格勒乌)模型与四个设置(Word2Vec-W2V、Glove-G fastText-F, Doc-D)(3)Transformer-based模型(AraBERT v1, AraBERT v02, AraBERT v2, ArElectra, QARiB, ArBert,和MarBert)与三个不同的实验运行设置:(1)逐步解冻,特殊的学习速率,和学习速率调度,(2)有特殊学习速度和学习速率调度,和(3)1 e-5不断学习的速度。

3.4。实验装置

在这些实验中,我们使用twarc (https://github.com/DocNow/twarc)得到的细节tweet(水合物)Twitter微博使用他们的id,然后推到其指定的类有关。这里,我们检索从Covid-19-Fakes从谣言类85%,37%。对于词元化和市场细分,我们使用farasa [40]。然后我们使用我们的自定义fastai库的默认预处理方法。如果模型有特殊的预处理步骤,这些步骤我们附加预处理管道。gensim构建嵌入的,我们使用,这是一个python库的NLP,包括实现word2vec [41],fastText [42],doc2vec [43嵌入的。此外,我们使用手套库(44训练手套嵌入。我们使用一个类似的配置所有嵌入。这里,向量的大小设置为100,最低频率设置为3,并训练进行Covid-19-Fakes 10时代。在这个培训中,我们执行的额外标记未知。

我们创建了一个embedding-based模型所确定的尺寸。使用fastai,我们构建了一个基于ArCOV19-Rumors数据集新词汇,和我们确定的大小模型嵌入到同样大小的词汇。然后映射的映射进行pretrained词汇。这里,谣言类中的每个单词不是pretrained嵌入中,我们把权重未知的令牌。我们为10时代训练模型。4与嵌入的冻结,然后2没有冻结,最后4与改变优化器从亚当到SGD时代。doc2vec嵌入,我们连接的文档嵌入输入最后一个线性层,这一层的规模增加了一倍。

对于tokenizer-based模型,我们使用变压器库加载记号赋予器(https://huggingface.co/)。之后,我们添加了自己的特殊标记记号赋予器和调整模型的嵌入。其次是排序记号赋予器词汇根据其指数和喂养结果到fastai文本块组件。确保正确的numericalization这一步是重要的。注意,我们训练有素的只有五个时期的变压器模型。三种模式的培训应用,即。,using a constant learning rate without freezing, using a learning rate finder with a learning scheduling and applying gradual unfreezing and the learning rate finder technique with learning rate scheduling.

我们使用了亚当优化器(45与动量等于0.9和0.99),ε= 11-05,0.01的重量衰变。对于SGD,我们使用零重量衰变和动量的值。学习速率,我们用网格搜索和学习速率仪技术从fastai库。这里,我们对学习速率使用余弦退火调度、ReLU激活函数,和二进制交叉熵的损失函数。评估模型,我们认为F1得分,精度,回忆,和准确性,实现使用sci-kit-learn库(46]。

4所示。结果与讨论

获得的结果通过训练三个不同的数据集上的模型(ArCOV19-Rumors AraNews, ANS)如表所示2。比起的的基于变压器模型训练使用各种配置的学习速率和逐步解冻。图2显示了一个条形图模型的比较。ROC曲线的三个模型绘制在图3

结果见表2比起证明的基于变压器模型通常优于基本的深度学习模型,基于线性,CNN,格勒乌,或LSTM块。这可以解释为多个因素,如巨大的变压器通过训练获得的语言知识在语言建模的目标。另一个因素是,嵌入=模型训练基于有限数据集相比,变形金刚。即使我们的嵌入的训练数据集来自同一个域,他们无法获得高分。相比之下,变压器模型训练在多个主题和更有效地实现好的结果在有限的数据集。这个结果强调培训的重要性对各种主题语言模型,指出变压器在嵌入的阿拉伯语曾经的优越性。

通过embedding-based模型数据的分析,我们发现,模型可以反复落入预测单个类。然而,一些实验导致意想不到的结果,例如,线性模型word2vec和fastText(0.83≅准确性),这表明LSTM-based和CNN-based模型的优越性。相比之下,WL-GRU-W2vec获得0.83的准确性。我们的直觉是,线性模型是最好的处理这样一个小数据集没有过度拟合。

比起而言的基于变压器模型,我们发现很难确定表现最好的模型由于模型可以根据训练方法会有不同的行为。然而,我们发现QARiB获得高分在各种训练设置下,超过0.95的准确性。AraBERT v02是最好的模型之一,但只有当学习速率决定。此外,AraGPT2获得有趣的结果尽管最初训练文本生成。此外,AraGPT2表现更好,更高的学习速率。这是表中所示2,这表明AraGPT2获得更好的结果的学习速率1军医相比1 e-5或者1 e-6的学习速率。

如前所述,我们应用各种培训模式。根据结果,我们未能确定培训的经验法则变压器模型。与学习调度器逐渐解冻和仪实验中,我们选择最好和最差的模型,即。,QARiB (accuracy: 0.958) and AraBERT V02 (accuracy: 0.62), respectively and the AraGPT2 (accuracy: 0.91) due to the uniqueness of its architecture. Here, we applied the learning rate scheduler and finder without gradual unfreezing. Eventually, the results were confusing because the best performing QARiB resulted from using the first model (accuracy: 0.958), and the best performing AraBERT V02 (accuracy: 0.953) was obtained using the learning scheduler and learning scheduler finder without gradual unfreezing, which is the same as the best AraGPT2 (accuracy: 0.92). However, we conclude that gradual unfreezing may impact the performance of the models, e.g., in the QARiB case.

我们训练Arabertv02、QARiB AraGPT2 AraNews数据集和ANS语料库。这里,两三个模型表现良好的学习速率调度程序与一个特殊的学习速率和没有逐渐冻结;因此,我们决定在这些实验中应用相同的配置。表2显示两个AraBERT V02和QARiB获得类似的精度值约为0.8。相比之下,在俺们实验中,QARiB获得0.68的准确性。我们的解释这些结果是由于小俺们数据集的大小。在两个实验中,AraGPT2获得最低的准确性。

重要的是要指出,在微博谣言重复数据集,两个微博几乎相同的内容用不同的id。这导致在我们的实验中,一个缺点的概率是一个验证点,该模型已经训练了。然而,这并不妨碍我们的讨论的模型,因为所有的模型都是在相同的环境中训练。副本必须清除来解决这个问题;然而,这将导致另一个问题,即。,减少数据集的大小。另一个解决方案可以找到另一个数据集所注释的人或使用机器生成的数据集,这将是不可靠但更丰富。

评估模型的普遍性,我们评估Covid-19-Fakes数据集上的模型,结果如表所示3。这个数据集的一个重要的优点是,它是相同的主题相关谣言的数据集。

如表所示3,AraBERT v02优于所有其他模型的泛化,以及模型实现了一个温和的F1的得分。我们认为,这些结果可以通过训练来提高模型在相同的领域更大的数据集测试数据集。请注意,我们不能使用Covid-19-Fakes数据集训练模型由于其巨大的类不平衡。这可能会提供一个模型获得精度很高分数的原因。也很难比较模型的泛化结果,因为在训练配置中,我们将每个培训的培训和验证点随机实验。因此,我们无法准确识别这个配置对模型性能的影响。

5。结论和未来的工作

在这篇文章中,我们已经讨论了许多实验进行实证分析当前进展是否深度学习模型和大规模的语言模型为阿拉伯语可以受益阿拉伯曾经的任务。比起我们的实验结果证明的基于变压器模型优于神经网络解决方案。此外,我们发现AraBERT v02优于所有比较模型的泛化。虽然这项工作提供了对实现阿拉伯曾经贡献,我们观察到一些局限性和挑战。首先,关于数据,我们使用一个小数据集,tweet和不可用tweet的重复问题。此外,数据遭受噪音和推特,不属于任何类。在未来,我们可以使用一个标准数据集注释被人类或者使用机器生成的数据集,这可能是不太可靠但会更丰富。此外,我们可以采用整体模型和叠加技术尝试新模式架构,或者我们可以使用深神经模型特征提取,然后用传统的机器学习分类的任务。

数据可用性

在实验中使用的数据是可用的。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这个研究项目的资助支持的“女性的研究中心科学和医学院校,“院长职科研、沙特国王大学,利雅得,沙特阿拉伯。