数学杂志

在这一页上

文摘介绍相关工作实验结果结论数据可用性的利益冲突引用版权相关文章

特殊的问题

新方法在图和因数据分析和处理

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID7164254| https://doi.org/10.1155/2022/7164254

一种新的基于规则的方法在自然语言处理古典阿拉伯语

马泽·沙拉,¹ Muaadh Mukred ,^1、2 Lailatul卡宾蒂扎卡里亚,¹ 拉施德艾哈迈德,³ 和哈桑纱丽²

学术编辑器: Ewa爱你

收到了 2021年11月13日

接受 2021年12月29日

发表 2022年1月21日

文摘

命名实体识别(尼珥)是基本在几个自然语言处理应用程序。它包括发现和分类文本为预定义的类别等一个人的名字,位置,等等。最著名的命名实体识别方法是基于规则的方法。介绍了一种基于规则的尼珥的方法,可以用来研究古典阿拉伯语的文档。该方法依赖于触发词、模式地名表,规则和语言生成的黑名单信息实体命名的阿拉伯语。方法在三个阶段、运营阶段,预处理阶段,和处理规则应用阶段。该方法是评估,结果表明,这种方法取得了90.2%的精度,召回的89.3%的水平,和一个F-measure 89.5%。介绍了这种新方法在基于规则的尼珥克服相关报道的挑战系统,尤其是在处理古典阿拉伯语的文本。它提高了性能和允许自动更新规则。语法规则、地名表、黑名单、模式和触发词都以这种方式集成到基于规则的系统。

1。介绍

命名实体识别是一个至关重要的步骤,许多自然语言处理(NLP)应用,如机器翻译、问题回答,和信息检索,等等1,2]。尼珥通常被描述为一个序列标签任务中每个单词短语是给定一个独特的标签。序列标签一直用于模型和解决NLP的任务。输入值往往的话;然而,他们可以更小的单位根据任务(像单个字符3]。

阿拉伯语是世界上最广泛的语言之一,约有4.2亿人讲它。阿拉伯语为官方语言的24个国家4),其中大多数是位于中东和北非。由于对翻译和信息检索应用程序和工具,语言是成为技术的一个重要方面。因为在阿拉伯语的发展在技术和社交媒体景观,研究用阿拉伯语语言处理应优先跟上现代技术。有广泛的研究在英语文本尼珥。然而,相比,英语,阿拉伯语语言处理研究仍处于初级阶段5,6]。除此之外,有挑战固有的阿拉伯语和标注语料匮乏和资源。对阿拉伯语,抽取命名实体是相当具有挑战性由于其形态结构(7,8]。阿拉伯语是一个形态复杂的自然语言由于其屈折;它的一般形式是一个词:前缀(es) +干细胞+后缀(es)的前缀和后缀数量从0到许多。另一个问题是,根据其在世界的地位,一个阿拉伯语字母需要三种不同形式(9,10]。在他的论文中,我们介绍一个基于规则的尼珥的方法,可以用来研究古典阿拉伯语的文档。该方法依赖于触发词、模式地名表,生成的规则和黑名单用阿拉伯语语言命名实体有关的信息。

本文的其余部分的结构如下。相关工作介绍的部分2。语言来源用于识别阿拉伯语NEs节中列出3。在这项研究中提出的基于规则的尼珥方法介绍了部分4概述了操作,预处理,处理步骤纳入这个方法。每一步部分中描述。该方法的评价提出了部分5。最后,我们得出我们的论文6。

尼珥,命名实体识别是自然语言处理领域的一项常见的任务。研究人员有三个主要方法用于尼珥1]。他们是语言的规则,基于统计和机器学习,和混合方法。基于规则的方法需要词典的专有名词和一组模式匹配新经济学院。匹配的实现是通过使用内部证据(地名表)和外部环境所提供的证据NEs出现。统计和机器学习的方法是基于大量的手工标注的训练数据。混合方法结合统计和基于规则的方法(11]。Aboaoga和Ab阿齐兹12)提出了一个基于规则的方法来识别人的名字。发达的规则是基于名称的位置。他们评估方法基于语料库收集。他们报告了92.66、92.04和90.43%的性能而言,F-measure在体育运动中,经济和政治领域。Shaalan和Oudah13)提出了一个基于规则的方法,包含一个词典和一组语法规则为尼珥的政治领域。该方法评估雄蚁语料库,以及报告结果是82.76%,98.3%,和100%的人,位置,分别和组织名称。

Shahina [14)基于深度学习的方法用于阿拉伯语尼珥。作者利用三个著名的架构,递归神经网络(RNN),长期短期记忆(LSTM)和封闭的复发性单元(格勒乌)。作者还尝试ANERcorp数据集和报告性能96.68%的准确性。提出了另一种基于深度学习方法(15]。作者介绍了深度学习模型,由双向长短期记忆和条件随机场。嵌入不同的网络层等词,卷积神经网络和字符嵌入。该方法是通过合并两个数据集评估ANERCorp [10)和AQMAR阿拉伯语维基百科命名实体语料库和薄铁片16]。报道的性能是76.65%的雄蚁F1的分数。在[17),作者提出了一个基于机器学习阿拉伯语命名实体识别方法。作者结合径向基函数(RBF)级联序列卷积神经网络(CNN)和双向长期短期记忆(BiLSTM)分类的过程。结果95%的F1得分。Sajadi与加雷熟识和Minaei18)提出了一个新古典阿拉伯语语料库和地名命名NoorGazet,约18000名。他们还开发了一种新方法基于集成学习的命名实体提取。他们报道96.04% F-measure。默罕默德和奥马尔19)进行了一项研究,应用神经网络方法识别尼珥的阿拉伯语。该方法给了92%的准确率。

Shaalan和Oudah13)提出了一个混合尼珥,结合基于规则和基于机器学习的方法来识别11的阿拉伯语命名实体类型。他们使用决策树、支持向量机和逻辑回归分类器。他们评估方法使用ANERcorp数据集和94% F-measure实体的人的名字。Balgasem和扎卡里亚20.)提出了一种混合方法从穆罕默德言行录认识阿拉伯语名字。他们发现了人的名字候选人使用基于规则的方法和基于关键字识别名称的开始和结束。候选人的名字是喂一个统计模型来识别候选人名字的可能性。结果86% F-measure的基于规则的方法,虽然LLR优于其他统计方法获得85%的精度。阿拉伯语的另一个混合模型提出了命名实体识别(21]。该方法结合了条件随机域(crf),双语词典,和语法规则来识别命名实体。该方法使用ANERcorp评估,报告结果显示,他们的方法优于阿拉伯语的艺术状态的尼珥的精度与F-measures 83.36%的人,为89.58%的位置,和72.26%的组织。阿卜杜拉et al。11)集成机器学习阿拉伯语命名实体识别的基于规则的方法。集成是通过使用基于规则的系统的输出特性的机器学习分类器。实验结果表明,该方法提高了F-measure 8到14%相比,基于规则的系统和机器学习的方法。

穆罕默德et al。8)想出了一个方法来识别结构的文本使用卷积神经网络(CNN)和递归神经网络(RNN)。因为他们测试了它在许多数据,他们发现,有98%的准确率验证数据。此外,测试数据WRR和95%到99%的哭泣。

在一个相关的研究中,Boudjellal [22)提出了一个BERT-based模型生物医学用阿拉伯语命名实体识别文本数据,调查有关的有效性语双向编码器从变形金刚(BERT)模型表示一个小规模的生物医学数据集增强模型的理解阿拉伯语生物医学文本。当模型的性能比较的两个最先进的模型,它优于F1分数的85%。

3所示。语言资源

基于规则的方法,也称为知识工程方法(23),通过预定义的规则应用到自然语言文档(12,24- - - - - -27]。这些方法依赖于由语言学家提供的信息,确定NEs (28,29日]。获得足够的随时考虑相关领域文献,可以手动测试是必要的30.如果开发有效的规则。知识工程师的专业知识和能力开发一个有效的系统的关键。

一个精确的系统的开发需要重复程序微调系统。每个过程首先创建了规则一组示例文本。这些测试是检查的结果来确定规则应该被修改31日,32]。本节讨论所需的知识来源识别经典阿拉伯语NEs的文本。

3.1。数据集

我们使用了CANERCorpus作为我们的数据集,这是一个古典阿拉伯语尼珥人类专家手工标注的语料库。它包含超过7000穆罕穆德言行录相比(先知穆罕默德的语录)Sahih Al-Bukhari注释使用21命名实体类的书。这些类包括人(per)、位置(Loc),组织(组织),测量(量),钱(星期一)书(书),日期(日期)、时间(时间),氏族(部落),自然对象(NatOb),犯罪(犯罪),天(天)、数量(Num)、神(真主),先知(先知),宗教(Rlig)教派(教派),天堂(Para),地狱(地狱),月(月),和其他(O)。语料库包含大约72108名命名实体和258264个单词。表1显示命名实体的数量在每个标记(33]。

在CANERCorpus,如图1,东北是分为两种主要类型。第一个是一般类型涵盖人、位置、组织、测量、钱,书,日期,时间,自然对象,犯罪,天,和数量,你可以找到这类在许多领域,如政治、经济、体育、和犯罪等等。

第二种类型称为特定领域与CA(伊斯兰域),包括阿拉,先知,宗教、教派,天堂和地狱。然而,语料库上下文,包括一般和特定的NEs关注伊斯兰域。因此,有很多不同的名字,含义,和角色之间的伊斯兰领域和其他领域。

3.2。数据收集

这部分是关于如何统计语言资源收集从伊斯兰文本中发现AL-Shamela图书馆,shamela。ws包含超过6100本书。表2显示的数量提高了加强基于规则的方法,包括语法规则、模式、地名表,触发词,和一个黑名单,从书中提取Al-Shamela库。

3.3。触发词

(TW)专有名词通常发现线索或触发词如标题旁边。触发词被用于提出的基于规则的尼珥方法(12,27,29日]。触发词的列表包括政治、军事、和职业头衔如博士或先生。(الشيخ,الإمام)。这个列表还包括动词如“说”或“宣布。“触发字列表用于本研究使用半自动手动开发程序,找到最常见的左边和右边,上下文已知的阿拉伯语NEs和通过使用规则使用的初始列表开发种子词来找到NEs的上下文。15215触发字列表建立了用于本研究。触发词分类取决于他们的立场在经典的阿拉伯文字。

3.4。触发词NE之前和之后

(TWBA)触发词之前或之后发现了一个命名实体TWBA包括动词或名词,引入了东北。这一类的触发词是最强的三个触发字的类别。我们所知,本研究首次提及这个话题。表3提供了一些例子发现TWBA名单。

3.5。不只有之前触发词

(材质)情况确定一个包含单词列表,如表所示4。少数的单词介绍动词列表(IVL)和介绍性的单词列表(IWL)聚集从先前的研究在12,27,34]。其余的话聚集在本研究的语料分析阶段。

3.6。不只有后触发词

(两个)两个列表是由词识别NE后发现新的。一些这些词表所示5。这个词在这个列表中收集语料分析本研究的阶段。

3.7。地名表

(字典)的另一个主要的语言资源是地名,这是预定义列表类型的实体的集合。一个地名也被称为字典或白名单35]。NEs的白名单是词典匹配目标文本和不依赖于规则。白名单包含完整的名称,没有发现其他地方,和字典包含单一的名称,可以发现在不同的地方29日,36]。地名表的例子如表所示6。

3.8。黑名单

(拒绝词)期间完成过滤过程的最后阶段尼珥拒绝其系统创建一个列表的单词(36]。不正确的单词用于识别不被发现和过滤掉。过滤过程使用黑名单字典包含不正确的单词识别NE。停止词包含的黑名单,触发词,拒绝的话。

3.9。停止单词列表

停止词non-descriptive常用单词,不能作为识别的特征不包括(27]。在这项研究中,13112年最常见的停止词中发现CA收集。停止词的结果列表主要由介词、副词、动词、示范单词,如表所示7。

4所示。基于规则的方法一步一步的过程

本研究使用了一个混合的方法。本研究中引入的新的基于规则的方法取得了良好的效果,因为它检查了一个新的领域。研究人员还依赖于其他基于规则的方法来获取最好的结果。

本节描述提出的基于规则的技术识别NEs经典阿拉伯语的文本。该方法包含一个操作步骤,预处理步骤,和处理规则应用程序的步骤。图2说明了癌症的基于规则的方法框架。

4.1。操作阶段

运营阶段自动创建系统控制,增加新动态分类。这个阶段,促进了施工过程创建一个完全自动化的系统。此外,这个阶段可能是推广和应用于不同的领域。操作阶段后只有一次当系统开始识别不典型的阿拉伯文字。运营阶段的步骤如图所示3。

以下4.4.1。读取操作文件

基于规则的系统依赖于来源,可以用来识别NEs在操作阶段。因此,操作的第一步是读操作文件。读操作文件的步骤进行了系统启动时加载所有文件数据表。

形式上,这一步是用来读取以下文件:(我)操作类型。(2)象征着文件,包含短词识别每个令牌。(3)彩色文件包含每个不相对应的颜色。每种类型的不被分配一个独特的颜色,因为该系统可以可视化的输出基于规则的方法。(iv)类型文件由不同类型的NEs包括个人、组织和位置的名字。这个文件是用于拟议的系统,以便它可以扩大到包括不同类型的新经济学院。此外,该文件允许用户向系统识别NEs的只有一些。(v)黑名单文件包含路径用于每种类型的NEs用阿拉伯语(参考表8)。

4.1.2。阅读语言资源

的基石为本研究开发的基于规则的方法来识别的NEs的语言资源。这一步的目标是读阿拉伯语尼珥语言资源如下:(1)地名表。(2)规则包含以下文件:(我)关键字之前,尼珥。(2)关键字之后,尼珥。(3)关键字之前和之后尼珥。(3)等特殊规则,规则为姓氏。(4)正则表达式模式或癌症,如日期、时间和数量。(5)黑名单或提出了拒绝的单词列表,这些话不确定新经济学院。

4.1.3。创建正则表达式和规则

一旦操作文件被读取,系统的下一步是确定过程可用于文件和配置表达操作对于每个类别。有时候,发生在一个文件包含一个项目实例分类根据以下规则:(1)关键字之前,尼珥。(2)关键字之后,尼珥。(3)关键字之前和之后尼珥。(4)名单直接尼珥。

4.2。预处理阶段

有效使用时,计算机系统可以生成NLP解决方案,但是只有在相关文档分隔成有意义的单位。例如,许多NLP的解决方案需要分为输入句子进一步分解为令牌。不幸的是,实际的文件没有明确的结构。结果,数据文件必须准备和句子必须分离和标记化的。这可以是一个挑战性的过程。

穆罕穆德言行录相比的集合是一个文本没有一个明确的结构。这些文本通常包含拼写错误,重复的单词,和人物,以及单词中不再使用,因此从字典中被省略了。如果使用NLP方法没有任何修改,他们会表现不佳。提高NLP方法的性能的一个方法是首先一个数据预处理步骤。在这项研究中,赛义夫和阿齐兹(推荐的程序37阿拉伯文字的应用。预处理步骤是原始的输入文本提取规范化的话说,删除前停止词阻止的话,如图4。

4.2.1。准备输入文本正常化

断发生之前,必须进行规范化的初步阶段,这样生成的文本将一致的和可预测的。在这项研究中,装饰Kashida和附加符号都删除冗余和错误的空白。这些步骤意味着记号赋予器是工作在一个一致的和可预测的文本。在实际文档,使用空白可能是不规则和不一致的。例如,两个以上的空格或选项卡可以使用,而不是一个空间。此外,空间可以添加标点符号之前或之后。需要一个工具来删除不适当的空白,这样的标记过程可以识别和分析单词和词组。在这项研究中,创建一个标准化者审查文本和正确的空格错误使用以下步骤:(我)删除单词之间的额外空间。(2)删除非阿拉伯字母,如英文字母或符号。(3)正常化Alef阿拉伯语字母的不同形式”。“例如ئ、ءإأا规范化。(iv)短元音变音符号被删除。(v)Kashidaعــلـــي被改变了علي。(vi)标点符号、数字和特殊字符被删除。(七)当一个角色重复表达肯定或强调意义,重复的字符替换。(八)最后信ي取而代之ى。(第九)最后的信ة是٥所取代。

4.2.2。句子分解器

这个句子分束器将输入文本分成单独的句子。一个句子的边界是由一个句号或其他标点符号。一旦将句子分割,每个句子和边界是注释。然而,该系统没有使用一个句子的分割,因为文字写在现代标准阿拉伯语不要使用句号或标点符号。相反,为本研究开发的系统使用一个记号赋予器。

4.2.3。标记

“标记”是指句子分解成有意义的单位。这些有意义的单位称为令牌。识别标记最初是一个重要的任务,因为所有后续任务是基于令牌。记号赋予器应用于本研究的文本分割成词的标记由空格或标点符号隔开。每个穆罕默德言行录标记为多个令牌由空格隔开。

4.3。处理阶段

使用基于规则的方法生成的规则与NEs阿拉伯语语言信息。处理步骤的目的是确定NEs地名表中没有发现。在这项研究中,学院被确定基于触发词地名表、模式和规则。

4.3.1。触发词

在这一步中,学院被确定使用触发词NE之前或之后发现一个句子中去。系统首先检查句子的第一个词来确定这个词是一个触发字。之前和之后发生的条件触发词分为NEs。

这一步的目的是使用触发词找到NEs地名表中没有发现。对于这些新经济学院、语言等项目介绍动词和单词和地名被用来识别新经济学院。在系统开发在这项研究中,这些项目是暗示暗示NEs的存在在一个新的文本。

4.3.2。地名查询

NEs的地名表包含不同类型的列表,如人的名字,地方,组织,和书籍的标题。这些列表作为查找列表找到这些名字在阿拉伯文字的出现38]。一个词应该是精确匹配与至少一个字的地名。敏感的匹配意味着灵活的匹配条件是必需的。几个尼珥系统把地名表与规则,考虑周围的文本。在这项研究中,阿拉伯文字识别NEs的第一步是使用一个地名作为查找表形成一个强大的功能的基于规则的方法。以下技术作为该方法的一部分:(我)精确匹配:Aho-Corasick算法与线性运行时间的输入长度和匹配条目的数量在一个地名是用来进行搜索。当一个单词序列匹配条目的地名,EM-GAZ第一词B -值< NE类>,< NE类>是一个类别的,疯狂的,和组织。句话说是分配给我——< NE类>、< NE类>的给定相同的值作为匹配的序列。(2)部分匹配PM-GAZ:这个特性开发处理复合地名条目。如果令牌复合名称的一部分,那么这个特性是真的。例如,如果地名包含复合名称“أحمدبنحنبل”“Ahmad ibn Hanbal”和输入文本“أحمدبنحنبل,”然后艾哈迈德的令牌“أحمد”被设置为true。这个特性是每因为这可能有助于确定一个大的名字列表发现作为复合名称的一部分。

4.3.3。正则表达式

一组预定义的模式被用来找到NEs阿拉伯语的文本。提取方法利用自然语言固有的规律。本研究使用正则表达式或模式对数字、日期、时间,和特殊字符,见表9。

标准阿拉伯语包含一个几乎无限数量的模式,不同于经典阿拉伯语,其中包含很少的模式。在经典阿拉伯语、数字通常使用单词表示,例如,ثلاثة而不是使用数字3。日期通常是指描述一个事件,但没有特定的公式。时间通常不作为特定的小时;相反,时间被定义为晚上,天,或祈祷时间。

4.3.4。语法规则

基于规则的方法是由语言项目和规则。启发式规则是与阿拉伯语语法规则来处理名称一致。这些启发式规则和语言项被用来识别NEs的新文本。表10介绍了关于新的语法规则的统计信息。

如表所示10,有22个新的语法规则大部分为新类型的NE在CA。

(1)一般规则。一般规则是用于所有学院。下面的章节将讨论在这项研究中使用的一般规则。(我)连接词连接的句子或单词组。在阿拉伯语,一些连词可以附加到一个单词,而不是分开,因为他们都是英文的。这可以使识别NEs挑战性。在这项研究中,连词是分开不通过检查单词开始ك/k,ف/f,و/ w,ل/l,ال/ al如ومكة或马考。这项研究还研究了ا/结尾的单词,例如,يمنا/也门。也门的原词يمن这意味着最后一个字母是分开的词为规则的应用程序允许到达正确的名字。(2)分类不取决于NE之前发现的词语。例如,萨尔曼·国王大学是一个组织的名称。萨尔曼·王是一个学名。名称链接时,前面的字是检查,所以当连接名称,一般看前面的词。作为一个例子,萨尔曼·国王大学,这句话被归类为组织的名称。(3)序列(连词)的信(عن/一个或و/和)单词连接句子或单词组。例如,(أخبرنامحمدوعليوصالح/穆罕默德和和萨利赫告诉我们)如果第一个词属于东北,然后连词分为东北之间的所有单词。(iv)如果这个词出现在信و/,这是归类为NE。例如,在句子عبدالجباروأحمدومنيرذهبواإلىالمدرسة,翻译成Abdul -贾巴尔,艾哈迈德,姆尼尔上学,之间的名字吗و/和被归类为一个人的名字。

(2)真主的规则。真主有99名。真主的99个名字分为两类。第一类包括名字,只用于描述真主和没有其他人。如果找到这些名字在文本,他们是真主不直接相关。属于这一类的名称包括真主الله,Ar-Rahmanالرحمن,As-Samadالصمد,和Dhu-al-Jalal wa-al-Ikramذوالجلالوالإكرام。第二类包含名字,并不特定于安拉,这可以用来描述他人。Al-Ghaniالغنى和“富人”这种名字的例子。这些名称是由以下标识:(我)的名称不应包括任何令牌与真主正如上面所讨论的具体名称。(2)这个名字不应该令牌Abd之后,عبد。(3)之前的名字不应该“说。”(iv)这个名字不应该令牌后的描述سبحانه“subhanah。”جلا“杯子”تعالى——“taealaa”全能的。

(3)先知。NE贴上一个“先知式”如果名字之前或之后的描述:“alnnabaya /النبي”,“alrrasula /الرسول,”“slaa alllah ealayhwasalama /صلىاللهعليهوسلم,”“elihalssalam /عليهالسلام,”“sydna /سيدنا,”“khatmalnnabyn /خاتمالنبيين,”“悉德almrsalin /سيدالمرسلين,”“rssulallh /رسولالله,”或“悉德alrrusul /سيدالرسل。”

(4)人。与人的名字相关联的实体分类如下。发现之前或之后的所有单词bin /بن或少女/بنت被归类为名字的人。NEs的许多经典阿拉伯语单词相关的人这个词等儿子/بن和女儿/بنت。很少使用这些话不使用一个名字,例如,穆罕默德•本•阿卜杜拉和法蒂玛少女穆罕默德。如果这个词开始ال/ al之前和结束与ي/丫,是一个人的名字,然后ال/ al和ي/丫也将归类为一个人的名字。例如,رمزيالسماوي/拉姆兹Alssamawi包含拉姆兹/رمزي,这是一个人的名字。这个名字开始ال/ al和结尾ي/丫السماوي/ alssamawi,这两个现在将归类为一个人的名字。

(5)号码。数字记录的单词而不是数字的列表是补充道。这是典型的古典阿拉伯语,例如,第十Dhul-Hijjah记录العاشرمنذيالحجة。

(6)时间。在经典阿拉伯语只是定义为黑夜或白昼或作为一个祈祷的时候了。如果这个词أول/第一或者这个词آخر/最后一次发现前一个字开始吗ال/阿拉巴马州如أولالليل/第一晚上或آخرالنهار/最后一天,那么所有这些话被归类为NE。祈祷时间被视为落入NE类别,例如,بعدصلاةالعصر/后Asr祈祷,指日落之前的那一刻。令牌也被归类为不是不是قبل/之前,بعد/之后,或في/和下一个单词是下列之一:,ضالضحى/ dhaaحوة/ dihwtuصبح/ sibhaصباح/ sibahالظهر/ alzhrالظهيرة/ alzzahirtiغداة/ ghidatiالعصر/ aliesriالنهار/ alnnahar”أولالنهار/本文alnnahar,نصفالنهار/ nisfalnnuhar,آخرالنهار/ akhuralnnahar,,مالمغرب/ almaghribغرب/ mighrabالعشاء/ alesha’,المساء/ almasa’,الليل/ alllila”أولالليل/锥子allili,آخرالليل/ akhar烯丙基,الزوال/ alzwalالغروب/ alghrwbهاجرة/ hajr。

4.3.5。黑名单

黑名单包含所有没有不相关的单词。提出了基于规则的系统,如果有的话是不是黑名单,它将改变规则从东北到别人。在这个例子中قالالإماممحمد,伊玛目穆罕默德说,قال是一个触发字,按照规定,下一个单词应该是一个人的名字。然而,在这种情况下,下一个单词الإمام/伊玛目,这是黑名单,因此这令牌不归类为NE。

4.3.6。基于规则的系统整合语言资源

在早期的研究中,基于规则的方法中的步骤是独立的一些方法仅依赖触发词或语法规则。在这项研究中,设计了基于规则的方法,利用一切可用资源之前比较结果(见图5)。

三个案例都显示在图5。如果所有的特性从一个令牌使用不同的资源是假的,然后令牌不是任何不相关。如果只有一个特征提取从黑名单上发现的令牌,令牌是不与任何类型的不相关。如果特征提取黑名单上的令牌被发现是假的,有多个功能,令牌和超过一种类型的不相关。

4.3.7。注释编码

编码方案需要代表注释的红白机内部。编码方案每个令牌在一个文本标签。最简单的编码方案是IO编码,标记每个令牌作为一个NE(“我”)或不是一个NE (“O”)。IO编码并不代表两个NEs发现相邻。另一个编码方案是生物编码。生物编码是经常使用的,因为它解决了边界问题中发现编码方案。在生物编码,令牌相关不可以标记为一个“B”,表明它是第一个令牌或NE的名称的开始一个“我”表明这个令牌也不相关。一个标签的“O”表示令牌不是不相关。

5。实验结果

类型和跨度的属性用于定义每个NE。这两个属性是必须的,但更重要的是使用正确的类型的跨度不可以挑战来确定。该方法依赖于触发词、模式地名表,规则,和黑名单。第一个实验是如何进行的使用触发字影响了NEs的识别。不使用触发词的结果如表所示11和图6。

地名表包含了NEs,他们扮演了一个至关重要的角色,NEs阿拉伯语的文本识别的使用提出了基于规则的方法。大多数阿拉伯NEs地名表被发现,他们在文本中很容易被认出来。第二个实验的影响在本研究进行的检查不使用地名表。结果表中可以看到12和图7。

第三个实验进行了调查模式如何影响该方法的结果。模式是用来识别NEs通过识别文本中的日期和时间。表13和图8显示的结果不使用模式。

我们的方法使用启发式规则来源于阿拉伯语语法规则来识别NEs阿拉伯语的文本。NEs的启发式规则被用来识别新的文本。接下来的实验进行了确定不使用这些语法规则的影响。结果如表所示14和图9。

黑名单是一个重要的资源,以确定正确的类型的东北。不使用黑名单识别结果如表所示15和图10。

总体结果生成的阿拉伯语尼珥提出了研究NEs如表所示16。图11视觉代表结果五个主要组件:触发词,模式、语法规则、黑名单、地名表。

表17显示了整个整合的结果。比较方法的结果呈现在图12。

研究阿拉伯文字时,NEs可分为属于通用域或伊斯兰域。这项研究集中在经典阿拉伯语的文本,因此NEs发现在伊斯兰域,如书、先知、真主,Rlig,教派,犯罪,宗族,地狱,和帕拉,被认为是。图13描述了关于这些NEs提出系统的性能。

5.1。比较基准和基于规则的方法

自语料库在本文使用的是一个新的实验数据,10%的语料库已被评估使用现有工具(门和语言计算机)。从这些工具基线结果获得的结果。因此,本节介绍了基线之间的比较结果和基于规则的方法的结果。使用相同的数据集在基线结果,提出的基于规则的方法评估使用相同的评估措施。表18介绍了对比基线结果和该方法的结果。

表19介绍了对比基线结果和方法的结果。

如表所示19和图14门和语言电脑低结果和一些偏见与0 -值。这是因为语言电脑不能识别五NEs,未能识别两个门。因此,提出了基于规则的方法表现好于门和语言F-measure方面的计算机系统。

6。结论

本文提出了一种新的基于规则的方法。语言的描述所使用的资源提供了新方法在新方法解释道。然后,操作内容(读操作文件,读语言资源,创建正则表达式,和规则)讨论了预处理和处理阶段。本研究提出的新方法使用触发词,地名表,正则表达式语法规则,和黑名单,方法是在这一节中解释。最后,基于规则的方法评估。结果表明,这种方法实现了90.2%的精度和召回和89.3%的F-measure 89.5。

尼珥是一种提取信息,并使用它在几个NLP操作,包括机器翻译、信息检索。阿拉伯语尼珥是吸引越来越多的关注,但阿拉伯语的独特性质意味着使用尼珥是很困难的。由本研究的贡献是必不可少的步骤为这些问题找到解决方案。

数据可用性

使用的数据来支持本研究的结果可在第一作者和通讯作者。

的利益冲突

作者宣称没有利益冲突。

引用

Nadeau和d s“关根身上,命名实体识别和分类的调查。”Lingvisticæ调查。语言学和语言资源的国际期刊,30卷,不。1,3-26,2007页。
视图: 出版商的网站 | 谷歌学术搜索
j . Salminen m .霍普夫s . a . Chowdhury S.-g。荣格,h . Almerekhi和b·j·詹森“开发一个在线恨分类器对多个社交媒体平台,“以人为中心的计算和信息科学,10卷,不。1,猴,2020页。
视图: 出版商的网站 | 谷歌学术搜索
r·e·沙拉和l·卡宾蒂扎卡里亚,”比较审查机器学习阿拉伯语命名实体识别,”国际期刊《先进的科学、工程和信息技术,7卷,不。2、511 - 518年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
r . Taquini k·r·Finardi和g·b·阿莫林“英语作为教学媒体在土耳其州立大学”教育和语言学研究,3卷,不。2,35-53,2017页。
视图: 出版商的网站 | 谷歌学术搜索
n Alsaaran和m . Alrabiah古典阿拉伯语命名实体识别使用变体深层神经网络架构和伯特,”IEEE访问9卷,第91547 - 91537页,2021年。
视图: 出版商的网站 | 谷歌学术搜索
a . Ghallab a Mohsen y·阿里,”阿拉伯语情绪分析:系统的文献综述”,应用计算智能和软计算ID 7403128条,卷。2020年,13页,2020。
视图: 出版商的网站 | 谷歌学术搜索
r·e·沙拉和l .问:b。扎卡里亚,”阿拉伯语基于规则的命名实体识别系统的进展和挑战,”国际期刊《先进的科学、工程和信息技术,7卷,不。3、815 - 821年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
m·穆罕默德·Qamar、i Al-Sheikh和r·沙拉”结构光学文字识别使用深度学习模型”,IEEE访问9卷,第38330 - 38318页,2021年。
视图: 出版商的网站 | 谷歌学术搜索
s . AbdelRahman“集成机器学习阿拉伯语命名实体识别的技术,”IJCSI,7卷,不。4,27-36,2010页。
视图: 谷歌学术搜索
y Benajiba, p .罗索,j . m . Benediruiz”Anersys:阿拉伯语命名实体识别系统基于最大熵”《智能文本处理和计算语言学国际会议施普林格,布达佩斯,匈牙利,2007年4月。
视图: 出版商的网站 | 谷歌学术搜索
美国阿卜杜拉,k . Shaalan和m . Shoaib”集成基于规则的系统分类为阿拉伯语命名实体识别,”《智能文本处理和计算语言学国际会议施普林格,德里,印度,2012年3月。
视图: 出版商的网站 | 谷歌学术搜索
m . Aboaoga和m . j . Ab阿齐兹,”阿拉伯语人名识别采用基于规则的方法,”计算机科学期刊,9卷,不。7,922 - 927年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
k . Shaalan和m . Oudah”阿拉伯语命名实体识别的混合方法,”信息科学杂志》,40卷,不。1,第87 - 67页,2014。
视图: 出版商的网站 | 谷歌学术搜索
k . Shahina”,一个序列标签命名实体识别方法在阿拉伯语使用深度学习算法,”《2019年国际会议上数据科学与通信(IconDSC)IEEE,班加罗尔,印度,2019年3月。
视图: 出版商的网站 | 谷歌学术搜索
d·阿瓦德“使用深度学习阿拉伯语命名实体识别,”《国际会议统计语言和语音处理施普林格隆起,比利时,2018年10月。
视图: 出版商的网站 | 谷歌学术搜索
b . Mohit“Recall-oriented学习阿拉伯语维基百科的命名实体”学报》13章会议的欧洲协会的计算语言学2012年4月,阿维尼翁,法国,。
视图: 谷歌学术搜索
a . Mousa“级联RBF-CBiLSTM阿拉伯语命名实体识别,”学报2020年国际会议上通信、计算、网络安全、信息(CCCI),IEEE,沙迦,阿联酋,2020年11月。
视图: 出版商的网站 | 谷歌学术搜索
m . b . Sajadi与加雷熟识和b . Minaei”,阿拉伯语命名实体识别使用刺激方法,”2017人工智能和信号处理研讨会论文集(AISP)IEEE,设拉子,伊朗,2017年10月。
视图: 出版商的网站 | 谷歌学术搜索
n·f·默罕默德和n·奥马尔,”阿拉伯语命名实体识别使用人工神经网络,”计算机科学期刊,8卷,不。8,1285年,页2012。
视图: 谷歌学术搜索
s . s . Balgasem l .问:扎卡里亚,“基于规则方法的混合方法和统计措施识别在穆罕默德言行录叙述者的名字,”学报2017年第六届国际会议在电气工程和信息学(ICEEI)IEEE,兰卡威,马来西亚,2017年11月。
视图: 出版商的网站 | 谷歌学术搜索
e . Hkiri s Mallat, m . Zrigui”将双语词典命名实体与阿拉伯语命名实体识别条件随机域模型,”学报》2017年第14 IAPR国际会议文档分析和识别(ICDAR)IEEE,京都,日本,2017年11月。
视图: 出版商的网站 | 谷歌学术搜索
n . Boudjellal“ABioNER:阿拉伯语BERT-based模型生物命名实体识别,”复杂性卷,2021篇文章ID 6633213, 21页,2021。
视图: 出版商的网站 | 谷歌学术搜索
h·l . Chieu h·t·Ng, y . k . Lee,“缩小差距:上优于信息提取与知识工程方法”学报》第41届年会在计算语言学协会日本札幌,计算语言学协会,2003年7月。
视图: 谷歌学术搜索
h .曾和t . Elghazaly”,一个基于规则的实体识别系统对于现代标准阿拉伯语,“国际计算机科学杂志》上的问题(IJCSI),12卷,不。1,p。119年,2015。
视图: 谷歌学术搜索
w . Zaghouani“RENAR:基于规则的阿拉伯语命名实体识别系统,”ACM亚洲语言信息处理事务,11卷,不。1,p。2, 2012。
视图: 出版商的网站 | 谷歌学术搜索
k . Shaalan“阿拉伯语自然语言处理基于规则的方法,”国际期刊信息和通信技术,3卷,不。3,11-19,2010页。
视图: 谷歌学术搜索
A . Elsebai f . Meziane, f . z Belkredim,“基于规则的人名字阿拉伯萃取系统。”通信的IBIMA,11卷,不。6日,53至59页,2009年。
视图: 谷歌学术搜索
k Shaalan和h Raza”,阿拉伯语命名实体识别来自不同文本类型”自然语言处理技术的进步,23卷,第451 - 440页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
k Shaalan和h Raza”,阿拉伯人命名实体识别,”学报2007年研讨会闪族语言的计算方法:常见问题和资源计算语言学协会,布拉格,捷克共和国,2007年6月。
视图: 出版商的网站 | 谷歌学术搜索
d . Appelt和d .以色列,“介绍信息提取技术,”教程的诉讼准备IJCAI会议上展出,1999年8月。
视图: 谷歌学术搜索
l . Eikvil从全球网站调查信息提取挪威奥斯陆,挪威的计算中心,1999年。
m . Al-Ayyoub A . A . Khamaiseh y Jararweh,和m . n . Al-Kabi“阿拉伯情绪的全面调查分析,信息处理与管理卷,56号2、320 - 342年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
r·e·沙拉和l·b·扎卡里亚,”建筑古典阿拉伯语命名实体识别语料库(CANERCorpus)”学报》2018年第四次国际会议信息检索和知识管理(营)IEEE,哥打基纳巴卢山,马来西亚,2018年3月。
视图: 谷歌学术搜索
美国Abuleil m .均等的,“从阿拉伯语报纸文本中提取一个阿拉伯语词汇”,电脑和人文学科,36卷,不。2、191 - 221年,2002页。
视图: 出版商的网站 | 谷歌学术搜索
k Shaalan和h Raza”,阿拉伯语命名实体识别来自不同文本类型”自然语言处理技术的进步施普林格,柏林,德国,2008年。
视图: 出版商的网站 | 谷歌学术搜索
k Shaalan和h Raza,”美国国家经济研究协会:命名实体识别阿拉伯语”,《美国社会信息科学和技术,60卷,不。8,1652 - 1663年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
a . m .赛义夫·m·j·阿齐兹,“从阿拉伯语语料库中提取一个自动搭配。”计算机科学期刊,7卷,不。1,6尺11寸,2011页。
视图: 出版商的网站 | 谷歌学术搜索
c . Shihadeh和g unt Neumann,“阿恩:从阿拉伯文字,命名实体识别的工具”学报》第四车间在阿拉伯语基于脚本语言(CAASL4)的计算方法美国圣地亚哥CA, 2012年11月。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

666年

下载

466年

引用