文摘
命名实体识别(尼珥)是基本在几个自然语言处理应用程序。它包括发现和分类文本为预定义的类别等一个人的名字,位置,等等。最著名的命名实体识别方法是基于规则的方法。介绍了一种基于规则的尼珥的方法,可以用来研究古典阿拉伯语的文档。该方法依赖于触发词、模式地名表,规则和语言生成的黑名单信息实体命名的阿拉伯语。方法在三个阶段、运营阶段,预处理阶段,和处理规则应用阶段。该方法是评估,结果表明,这种方法取得了90.2%的精度,召回的89.3%的水平,和一个F-measure 89.5%。介绍了这种新方法在基于规则的尼珥克服相关报道的挑战系统,尤其是在处理古典阿拉伯语的文本。它提高了性能和允许自动更新规则。语法规则、地名表、黑名单、模式和触发词都以这种方式集成到基于规则的系统。
1。介绍
命名实体识别是一个至关重要的步骤,许多自然语言处理(NLP)应用,如机器翻译、问题回答,和信息检索,等等1,2]。尼珥通常被描述为一个序列标签任务中每个单词短语是给定一个独特的标签。序列标签一直用于模型和解决NLP的任务。输入值往往的话;然而,他们可以更小的单位根据任务(像单个字符3]。
阿拉伯语是世界上最广泛的语言之一,约有4.2亿人讲它。阿拉伯语为官方语言的24个国家4),其中大多数是位于中东和北非。由于对翻译和信息检索应用程序和工具,语言是成为技术的一个重要方面。因为在阿拉伯语的发展在技术和社交媒体景观,研究用阿拉伯语语言处理应优先跟上现代技术。有广泛的研究在英语文本尼珥。然而,相比,英语,阿拉伯语语言处理研究仍处于初级阶段5,6]。除此之外,有挑战固有的阿拉伯语和标注语料匮乏和资源。对阿拉伯语,抽取命名实体是相当具有挑战性由于其形态结构(7,8]。阿拉伯语是一个形态复杂的自然语言由于其屈折;它的一般形式是一个词:前缀(es) +干细胞+后缀(es)的前缀和后缀数量从0到许多。另一个问题是,根据其在世界的地位,一个阿拉伯语字母需要三种不同形式(9,10]。在他的论文中,我们介绍一个基于规则的尼珥的方法,可以用来研究古典阿拉伯语的文档。该方法依赖于触发词、模式地名表,生成的规则和黑名单用阿拉伯语语言命名实体有关的信息。
本文的其余部分的结构如下。相关工作介绍的部分2。语言来源用于识别阿拉伯语NEs节中列出3。在这项研究中提出的基于规则的尼珥方法介绍了部分4概述了操作,预处理,处理步骤纳入这个方法。每一步部分中描述。该方法的评价提出了部分5。最后,我们得出我们的论文6。
2。相关工作
尼珥,命名实体识别是自然语言处理领域的一项常见的任务。研究人员有三个主要方法用于尼珥1]。他们是语言的规则,基于统计和机器学习,和混合方法。基于规则的方法需要词典的专有名词和一组模式匹配新经济学院。匹配的实现是通过使用内部证据(地名表)和外部环境所提供的证据NEs出现。统计和机器学习的方法是基于大量的手工标注的训练数据。混合方法结合统计和基于规则的方法(11]。Aboaoga和Ab阿齐兹12)提出了一个基于规则的方法来识别人的名字。发达的规则是基于名称的位置。他们评估方法基于语料库收集。他们报告了92.66、92.04和90.43%的性能而言,F-measure在体育运动中,经济和政治领域。Shaalan和Oudah13)提出了一个基于规则的方法,包含一个词典和一组语法规则为尼珥的政治领域。该方法评估雄蚁语料库,以及报告结果是82.76%,98.3%,和100%的人,位置,分别和组织名称。
Shahina [14)基于深度学习的方法用于阿拉伯语尼珥。作者利用三个著名的架构,递归神经网络(RNN),长期短期记忆(LSTM)和封闭的复发性单元(格勒乌)。作者还尝试ANERcorp数据集和报告性能96.68%的准确性。提出了另一种基于深度学习方法(15]。作者介绍了深度学习模型,由双向长短期记忆和条件随机场。嵌入不同的网络层等词,卷积神经网络和字符嵌入。该方法是通过合并两个数据集评估ANERCorp [10)和AQMAR阿拉伯语维基百科命名实体语料库和薄铁片16]。报道的性能是76.65%的雄蚁F1的分数。在[17),作者提出了一个基于机器学习阿拉伯语命名实体识别方法。作者结合径向基函数(RBF)级联序列卷积神经网络(CNN)和双向长期短期记忆(BiLSTM)分类的过程。结果95%的F1得分。Sajadi与加雷熟识和Minaei18)提出了一个新古典阿拉伯语语料库和地名命名NoorGazet,约18000名。他们还开发了一种新方法基于集成学习的命名实体提取。他们报道96.04% F-measure。默罕默德和奥马尔19)进行了一项研究,应用神经网络方法识别尼珥的阿拉伯语。该方法给了92%的准确率。
Shaalan和Oudah13)提出了一个混合尼珥,结合基于规则和基于机器学习的方法来识别11的阿拉伯语命名实体类型。他们使用决策树、支持向量机和逻辑回归分类器。他们评估方法使用ANERcorp数据集和94% F-measure实体的人的名字。Balgasem和扎卡里亚20.)提出了一种混合方法从穆罕默德言行录认识阿拉伯语名字。他们发现了人的名字候选人使用基于规则的方法和基于关键字识别名称的开始和结束。候选人的名字是喂一个统计模型来识别候选人名字的可能性。结果86% F-measure的基于规则的方法,虽然LLR优于其他统计方法获得85%的精度。阿拉伯语的另一个混合模型提出了命名实体识别(21]。该方法结合了条件随机域(crf),双语词典,和语法规则来识别命名实体。该方法使用ANERcorp评估,报告结果显示,他们的方法优于阿拉伯语的艺术状态的尼珥的精度与F-measures 83.36%的人,为89.58%的位置,和72.26%的组织。阿卜杜拉et al。11)集成机器学习阿拉伯语命名实体识别的基于规则的方法。集成是通过使用基于规则的系统的输出特性的机器学习分类器。实验结果表明,该方法提高了F-measure 8到14%相比,基于规则的系统和机器学习的方法。
穆罕默德et al。8)想出了一个方法来识别结构的文本使用卷积神经网络(CNN)和递归神经网络(RNN)。因为他们测试了它在许多数据,他们发现,有98%的准确率验证数据。此外,测试数据WRR和95%到99%的哭泣。
在一个相关的研究中,Boudjellal [22)提出了一个BERT-based模型生物医学用阿拉伯语命名实体识别文本数据,调查有关的有效性语双向编码器从变形金刚(BERT)模型表示一个小规模的生物医学数据集增强模型的理解阿拉伯语生物医学文本。当模型的性能比较的两个最先进的模型,它优于F1分数的85%。
3所示。语言资源
基于规则的方法,也称为知识工程方法(23),通过预定义的规则应用到自然语言文档(12,24- - - - - -27]。这些方法依赖于由语言学家提供的信息,确定NEs (28,29日]。获得足够的随时考虑相关领域文献,可以手动测试是必要的30.如果开发有效的规则。知识工程师的专业知识和能力开发一个有效的系统的关键。
一个精确的系统的开发需要重复程序微调系统。每个过程首先创建了规则一组示例文本。这些测试是检查的结果来确定规则应该被修改31日,32]。本节讨论所需的知识来源识别经典阿拉伯语NEs的文本。
3.1。数据集
我们使用了CANERCorpus作为我们的数据集,这是一个古典阿拉伯语尼珥人类专家手工标注的语料库。它包含超过7000穆罕穆德言行录相比(先知穆罕默德的语录)Sahih Al-Bukhari注释使用21命名实体类的书。这些类包括人(per)、位置(Loc),组织(组织),测量(量),钱(星期一)书(书),日期(日期)、时间(时间),氏族(部落),自然对象(NatOb),犯罪(犯罪),天(天)、数量(Num)、神(真主),先知(先知),宗教(Rlig)教派(教派),天堂(Para),地狱(地狱),月(月),和其他(O)。语料库包含大约72108名命名实体和258264个单词。表1显示命名实体的数量在每个标记(33]。
在CANERCorpus,如图1,东北是分为两种主要类型。第一个是一般类型涵盖人、位置、组织、测量、钱,书,日期,时间,自然对象,犯罪,天,和数量,你可以找到这类在许多领域,如政治、经济、体育、和犯罪等等。
第二种类型称为特定领域与CA(伊斯兰域),包括阿拉,先知,宗教、教派,天堂和地狱。然而,语料库上下文,包括一般和特定的NEs关注伊斯兰域。因此,有很多不同的名字,含义,和角色之间的伊斯兰领域和其他领域。
3.2。数据收集
这部分是关于如何统计语言资源收集从伊斯兰文本中发现AL-Shamela图书馆,shamela。ws包含超过6100本书。表2显示的数量提高了加强基于规则的方法,包括语法规则、模式、地名表,触发词,和一个黑名单,从书中提取Al-Shamela库。
3.3。触发词
(TW)专有名词通常发现线索或触发词如标题旁边。触发词被用于提出的基于规则的尼珥方法(12,27,29日]。触发词的列表包括政治、军事、和职业头衔如博士或先生。(الشيخ,الإمام)。这个列表还包括动词如“说”或“宣布。“触发字列表用于本研究使用半自动手动开发程序,找到最常见的左边和右边,上下文已知的阿拉伯语NEs和通过使用规则使用的初始列表开发种子词来找到NEs的上下文。15215触发字列表建立了用于本研究。触发词分类取决于他们的立场在经典的阿拉伯文字。
3.4。触发词NE之前和之后
(TWBA)触发词之前或之后发现了一个命名实体TWBA包括动词或名词,引入了东北。这一类的触发词是最强的三个触发字的类别。我们所知,本研究首次提及这个话题。表3提供了一些例子发现TWBA名单。
3.5。不只有之前触发词
(材质)情况确定一个包含单词列表,如表所示4。少数的单词介绍动词列表(IVL)和介绍性的单词列表(IWL)聚集从先前的研究在12,27,34]。其余的话聚集在本研究的语料分析阶段。
3.6。不只有后触发词
(两个)两个列表是由词识别NE后发现新的。一些这些词表所示5。这个词在这个列表中收集语料分析本研究的阶段。
3.7。地名表
(字典)的另一个主要的语言资源是地名,这是预定义列表类型的实体的集合。一个地名也被称为字典或白名单35]。NEs的白名单是词典匹配目标文本和不依赖于规则。白名单包含完整的名称,没有发现其他地方,和字典包含单一的名称,可以发现在不同的地方29日,36]。地名表的例子如表所示6。
3.8。黑名单
(拒绝词)期间完成过滤过程的最后阶段尼珥拒绝其系统创建一个列表的单词(36]。不正确的单词用于识别不被发现和过滤掉。过滤过程使用黑名单字典包含不正确的单词识别NE。停止词包含的黑名单,触发词,拒绝的话。
3.9。停止单词列表
停止词non-descriptive常用单词,不能作为识别的特征不包括(27]。在这项研究中,13112年最常见的停止词中发现CA收集。停止词的结果列表主要由介词、副词、动词、示范单词,如表所示7。
4所示。基于规则的方法一步一步的过程
本研究使用了一个混合的方法。本研究中引入的新的基于规则的方法取得了良好的效果,因为它检查了一个新的领域。研究人员还依赖于其他基于规则的方法来获取最好的结果。
本节描述提出的基于规则的技术识别NEs经典阿拉伯语的文本。该方法包含一个操作步骤,预处理步骤,和处理规则应用程序的步骤。图2说明了癌症的基于规则的方法框架。
4.1。操作阶段
运营阶段自动创建系统控制,增加新动态分类。这个阶段,促进了施工过程创建一个完全自动化的系统。此外,这个阶段可能是推广和应用于不同的领域。操作阶段后只有一次当系统开始识别不典型的阿拉伯文字。运营阶段的步骤如图所示3。
以下4.4.1。读取操作文件
基于规则的系统依赖于来源,可以用来识别NEs在操作阶段。因此,操作的第一步是读操作文件。读操作文件的步骤进行了系统启动时加载所有文件数据表。
形式上,这一步是用来读取以下文件:(我)操作类型。(2)象征着文件,包含短词识别每个令牌。(3)彩色文件包含每个不相对应的颜色。每种类型的不被分配一个独特的颜色,因为该系统可以可视化的输出基于规则的方法。(iv)类型文件由不同类型的NEs包括个人、组织和位置的名字。这个文件是用于拟议的系统,以便它可以扩大到包括不同类型的新经济学院。此外,该文件允许用户向系统识别NEs的只有一些。(v)黑名单文件包含路径用于每种类型的NEs用阿拉伯语(参考表8)。
4.1.2。阅读语言资源
的基石为本研究开发的基于规则的方法来识别的NEs的语言资源。这一步的目标是读阿拉伯语尼珥语言资源如下:(1)地名表。(2)规则包含以下文件:(我)关键字之前,尼珥。(2)关键字之后,尼珥。(3)关键字之前和之后尼珥。(3)等特殊规则,规则为姓氏。(4)正则表达式模式或癌症,如日期、时间和数量。(5)黑名单或提出了拒绝的单词列表,这些话不确定新经济学院。
4.1.3。创建正则表达式和规则
一旦操作文件被读取,系统的下一步是确定过程可用于文件和配置表达操作对于每个类别。有时候,发生在一个文件包含一个项目实例分类根据以下规则:(1)关键字之前,尼珥。(2)关键字之后,尼珥。(3)关键字之前和之后尼珥。(4)名单直接尼珥。
4.2。预处理阶段
有效使用时,计算机系统可以生成NLP解决方案,但是只有在相关文档分隔成有意义的单位。例如,许多NLP的解决方案需要分为输入句子进一步分解为令牌。不幸的是,实际的文件没有明确的结构。结果,数据文件必须准备和句子必须分离和标记化的。这可以是一个挑战性的过程。
穆罕穆德言行录相比的集合是一个文本没有一个明确的结构。这些文本通常包含拼写错误,重复的单词,和人物,以及单词中不再使用,因此从字典中被省略了。如果使用NLP方法没有任何修改,他们会表现不佳。提高NLP方法的性能的一个方法是首先一个数据预处理步骤。在这项研究中,赛义夫和阿齐兹(推荐的程序37阿拉伯文字的应用。预处理步骤是原始的输入文本提取规范化的话说,删除前停止词阻止的话,如图4。
4.2.1。准备输入文本正常化
断发生之前,必须进行规范化的初步阶段,这样生成的文本将一致的和可预测的。在这项研究中,装饰Kashida和附加符号都删除冗余和错误的空白。这些步骤意味着记号赋予器是工作在一个一致的和可预测的文本。在实际文档,使用空白可能是不规则和不一致的。例如,两个以上的空格或选项卡可以使用,而不是一个空间。此外,空间可以添加标点符号之前或之后。需要一个工具来删除不适当的空白,这样的标记过程可以识别和分析单词和词组。在这项研究中,创建一个标准化者审查文本和正确的空格错误使用以下步骤:(我)删除单词之间的额外空间。(2)删除非阿拉伯字母,如英文字母或符号。(3)正常化Alef阿拉伯语字母的不同形式”。“例如ئ、ءإأا规范化。(iv)短元音变音符号被删除。(v)Kashidaعــلـــي被改变了علي。(vi)标点符号、数字和特殊字符被删除。(七)当一个角色重复表达肯定或强调意义,重复的字符替换。(八)最后信ي取而代之ى。(第九)最后的信ة是٥所取代。
4.2.2。句子分解器
这个句子分束器将输入文本分成单独的句子。一个句子的边界是由一个句号或其他标点符号。一旦将句子分割,每个句子和边界是注释。然而,该系统没有使用一个句子的分割,因为文字写在现代标准阿拉伯语不要使用句号或标点符号。相反,为本研究开发的系统使用一个记号赋予器。
4.2.3。标记
“标记”是指句子分解成有意义的单位。这些有意义的单位称为令牌。识别标记最初是一个重要的任务,因为所有后续任务是基于令牌。记号赋予器应用于本研究的文本分割成词的标记由空格或标点符号隔开。每个穆罕默德言行录标记为多个令牌由空格隔开。
4.3。处理阶段
使用基于规则的方法生成的规则与NEs阿拉伯语语言信息。处理步骤的目的是确定NEs地名表中没有发现。在这项研究中,学院被确定基于触发词地名表、模式和规则。
4.3.1。触发词
在这一步中,学院被确定使用触发词NE之前或之后发现一个句子中去。系统首先检查句子的第一个词来确定这个词是一个触发字。之前和之后发生的条件触发词分为NEs。
这一步的目的是使用触发词找到NEs地名表中没有发现。对于这些新经济学院、语言等项目介绍动词和单词和地名被用来识别新经济学院。在系统开发在这项研究中,这些项目是暗示暗示NEs的存在在一个新的文本。
4.3.2。地名查询
NEs的地名表包含不同类型的列表,如人的名字,地方,组织,和书籍的标题。这些列表作为查找列表找到这些名字在阿拉伯文字的出现38]。一个词应该是精确匹配与至少一个字的地名。敏感的匹配意味着灵活的匹配条件是必需的。几个尼珥系统把地名表与规则,考虑周围的文本。在这项研究中,阿拉伯文字识别NEs的第一步是使用一个地名作为查找表形成一个强大的功能的基于规则的方法。以下技术作为该方法的一部分:(我)精确匹配:Aho-Corasick算法与线性运行时间的输入长度和匹配条目的数量在一个地名是用来进行搜索。当一个单词序列匹配条目的地名,EM-GAZ第一词B -值< NE类>,< NE类>是一个类别的,疯狂的,和组织。句话说是分配给我——< NE类>、< NE类>的给定相同的值作为匹配的序列。(2)部分匹配PM-GAZ:这个特性开发处理复合地名条目。如果令牌复合名称的一部分,那么这个特性是真的。例如,如果地名包含复合名称“أحمدبنحنبل”“Ahmad ibn Hanbal”和输入文本“أحمدبنحنبل,”然后艾哈迈德的令牌“أحمد”被设置为true。这个特性是每因为这可能有助于确定一个大的名字列表发现作为复合名称的一部分。
4.3.3。正则表达式
一组预定义的模式被用来找到NEs阿拉伯语的文本。提取方法利用自然语言固有的规律。本研究使用正则表达式或模式对数字、日期、时间,和特殊字符,见表9。
标准阿拉伯语包含一个几乎无限数量的模式,不同于经典阿拉伯语,其中包含很少的模式。在经典阿拉伯语、数字通常使用单词表示,例如,ثلاثة而不是使用数字3。日期通常是指描述一个事件,但没有特定的公式。时间通常不作为特定的小时;相反,时间被定义为晚上,天,或祈祷时间。
4.3.4。语法规则
基于规则的方法是由语言项目和规则。启发式规则是与阿拉伯语语法规则来处理名称一致。这些启发式规则和语言项被用来识别NEs的新文本。表10介绍了关于新的语法规则的统计信息。
如表所示10,有22个新的语法规则大部分为新类型的NE在CA。
(1)一般规则。一般规则是用于所有学院。下面的章节将讨论在这项研究中使用的一般规则。(我)连接词连接的句子或单词组。在阿拉伯语,一些连词可以附加到一个单词,而不是分开,因为他们都是英文的。这可以使识别NEs挑战性。在这项研究中,连词是分开不通过检查单词开始ك/k,ف/f,و/ w,ل/l,ال/ al如ومكة或马考。这项研究还研究了ا/结尾的单词,例如,يمنا/也门。也门的原词يمن这意味着最后一个字母是分开的词为规则的应用程序允许到达正确的名字。(2)分类不取决于NE之前发现的词语。例如,萨尔曼·国王大学是一个组织的名称。萨尔曼·王是一个学名。名称链接时,前面的字是检查,所以当连接名称,一般看前面的词。作为一个例子,萨尔曼·国王大学,这句话被归类为组织的名称。(3)序列(连词)的信(عن/一个或و/和)单词连接句子或单词组。例如,(أخبرنامحمدوعليوصالح/穆罕默德和和萨利赫告诉我们)如果第一个词属于东北,然后连词分为东北之间的所有单词。(iv)如果这个词出现在信و/,这是归类为NE。例如,在句子عبدالجباروأحمدومنيرذهبواإلىالمدرسة,翻译成Abdul -贾巴尔,艾哈迈德,姆尼尔上学,之间的名字吗و/和被归类为一个人的名字。
(2)真主的规则。真主有99名。真主的99个名字分为两类。第一类包括名字,只用于描述真主和没有其他人。如果找到这些名字在文本,他们是真主不直接相关。属于这一类的名称包括真主الله,Ar-Rahmanالرحمن,As-Samadالصمد,和Dhu-al-Jalal wa-al-Ikramذوالجلالوالإكرام。第二类包含名字,并不特定于安拉,这可以用来描述他人。Al-Ghaniالغنى和“富人”这种名字的例子。这些名称是由以下标识:(我)的名称不应包括任何令牌与真主正如上面所讨论的具体名称。(2)这个名字不应该令牌Abd之后,عبد。(3)之前的名字不应该“说。”(iv)这个名字不应该令牌后的描述سبحانه“subhanah。”جلا“杯子”تعالى——“taealaa”全能的。
(3)先知。NE贴上一个“先知式”如果名字之前或之后的描述:“alnnabaya /النبي”,“alrrasula /الرسول,”“slaa alllah ealayhwasalama /صلىاللهعليهوسلم,”“elihalssalam /عليهالسلام,”“sydna /سيدنا,”“khatmalnnabyn /خاتمالنبيين,”“悉德almrsalin /سيدالمرسلين,”“rssulallh /رسولالله,”或“悉德alrrusul /سيدالرسل。”
(4)人。与人的名字相关联的实体分类如下。发现之前或之后的所有单词bin /بن或少女/بنت被归类为名字的人。NEs的许多经典阿拉伯语单词相关的人这个词等儿子/بن和女儿/بنت。很少使用这些话不使用一个名字,例如,穆罕默德•本•阿卜杜拉和法蒂玛少女穆罕默德。如果这个词开始ال/ al之前和结束与ي/丫,是一个人的名字,然后ال/ al和ي/丫也将归类为一个人的名字。例如,رمزيالسماوي/拉姆兹Alssamawi包含拉姆兹/رمزي,这是一个人的名字。这个名字开始ال/ al和结尾ي/丫السماوي/ alssamawi,这两个现在将归类为一个人的名字。
(5)号码。数字记录的单词而不是数字的列表是补充道。这是典型的古典阿拉伯语,例如,第十Dhul-Hijjah记录العاشرمنذيالحجة。
(6)时间。在经典阿拉伯语只是定义为黑夜或白昼或作为一个祈祷的时候了。如果这个词أول/第一或者这个词آخر/最后一次发现前一个字开始吗ال/阿拉巴马州如أولالليل/第一晚上或آخرالنهار/最后一天,那么所有这些话被归类为NE。祈祷时间被视为落入NE类别,例如,بعدصلاةالعصر/后Asr祈祷,指日落之前的那一刻。令牌也被归类为不是不是قبل/之前,بعد/之后,或في/和下一个单词是下列之一:,ضالضحى/ dhaaحوة/ dihwtuصبح/ sibhaصباح/ sibahالظهر/ alzhrالظهيرة/ alzzahirtiغداة/ ghidatiالعصر/ aliesriالنهار/ alnnahar”أولالنهار/本文alnnahar,نصفالنهار/ nisfalnnuhar,آخرالنهار/ akhuralnnahar,,مالمغرب/ almaghribغرب/ mighrabالعشاء/ alesha’,المساء/ almasa’,الليل/ alllila”أولالليل/锥子allili,آخرالليل/ akhar烯丙基,الزوال/ alzwalالغروب/ alghrwbهاجرة/ hajr。
4.3.5。黑名单
黑名单包含所有没有不相关的单词。提出了基于规则的系统,如果有的话是不是黑名单,它将改变规则从东北到别人。在这个例子中قالالإماممحمد,伊玛目穆罕默德说,قال是一个触发字,按照规定,下一个单词应该是一个人的名字。然而,在这种情况下,下一个单词الإمام/伊玛目,这是黑名单,因此这令牌不归类为NE。
4.3.6。基于规则的系统整合语言资源
在早期的研究中,基于规则的方法中的步骤是独立的一些方法仅依赖触发词或语法规则。在这项研究中,设计了基于规则的方法,利用一切可用资源之前比较结果(见图5)。
三个案例都显示在图5。如果所有的特性从一个令牌使用不同的资源是假的,然后令牌不是任何不相关。如果只有一个特征提取从黑名单上发现的令牌,令牌是不与任何类型的不相关。如果特征提取黑名单上的令牌被发现是假的,有多个功能,令牌和超过一种类型的不相关。
4.3.7。注释编码
编码方案需要代表注释的红白机内部。编码方案每个令牌在一个文本标签。最简单的编码方案是IO编码,标记每个令牌作为一个NE(“我”)或不是一个NE (“O”)。IO编码并不代表两个NEs发现相邻。另一个编码方案是生物编码。生物编码是经常使用的,因为它解决了边界问题中发现编码方案。在生物编码,令牌相关不可以标记为一个“B”,表明它是第一个令牌或NE的名称的开始一个“我”表明这个令牌也不相关。一个标签的“O”表示令牌不是不相关。
5。实验结果
类型和跨度的属性用于定义每个NE。这两个属性是必须的,但更重要的是使用正确的类型的跨度不可以挑战来确定。该方法依赖于触发词、模式地名表,规则,和黑名单。第一个实验是如何进行的使用触发字影响了NEs的识别。不使用触发词的结果如表所示11和图6。
地名表包含了NEs,他们扮演了一个至关重要的角色,NEs阿拉伯语的文本识别的使用提出了基于规则的方法。大多数阿拉伯NEs地名表被发现,他们在文本中很容易被认出来。第二个实验的影响在本研究进行的检查不使用地名表。结果表中可以看到12和图7。
第三个实验进行了调查模式如何影响该方法的结果。模式是用来识别NEs通过识别文本中的日期和时间。表13和图8显示的结果不使用模式。
我们的方法使用启发式规则来源于阿拉伯语语法规则来识别NEs阿拉伯语的文本。NEs的启发式规则被用来识别新的文本。接下来的实验进行了确定不使用这些语法规则的影响。结果如表所示14和图9。
黑名单是一个重要的资源,以确定正确的类型的东北。不使用黑名单识别结果如表所示15和图10。
总体结果生成的阿拉伯语尼珥提出了研究NEs如表所示16。图11视觉代表结果五个主要组件:触发词,模式、语法规则、黑名单、地名表。
研究阿拉伯文字时,NEs可分为属于通用域或伊斯兰域。这项研究集中在经典阿拉伯语的文本,因此NEs发现在伊斯兰域,如书、先知、真主,Rlig,教派,犯罪,宗族,地狱,和帕拉,被认为是。图13描述了关于这些NEs提出系统的性能。
5.1。比较基准和基于规则的方法
自语料库在本文使用的是一个新的实验数据,10%的语料库已被评估使用现有工具(门和语言计算机)。从这些工具基线结果获得的结果。因此,本节介绍了基线之间的比较结果和基于规则的方法的结果。使用相同的数据集在基线结果,提出的基于规则的方法评估使用相同的评估措施。表18介绍了对比基线结果和该方法的结果。
表19介绍了对比基线结果和方法的结果。
如表所示19和图14门和语言电脑低结果和一些偏见与0 -值。这是因为语言电脑不能识别五NEs,未能识别两个门。因此,提出了基于规则的方法表现好于门和语言F-measure方面的计算机系统。
6。结论
本文提出了一种新的基于规则的方法。语言的描述所使用的资源提供了新方法在新方法解释道。然后,操作内容(读操作文件,读语言资源,创建正则表达式,和规则)讨论了预处理和处理阶段。本研究提出的新方法使用触发词,地名表,正则表达式语法规则,和黑名单,方法是在这一节中解释。最后,基于规则的方法评估。结果表明,这种方法实现了90.2%的精度和召回和89.3%的F-measure 89.5。
尼珥是一种提取信息,并使用它在几个NLP操作,包括机器翻译、信息检索。阿拉伯语尼珥是吸引越来越多的关注,但阿拉伯语的独特性质意味着使用尼珥是很困难的。由本研究的贡献是必不可少的步骤为这些问题找到解决方案。
数据可用性
使用的数据来支持本研究的结果可在第一作者和通讯作者。
的利益冲突
作者宣称没有利益冲突。