文摘

持续的增长数字文件和其他数据的大量阿拉伯语网上增加了需要分类方法,可以处理这些数据的复杂的性质。阿拉伯语中扮演了一个重要的分类和重要的作用在许多现代应用程序和干扰其他科学,从搜索引擎和不以物联网结束。然而,解决阿拉伯分类错误与高绩效在很大程度上是不足以应对大量揭示阿拉伯文档的分类;虽然有些工作是解决阿拉伯文本的分类,大部分的研究都集中在英语文本。方法提出了英语不适合阿拉伯语两种语言的形态显著不同。此外,形态学,阿拉伯语的文本的预处理是一个特别具有挑战性的任务。在这项研究中,三个常用的分类算法,即再邻居,朴素贝叶斯、阿拉伯语和决策树,实现了文本以评估其有效性和没有使用光抽梗机在预处理阶段。在实验中,一个数据集来自机构法国Persse(法新社)阿拉伯语新闻专线2001组成的四类和800个文件是使用三个分类器分类。结果表明,决策树与光抽梗机有最好的分类算法准确率93%。

1。介绍

机器学习(ML)是人工智能(AI)的一个分支的研究(1),致力于开发相关的多用途算法基于少量的数据。区别毫升方法和一般人工智能在发现数据中的模式和使用数据的方式。有不同的ML的应用的例子,如发现欺诈、天气预报、病人的诊断。毫升的两种主要形式是监督和非监督学习。我们认为前者,这涉及到代从标记的训练数据映射到一个输出的预测或类。这个过程可以被描述为分类和监督毫升的核心方面。

分类包括输出值的确定,称为类或标签使用输入对象。这种映射称为模型或分类器。输入的对象分类相关对象也公认为例,实例,或元组。根据(2],毫升分类技术包括结合几个实例连同他们已知的标签通过手动标记的一组实例。的实例被公认为一个训练集的标签。标签实例(即。,training set) are used by classifier to generate the model that maps the instance to its label. As a result, then the training model can be used to label or classify new, unknown instances. In the current study, which focuses on the classification of Arabic text, the instances are carefully chosen from a prelabeled pool of instances by employing enhanced Arabic classifiers.

有许多情况下,标记文件既丰富又便宜。然而,标签被认为是昂贵和耗时。例如,它可以非常方便地获取大量的文档基本上没有价格;相比之下很多钱支付人评论主机对这些文档进行分类与主题分类是否用阿拉伯语或关注。视频很容易收集数据,但很难得到良好的语义内容标签的数据。同样,很容易得到一个广泛的化合物可能是有用的治疗一种疾病,但它是非常昂贵的运行昂贵的生化测试哪一个确实有效。这三个例子本质上是分类问题。

已经实现了一些算法来解决(TC)的文本分类问题。一个以上的在这一领域的研究工作都集中在英语文本。相比之下,目前还没有做过任何研究阿拉伯脚本。英语文本不同于阿拉伯语的文本的形态结构,这使得阿拉伯文本的预处理更具挑战性的原因。这项研究的目的是评估阿拉伯语的文本分类系统的性能使用三种不同的分类方法,也就是说,决策树(DT),朴素贝叶斯(parametric-based),再(资讯)(基于实例)分类器。为了得到最佳的加权集成方案和技术,各种加权方案采用的两种方法。

在接下来的部分2讨论了文本分类。那么我们现在这个工作的动机和目的3。概述相关的工作和这三个分类器被认为是在这个研究提供了部分4。部分5介绍了框架的阿拉伯语的文本分类器。部分6描述了实验和部分7介绍了文档表示。部分8礼物结果和部分9包含结论和未来的工作的细节。

2。文本分类

文本分类是一个机器学习的监督任务要求prelabeled文档需要学习。此外,它的目标是发现新文档基于特定的学习标准(3]。基于文本的应用知识和TC特性尤其重要,在自然语言处理(NLP),至少,因为最近的体积增加可用的文本数据。的一个例子在这一领域需要TC和NLP是过滤4),这是一个过程,尝试过滤用户的入站文档识别那些不必要的或不请自来的。另一个原因是情绪分析(5),看起来在文档中识别一般的感觉消失了为了测量,例如,客户满意度。

可以应用监督学习算法训练分类模型的一组各自的问题国家克服TC中遇到的问题。这些模型可以被用来识别标记文档类(2,6- - - - - -10]。

在TC的方法有两个阶段:训练和测试。训练阶段涉及建立一个分类器使用一组收集到的文档(称为训练集)和训练集的一个子集分配到每个类别在处理之前通过几个NLP技巧。这个处理的目的是提取的特征的训练集将被用作代表每个类别。收集到的文档的其余部分是所谓的测试集,用于测试阶段评估的性能分类器的分类能力的文档还没有见过到正确的类别、性能评估通过比较选择的类别分类器与预定义的文件(3]。

TC系统通常由这些部分组成:(我)文本预处理,将文本转换为一组可以被分类处理的维度。(2)降低维数,减少特征数量来提高分类算法的效率。这可以通过使用特征选择和降维等方法8,9,11,12]。(3)分类器训练,建立一个自治的过程分类器使用监督学习框架(2]。(iv)预测,使用训练分类器的过程为新文档生成标签(2]。

它一直显示在[13),文本可以象征性地表示为一组特征采用两种表示方法,即语法和袋单词(鞠躬)。前者涉及到一些单词或句子的使用特点而后者采用的文字或字符的顺序n长度。过去的研究(14,15)指出,建立一个精确的TC系统需要有效处理大量的特征或特性(可能是成千上万的数量)。因此有些信息检索(IR)技术如遏制和消除障碍已经被用来降低特征空间维数。

3所示。动力和目标

使用技术分类的重要性增加了由于需要有能力自动分类的大量不同的基于文本的信息可以在互联网上找到和电子/数字格式在许多语言,包括阿拉伯语。因此,最初的几项研究集中于解决的挑战与标准阿拉伯语相关文档分类器(6,7,9,16),然后鼓励更多的研究集中在增强阿拉伯文档分类器的性能。这项研究仍在继续,因为大多数阿拉伯分类器的特点是他们无法准确地处理大量的文件已经被确认为阿拉伯语文档。因此,这被认为是阿拉伯语的分类文本的主要问题。

研究人员面临的主要障碍之一在文本分类领域的文档在阿拉伯语是可用的分类器处理引发的失败,这是一个因素,可能会影响其他进程在文档分类系统。为了解决这个问题,引发的一种算法被用来定义规则,这个规则取决于话语的语法成分的处理解决形态和句法的复杂性。

TC的主要问题是与巨大的特性从文本中提取(可以达到数百或数千)。因此,所需的时间用一个术语的概念可能增加和特征空间的维数太高可能会降低分类器的性能。特性或特征尺寸的数量可以减少从文本中提取必要的语义(17,18]。

因此,为了减少阿拉伯语的特征尺寸文本,本研究评估三个分类器没有和阻止(19]。希望本研究的结果将有助于改进的跟踪和检测的新文档及其分类相关的类别,因此,改进的阿拉伯语分类器的性能。总之,本研究试图回答以下研究问题:什么是分类技术对阿拉伯语的影响没有或使用抽梗机文件?

文本分类是指分配预定义类别的文本根据文档的内容。自然语言处理和其他应用程序的文本知识,文本分类是很重要的。文本分类的重要性是由于最近的体积增加可用的文本数据。可以克服文本分类的问题通过应用监督学习算法来训练分类模型和一群上述问题澄清的问题正确分类的例子(标签)。这些模型可以用来预测标记文档的标签(12,20.- - - - - -23]。一个文本分类系统可能由以下组件。

人们猜测的结构类别事先知道在监督的情况下算法,这些算法需要一组标记将文档映射到一些指定类的文档。然而,正如上述,巨大的数据集很难的话真正的标签和类文档的训练集。因此,重点和回顾在这一节中最常用的分类算法的基础上,也就是说,然而,NB, DT。

4.1。再算法(资讯)分类器

然而,是一个流行的基于实例分类器。有两个基本步骤,然而,是一个流行的基于实例的学习开发技术已在几个文本分类任务效率。流的算法归结如下:第一,k最近的邻居发现在给定的训练文档(24]。第二,测试文档类别发现使用这些邻居的分类标签。传统方法通常与最常见的标签分配测试文档的类别再建立邻居。

传统的资讯是扩展加权的基础资讯,每个邻居的贡献权重对其毗邻测试文档。接下来,相邻的相似文档收集每个类获取文档类分数;即。,the class score x文档说明如下: 培训文档在哪里= ,x最近的k培训文档是= , =余弦相似性xd, 如果函数值为1 是相关类 ,和0。班上最高的分数分配x测试文档。

4.2。朴素贝叶斯分类器(NB)

NB分类器是一个简单的probabilistic-based分类器,这是基于贝叶斯定理的可能性估计类分配给一个测试文档使用条款和类的联合概率这样的文档。的天真的方面分类器源于其假设条件独立的每个类别的其他类别的所有条款。基于这样的假设的独立,每一项的参数可以单独学习,因此,简化计算操作相比non-NB分类器。NB适当的分类器可以仅仅假设没有关系的存在或不到法院一个特定类别特征与其他特征。我们可以表达这种假设如下: 在哪里P(C|d)是指前面的类的概率C的一个新实例dP(C)象征着脚趾的概率类C,这可以算 适当的样本与类相关联C=N,N类的数量,一个样本的可能性d被分配到一个类C=P(d|C),样品的可能性d=P(d)。

4.3。决策树分类器(DT)

DT是一种常用的归纳学习方法,它的特点是其抗噪声数据和能力学习能力详细的表情,这使它适合的文档分类(25]。该算法采用“分而治之”的方法,在划分成几个简单的复杂的决策。

它将复杂的决策划分为几个简单的。DT的学习阶段,它包含从一组标记的训练例子表现在记录特性值和一个标签类由于大领域的决策树学习和搜索是自上而下的,重复的过程和贪婪的从空树开始,整个训练数据。特性有更多关于内容的信息和最佳分区选择分裂特征训练数据和根,然后训练数据分为不相交的子组满足切口的价值功能。的每一个群,该算法前进行反复,直到每个子群的类保持同样的类(3]。

5。阿拉伯语的框架文本分类器

在回答用户的需求,TC系统请求得到以下:预期的文档进行分类,分类它迅速,满足用户的需求,并获得最佳分类效果(26,27]。因此,阿拉伯语的目的TC (ATC)结构在这项研究是提高ATC系统效率,如果系统考虑语义关系和阿拉伯语词汇的复杂性。

ATC框架取决于以下阶段:预处理,提取、表示、分类器的应用,和评价。ATC框架考虑这些重要问题(图1)。

ATC系统的第一步是预处理阶段,这是一个重要的步骤来表示文档。它涉及的初始处理文本索引选择合适的词汇。通过预处理阶段,像阻止执行许多操作时,停止词淘汰赛,标记和规范化。

在这项研究中,主要的贡献是建立一个阿拉伯语的文本自动分类器分类文档基于形态学知识表示利用光抽梗机。一般程序中执行这个方法如下(图2)。

3显示了不同阶段的ATC框架,将部分中详细讨论6“实验”。

6。实验

阿拉伯语分类是一个监督learning-dependent过程;3毫升流程和监督算法被用在这个实验中,然而,NB, DT分类器(28]。为了提高阿拉伯语分类的准确性,阿拉伯Light10抽梗机采用和测试。在本节中,前面所示的步骤在阿拉伯语的文本分类器提出了框架和测试。

6.1。数据集

我们使用一个数据集,包括800个文档,被分为四类。这些文档提取相关文件的(即四个查询。,each query represents class) from an Arabic Newswire dataset that were used recently in TREC experiments [29日]。图4显示了一个示例文档的数据集。

6.2。预处理

预处理阶段的目的是过滤掉不重要的数据,如标签(即。<文件>,< DOCNO >、< DOCTYPE >、< DATE_TIME >、<身体>、<文本>、< END_TIME >)从一个文档。在进行预处理的步骤中,文档必须转换为格式适合表示,这样学习算法应用过程。这后,删除不必要的词用作字符如标点符号和特殊标记。因此,在执行这个步骤,一般三个识别任务,标记和规范化,障碍清除(为了降低特征空间的维数),主要是阻止和词元化,需要完成。回顾的基础上,这些任务在先前的研究中,以下部分提供了一个简短的描述这三个任务。

6.3。标记和规范化的数据

根据(31日),文本文档通常是转换的方式适合他们的分析利用机器学习算法。文本分为单独的单元通过使用空格或特殊符号。因此,每一个字在文本被表示为一个单元。这个过程被称为标记。例如,(خيرجليسفيالزمانكتاب)它可以使用空格标记化的令牌(词)的列表(خير،جليس،في،الزمان،كتاب)。因此,另一个任务被称为规范化是有用的,因为这是做过的任务特别是阿拉伯脚本。这是阿拉伯语的文本正常化的原因可以帮助降低各种形状的字符产生一个穿制服的形状代表这些形状。这是如下例所示:(我)替代ﺁإ以及أ由ا(2)替代过去的ة由ﻩ(3)替代过去的ى由ي

6.4。消除障碍

障碍是那些单词在文档中频繁出现的。这些话给任何提示出现的文档内容。停止词删除提交之前是强制性的文本处理的ATC系统以减少时间和成本。因此创建一个停止单词列表,然后应用于索引术语被淘汰。然而,ATC系统没有突出的停用词表可用于这种系统。因此,实验中,相同的停止词列表中使用(32这里使用)。表1提供了一些阿拉伯语障碍的例子。

6.5。而文本

文本引发过程有助于减少各种屈折派生单词形式统一称为干细胞(32]。例如,术语中,“工作”,“作品”,“工作”,“工作”,和“工人”是源自于“工作”。表2显示了一个示例不同的阿拉伯语词汇源自相同的根。根一词是通过消除了部分或全部的单词后缀附加到它。ATC系统的条款被组合在一起,共享相同的茎或根,这有效地提高用户查询匹配的文档的数量。此外,有一个整体的改善ATC性能降低字典的大小引发过程的结果(33]。

在本文中,为了阻止我们遵循了同样的遏制措施(33)使用Light10抽梗机,如下所示:(1)删除“و”(”和“)Light2、Light3 Light8, Light10如果剩下的单词是三个或更多字符(2)消除的文章,把剩下的词有超过或等于两个字母(3)把单词长度的两个或两个以上的字母后缀删除后出现在列表中;删除一次从右到左

3显示的字符串列表应该被删除。注意,一起和明确的文章都是表中所示的前缀。没有消除了认为实际的阿拉伯语前缀的字符串Light10抽梗机。

4显示了一个示例的阿拉伯语词缀。

7所示。文档表示

每个文档的研究数据集是由一个向量表示t的属性和属性值作为其任期TFIDF重量(34),这是一个统计的方法确定一个词的相关性语料库中的一个文档。最常用的方法,体重一个术语(TF.IDF)权重,因为它考虑了属性。这个加权方案,设置文档中的词我的重量d这个词出现的次数成正比的文档,这个词频率(TF)和逆相关的文档总数从语料库出现这个词,逆文档频率(IDF)。

重量加权TFIDF方法分配一个词在文档中出现的数量,无视其相关性,以防出现在大多数的文件,特别是当这个词被认为拥有小辨别能力:

7.1。建设三个分类器

在这个实验中,阿拉伯语数据集文件是使用以下分类器分类:然而,NB, DT以两种形式,全词(没有阻止)和阀杆(全词受制于light10抽梗机)。

7.2。分类质量的评价和比较

两项措施主要是用来评估分类器的输出的质量,即f-measurement和准确性(35]。在分类问题中,评价通常是在混淆矩阵的形式表示。矩阵包含正确的实例的数量和每个类的错误分类。

在实践中,使用最广泛的评价指标的准确性(ACC)率。它代表了分类器的效率基础上的比例正确预测实例的数量分类器。分类器精度计算

8。结果

进行比较的三种分类器的精度和特征选择的数量,没有阻止在预处理阶段的使用。表56显示三个分类器的结果没有抽梗机,分别。

表显示,没有抽梗机,DT表现资讯和NB的识别率可以达到90%到33.83%和26.11%相比,分别。当抽梗机包括在预处理阶段,所有三个分类器改善他们的表现,再一次,DT产生最好的结果的93%相比NB的35%和26.36%。然而因此,使用抽梗机改善这三个分类的准确性。此外,表显示,除梗器的使用也减少了大约50%的分类器的数量特征。图5提供了一个图形化的结果,我们可以得出结论,特征的数量影响NB和资讯的性能。然而,当使用所有功能精度可达到26.12,而当使用抽梗机性能不满意,精度为26.36%。NB的其他分类器抽梗机提高1.8%左右,但与DT表现更好。我们可以得出这样的结论:DT可用于巨大的功能比NB和资讯。

结果表明,决策树与光抽梗机是最好的分类算法的准确率93%。

9。结论和未来的工作

本文发展我们的方法之前,我们回顾了一些先前的研究,有助于提高我们对学习的理解问题,即阿拉伯语的分类文本,和可能的解决方案。鉴于阿拉伯语大量信息网上,并持续增长,本研究的主要目的是保存用户和开发人员的努力和成本寻找和使用这些数据。在这项工作中,我们解决的弱点分类器之前用于TC资讯,NB, DT。分类器算法的主要弱点是贫穷时持有大量的功能。根据我们的实验结果,我们发现DT和除梗器可以提高效率,优于其他分类器相比,这项工作。然而,条款的维度没有光阻止是主要的弱点在预处理阶段,哪里有需要的数量特征选择来填补这一缺口巨大的条款作为一个未来的工作。我们提供未来的工作改善文本分类器与深度强化q学习结合我们的建议。我们也建议使用其他分类标准不习惯在这工作。

数据可用性

数据是可用的https://catalog.ldc.upenn.edu/LDC2001T55并不是免费访问。

的利益冲突

作者宣称没有利益冲突有关这项研究的出版物。