文摘
社交媒体已经成为最受欢迎的信息来源之一。人们相互交流和分享他们的想法,评论全球问题和事件在一个多语言的环境中。尽管社交媒体已流行数年,最近,它给了一个指数上升,日益普及的一个网上数据量,因为当地语言。这允许NLP社区的研究人员利用不同语言的丰富性,同时克服这些语言带来的挑战。乌尔都语也是大多数使用当地语言的使用社交媒体。在本文中,我们提出了乌尔都语语言文本的第一个事件检测方法。多级事件分类是由流行的深度学习(DL)模型,即。,Convolution Neural Network (CNN), Recurrence Neural Network (RNN), and Deep Neural Network (DNN). The one-hot-encoding, word embedding, and term-frequency inverse document frequency- (TF-IDF-) based feature vectors are used to evaluate the Deep Learning(DL) models. The dataset that is used for experimental work consists of more than 0.15 million (103965) labeled sentences. DNN classifier has achieved a promising accuracy of 84% in extracting and classifying the events in the Urdu language script.
1。介绍
在当前数字时代,社交媒体主导的其他来源的沟通,即。、印刷品和广播媒体(1]。实时可用性(2和多语言支持3)是关键特性,提高使用社交媒体进行交流沟通的!使用当地语言在社交媒体在过去的几年里。人们分享想法、意见、事件、情绪、广告等。4)世界上通过社交媒体使用本地语言。大量的异构数据的生成导致挑战中提取有价值的见解,而这些信息起着至关重要的作用在发展中自然语言处理(NLP)应用程序,即。,情绪分析5)、风险因素分析(6构造函数),法律和秩序预测,时间表,认为矿业、决策系统(7),监控社交媒体(8),垃圾邮件检测、信息检索、文档分类(9)、电子邮件分类(10),和句子分类(11],话题建模[12),内容标签,找到最新的趋势。
在南亚(https://www.worldometers.info/),约24.98%的世界人口生活在不同的国家。许多语言都在亚洲。其中最著名的是阿拉伯语、印地语、马来语、波斯语、乌尔都语,等等。
1.1。乌尔都语语言的特性
乌尔都语语言是一种经常使用的语言在南亚有关社交媒体的沟通,即Facebook, Twitter,新闻频道,和网络博客(13]。也是巴基斯坦的国家语言是6日(https://www.worldometers.info/world-population/population-by-country/世界上人口最多的国家。在其他国家,例如,India, Afghanistan, and Iran, the Urdu language is also spoken and understood. There are 340 million people in the world who use the Urdu language on social media for various purposes [13]。
乌尔都语语言遵循从右到左的书写脚本。其语法结构不同于其他语言。(1)Subject-object-verb(位)句子结构14](2)没有字母大小写(3)变音符号(4)免费的词序(15]
乌尔都语语言有38个基本特征,可以写成加入并与其他字符[non-joined16]。乌尔都语字母的单词有加入字符集合被称为结扎,这字母成为可能的加入特征丰富乌尔都语词汇有近24000绑扎(15,16]。提到这是相关的字母也被认为是设置为所有乌尔都语基于脚本语言字母的超集,即阿拉伯和波斯,分别包含28个和32个字母。此外,还有一些额外的字母用乌尔都语脚本,用来表达一些印地语的音素(15,16]。
1.2。事件分类
一个事件可以定义为“具体行动、情况或事件发生在一定时期内(17,18]。“提取的信息可以代表不同类型的事件,例如、体育、政治、恐怖袭击和通货膨胀,等等。信息可以发现和分类在不同的粒度级别,即。,文档级别19),句子水平(20.),文字水平,人物等级,和短语级(21]。
事件分类是一种自动化的方式为新实例分配一个预定义的标签。相关的描述,分类可以是二进制,多级,multilabel [22]。
神经网络用于文本分类的实现提供帮助来处理一个复杂的和大量的数据(23]。语义相似的词是用于生成特征向量(24消除- gram的稀疏模型。乌尔都语(执行文本分类25)来评估产品的质量基础上的评论和反馈。在[25),嵌入式层神经网络是用来将文本转换成数值和分类在文档级别执行。相反(25),多类事件分类表现在句子层面上而不是文档级别。我们进一步执行多个实验使用TF-IDF开发一种有效的分类系统,one-hot-encoding, pretrained乌尔都语字嵌入模型,通过创建custome pretrained乌尔都语语言文字嵌入模型。
1.3。事件分类的挑战
处理资源的缺乏,即。,part-of-speech (PoS) tagger, name, entity recognizer, and annotation tools, is the other major hurdle to perform the event detection and classification for the Urdu language. Many people are unfamiliar with the meaning and usage of some Urdu words. It creates semantically ambiguous content that makes the event classification process a nontrivial and challenging task. The unavailability of appropriate resources/datasets is another major challenge for data-driven and knowledge-based approaches to extract events and classify events.
给出我们的贡献如下:(1)首次大规模标签乌尔都语事件分类的数据集是最大的实例(15)和类(25在其他乌尔都语的文本数据集在先进的报道19,26,27](2)我们最好的知识,它是第一个多级事件分类任务乌尔都语语言在句子层面(3)不同的特征向量生成方法,即。,one-hot-encoding, word embedding, and TF-IDF, are used to evaluate the performance of DNN, CNN, and RNN deep learning models(4)Pretrained和自定义词嵌入模型乌尔都语语言也探索(5)传统机器学习分类器的性能比较和深度学习分类器
在这篇文章中,我们进行了多级事件分类不平衡数据集的乌尔都语语言文本。我们的框架是一个设计分类十二个不同类型的事件,例如体育、通货膨胀、政治、伤亡,法律和秩序,恐怖袭击,性侵犯,欺诈和腐败,娱乐,商业,天气和地震。此外,我们还提出了一个详细的比较分析不同深度学习的算法,即。,long short-term memory (LSTM) and convolutional neural network (CNN) using TF-IDF, one-hot-coding, and word embedding methods. We also compared the results of traditional machine learning classifiers with deep learning classifiers.
2。相关工作
在过去,研究人员冷漠的乌尔都语语言,因为有限的处理资源,即。、数据集、注释器、词性(PoS)涂画者,和翻译(14]等。然而,现在,过去几年以来,基于特征分类乌尔都语的文本文档开始使用机器学习模型(28- - - - - -30.]。提出了一种框架(31日)中国短的文本分类分成7类(32的情感和产品审核。从文本文件信息和概念信息从外部知识库作为补充提供神经模型的输入。
CNN和RNN的融合模型用于句子使用电影评论数据集进行分类,取得了93%的准确率(33]。比较研究机器学习(毫升)和深度学习(DL)模型提出了(25]乌尔都语的文本分类文档级别的。CNN和RNN单层/多层架构用于评估三种不同大小的数据集(26]。他们的工作的目的是分析和预测产品的质量,即。、有价值的、没有价值的,相关的,无关紧要的,不好,好,或者很好的25]。
不同数据集报道的艺术,即。,Northwestern Polytechnical University Urdu (NPUU), consist of 10K news articles labeled into six classes, Naïve dataset including 5003 news articles consists of five classes [34)和语料库的乌尔都语新闻文本重用(柜台)有1200新闻文章有五类(27]。CNN和RNN层组成的联合框架用于情绪分析(35]。斯坦福大学电影评论数据集和斯坦福树图资料库数据集被用来评估系统的性能。分别提出了系统显示,93.3%和89.2%的准确率。
在[35],作者进行了监督文本分类在乌尔都语语言通过使用统计方法如朴素贝叶斯和支持向量机(SVM)。分类是由应用不同的预处理方法,即阻止,停止词删除,停止消除和抑制。实验结果表明,热气腾腾的过程对提高性能影响不大。另一方面,消除停止词表现出积极的影响的结果。SVM比朴素贝叶斯的分类精度达到89.53%和93.34%的基于多项式和径向函数,分别。
同样,应用支持向量机也在新闻标题分类36在乌尔都语的文本显示非常低的精度提高3.5%。新闻标题是一小块的信息经常不描述内容的上下文意义。在[36),多数表决算法用于文本分类在乌尔都语语言显示94%的准确率。分类是进行七种不同类型的消息文本。然而,实例的数量是非常有限的。一个动态神经网络(37)设计模式的情绪的句子。它由动态K-modeling、池、和全球池在线性序列执行多级情绪分类。
执行不同任务(38]的作者使用混合方法基于规则和基于机器学习技术来执行情绪分类,同时分析脚本(乌尔都语38在短语层面。混合方法显示精度为31.25%,8.46%,和21.6%使用召回的性能指标,精度,分别和准确性。在[39),递归神经网络(RNN)的一种变体,称为长期短期记忆(LSTM)是用来克服的弱点bag-of-words和n克模型和表现这些传统的方法。
一个神经网络系统39)是对事件进行分类。系统的目的是帮助人们在自然灾害如洪水通过分析tweet。马尔可夫模型用于分类和预测分类tweet的位置显示81%的准确率要求帮助和87%的准确率来定位位置。研究工作对生活事件进行检测和分类,即:,marriage, birthday, and traveling, etc., to anticipate products and services to facilitate the people [40]。对生活事件的信息存在于一个非常小的金额。线性回归、朴素贝叶斯和最近邻算法对原始数据集进行评估是非常小但并没有显示出良好的效果。
多个最小约简提取算法设计(41通过改善快速约简算法。多权值用于生成分类规则的集合,它代表的粗糙集分类器。评估建议的方法,一个阿拉伯语语料库的2700份文件被用来分类分成九个类。通过使用多个和单一的最小权值,分别提出了系统显示,94%和86%。实验结果还表明,基于事例和J48算法优于使用手头的数据集对分类精度。
表1描述了前面所讨论的相关研究的总结。
3所示。数据集
3.1。数据收集
与报告的数据集的(27,34)没有为事件创建数据集分类,我们创建了一个更大的数据集的特定事件的分类。而不是集中在一个特定的产品(25)分析,或短语级情感分析38),我们决定将句子划分为多个事件分类。而不是使用联合框架CNN和RNN的情绪分析(35),我们为多级事件评估深度学习模型的性能分类。收集数据,一个基于php的web刮刀写入爬流行的社交媒体网站的数据,即。地理新闻频道(https://urdu.geo.tv/)网站,BBC乌尔都语(https://www.bbc.com/urdu),乌尔都语点(https://www.urdupoint.com/daily/)。一个完整的帖子从网站中检索和存储在MariaDB(数据库)。它由一个标题、身体、出版日期、位置和URL。示例文本或推特的南亚国家的两种语言,即。在Twitter和印地语,乌尔都语语言在Facebook上,如图1。
有015万(150000)乌尔都语语言的句子。数据收集来源的多样性帮助我们开发多类数据集。它由十二个类型的事件。数据集的子集可以用于其他研究人员。
3.2。预处理
在第一阶段的数据准备,我们进行一些预处理步骤,即。、噪声去除和句子注释/标签。所有non-Urdu词、句子、超链接、url、和特殊符号被移除。有必要清理数据注释/标签正确的句子。
3.2.1之上。注释的指导方针
(1)经过每个句子,并分配一个类标签(2)消除模棱两可的句子(3)合并相关句子单个类,即。、事故、谋杀和死亡(4)分配一个十二类型的事件,例如,sports, inflation, murder and death, terrorist attack, politics, law and order, earthquake, showbiz, fraud and corruption, weather, sexual assault, and business, to each sentence
标注数据集,两个M.Phil。语言专家订婚(乌尔都语)水平。他们深读,然后跟录音一起读,逐句分析数据集分配事件之前标签。他们建议把46035句从数据集,因为那些句子不会包含用于事件分类的信息。最后,注释后,数据集大小减少到103965不平衡情况下的十二个不同类型的事件。
注释interagreement,即。,Cohen Kappa score, is 0.93, which indicates the strong agreement between the language and expert annotators. The annotated dataset is almost perfect according to the annotation agreement score.
在第二阶段的预处理,执行以下步骤。标记,停止词,词和句子过滤。
所有这些话不语义有助于分类过程中停止的话,也就是说,وہ،میں،اساورسےوغیرہوغیرہ,等一系列标准停止的话乌尔都语语言是可用的(https://www.kaggle.com/rtatman/urdu-stopwords-list)。
执行数据清理和停止词删除后,每个句子都是基于空格标记成单词。表中给出了句子标记的一个例子2。
之前的预处理步骤显示,很多句子是不同的长度。一些句子很短,许多人很长时间。我们决定为标记定义一个边界长度的句子。我们发现,很多句子中存在的数据集的长度范围从5字到250字。我们选择句子包含5字到150字。一个整数的值分配给每个类型的事件对于所有选中的句子。不同类型的事件的详细描述和相应的数字(整数)值中使用的数据集也在表3。
在图2预处理后,一些数据集的实例。这是一个逗号分隔值(CSV)文件,该文件包含两个字段,例如,句子和标签,即。,numeric value for each class (1–12).
在我们的数据集,三种类型的事件有更多的实例,即。,sports (18746), politics (33421), and fraud and corruption (10078), contrary to three other types of events that have a smaller number of instances, i.e., sexual assault (2916), inflation (3196), and earthquake (3238).
其余类型的事件有一个小的差异的实例。有51814个独特的单词在我们的数据集。可视化在图3显示的数据集是不平衡的。
4所示。方法
也就是说,我们分析了深度学习的性能。,deep neural network, convolutional neural network, and recurrent neural network, along with other machine learning classifiers, i.e.,K最近的邻居,决策树,随机森林,支持向量机,朴素贝叶斯multinominal和线性回归。
乌尔都语新闻标题包含足够的信息,即。,few numbers of words and lack of contextual information to classify the events [29日]。然而,相比之下,新闻头条,句子写在非正式的方式包含更多的信息。能分类执行语句使用深度学习模型,而不是唯一的机器学习算法。绝大多数投票算法优于有限数量的七类的实例。它显示,94%36)的准确性,但在我们的工作中,超过015万个实例,标记成12类是用于分类。
存在几种方法从大量的数据中提取有用的信息。三种常见的方法是基于规则的,机器学习的方法,和混合方法(42]。的选择方法是紧密耦合的研究问题。在我们的问题中,我们决定使用机器学习(传统的机器学习和深度学习方法)分类器。一些传统的机器学习算法,即。,K-nearest neighbor (KNN), random forest (RF), support vector machine (SVM), decision tree (DT), and multinomial Naïve Bayes (MNB), are evaluated for multiclass event classification.
深度学习模型,即。,convolutional neural network (CNN), deep neural network (DNN), and recurrent neural network (RNN), are also evaluated for multiclass event classification.
乌尔都语文本文档的集合 分为一组句子,好吗 。我们的目的是把句子一组预定义的事件 。
各种功能生成方法用于创建深度学习和机器学习分类器的特征向量,即。、TF-IDF one-hot-encoding,字嵌入。特征向量生成的所有这些技术都厌倦了作为输入到神经网络的嵌入层。生成的输出嵌入层是受够了到下一个完全连接层(致密层)的深度学习模型,即。RNN, CNN,款。相关的类标签的十二个类别分配给每个句子的模式处理在测试/验证阶段。
Bag-of-words是一种常见的方法来表示文本。它忽略了序列顺序和语义的文本(43),而one-hot-coding方法保持文本的顺序。字嵌入方法Word2Vec和手套(https://ybbaigo.gitbooks.io/26/pretrained-word-embeddings.html),生成特征向量用于文本数据的深度学习模型是强烈推荐。然而,在乌尔都语的文本分类的情况下,预先存在的wrod2vec和手套是不相容的。
我们设计系统的框架如图表示4。它显示了我们的系统从结构输入生产输出。
5。实验装置
我们进行许多实验数据集通过使用各种传统机器学习和深度学习分类器。许多实验的目的是找到最有效和准确的分类模型的多级事件在不平衡数据集乌尔都语语言文本。详细对比传统分类器和深神经分类器在下一节中给出。
5.1。特征空间
Unigram和三元令牌的整个语料库作为功能创建特征空间。TF-IDF向量化是用来创建一个基于字典的模型。它由656608年的特性。训练和测试数据集转换为TF-IDF基于字典的特征向量。一个卷积序列模型(见图5)由三层组成,即。,the input layer, hidden layer, and output layer, which are used to evaluate our dataset. Similarly, word embedding and one-hot-encoding are also included in our feature space to enlarge the scope of our research problem.
5.2。特征向量生成技术
文本特征向量的数值表示。他们是一个实际的形式的输入,可以处理的机器学习分类器。有几个特征生成技术用于文本处理。我们使用以下特征向量生成技术。
5.2.1。字嵌入
的数值表示文本是每个单词被认为是一个特征向量。它创建了一个密集的向量的值,抓住了语境,语义,语法意义的词。它还确保类似的单词应该有一个相关的加权值29日]。
5.2.2。Pretrained字嵌入模型
pretrained字嵌入模型的使用少量的数据是高度推荐的人员在状态的艺术。手套和Word2Vec著名字嵌入模型,开发了通过使用一个大的数据量。字嵌入模型的文本分类,尤其是英语中,展示出了有前景的结果。它已经成为一个强大的特性向量生成技术等。,TF-IDF特遣部队和一个炎热的编码等。
在我们的研究情况下,句子分类为不同的事件在乌尔都语语言使用嵌入技术这个词可能是更可取的。不幸的是,乌尔都语语言缺乏处理资源。我们发现只有三个字嵌入模型,一个字嵌入模式44)使用三个公开的乌尔都语由数据集,维基百科的乌尔都语的文本,另一个语料库有9000万标记(45,3500万令牌46]。它有102214个独特的令牌。每个令牌由300维的真正价值。另一个模型为研究目的公开由25925个不同的乌尔都语语言的单词(47]。每个词都有一个400 -维值。一个字嵌入模型包括基于web的文本,创建对文本进行分类。它由64653个独特的乌尔都语单词和300维每个单词。
研究并不是在这里的旅程;扩大我们的研究范围和找到最有效的句子单词嵌入模型分类,我们决定开发自定义词嵌入模型。我们开发了四个字嵌入模型,包含57251个独特的单词。
pretrained现有的词嵌入模型的结果擅长最初的但非常低的水平,即。,60.26%的准确率。我们探讨了这些模型的内容,显示,许多话是不相关的,借用其他语言,例如、阿拉伯语和波斯语。维基百科的内容比新闻网站完全不同,也会影响嵌入模型的性能。另一个主要因素,即。,low amount of data, affected the feature vector generation quality. Stop words in the pretrained word embedding model are not eliminated and considered as a token, while in our dataset all the stop words are removed. It also reduces the size of the vocabulary of the model while generating a feature vector. Therefore, we decided to develop a custom word embedding model on our preprocessed dataset. To postulate the enlargement of the research task, three different word embedding models are developed. The details of all used pretrained word embedding models are given in Table4。
5.2.3。One-Hot-Encoding
文本通过机器学习分类器不能直接处理;因此,我们需要将文本转换成一个真正的价值。我们使用one-hot-encoding将文本转换成数字特性。例如,表中给出的句子5可以被转换成一个数字特征向量用one-hot-encoding如表所示吗6。
5.2.4。TF-IDF
特遣部队和TF-IDF特性工程技术,将文本转换为数字格式。它是一种最高度特征向量用于创建一个文本数据的方法。对我们的语料库三种深度学习模型进行评估。顺序模型嵌入层表现优于其他pretrained字嵌入模型(44在最先进的()报告48]。CNN的评价结果的详细总结,RNN,讨论了部分款7。
5.3。深度学习模型
5.3.1。深层神经网络架构
我们款架构由三层组成,也就是说,n固化层,150隐藏(致密)层、输出层和12。给出了特征向量作为输入到一个完全连接的致密层。将SoftMax激活函数在输出层句子划分成多个类。
5.3.2。递归神经网络
递归神经网络评估使用长短期记忆(LSTM)分类器。RNN由嵌入、辍学、LSTM和致密层。字典30000独特的最频繁的令牌。句子是标准化使用填充序列的长度相同。特征向量的维数设置为250。RNN显示一个总体81%的准确率,是第二个最高的我们的工作。
5.3.3。卷积神经网络(CNN)
CNN是一个类的深层神经网络对图像处理(强烈推荐49]。它由输入层(嵌入层),多个隐藏层和输出层。有一系列的卷积层缠绕的乘法。嵌入的序列层和平均层(GloobalAveragePooling1D)也隐藏层的一部分。CNN的共同激活RELU层。多余音节的细节在我们的问题中使用训练CNN模型给出了表7。
5.3.4。Hyperparameters
在本节中,所有hyperparameters用于我们的实验给出的表格格式。只有那些hyperparameters正在这里讨论取得了款的最高精度,RNN, CNN模型。款的hyperparameters中调整我们的工作表8。
RNN模型显示最高的准确性(80.3%和81%)两套hyperparameters中给定表9。同样的,表7提供的细节hyperparameters卷积神经网络。
6。性能测量参数
最常见的性能测量(41参数,即。,precision, recall, andF测量,用于评估拟议的框架。这些参数的选择是决定由于多级分类和不平衡数据集。 TP、TN、FP和FN代表积极,总总负面,假阳性和假阴性值,分别。精度定义为测量彼此的亲密和召回相关的总量的比率(即。TP值)情况下,实际上是在实验工作中检索。值得注意的是精度和回忆都是相对测量值的相关性。
7所示。结果
7.1。深度学习分类器
生成的特征向量可以使用不同的技术。的细节特征向量生成技术进行了讨论5。特征向量生成技术的结果用于我们的工作,例如,“multiclass event classification for the Urdu language text,” are given in the proceeding subsections.
安装7.1.1。Pretrained字嵌入模型
卷积神经网络模型评价的特征向量被所有pretrained字嵌入模型生成。摘要pretrained[产生的所有结果44)和自定义pretrained词表中给出了嵌入模型10。我们的定制pretrained字嵌入模型,包含57251个独特的令牌,350年大的尺寸大小,和1作为一个窗口的大小,显示38.68%的准确率。发展的目的不同的定制pretrained字嵌入模型是开发一个特定领域模型,实现最高精度。然而,结果既存pretrained字嵌入模型和领域特定的自定义字嵌入模型是非常低的。详细的总结表中可以看到结果10。
7.1.2。TF-IDF特征向量
款架构由一个输入层,致密层和马克斯池层。致密层也被称为一个完全连接层组成的150个节点。SoftMax激活函数和sparse_categorical_cross-entropy用于编译模型数据集。
25991个实例被用来验证款模型的准确性。款的连接层架构显示所有事件类总体精度84%。性能测量参数的细节为每个类的事件表11。法律和秩序,第六类型的事件在我们的数据集,包括2000个实例用于验证。显示66%精度的准确性相对较低的其他类型的事件。这款模型的整体性能的影响。这些结果背后的主要原因是法律和秩序的句子与句子的政治。一般来说,有时,人类很难区分法律和秩序和政治声明。
例如,“حکومتیوزیرکیغیرذمہدارانہگفتگوخطےکےامنکےلیےخطرہہے۔”“国家部长的不负责任的说话是一个威胁地区和平”
的性能模型在表款11显示84%的准确率为多个类的事件。所有其他的性能测量参数,即。、旋进回忆,F1-score,每个类的事件表11。
款的准确性可以在图模型5,那里的y设在代表的准确性和x设在代表时代的数量。RNN多级事件分类的准确率达到84%。
预期的解决方案来解决多个类的句子重叠问题是使用“嵌入”pretrained词模型W2Vec和手套。然而,不幸的是,像英语,不过,没有打开/关闭域pretrained字嵌入模型由一个大型语料库乌尔都语语言的文本。
深度学习的RNN顺序模型架构是用于我们的实验。复发性深度学习模型架构下面由一系列层,即。,嵌入层有100个维度、SpatialDropout1D LSTM,致密层。Sparse_categorical_cross-entropy损失函数被用于模型的编译。多级分类分类是由稀疏分类熵损失函数而不是直言叉。SoftMax激活函数用于致密层而不是乙状结肠函数。SoftMax可以处理非线性分类,即。,multiple classes, while sigmoid is limited to linear classification and handles binary classification.
组成的bag-of-words 30000独特的语言乌尔都语单词用于生成一个特征向量。特征向量的最大长度是250令牌。
的整体精度RNN模型提出了表12为我们的问题通过使用达到81%验证准确性TF-IDF特征向量。其他性能评估参数给出每个类的表12。
RNN的准确性可以在图模型6,那里的y设在代表的准确性和x设在代表时代的数量。RNN多级事件分类的准确率达到81%。
尽管CNN是强烈推荐给图像处理,结果显示相当大的多级事件分类文本数据。CNN分类器的性能测量参数表13。
CNN分布精度分类器可以查看图12类7。有多个峰值(更高的精度)图7显示的数据集是不平衡的。
7.1.3。One-Hot-Encoding
深度学习分类器的结果用于我们的研究工作,以及他们的性能one-hot-encoding特性呈现在图8。one-hot-encoded特征向量作为输入给出CNN,款,RNN深学习分类器。RNN显示更好的准确性与CNN而表现其中款。RNN和款分别为81%和84%的准确率,为多级事件分类。
7.2。传统的机器学习分类器
我们还进行了多级事件分类器通过使用传统的机器学习算法:再(资讯),决策树(DT),朴素贝叶斯多项式(现),随机森林(RF),线性回归(LR)和支持向量机(SVM)。所有这些模型评估使用TF-IDF和一个炎热的编码特性,作为特征向量。这是观察到使用TF-IDF特性产生的结果比使用one-hot-encoding特性生成的结果。一个详细的总结上述机器学习分类器的结果在下一节中给出。
7.2.1。K最近的邻居(资讯)
然而,执行一个新的数据点的分类通过测量之间的相似性距离最近的邻居。在我们的实验中,我们设置的值k= 5,五个现有数据点之间的相似性距离(50]。
虽然传统机器学习分类器的性能是相当大的,必须指出它是低于深度学习分类器。主要的分类器的性能退化因素是不平衡的实例数量和句子重叠。然而,机器学习模型的性能表14。它显示了78%的准确率。
7.2.2。决策树(DT)
决策树(DT)决策树(DT)是一种监督机器学习算法(51),根据某些参数数据输入分裂。总体精度通过DT是73%,而另一个的性能细节类和DT模型在表15。
7.2.3。朴素贝叶斯Multinominal(现)
朴素贝叶斯multinominal是计算(52)有效的文本分类器分类,但显示只有70%的准确率很低,然而,相比,DT,射频。所有12个类型的类的性能细节表16。
7.2.4。线性回归(LR)
线性回归预测的强烈推荐连续输出,而不是分类的分类(53]。表17显示了LR的性能模型,即。,84% overall accuracy for multiclass event classification.
7.2.5。随机森林(RF)
它由很多决策树54]。其结果显示在所有评估机器学习分类器精度最高。一个详细的总结在表的结果18。
7.2.6。支持向量机(SVM)
支持向量机(SVM)是一种二元分类的强烈推荐模型。它是基于统计理论(55]。它的性能给出了表细节19。
比较结果的描述传统机器学习分类器在图给出9。
8。讨论和结论
资源的缺乏是一个主要的障碍研究乌尔都语语言文本。我们探索了许多特征向量生成技术。不同的传统机器学习的分类算法和深度学习方法评估这些特征向量。执行许多实验的目的在不同特征向量生成技术是开发最有效和通用模型的多级事件分类乌尔都语语言文本。
字嵌入特性生成技术被认为是一种有效和强大的技术进行文本分析。Word2Vector (W2Vec)特征向量可以由pretrained词嵌入模型或者使用动态参数神经网络嵌入层深。我们执行句子分类使用pretrained词嵌入模型,one-hot-encoding, TF, TF-IDF和动态嵌入。其余的特征向量的结果比pretrained字嵌入模型生成技术。
支持这一结论的另一个论点是,只有少数pretrained字嵌入模型存在乌尔都语语言文本。这些模型被训练在相当多的令牌和特定领域的乌尔都语的文本。有必要开发通用词嵌入模型的大型语料库语言乌尔都语。CNN和RNN (LSTM)单层体系结构和多层体系结构不影响该系统的性能。
实验结果的生动描绘one-hot-encoding方法比这个词嵌入模型和pretrained字嵌入模型。然而,在所有提到(见部分5.2)功能生成技术,TF-IDF表现。显示最高精度(84%)用款深度学习分类器,而事件分类不平衡数据集的多类事件乌尔都语语言使用传统机器学习分类器显示相当大的性能,但低于深度学习模型。深度学习算法,即。,CNN, DNN, and RNN, are preferable over traditional machine learning algorithms, because there is no need for a domain expert to find relevant features in deep learning like traditional machine learning. DNN and RNN outperformed among all other classifiers and showed overall 84% and 81% accuracy, respectively, for the twelve classes of events. Comparatively, the performance of CNN and RNN is better than Naïve Bayes and SVM.
多级事件分类在句子层面上执行一个不平衡的数据集;事件,有一个较低的特定类的实例数量影响分类器的整体性能。我们可以提高性能通过平衡每个类的实例。以下可以得出结论:(1)Pretrained字嵌入模型只适合句子分类如果Pretrained模型是由大量的文本数据(2)现有的词嵌入模型Word2Vec和手套的英语文本是不相容的乌尔都语语言文本(3)one-hot-encoding,在我们的案例中,TF-IDF嵌入层更好的功能和动态生成技术相比已有的乌尔都语语言文本字嵌入模型(4)TF-IDF-based特征向量显示最高的结果,比one-hot-encoding,和动态词embedding-based特征向量(5)不平衡数据集的实例数量整体精度的影响
9。未来的工作
在乌尔都语文学的全面审查,我们发现,只有几个数字的引用乌尔都语的文本处理相关工作。乌尔都语勘探的主要障碍是处理资源的可用性,即。,event dataset, close-domain part-of-speech tagger, lexicons, annotators, and other supporting tools.
有很多的任务可以完成乌尔都语语言文本。有些提到如下:(1)通用词嵌入模型可以开发一个大型语料库的乌尔都语语言文本(2)可以评估不同深度学习分类器。伯特和安(3)事件分类可以在文档级别执行(4)平衡数据集可用于更好的结果(5)在未来Multilabel事件分类可以执行(6)非结构化数据的乌尔都语的文本可以分为不同的事件类(7)乌尔都语语言分类的事件可以进一步进行其他领域的知识,例如,识字比例,趋势,著名的食物,和宗教事件像宰牲节(8)句子的上下文信息。,presentence and postsentence information, certainly plays a vital role in enhancing the performance accuracy of the classification model(9)事件分类可以进行平衡的数据集(10)非结构化的乌尔都语数据可用于事件分类(11)分类可以在文档和短语层面上进行
数据可用性
支持本研究使用的数据是可用的https://github.com/unique-world/Multiclass-Event-Classification-Dataset。
的利益冲突
作者宣称没有利益冲突。