最近越来越关注从不同的观点挖掘,研究社区有一个进化的作品在阿拉伯语情绪分析(ASA)。介绍了现有文献的系统回顾与ASA有关。审查的主要目标是支持研究,进一步提出在ASA领域未来的研究,以及平和其他研究者的搜索相关研究的进展。审查的结果提出情绪分类的分类方法。此外,现有方法的局限性突出显示在预处理步骤中,特征生成和情绪分类方法。一些可能为未来的研究趋势与ASA建议在实践和理论两方面。
如今,情绪分析(SA)以及意见挖掘是广泛调查研究领域(
大多数研究在SA进行了自然语言,如英语、中文和阿拉伯语。NLP在阿拉伯语仍处于起步阶段
大量的工具和方法,在文献中,利用SA的任务。它们中的大多数都是用来管理SA在英语是科学语言
阿拉伯语受到较少的努力与其他语言相比(
本文旨在介绍单反ASA的研究工作。这单反开始确定的基本要求,随后,共有191篇论文最初被认为是相关的。这个数字已经减少到140篇论文在回顾研究的摘要。最后,总共只有108篇论文完全了。通过仔细研究和分析这些论文,所需的信息提取。
寻求这个单反给主要的研究主题的大纲和技术为未来的研究和建议。本研究的首要目标是评论文章了解研究现状。第二个目标是用阿拉伯语,讨论影响股价的重大问题的基础上,回顾了研究。除了该领域的理论发展,本文四倍的贡献。首先,系统研究的文献综述将提供亚撒。其次,将亚撒一个增强的分类方法。第三,我们试图创建此类合成基础上,特别强调预处理步骤中,特征生成和情绪分类方法。最后,亚撒将建议新趋势,对未来的研究和实践将突出显示。
本文的组织结构如下的提示。部分
单反被开发作为一种方法来识别和检查SA在阿拉伯语。使用系统进行系统回顾,明确的目标和严格的标准,不仅要总结目前关于这一课题的研究还涉及一个元素的分析批评。提出了八个主要步骤是必不可少的任何审查科学严格的(
确定研究问题的第一步是一个系统的复习。这一步必须简洁明了。在这项研究中,研究问题规定如下:
本文的目标策略包括确定人口,选择资源,推导搜索字符串,包含和排除标准。本文涉及的文献检索过程查询著名期刊和会议处理ASA在斯高帕斯索引,包括一些数据库,如施普林格,爱思唯尔,IGI全球。审查的时间范围是发表的文章从2013年1月到2018年11月底。
根据研究问题,搜索关键词的排列进行。搜索查询(阿拉伯语,(情绪分析、观点挖掘、SA或OM))和(分类、分级机、预测或极性)。因此,调查研究了191年总数的出版物。总体而言,它是寻求回顾32期刊,81年从23日数据库程序。所选会议、期刊和数据库表中所示
会议录,期刊和数据库搜索的进行了研究。
| 会议(年代) | 杂志 | 数据库 |
|---|---|---|
| (1)阿拉伯语计算语言学国际会议 | 计算机科学期刊 | 施普林格 |
| (2)国际会议信息和通信系统 | 信息科学杂志》 | 爱思唯尔帐面价值 |
| (3)国际会议上先进的智能系统和信息 | 国际阿拉伯信息技术杂志》上 | IGI全球 |
| (4)IEEE / ACS计算机系统和应用程序的国际会议 | 理论和应用信息技术杂志》上 | 圣人出版有限公司 |
| (5)网络技术与安全交易的国际会议 | ACM交易在亚洲和资源缺乏语言信息处理 | 亚洲研究出版网络(ARPN) |
| (6)国际会议上未来的物联网和云计算 | 认知计算 | 科学出版物 |
| (7)模型和数据工程国际会议 | 信息处理和管理 | Zarka私立大学 |
| (8)社会计算国际会议和社交媒体 | 国际期刊《先进的计算机科学和应用程序 | 计算机协会(ACM) |
| (9)计算语言学协会的年度会议 | 国际期刊的信息技术和网络工程 | 了解社会 |
| (10)国际会议Brain-Inspired认知系统 | 国际期刊《先进科学、工程和信息技术 | 皇家研究院Politecnico Nacional |
| (11)国际会议语言资源和评估 | 沙特国王大学计算机与信息科学杂志》上 | 沙特本阿卜杜勒阿齐兹国王大学 |
| (12)语言处理与知识管理会议 | 研究计算智能 | 科学和信息组织 |
| (13)欧洲网络智能会议 | ||
| (14)IEEE国际会议上大数据 | ||
| (15)国际会议的云计算技术和应用程序 | ||
| (16)国际会议环境系统网络和技术 | ||
| (17)国际会议上的应用自然语言信息系统 | ||
| (18)计算语言学国际会议和智能文本处理 | ||
| (19)国际智能会议系统和计算机视觉 | ||
| (20)国际会议在自然语言和语音处理 | ||
| 神经信息处理(21)国际会议 | ||
| (22)国际会议在计算科学新趋势 |
这些出版物变化范围以及类型。在细节,单反包括期刊论文、会议论文、图书章节。指图
搜索类型的研究。
综述文章利用多级过滤条件排斥与包容,表中描述
包含和排除标准。
| 包容 | 排除 |
|---|---|
| 文章发表在2013年1月和2018年11月 | 非学术文章和灰色文献,包括工作报告和技术报告 |
| 使用相对关键字 | 较差的文章写作和分析 |
| 声誉和学术论文和文章 | 文章对自然语言处理(NLP)及其应用,如语音识别、核实系统,手写文字识别、命名实体识别 |
| 研究侧重于情绪分析分类 | 关于其他分类的文章,比如情感分类和识别一种方言 |
| 这项研究是与阿拉伯语 | 文章地址仅为SA构建一个资源,如词典和语料库 |
| 用英语写文章 | 复制和评论文章 |
| 文章提出研究非阿拉伯语言,如Arabizi、英语和乌尔都语 | |
| 论文不符合实际的筛选 |
收集的数据从每一篇文章进行ASA的审查确认包括以下:
源是否会议或期刊和完整的参考
这篇文章作者和他们的机构
文章标题、出版年和出版商
SA进行任务的类型
数据集或词汇和其大小、域和源
SA水平分类
SA的方法
SA算法和其准确性
阿拉伯语语言类型
预处理过程
特征选择和生成过程
关联工具和应用程序来执行SA过程
这个单反进行了从2013年1月至2018年11月底导致191篇文章。图
预先筛分过程的文件。
这个阶段从综述论文显示考虑提取数据来回答研究的问题。亚撒所需的数据进行审查,包括SA任务的类型,数据集,域,和源,SA分类级别,SA方法,算法,阿拉伯语类型、预处理过程,特征选择和生成过程。
表
预处理步骤进行的综述文章。
| 参考 | 预处理 |
|---|---|
| ( |
正常化,POS标签 |
| ( |
阻止 |
| ( |
文本清洁 |
| ( |
规范化、阻止、停止字删除 |
| ( |
文本清洁、正常化、阻止、停止字删除 |
| ( |
归一化 |
| ( |
就是文本清洁、正常化、阻止、停止字删除 |
| ( |
就是归一化 |
| ( |
文本清洁,就是标准化 |
| ( |
就是标准化、POS标记 |
| ( |
就是标准化、阻止、停止字删除 |
| ( |
就是标准化、阻止、词元化 |
| ( |
就是文本清洁、正常化、阻止 |
| ( |
就是文本清洁、阻止、否定检测 |
| ( |
标记、阻止、停止字删除 |
| ( |
正常化,停止字删除 |
| ( |
断词、词类、阻止 |
| ( |
阻止,停止词删除,讽刺检测 |
| ( |
删除标记,停止的话 |
| ( |
就是标准化、词类、阻止、停止字删除 |
| ( |
正常化,词类、阻止、停止字删除 |
| ( |
文本清洁,阻止 |
| ( |
标记,阻止 |
| ( |
文本清洁、规范化 |
| ( |
就是文本清洁、阻止、停止字删除 |
| ( |
词类、词元化 |
| ( |
正常化,分割、阻止、停止字删除 |
| ( |
删除文本清洁、正常化、停用词 |
| ( |
就是文本清洁、正常化、POS标记 |
| ( |
词类 |
| ( |
词类、阻止、停止字删除 |
| ( |
标记,停止词删除,命名实体识别 |
| ( |
删除就是标准化、停用词 |
| ( |
否定检测 |
| ( |
文本清洁、阻止停止词删除,否定检测 |
| ( |
分割,阻止 |
| ( |
文本清洁、词类、命名实体识别 |
| ( |
就是文本清洁、正常化、停止词删除 |
在类似的情况下,亚撒,表中使用的数据集
公共数据集的综述文章。
| 键ID | 数据集(DS) | DS大小 | 积极的 | 负 | 中性 | 源 |
|---|---|---|---|---|---|---|
| D01 | 阿拉伯语卫生服务(AHS) | 2026年 | 628年 | 1398年 | 推特 | |
| D02 | 阿拉伯语数据集 | 22550年 | 8529年 | 7021年 | 7000年 | 推特 |
| D03 | ArTwitter | 1951年 | 993年 | 958年 | 推特 | |
| D04 | 作为 | 1834年 | 新闻专线 | |||
| D05 | 美国培训 | 10006年 | 799年 | 1684年 | 7523年 | 推特 |
| D06 | 底部钻具组合 | 8224年 | 4112年 | 4112年 | TripAdvisor.com, booking.com, agoda.ae | |
| D07 | 布莱德 | 510598年 | Goodreads | |||
| D08 | 美国有线电视新闻网 | 5070年 | ||||
| D09 | LABR | 51056年 | 42832年 | 8224年 | Goodreads | |
| D10 | ACOM (DS1) | 594年 | 184年 | 284年 | 106年 | 半岛电视台的网站 |
| 这里 | ACOM (DS2) | 1492年 | 486年 | 517年 | 391年 | 半岛电视台的网站 |
| D12 | ACOM (DS3) | 611年 | 149年 | 462年 | 半岛电视台的网站 | |
| D13 | 硬 | 94052年 | 46968年 | 47084年 | Booking.com | |
| D14 | PatientJo | 1228年 | 227年 | 951年 | 约旦医院 | |
| D15 | 助教 | 2000年 | 1000年 | 1000年 | 推特 | |
| D16 | 亚奥理事会 | 500年 | 250年 | 250年 | 阿拉伯语电影评论 | |
| D17 | QCRI | 754年 | 377年 | 377年 | 推特 | |
| D18 | RR | 2817年 | 876年 | 1941年 | 推特 | |
| D19 | semeval - 2016 | 15562年 | Booki006Eg.com, TripAdvisor.com | |||
| D20开头 | semeval - 2017 | 3355年 | 743年 | 1142年 | 1470年 | 推特 |
| D21 | SIAAC | 147年 | 32 | 91年 | 24 | Echorouk报纸 |
| D22摊位 | SWN | 30828年 | 14543年 | 16285年 | ||
| c15 | 叙利亚的推文 | 2000年 | 448年 | 1350年 | 202年 | 推特 |
| D24 | 而 | 5615943年 | 3122615年 | 2115325年 | 378003年 | 推特 |
| D25 | AraSenti推 | 10133年 | 4329年 | 5804年 | 推特 |
表
概述数据提取ASA的相关文章。
| 裁判 | SA的任务 | 美联社 | 算法 | SA水平 | DS /尺寸 | 域 | 语言 | 特性 | 精度(%) |
|---|---|---|---|---|---|---|---|---|---|
| ( |
广告 | 联合国 | Syntax-based方法 | 方面 | 15000年,15000年 | 酒店产品 | MSA,哒 | 65.32 | |
| ( |
BR&SC | 苏 | 支持向量机 | 方面 | 5 k | 航空公司 | MSA,哒 | Skip-gram, FastText | 89年 |
| ( |
BR&SC | 苏 | 支持向量机 | 363年 | MSA,哒 | 76.09 | |||
| ( |
BR&SC | 苏 | 然而,NB, |
3015年 | 食物、运动、天气 | MSA,哒 | 76.33 | ||
| ( |
SC | 苏 | 装袋,NB, |
|
MSA,哒 |
|
|
||
| ( |
BR&SC | 磅 | 语料库和LB方法 | 词 | 15274年 | 13个领域 | MSA,哒,CA | TF-IDF、语法 | 93年 |
| ( |
BR&SC | 苏 | 支持向量机 | 句子 | c15、D05 D03、D17 D20开头 | MSA,哒 | TF-IDF LSA, CBOW SG | 83.02 | |
| ( |
BR&SC | 苏 | DCNN | 句子 | 2390年 | 新闻 | MSA | Word2ve、语法 | 69.9 |
| ( |
BR&SC | 苏 |
|
183531年 | 产品 | MSA | 弓,TF-IDF | 拜尔港:77.76 |
|
| ( |
BR&SC | 苏 | 注, |
10254年 | 选举 | MSA,哒 | 语法,TF, TF-IDF | 77年 | |
| ( |
BR&SC | 苏 |
|
5986年 | MSA,哒 | 语法,TF, TF-IDF | F-m = 88.8 | ||
| ( |
SC | 苏 | RFT GNB, |
D09, |
MSA,哒 | CBOW, SG | 87.10 | ||
| ( |
SC | 乙肝 | 装袋, |
|
MSA,哒 | Unigram,三元 |
|
||
| ( |
SC | 磅 | 支持向量机, |
D16 D03, lex = 5376 | 95.98 | ||||
| ( |
SC | 苏 | NB, NB-MLP | 2154;13420;1353;3962;8522年 | 景点、酒店、电影产品,餐馆 | MSA,哒 | 99.8;85.1;95.4;97.3;93.1 | ||
| ( |
BR&SC | 苏 | 注, |
48 | 股票市场 | MSA,哒 | 语法、TF-IDF BTO | 83.58 | |
| ( |
BR&SC | 乙肝 | 磅, |
|
MSA,哒 | TF-IDF, CBOW | 87.5; |
||
| ( |
主题C | 苏 | 戴斯。莱纳姆: | 1100年 | MSA,哒 | TF-IDF | 92.96 | ||
| ( |
SC | 苏 |
|
D09 | 书 | MSA,哒 | TF-IDF、语法 | 90.98 | |
| ( |
BR&SC | 苏 |
|
消息多畴的 | MSA,哒 |
|
84年,56 | ||
| ( |
SC | 苏 | CNN-LSTM | 性格, |
D01, |
健康 | MSA | 卦,ReLU |
|
| ( |
BR&SC | 乙肝 | 所以 | 句子 | 1200年 | MSA | 语法模型、语义特征 | 90年 | |
| ( |
BR&SC | 乙肝 | LGR PAG,支持向量机,打印,RFT, ABT磅 | 审查 | D13 | 酒店 | MSA,哒 | Unigram、三元、语义特征,鞠躬 | 94年到97年 |
| ( |
方面SA | 苏 | NB、BYN DT,然而, |
句子 | D19 | 酒店 | MSA | 形态、句法、语义特征 | 95.4 |
| ( |
BR&SC | 苏 | NB,支持向量机,DT, RFT | 1543347;1462年 | 政治 | MSA | 语法、surface-form情绪特征 | 71.95 | |
| ( |
BR&SC | 苏 | 注 | 句子 | 18278年 | 选举 | MSA,哒 |
|
93.13 |
| ( |
BR&SC | 苏 |
|
文档 | D21 | 新闻,政治,体育,文化 | MSA,哒 | Unigram,三元 | 90.20 |
| ( |
BR&SC | 乙肝 | 所以, |
句子 | 1520年 | 达 | 语法,CountVectorizer | 92.98 | |
| ( |
SC | 苏 | 美国有线电视新闻网 | 句子 |
|
MSA,哒 | 手套,SG, |
|
|
| ( |
BR&SC | 苏 |
|
句子 | 996年 | 多畴的 | MSA,哒 | Unigram, |
78年 |
| ( |
SC | 苏 | DT | 文档 |
|
电影,酒店 | MSA,哒 |
|
|
| ( |
主题C, sc | 乙肝 | DT, NB,然而, |
方面 | D09 2000 |
|
MSA | 域特性 |
|
| ( |
BR&SC | 乙肝 |
|
句子 | 3476年 | 电影、经济、体育、历史、政治 | MSA,哒 | 97.44 | |
| ( |
BR&SC | 苏 | 支持向量机、资讯、NB, DT, |
文档 | 4812年 | 达 | 粗糙集方法 | 74年 | |
| ( |
BR&SC | 苏 | RNTN | 短语、句子 | 1177年 | MSA | 拼写,形态学特征 | 80年 | |
| ( |
SC | 苏 | 支持向量机、注 |
审查 | D09 | 书 | MSA,哒 |
|
94年 |
| ( |
BR&SC | 联合国 | 磅 | 文档 | 1000年,1000年 | 新闻、艺术 | 达 | 73 - 96 | |
| ( |
BR&SC | 苏 | 支持向量机 | 句子,文档 | D19 | 酒店 | MSA | Unigram | 76.42 |
| ( |
BR&SC | 乙肝 | 然而,支持向量机, |
文档 | 8861年 | 15个域 | 达 | 极性分数,方言,它,变形形式 | 97.8 |
| ( |
方面SA | 联合国 | 磅 | 审查 | 200年 | MSA | 情绪特征 | 92.15 | |
| ( |
BR&SC | 乙肝 | 支持向量机, |
句子 | 64342年 | 达 | 语法 | 70年 | |
| ( |
SC | 苏 |
|
句子 | 1350年 | 达 | Word2vec, |
85.28 | |
| ( |
SC | 苏 |
|
句子 | 9096年 | 达 |
|
|
|
| ( |
BR&SC | 苏 |
|
句子 | 1800年 | MSA,哒 | 语法模型、TF-IDF | 88.72 | |
| ( |
SC | 苏 | 中长期规划, |
句子 | D09 | MSA,哒 | Doc2vec | 32.38 | |
| ( |
SC | 苏 | CNN, |
文档 |
|
达 |
|
|
|
| ( |
SC | 苏 | 支持向量机,DT, NB, |
文档 | D09 | MSA,哒 | 弓,相关分析 | 72.64 | |
| ( |
BR&SC | 苏 | DT, RFT, |
句子 | 10254年 | 政治 | MSA,哒 | 语法模型、TF-IDF、TF | 81年 |
| ( |
SC | 苏 | 款(LSTM), RNN | 句子 | D09 | MSA,哒 | 字嵌入,弓 | 71年 | |
| ( |
SC | 苏 | RNN, |
句子 | D19 | MSA | word2vec、词汇、形态、语义特点、语法 | 95.4 | |
| ( |
主题C&SC | 苏 | 支持向量机 | 句子 | D04 | MSA | 69.37 | ||
| ( |
BR&SC | 苏 |
|
句子 | 1121年 | 教育 | MSA | 语法 | 84.62 |
| ( |
SC | 苏 |
|
审查 | D16 | 电影 | MSA | 语法模型, |
96.67 |
| ( |
SC | 苏 | 支持向量机, |
审查 |
|
书 | MSA,哒 | 弓、语法, |
|
| ( |
BR&SC | 苏 | LGR PAG, |
审查 |
|
书 | MSA,哒 | Unigram,三元 | 0.744 - -0.911;0.847 - -0.85 |
| ( |
BR&SC | 苏 |
|
文档 | 1331年 | 产品 | MSA,哒 | 语法,BTO; |
89.68 |
| ( |
SC | 苏 |
|
句子 | 500年 | 酒店 | MSA |
|
|
| ( |
BR&SC,主题C | 苏 |
|
句子 | 3700年 | MSA,哒 | 语法模型 | 89.55 | |
| ( |
SC | 苏 | 基于“增大化现实”技术 | D16 | 电影 | MSA,哒 | 搞笑, |
86.81 | |
| ( |
BR&SC | 苏 | 词汇语义, |
句子 | 381年 | 新闻 | MSA | 位置,三元,卦,形态 |
|
| ( |
BR&SC | 苏 |
|
文档 | 250年 | 产品 | MSA,哒 | 语法模型 | 94年 |
| ( |
BR&SC | 苏 | 支持向量机, |
句子 | 134194年 | MSA,哒 |
|
75.7 | |
| ( |
SC | 苏 | 基于规则的方法 | 句子 | D16, |
电影,艺术, |
MSA,哒 | 85.6,93.9 | |
| ( |
BR&SC,主题C | 苏 | 支持向量机、注 |
句子 | 政治 | MSA | 语法,TF-IDF |
|
|
| ( |
SC | 苏 | 然而,支持向量机 |
句子 | 恐怖主义 | MSA | 词法,surface-form、语法 |
|
|
| ( |
SC | 苏 | 支持向量机 | 方面 | 餐馆评论, |
小说,产品、电影、体育、酒店、餐馆 | MSA | 语法 | 85.35 |
| ( |
BR&SC | 苏 |
|
句子 | 2000年 | MSA,哒 | 96.06 | ||
| ( |
BR&SC | 苏 | 支持向量机, |
句子 | 18278年 | 政治 | 达 | 语法,TF-IDF |
|
| ( |
SC | 苏 | 支持向量机, |
句子 | D10,这里, |
MSA | 语法、TF、 |
77.34 | |
| ( |
BR&SC | 乙肝 | SO-SVM-NB | 句子 | 4800年 | 新闻 | 达 | 语法模型 | 80.9 |
| ( |
SC | 苏 |
|
句子 | 3073年 | 政治、艺术 | MSA,哒 | 语法 | 68.69 |
| ( |
BR&SC | 苏 |
|
句子 | 2591年 | 教育、体育、政治 | MSA | TF-IDF BTO, |
69.97 |
| ( |
BR&SC | 磅 | 磅 | 句子,文档 | D09, D14 | 健康、书 | MSA,哒 | 71年 | |
| ( |
BR&SC | 苏 | NB,支持向量机, |
文档 | 28576年 | 达 | 弓, |
86.75 | |
| ( |
SC | 苏 | 支持向量机、注 |
句子 | 2000年 | 政治、艺术 | MSA |
|
|
| ( |
BR&SC | 乙肝 |
|
句子 | 2590年 | 餐厅 | 达 | 情绪词 | 90.54 |
| ( |
BR&SC | 苏 |
|
句子 | 2000年 | MSA | 64.85 | ||
| ( |
C BR、sc、主题 | 苏 | RFT GNB, |
词 | D05、D03。D17, d - 09 | 古兰经,客户 | MSA,哒 | CBOW | 80.21 - -81.69 |
| ( |
SC | 磅 | 基于规则的,磅 | D16 | MSA | 89.6 | |||
| ( |
BR&SC | 苏 |
|
句子 | 2265年 | 新闻 | MSA | 尼珥、语法 | 86.5 |
| ( |
BR&SC | 乙肝 | 所以,支持向量机 | 句子 | 1103年 | MSA,哒 | 语法模型 | 84.01 | |
| ( |
BR&SC | 磅 | 磅 | 词 |
|
达 | 89.58 | ||
| ( |
BR&SC | 苏 | 支持向量机 | 句子 | 625年 | 多畴的 | MSA,哒 | 83.5 | |
| ( |
BR&SC | 苏 |
|
句子 | 1500年 | 体育、新闻、经济 | MSA,哒 | 85.95 | |
| ( |
BR&SC | 苏 | 支持向量机, |
文档 | D02 | MSA,哒 | mp = 90.5 | ||
| ( |
BR&SC | 苏 | SVM-KNN | 审查 | 625年 | 酒店 | 达 | 97年 | |
| ( |
SC | 苏 | 支持向量机,DT, Dtable MNB,投票(资讯、DT和NB) | 句子 | 。Unbal落下帷幕:d - 09 | MSA | 弓 | 42.7 - -46.4 | |
| ( |
C BR、sc、主题 | 苏 |
|
句子 | D05 | 达 | 语法模型 | 69.1 | |
| ( |
BR&SC | 苏 | 投票(RSS和支持向量机) | 句子 | 800年 | 新闻 | MSA,哒 | 98年 | |
| ( |
SC | 苏 |
|
文档 | D16, D11-D13 | MSA | 文体、morpholexical tigram、brigram TF-IDF, TF, BTO |
|
|
| ( |
BR&SC | 党卫军 |
|
文档 | D09 | 电影、酒店、餐馆、产品 | MSA | 三元,Unigram TF-IDF,字数 | 82.4 |
| ( |
BR&SC | 苏 | 支持向量机、注 |
句子 | 500年 | MSA |
|
||
| ( |
BR&SC | 苏 | NB,然而, | 文档 | 2591年 | 教育、体育、政治 | MSA,哒 | 三元 | mp = 75.25 |
| ( |
BR&SC | 苏 | 支持向量机, |
句子 | D16 164 | 政治 | MSA,哒 | 相关性、语法模型 | 96.6 |
| ( |
BR&SC | 苏 |
|
句子 | 300年 | MSA | 63.79 | ||
| ( |
BR&SC | 苏 | 支持向量机,注 | 句子 | 300年,250年 | 达 | 语法模型 | 0.75.64 | |
| ( |
SC | 苏 |
|
文档 | 5070年 | 新闻、娱乐、体育、科学、商业 | MSA | 卡方检验,相关性,GSS系数、搞笑、救灾F | M-F = 95.1 |
| ( |
BR&SC | 苏 | 注, |
文档 | 4812年 | 达 | 粗糙集方法, |
57 | |
| ( |
BR&SC | 苏 | 支持向量机,注 | 文档 | D16 D22摊位,7400 | MSA | TF-IDF BTO, TF,得分 | 94.88 - -97.81 | |
| ( |
BR&SC | 党卫军 | 模式匹配, |
句子 | 5000年 | 餐厅 | 达 | 60.5 | |
| ( |
主题C和SC | 苏 |
|
|
政治、社会、产品 | MSA | 语法, |
|
|
| ( |
BR&SC | 苏 |
|
句子 | 260年 | 达 | 语法 | 72.78 | |
| ( |
BR&SC | 苏 | 支持向量机 | 句子 | 1350年 | 新闻 | 达 |
|
|
| ( |
SC | 乙肝 | 投票(SVM, NB,所以) | 句子 | D16 D22摊位 | MSA | 语法模型 |
|
|
| ( |
SC | 苏 |
|
文档 |
|
MSA | TF-IDF、TF、IDF、语法 |
|
|
| ( |
SC | 苏 | MNB, |
句子 |
|
MSA,哒 |
|
||
| ( |
BR&SC | 苏 |
|
句子 |
|
艺术、政治、科学、技术、社会 | MSA,哒 | 68.2,61.4 | |
| ( |
BR&SC | 苏 | 然而, |
句子 | 1000年 | MSA |
|
|
此外,提供更多解释的记录不同的精度与多个算法和多个数据集,灵感来自三个印刷重点研究[
此外,利用数据集的先例类别表
本节介绍了单反的发现,有助于回答一分之二的研究问题。下面的部分是单反的相关结果。ASA以来一直需要阿拉伯语观众,谁使用互联网和应用程序,最近上涨了很多(
分布的亚撒了多年的文章。
此外,图
文章针对SA任务的数量。
众所周知,阿拉伯语通常是不同的在MSA和哒。图
阿拉伯语类型的文章。
此外,数据来源意见任何话题不同的社会媒体平台介绍产品或服务的网站。图
情绪分析中使用的数据来源。
显然注意到Twitter。,50% of the data sources used in articles, is the most frequently application of social media used in the reviewed articles. It has a great potential of exploring people lives and their potentials, opinions, and interests. It is restricted to a very short message called tweets which are often written using a lot of Arabic slang.
一般来说,机器学习为ASA -基于(ML)的方法包括以下阶段,包括数据预处理、特征生成和选择,毫升的方法。在文学中,有几个技术提出了SA的每个阶段更好地提高性能。阿拉伯语研究表现在每一个阶段都是在以下部分。
阿拉伯语是一个丰富的语言,是一项具有挑战性的语言为NLP域。形态的复杂性和方言的品种需要先进的预处理(
图
最预处理策略用于亚撒。
一般来说,显然是看到从图
机器学习了几个情绪分类的算法。然而,捕捉情绪写环境的挑战是选择最好的特性是利用(
最常见的特征用于亚撒。
回顾了研究介绍了一套广泛的方法和技术来解决ASA的问题。图
最阿拉伯语情绪分类的方法。
显然注意到SVM和NB高度使用的方法的文章,而投票,提高和语义取向(所以)是最低的。支持向量机采用了几个以前的情绪分类工作导致74篇论文的108篇论文,在NB用于71篇论文。值得注意的是,应用支持向量机分类器在先前的研究一直优越或与其他分类器,比如NB。
近年来,亚撒已经引起相当大的关注,其应用已经蔓延到几乎每一个可能的域。图
阿拉伯语中最目标域情绪分类。
大多数研究集中在亚撒的应用程序在一组有限的领域,如政治(
(发表了数篇论文
总之,小的工作观察使用ASA情绪在教育领域进行分类。然而,没有目的取向研究人员研究领域。此外,收集到的数据小,分类的结果,这是相关的教育领域,并没有特别突出了讨论和澄清。
履行ASA,一些情绪提出了分类的方法。一个增强的阿拉伯语情绪分类的分类方法从[
亚撒的新分类方法。
这种增强分类法在SA的分类方法,以前进行了综述和讨论,提出了在图
这一部分试图从单反讨论结果,给第三和第四个研究问题的答案。共有108篇文章了ASA捕获当前状态和实现研究目标。目的总结在ASA使用最有效的技术,揭示了差距和回顾了研究的局限性,并突出ASA未来研究的方向。
很明显,亚撒从三个重要的角度研究了。首先是强烈的预处理策略影响SA分类的结果。第二个特征生成和选择的过程,构建向量并发挥重要作用,因此,改善的结果。最后一个过程是在角色的分类方法接收向量输出特性生成分类情绪。
如文献所示,仍存在一些需要解决的挑战ASA。这些挑战不同的预处理策略、特征选择、分类方法,目标域。
阿拉伯语句子大大涉及嘈杂,失踪,不一致的数据需要预处理改善阿拉伯情绪分类。不使用预处理,如消除无关紧要的言论和重复的字母,可能导致忽略重要的词。应用广泛的预处理策略,如标准化、标记、文字删除,和遏制,将提高情绪分类。
Al-Rubaiee et al。
预处理对ASA的影响是解决,特别是在2012年埃及总统选举。结果,采用信息增益与语法选择功能,阻止,规范化改进阿拉伯文本分类的准确性(
此外,Alomari et al。
的作者(
Duwairi和El-Orfali
尽管SA预处理阶段是一个非常重要的步骤,对文本挖掘,它仍然是低估了,而不是广泛的文学。此外,最好的预处理技术,发挥决定性的作用,有效地改善ASA,仍然是一个开放的领域研究和实验。
良好的预处理导致选择合适的特征。包括一个语义特征表示在NLP表示,仍然是一个挑战性的任务。因此,捕捉词的语义与分布语义模型是可能的。合并单词与语法的组合模型嵌入将改善SA的结果。
在亚撒,字格模型很大程度上是作为特征。一些研究暴露,unigrams导致更好的性能比三元和三元模型(
的特性,比如unigrams数向量,分别三元,和三元模型试验。不同的若干语法的组合模型试图改善了分类过程和结果组合(
Alomari et al。
同时,词类特征已经在分析利用阿拉伯文字内容。例如,Al-Moslmi等人和穆罕默德等。
TF-IDF和BTO被广泛用作加权方案创建这个词向量(
此外,特征表示,包括语义表示在NLP仍然是一个挑战性的任务。因此,捕捉词汇语义与分配是可能的语义模型主要包括字嵌入。字嵌入是一个替代方法等手工ASA的特性。最近的一些研究已经利用这种技术
注意到使用这个词与DL模型嵌入帮助改善结果线性模型,如支持向量机,适用于大型数据集,可以计算效率(
有很多方法,提出了处理阿拉伯情绪分类问题。然而,这些方法的准确性是不同维度,大型数据集和特征。使用ASA的DL模型将大大解决问题涉及参与其他常见方法,如支持向量机和NB。
一些研究支持向量机和NB一起探讨阿拉伯语情感分类问题。在这些研究中,注意到,有一种强烈的竞争实现更高精度的SVM和NB。有22个研究NB精度优于支持向量机(
相比之下,支持向量机已经成功地用于一般分类和回归,它已被证明其有效性在阿拉伯语情绪分类。它有能力模型的几个来源数据,获得最高的准确性和灵活性在处理高维数据。此外,为了避免错误的分类,它利用一个更大的利润。因此,SMV的性能优于NB性能在29日的研究(
在[
深层神经网络已成功采用提取特征。它有一个很大的优势超过其他毫升的方法。深上下文特征对单词中提取低维空间,而不需要任何特性工程学习连续文本表示的数据。此外,DL模型是最适当的非常大的数据集,大量的特性、分类和复杂的任务。因此,DL解决阿拉伯情绪分类模型是一种有前途的方法。
最近,许多研究已经明显利用DL在SA,如图
文章的数量在SA中使用深度学习。
是注意到的209篇文章只有6个阿拉伯语文章利用DL。
Alayba et al。
一般来说,ASA使用DL的组合模型是一个有前途的替代传统的机器学习技术,并帮助提高准确性。DL技术的主要思想是利用深层神经网络学习算法复杂特性从大量原始数据中提取不依赖先验知识的预测因子。这些算法自动学习新的手动创建复杂的特性,而不是传递特性。表现良好,DL方法需要大量的数据。因此,影响性能的两个主要因素DL技术自动特征提取和资源的可用性。他们是非常重要的,当比较DL技术和传统的机器学习技术。
根据评审工作,有几个趋势发现亚撒地区。很明显,综述文献覆盖亚撒从分类的角度具体领域的相关方法和构建资源。值得应用SA在许多领域有针对性的与最热门的方法。
然而,许多问题至今仍未充分讨论和解决在亚撒。这些问题包括缺点和评审工作中存在的差距,从而指出了影响暴露评估ASA的几篇文章。这些影响包括两个方面:对未来的研究和实践。
单反专注于贡献的现有文献有关ASA,几乎影响,为未来的研究,讨论如下:
深入学习技术的应用对阿拉伯语的情绪是由一些研究进行分类。然而,它并不应用于许多领域,如教育。
一个全面的范式,表达了预处理过程在各种情况下的所有细节得出适当的开发过程满足阿拉伯语的特点。
构建一个阿拉伯语词汇是一个开放的领域。大多数研究人员建立了许多词汇,要么是有限的大小或不公开。因此,对每个域的词汇应该建立以来很少有自由访问阿拉伯语语料库和SA的词汇。
很明显从表
最新特性表征为阿拉伯语借用了其他语言,比如英语。因此,开发新的特性表示适合阿拉伯语特征将有助于提高分类结果。
ASA仍然需要适用的系统。这些系统应该考虑以下几点:
不完整的解决方案介绍了分类观点或意见和预测事件的结果。因此,有必要开发推荐系统在许多领域,例如,经济,商业智能,政治,体育,教育,等等。
一个增强ASA框架在不同领域贡献广泛改善性能的几个行业。这将提高一个组织的精神形象通过改善他们的服务和产品,因此,客户满意度和收入。
在这个单反,系统总结了亚撒的研究文章。分析了贡献对特定的研究问题。它提供了一个系统的概述现有研究在亚撒。过滤后,108年研究,发表在11期刊和22日会议上,进行了分析。
ASA成为一个重要的问题在谈到预处理过程中,特征选择和分类方法。亚撒的艺术状态的显示各种不同观点和广泛的作品。单反凸显了预处理策略和最频繁用于特征选择方法。此外,它提供了一个情感分类方法的分类。这种分类法构建回答的研究问题:在ASA使用最有效的技术是什么?。
通过单反,很明显,亚撒仍然需要更多的研究。它有助于对未来的研究和对实践的影响。审查表明,有限的研究建立标准化的数据集和应用前景的分类方法。此外,报告也显示研究缺乏从开发新特性表示适合阿拉伯语的特点。此外,未来研究的方向也存在于开发推荐系统在许多领域和一个增强ASA在不同领域的框架。鼓励研究人员加入当前的研究领域。
作者宣称没有利益冲突。