文摘

带注释的数据集是一个重要的需求开发一个人工智能(AI)系统有效并期望预测模型的推广,避免过度拟合。训练数据的缺乏是一大障碍,人工智能系统可以在几个领域扩大训练数据没有或失踪。这些数据集建设是一项繁琐和昂贵的任务,取决于域和语言。这尤其对资源缺乏语言的一个巨大的挑战。在这篇文章中,我们实验和评估许多情绪分析问题的各种方法,他们仍然可以获得高性能在有限的训练数据。本文采用预处理技术清洁和规范化数据并生成新的样本有限的训练数据集基于许多文本扩增技术,如词汇替换,句子洗牌,重新翻译,语法树转换和嵌入混合物。几个实验已经进行了著名的基于机器学习分类器和深度学习模型。我们比较、分析和评价结果表明优势和劣势点为每个方法的技术。实验结果表明,数据增强技术提高预测模型的准确性;这个承诺下的智能系统可以广泛应用于多个领域有限的训练数据。

1。介绍

互联网和网络技术的快速增长动力智能系统自动化的发展许多繁琐和昂贵的重复的人类活动。取得了许多成就在计算机视觉、自然语言处理(NLP)等等来解决几个问题,增加劳动的表现。的问题之一在NLP已经吸引了许多研究团队的注意,即情绪分析。

在过去,客户提到他们的朋友或亲戚的评论来确定是否购买产品。今天,他们获得的评论任何产品更快更完全的数字社区出现的越来越多。不仅客户而且交易员依靠这些评论利用客户的意见和期望,更容易了解市场趋势。此外,他们可以做出决定并确定他们的策略和方向发展的产品和业务。然而,如果这是手动执行,这将是一个冗长费时,昂贵的任务。情绪分析(SA)是一个很好的解决这个问题。

SA表示度客户愉快的买产品无需用户干预。最初的问题分组数据分为两类,正面和负面的极性。SA有助于不仅节省时间和金钱,而且尽快达到客户的期望。lexicon-based有几种方法,基于机器学习和混合型(结合lexicon-based和基于机器学习)。最近的方法是深度学习的多层模型学习特性表征的训练数据建立预测模型。

lexicon-based方法依赖于情感词汇,语法结构和句法模式来确定文本的情感。这种方法需要许多相关资源,依靠各种语言和语境等情绪wordnet,以及一组emoji图标。许多预处理技术规范化文本,删除一些冗余信息,通常是应用于这种方法。

显然,SA是一个分类问题和机器学习算法很容易申请。使用监督,有许多研究semisupervised和无监督学习这个问题。监督学习使用著名的分类器如朴素贝叶斯、逻辑回归,随机森林,SVM(支持向量机)或蛋等乐团各种分类器(一个和一个)和卵巢(一个对所有)。特征选择也研究了提高该方法的分类器的性能。这旨在保留有用的特性而忽略冗余功能。主要缺点主要取决于带注释的数据集的大小和质量在指定的域。这实际上是一个资源缺乏语言的挑战,建立带注释的数据集是昂贵的至于人力资源和金钱。因此,许多semisupervised方法逐渐出现;这些方法利用lexicon-based方法的长处和预处理技术的影响进行调查。这也促使文本增加技术的出现丰富培训从原始数据来提高分类器的性能。

由于计算能力的迅速发展,深度学习(DL)获得先进的表演在计算机视觉和自然语言处理(NLP)。这学习多个层的特性和表征,数以百万计的参数,因此需要大量的训练数据,以避免过度拟合,得到预测模型的推广。DL出现作为一种人工神经网络自1990年代以来,只有被训练用一层或两层(调用浅神经网络)。据张et al。1),快速增长的DL(深层神经网络)最近如下:(1)的可用性计算能力由于硬件的进步,(2)大量的训练数据的可用性,和(3)的权力和灵活性学习中介表示。作者在1]也总结了许多基于深度学习情绪分析问题的方法。Karuppusamy [2]提出的分析神经网络的建模语言。语言模型是一个基本的过程也就是应用句子填空题等许多问题,统计机器翻译和文本的一代。作者表明,神经网络是一个很好的选择,获得质量语言模型。此外,许多深度学习模型被发明出来,提高预测的性能如卷积神经网络(CNN),递归神经网络(RNN),长期短期记忆(LSTM)和递归神经网络(RecNN) [1),以及许多改进现代模型(3,4]。DL各领域也被调查。周et al。5)应用DL工业机械的故障诊断。实现可靠的诊断,他们进行了故障诊断概率贝叶斯提出的深度学习框架(卡塞雷斯et al。6)通过探索uncertainty-aware模型理解未知的故障信息和识别的输入从看不见的域。

训练数据的缺乏是一个巨大的挑战建立powered-AI系统和主要障碍,扩大人工智能在许多领域的数据集是不可用,花很多钱。这可能导致模型更少的泛化,他们可能倾向于overfit训练数据和结果在一个不确定的预测。DL模型需要大量的训练数据,提高了模型的鲁棒性,减少过度拟合。数据增加已成为一个焦点的方法;这是灵感来自图像分类提高大量的训练数据。在NLP已经装备,实现了有前途的表演。与图像分类不同,哪里有手工规则(如规模、旋转、噪声和混合),NLP面临着许多挑战,由于语言的复杂性,很难确定规则生成数据。

我们的主要贡献是实现方法可以提高性能的预测模型在有限的训练数据。除了总结有效的预处理技术和文本的方法,我们也提出了一些相关的方法预处理技术和文本增加技术的集合体。许多不同的实验对越南进行情感分析问题分析和评估的优势和劣势点实验结果表明每种方法的有效方法。著名的基于机器学习分类器的预测模型包括和深度学习模型。

本文总结了余下的预处理等相关工作的技术,文本增加技术和有效的情绪分析模型问题部分2。部分3介绍了我们使用实验方法,分析和评估表现。部分4展示了几个实验和讨论。中给出的结论部分5

最近的研究关注在社交网络上用户生成的文本、博客、电子商务的网站,或一些审核网站食物、电影、手表、旅行等等。因此,他们可能包含很多不必要的信息;这不仅影响模型的准确性的结果,但也使冗余计算成本增加。预处理技术是至关重要的任务,几乎所有的问题,特别是对于lexicon-based semisupervised方法;他们来帮助集中于必要的信息和降低计算的复杂性。辛格et al。7),Jianqiang et al。8],Symeonidis et al。9)进行了几个实验来评估的影响预处理技术;作者提出,他们大大提高了模型的性能。等常用技术通常是小写,去除停用词,标点符号,数字,url,标签,用户提到,实际或取代俚语词,首字母缩写、否定形式,emoji图标,或处理强化条件,以及让步的条款。

对于情绪分析问题,一些技术尤其必要确定文本中的情感,即否定处理,emoji图标处理以及拼写校正。否定形式可以模糊分类文本和欺骗的算法。盖格等。10]略微增加否定后情绪分析处理的性能;他们忽视了否定,但下一项记录项文档向量的方向相反。Al-Sharuee et al。11)建立了一个基于SentiWordNet反义词词典代替否定后的形容词和副词与他们相反的情绪词。这些研究主要关注否定修饰符的下一项。然而,否定修饰符不仅影响了下一项,而且扩展其他条款否定。Farooq和奥马尔12)改善情绪分析句子的性能水平的否定通过识别的范围而确定句子的极性。他们表示两种类型的否定形态和句法否定:分别为形态否定前缀和后缀是用来处理和句法否定语言特征(结合分析,标点符号,和启发式基于POS否定的词)被用来确定了矫揉造作的范围。

在数字通信Emoji图标蓬勃发展;他们作为速记来表达想法,给最小的信息速度比写作和携带许多情绪。许多研究探讨其重要作用lexicon-based和基于机器学习的方法。Hogenboom et al。13)分析和利用情绪显著改善最先进的lexicon-based情绪分类方法。王等人。14]分析了极性情感图标和情绪之间的关系;他们表示,情感图标是极性强信号传达情绪。Kralj诺瓦克et al。15提出了自动情绪分析Emoji人气排名;分析显示emoji图标为情绪的重要作用分布在推特和没有显著差异emoji图标之间的排名13欧洲语言。Guibon et al。16]介绍了情感分析方法利用emoji图标。

错误的拼写经常发生在非结构化文本和增加了计算复杂度由于冗余的维度。金(17]地图纠正使用常见的拼写。此外,生词越来越多的出现在社会沟通;他们影响的性能预测模型。刘等人。18]建议word2vec上下文替换基于语义相似度的模型来处理生词在金融公众意见。他们获得了比传统方法更好的分类识别金融公众意见的类别。

特征选择也是一个有趣的方法来选择最相关的特征。这减少了冗余特性,减少构建预测模型的成本和时间。有三种类型的特征选择,即滤波器(选择特性基于方差等统计检验和卡方检验),包装(选择功能通过使用训练模型),和嵌入式方法在模型训练)(选择特性。特征提取获得有意义的高维数据的低维表示。金(17)建造过程减少维度通过特征提取,同时保留特征提取的优点和克服缺点情绪分析问题。

增加丰富的训练数据来提高预测模型的推广和避免过度拟合。这旨在生成新的样品有相同的标签作为原始数据。Abulaish和长官19)改善CNN的性能依赖于文本增强相结合n克和潜在狄利克雷分配(LDA)确定职业专用短语丰富的数据。有很多其他的方法在NLP等有效地进行词汇替换,句子洗牌,上下文替换,重新翻译,语法树转换和嵌入混合物。

词汇替换替换一个词汇的同义词词典基于wordnet或同义词典。这是最简单的方法,易于实现和维护文本的意义。然而,它需要有效的wordnet或同义词典;这是容易获得张来武语言如英语使用wordnet NLTK自由(https://www.nltk.org/),但是资源缺乏语言是一个很大的挑战。其他lexicon-based技术洗牌等常用词汇,随机插入同义词词典,随机交换两个词汇,用概率和删除文本的词汇。这些不需要任何额外的资源来实现,还获得一个有前途的性能虽然他们可能产生意义的文本。魏和邹20.]演示这些技术的有效性;他们的实验包括替换n随机词的同义词词,交换两个随机单词,删除一个随机词的概率,随机插入一个词的同义词的单词。

翻译是一个成功的方法,提高机器翻译的表演(Sennrich et al。21),Fadaee et al。22],Sugiyama和Yoshinaga [23夏,et al。24])。当源和目标语言之间的翻译文本,它不是完全类似于原始文本回来后翻译,但仍保留了意义。这个特性是杠杆,以及丰富的张来武语言如英语生成新的训练数据。这种技术可以应用在任何语言,使良好的表现。然而,它需要一个有效的翻译,特别是与自由文本,这是没有任何约束,和错误的拼写和其他噪声特性发生,这种方法也是一个挑战。

语法树转换利用语法树和一些语法语法适用于获取转换树用于生成新的文本。这种方法是一个很好的方法来提高性能,但它是昂贵的计算,因为语言特性的复杂性。字嵌入技术将文本转换成向量(性格,单词,句子,和文档的水平)。的话有相似的背景下将在向量空间彼此附近。幸运的是,在互联网上巨大的资源和优秀的发展pretrained模型提供了许多可用word-embedding模型基于word2vec,手套,伯特,等等。这打开了许多方向利用NLP的word-embedding特性。

自然,这指的是一种启发式方法的上下文替换希望相同的单词的含义也会嵌入空间上相互靠近。这种方法将取代一个词由一个上下文词汇嵌入使用pretrained如word2vec、手套和伯特。这降低了建造成本相关的资源,如wordnet或同义词典。然而,由于作为一个黑盒和基于上下文的方法,附近的相反词有时可能是对方在向量空间,如“tốt”(好)和“xấu”(坏的管理者);这是培训模式可以是有害的。小林(25)提出了上下文增加通过使用双向语言模型来取代一个词与其他词。小林改进语言模型与label-conditional架构保持标签的兼容性。

掩盖了语言模型(传销)是一个方法一个空白的一个句子中填上适当的字基于上下文。这可能是用于生成新的样品通过pretrained模型与伯特(双向编码器表示从变压器)和留一些面具在文本中,问伯特预测面具的单词。

最近的嵌入的混合物出现使用图像增强通过合并两个随机图像比例生成合成样品。郭et al。26)提出了混合两种策略在句子分类进行插值字嵌入和句子嵌入,称为wordMixup和senMixup。wordMixup方法进行样本插值字嵌入和senMixup方法进行混合层在喂养softmax层生产预测模型。太阳et al。27]堆混合层在最后比起pretrained的基于变压器模型的隐层和探索混合在变压器的有效性。他们促进了NLP的性能大范围基准。丁等。28)提出了一个新颖的方法与标记任务序列的语言模型。首先,他们线性化标记的句子,然后使用语言模型学习词语的分布及其标签。这个模型被用来生成标记数据。这是一个有效的方法对semi-supervised和无监督的方法和不需要额外的资源。

此外,杰森·魏et al。29日方法]提出了多任务视图。大多数以前的研究数据的增加旨在生成新的样品类似的原始样本预测模型;他们的建议将原始样品和增强训练样本分别,这种方法将加入这些任务通过使用加权成本函数,因此原始和增强数据接收大量的重量在训练。

3所示。的方法

3.1。预处理技术

我们的研究侧重于非正式的非结构化文本和自由文本和不符合任何约束。因此,它们含有大量的噪声信息,比如错误的拼写错误的语法,生词。预处理技术主要用于人工智能特别是NLP)。本节介绍了流行的预处理技术和我们的方法为越南情绪分析使用这些技术。

执行几个实验来评估每个预处理技术的适用性和有效性问题。此外,为了获得高质量生成的数据,原始数据,如细长的字符去除,去除标点符号、和emoji图标替换必须规范化。这些人也帮助提高性能和减少冗余特性和最小化成本和时间来建立预测模型。来证明他们对增加数据的质量的影响,我们还执行实验结合预处理技术和实验部分的数据增强技术,并取得不错的效果。

总是使用流行的技术包括使用pyvi越南标记(https://pypi.org/project/pyvi/)(“钢铁洪流海长điện thoại不”(我喜欢这个电话)转换为“钢铁洪流海điện_thoại不长”),小写(如“Hai_long”转化成“Hai_long”),和障碍清除(如“这”和“拉”)。其余技术分别使用如细长的字符,emoji图标替换,否定处理,去除,标点符号删除评估和选择越南情绪分析的有效方法。这些技术提高文本的语义,减少向量空间的维度。

使用细长的人物一个词变成一个社交习惯,旨在强调一些情绪。这些话将被删除,只保留一个字符,分别;例如,“tuyệt_vờiiiiiii”(大)和“đẹp quuuuuuuua”(很漂亮)转换为“tuyệt_vời”和“đẹp必要。“删除数量的数字表达少的情感的文本,但有些数字能带来情绪通过emoji图标如3 >,这emoji图标后应该进行处理。标点符号通常不影响文本的情感;他们应该减少维度在向量空间。

NLP的词类,这是一个至关重要的工具,将词性赋给每个单词一个句子中去。这种技术只保留了词语的词性可能包含情绪,包括名词、动词、代词、副词、形容词。Symeonidis et al。9)保持名词、动词和副词的实验。或一些错误的拼写生词,我们更换语境词根据传销。

为了利用emoji图标,我们把一组emoji图标由(15手动]与我们emoji图标了。基于这些集,我们取代正面和负面的图标通过添加“积极”和“消极”词汇,分别。例如,考虑句子”作为đẹp !苹果保chưa giờlam钢铁洪流thất_vọng:)”(如此美丽!苹果从来没有让我失望:)!),在“)”是一个正emoji;结果是“必要đẹp !苹果保chưa giờlam钢铁洪流thất_vọng积极的!”。

否定形式包含含糊不清,容易导致误解的分类器。例如,这个句子“điện_thoại chẳngđẹp,钢铁洪流khong hai_long”(这个电话不是美丽的,我不愉快)是一种负面情绪,但是如果它不关注负面的“khong”(不)和“chẳng”(不),然后分类器有积极的结果。否定形式被使用句法功能;一些修饰词通常存在否定的形式,比如“khong”(不),“chẳng”(不),“chưa”(没有),“khongđược”(不),“khong biết”(未知),和“chả”(不)。我们提供两种方法来处理否定。在第一个,当它检测到一个否定修饰符后跟一个积极或消极的词典,修饰符和下个词典将取而代之的是“notpositive”或“notnegative”词汇,分别。第二个使用我们pretrained模型由word2vec;否定修饰符和它的下个词典将取而代之的是一个词在相反的方向。理想情况下,它可能是反义词词。例如,考虑这句话“sản_phẩm khongđẹp,钢铁洪流cảm_thấy thất_vọng”(产品不漂亮,我感到失望),在“khong”(不)是一个否定修饰符和“đẹp”是一个积极的词汇; they are replaced by “notpositive” lexicon with the first approach, and the result is “sản_phẩm”notpositive,钢铁洪流cảm_thẩy thẩt_vọng。”,第二种方法,它们取代了“xẩu”(坏的),结果是“sản_phẩm xẩu,钢铁洪流cảm_thẩy thẩt_vọng”(产品是坏的,我感觉失望)。的否定是一种模棱两可的NLP中的许多问题。因此,处理否定不仅促进情感分析的性能而且是一个缓冲一步得到好的生成数据基于NLP技术如同义词替换、语法树转换,或重新翻译。

为增强词汇(如“rẩt”(非常),“cực kỳ”(极),和“必要”(所以))“strongpositive”和“strongnegative”将附加如果他们下个词典是积极的还是消极的词汇,分别。例如,考虑“钢铁洪流rẩtưng_y,没有giup cong_việc của钢铁洪流trở_nen dễ_dang hơn”(我很高兴,它有助于我的工作变得更加容易地);“ưng_y”这个词(高兴)是一个积极的词汇和“rất”这个词(非常)是一种增强词汇;因此结果是“钢铁洪流rẩtưng_y,没有giup cong_việc của钢铁洪流trở_nen dễ_dang hơnstrongpositive”。

此外,为了利用词典功能,我们利用VnEmoLex列表(30.)和我们的手册列表的积极和消极的词汇经常使用。当检测一个积极或消极的词汇,它将,分别添加“积极”和“消极”词汇当前文本;这当然是否定处理和增强处理后进行的。回到上面的例子否定处理后获得“sản_phẩm这句话notpositive,钢铁洪流cảm_thẩy thẩt_vọng”,这个词“thẩt_vọng”(失望)是一种消极的词汇;因此,结果是“sản_phẩmnotpositive,钢铁洪流cảm_thấy thất_vọng”。

3.2。文本扩增技术

本节介绍了文本增加自动生成新的样本,包括同义词替换、词典插入、删除、交换,句子洗牌,上下文替换,掩盖了语言模型,重新翻译,语法树转换和嵌入混合物。

首先,基于简单的想法魏et al。20.),我们的目标是产生新样品通过更换一些随机的词的同义词词,将一些随机的单词的同义词词插入到句子,交换两个随机的单词句子,和删除单词概率p。同义词替换和同义词插入,我们使用一个越南viet.wordnet提供的词典数据集。vn (https://github.com/zeloru/vietnamese-wordnet——最新访问12/05/2021)来确定同义词的单词。每个样本在训练数据将为每个方法的10倍;时间会生成4个新的样品响应四个方法。因此,从每个类别的100个样本,将生成4000个新样品。

另一个简单的想法是句子洗牌;句子在段落或同一段落中获得新的样品。underthesea自由(https://underthesea.readthedocs.io/en/latest/readme.html)用于标记文本的句子。该方法将产生1000个样本为每个极性通过相同的句子在段落标签。

利用翻译机器翻译和张来武语言如英语的丰富。翻译后的文本,将源语言翻译成目标语言,back-translated不是完全一样的原始文本,从而获得新的样品。谷歌翻译API是用来实现翻译方法;文本将从越南翻译英语,反之亦然为生成的样本。从100年每个极性的训练样本,100年更将生成的每一个样品。

语法树转换是一种基于规则的方法使用一些语法语法转换语法树转换树新样品。我们的工作将产生100更多的新样品为每个极性由主动语态转换为被动语态。

我们还收集超过10万评论或评论的电子商务网站建立word2vec模型实现上下文替换。Word2Vec模型表示一个词的向量基于周围的话说,称为上下文词语。这个pretrained模型用于确定一个随机词的上下文词语在文本替换新的增强样品。上下文替换在上面的部分中,展现的是一个黑盒方法对于原文这可能是有害的,因为相反的词可能是用于替换;我们也使用 分数选择替换单词在文本中。如果他们有一个低的话是有益的 分数,所以更换不影响或少影响原文的意义。对于这两种情况下,每个示例将运行10次获得10个样品,这将产生1000个样本从100年每个类别的训练样本。

传销可以预测一个蒙面词上下文;这个想法可以用于生成新的样本。我们的数据集是不足以建立一个pretrained伯特模型,所以我们使用PhoBERT代替。Pretrained PhoBERT是一种最先进的语言模型对越南提出的Dat Quoc阮和安黎31日]。该方法将为每个类别生成200个样本。此外,我们也使用PhoBERT取代生词。

混合物是一种特定领域技术来生成合成为训练样本;这是张等人提出的。32对图像分类)。这结合了线性插入一对输入图像特征表示的随机和训练标签。 在哪里 原始的输入向量, 和,相应的一个炎热的标签吗 之间的混合比的值为[0,1]。

这个想法也是装备在NLP和显示一个稳定和有效的解决方案也可以避免过度拟合。我们也考虑在越南情绪分析这种方法的影响通过注入混合层深度学习的最后一层模型。此外,我们把这种方法和其他方法增强等翻译,上下文变量替换,同义词替换,实现竞争的结果。

3.3。基于机器学习的分类

机器学习是人工智能的一个重要组成部分;它可以从标签的训练数据和可以预测新数据点的标签。这是分为监督学习、无监督学习,semisupervised学习,强化学习。监督学习是基于标记的标签数据集来预测新数据,无监督学习不需要标签数据集,它是基于数据的结构,和semisupervised学习一点标记数据集学习和预测。我们的问题已经成为semisupervised学习与训练数据有限。实验使用基于机器学习预测模型;我们选择著名的分类器和获得先进的表演包括逻辑回归、支持向量机、蛋(一个和一个),和卵巢(一个对所有)。

逻辑回归是一种统计的方法广泛应用于预测回归和分类问题。训练阶段表示因变量之间的关系y和独立变量 它预测的标签数据点基于逻辑函数的概率。对于分类问题,它使用一个预定义的阈值属于[0,1],和值通常是0.5。如果一个数据点的概率大于或等于阈值,那么它属于积极类;否则,它属于负类。物流功能如下:

这需要确定系数 b基于训练数据点。物流功能通常是用作乙状结肠函数是一个连续可微函数。

支持向量机(SVM)是一种强分类器,发现训练数据之间的边界(hyperland)分属于不同的类别。一个好的hyperland获得最大利润的hyperland和最近的数据点之间的距离从每个类别。这个分类器可以对线性和非线性的数据集。

的成本函数是线性可分的数据集

这就需要确定 b令人满意的

与任何噪音数据点对线性可分的数据集,它需要识别 b令人满意的 在哪里 , 成本指标的数据点,C是常数,然后呢 松弛变量。

对非线性可分的数据集,SVM使用内核函数变换线性空间。在本文中,我们使用RBF(径向基函数)的内核。

蛋和卵子是乐团的二元分类器多级分类,卵子执行的地方c迭代(c是标签的数量),每个th迭代(1 c)表示一个数据点是否属于 ,最后预测是由概率决定的。蛋执行 的迭代,每个迭代需要成对标签和显示数据点属于哪个标签,最后预测是基于迭代的主要投票决定。

3.4。基于深度学习模型

深度学习,这是一个功能强大的机器学习技术,学习多层表示的数据和功能。它由一个输入层、一个输出层,和许多隐藏层之间的输入和输出层。较低的层学习简单的功能和更高层次学习更复杂的功能从较低的层的输出。

1是一个三层的神经网络(两个隐藏层和一个输出层,输入层除外)。圆在输入层代表一个元素的输入向量和隐层和输出层的圆圈代表神经元。一层由大量圈,一般称为节点(单位)。两个神经元之间的连接线路层附近的两个同事一个重量。一层的神经元将阅读前一层神经元的输出,过程信息,并返回到下一层神经元的输出。隐藏层的输出是通过使用激活函数通常乙状结肠等非线性功能函数,双曲正切函数,和ReLU功能。输出的神经元层使用将softmax函数。

在一层的节点数(不包括偏见节点); 之间的权重矩阵(k - 1)th层和kth层, 之间的重量吗th节点(k - 1)和th层jth节点kth层; 偏见的重量吗th节点kth层, 是一个激活函数。

上面的过程称为前馈,这一步后保存激活 深度学习模型采用随机梯度下降训练基于反向传播,计算梯度从输出层第一层。

深度学习模型已成为最先进的NLP最近在计算机视觉和表演。第一个是学习这个词向量表示使用神经网络模型。Word2Vector是最受欢迎的方法之一将一个词一个向量;计算从一个非常大的数据集,并使用神经网络由一个输入层、一个输出层,一个隐藏层。有两种方法:skip-gram和CBOW(连续袋字);skip-gram预测一个词根据其上下文和CBOW上下文预测基于其词。在本文中,我们建立了一个越南word2vector模型审查和通过上下文用它来增加新数据替换情绪分析问题。

另一种方法学习作为autoencoder向量表示这是一个三层神经网络;它从输入表示学习新表示。首先,输入向量(一个炎热的向量)是通过编码器函数,映射到隐层和隐层的表征是映射到输出层通过译码器函数来获得新的表示形式。由于编码器和译码器函数是非线性函数,autoencoder可以学习非线性表示。因此,更表达了新的表达比原来的表示。

Araque et al。3)提出了一些使用的深度学习增加知识等情绪分析中包含嵌入向量与其他的信息来源。此信息可以情绪特定词嵌入或手工的组合特性和这些情绪嵌入特定的词。另一种方法是将新信息嵌入,在深度学习已经被用于提取情绪特征结合语义特征。

4所示。实验

本节评估的有效性增加每个预处理技术和文本。我们的论文中提到的实验中使用的数据集(33)(表4数据集组成1显示数据集的大小)。图2展示了主要的流程图执行实验。它只使用100个样本(约1 - 3%的训练数据)为每个极性的数据集进行训练。所有数据是基于数据预处理和产生新的样品扩增技术。合成数据将用于构建预测模型和基于机器学习分类器或深层神经网络。特别是嵌入混合物只是申请深神经网络通过注入混合层在输出层获得合成样品。

我们分别进行实验评估的有效性预处理技术选择合适的技术应用到我们的问题。表2介绍了精度的结果分别进行预处理技术,包括数字、标点、词类选择、增强处理、否定处理和emoji图标替换。的预测模型是由著名的分类器如逻辑回归、支持向量机、蛋、卵子和深度学习模型。

基于我们之前的作品(34]我们执行这些分类器的实验使用不同的参数,所以SVM分类器使用内核= rbf参数组成的,C= 1 e5,γ= 1 /(向量特性)的数量对应于γ=汽车scikit-learn自由。逻辑回归分类器,它使用的参数组成的multi_class =多项式和解决= lbfgs。深度学习模型包含两个隐藏层(使用ReLU激活函数和16个隐藏的每一个单位)和输出层(使用乙状结肠激活函数)。损失函数是binary_crossentropy函数的概率输出。训练阶段是在20世纪512年小批量样品。

3图表结果准确性的各种预处理技术对越南情绪分析基于机器学习的分类器。删除和词类选择提高精确度,但它在整个数据集是不稳定的。词类问题的性能取决于文本的语法结构;使用自由文本像我们的情绪分析问题是一个巨大的挑战。标点符号删除的准确性主要是不变,只改变一点如果我们得到以上四个小数点后的结果。此外,它影响文本和一些有害的语义增强技术,如后面翻译技巧;这导致一些质量差的翻译文本。因此,我们不要选择这些技术为下一个步骤。

细长的精度结果角色删除,增强处理和emoji图标替换技术主要是改善性能相对于基线结果(第一列)。同样,否定处理两种方法还提高数据集的表演。的方法,取代了固定的词汇,并不关注词汇的意义,但这是简单、容易实现,不需要任何额外的资源,获得良好的结果。替换的方法,基于传销上下文的话,也比基线结果和达到更好的精度结果克服了表演几个数据集(数据集1逻辑回归和表达数据集的分类器2),但这取决于pretrained模型和执行缓慢。

为了证明预处理技术的影响增强的质量数据,我们进行实验和数据组合增强技术。表的第一列3结合这些有效的方法:细长的字符去除,增强处理,emoji图标替换,和否定处理。它比基线结果和单一否定处理。我们选择这些技术并结合数据增强技术。表4显示了新样本的大小为每个极性应用数据扩增时;表3介绍了精度的结果数据增强技术基于机器学习的分类器和图4是他们的图表。表5提出数据增强技术与标准偏差的精度结果基于深层神经网络和数字5是他们的图表。

增加文本的第一个实验是同义词替换的话,插入同义词的话,随机交换两个字,和删除单词概率p(称为EDA方法(20.])。这些方法是简单的,低成本的计算。虽然有些方法(插入、交换或删除)可能产生无意义的样本,大多数数据集的算法仍然获得更好的结果为深上优于基于机器学习的方法和不断改善方法(第二列的表35分别)相对于基线结果(每个表的第一列)。同义词替换是一个自然的想法,很容易实现,而且还保留了原文本的意义。最大的负担是需要一个有效的和足够的同义词典,以及根据域上下文和语言。一个单词可能会有很多同义词词,选择其中一个影响增强文本的质量和预测模型;例如,“hai_long”这个词的同义词词“thoa_man”,“ưng_y”,“bang_long,”和“man_nguyen”这个句子“钢铁洪流hai_long chat_luong sản_pham做”和“ưng_y”取代“hai_long”将比替代“man_nguyen”或“thoa_man。”

句子洗牌是由交换文本之间的句子在相同的标签。这种方法的优点是,它不需要任何额外的资源,较低的成本来实现。这也提高了一些算法的结果数据集(第三列的表3)基于机器学习方法相对于基线的结果。这种方法依赖于文本的语法结构(一个缺点的免费文本情感分析问题)由于对句子分词器的性能的影响。对于深层神经网络,句子洗牌是只在数据集1和2(表更好5显示了深层神经网络方法的结果,第三列);这表明低噪音数据集的方法是有效和正确的语法结构。越南EDA方法的结果是一个比这更好地方法在预测模型;它们之间的区别取决于数据集和应用算法。

谷歌翻译是翻译从越南回英语为了实现翻译技巧。这种方法是稳定和精度结果提高了分类器对整个实验数据集的基于机器学习的分类器(第四列的表3)。结果比基线结果基于深度学习模型(第四列的表5)。然而,这些结果是在越南EDA和句子洗牌数据集1;其他人则更糟。原因可能是数据集1比其余的数据集包含更少的噪声信息。噪声信息对翻译文本的质量有害,甚至完全不同的含义。此外,这些结果更好、更稳定的几乎所有的数据集将混合物时嵌入(第四列的表6)。这种方法通常依赖于一个有效的机器翻译;这种方法显然面临一些挑战情绪分析关注用户生成文本数字通信没有任何约束;这意味着它们含有很多错误的拼写,俚语,生词,而且emoji图标和不符合语法的结构。

语法树转换也稳步提升的结果数据集(第五列的表3)与基线结果相比,越南EDA,句子洗牌,重新翻译。然而,它也是影响文本的质量和成本的计算由于与语法树进行交互是昂贵的。

为了利用丰富的互联网资源特别是pretrained模型的快速发展,我们评估上下文替换的影响来减少依赖资源缺乏语言的同义词典像越南一样。为此,我们建立了pretrained模型与基于word2vec收集的评论超过10万。一个实验将随机选择n词替换和发现他们的上下文词语来替代它们(第六列的表3第五列的表5)。作为一个功能的方法,一些单词可能取代不合适的话,因为他们是向量空间上相互靠近,甚至相反的意思。因此,下一个评估的影响选择文本的替换词。我们选择替换单词的基础上 分数高;较少的信息(第七列的表3和第六列的表5)。

基于机器学习的方法, - - - - - -基于替换主要改善比random-based替换和克服了基线结果(不增加数据)(表的第一列3)。深上优于方法,上下文替换稳步推广结果在数据集相对于基线结果(表的第一列5)和精度的结果 - - - - - -在数据集替换高于random-based替换数据集3和4所示。这些表明,选择替换单词是一个重要的线索和影响上下文的表演替换。在任何情况下, - - - - - -基于替换较低;这可能有一些重要词语的低 分数因为使用它们的频率是密集的训练样本;例如,“hai_long”字(愉快)是重要的词出现在大多数的评论数据集2也是选择数据集2中替换词。

我们还利用传销基于PhoBERT获得新的样品。它还提高了数据集的结果(第八列的表3)。这种方法需要足够大的数据与伯特建立pretrained模型。

混合的方法是只进行深度学习模型通过注入作为一个混合层在输出层。第七列的表5显示了混合的结果。这只促进数据集对数据集1和3是一个稳定的方法在10分的最低标准偏差。除了应用混合层,我们将与其他增强方法,该方法包括翻译,上下文替换,EDA,句子洗牌(表6提出了这些组合的结果(见图)6)。我们实现更好的结果和他们稳步提高数据集。这些组合获得最好的精度与其他分离方法相比,包括数据集1(结合翻译),数据集2 (EDA)的组合,数据集3(结合 )。

5。结论

本文总结了重要的方法,提出了一些方法的预处理技术,执行许多不同的实验,和评估方法的有效性对越南情绪分析问题在资源缺乏的训练数据。预测模型都是基于一些著名的机器学习分类器和神经网络。实验执行几种预处理技术表明合适的技术。结果表明,这些预处理技术是必要的;一些技术显著提高性能。

训练数据的限制仍然是一个主要障碍导致的低性能预测模型。本文还提出了增强技术提高的文本文本数据从原始训练数据。这些旨在获得预测模型的泛化和改善结果。因此,文本增加技术达到不错的效果。这些有助于产生更多的数据和扩大知识的数据,避免过度拟合,解决生词,并导致domain-independence。他们尤其有意义的资源缺乏语言开发智能系统。这些节省时间、金钱和人力资源建设的带注释的数据集原始训练数据有限。很多方法是简单的实现如同义词替换、插入、删除和随机交换,仍然取得了更好的性能。一些全球方法包括翻译、上下文替换,嵌入混合物的有效的解决方案提高训练数据,可以申请跨语言。

在未来,我们将研究新的方法来增加尤其是情绪分析质量数据和文本分类。特别是,我们一直关心的嵌入空间利用pretrained模型得到合成样品而不是原始文本。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢胡志明市开放大学。这项工作是作者的项目的一部分在格兰特E2019.02.3由胡志明市开放大学。