文摘

词典不仅是得到这个词的含义的来源,也为理解的目的使用该单词的上下文。出于这样的目的,我们看到一个小句子的词为例综合book-dictionaries最近在网上字典。引出的词典编纂者执行一个非常细致的活动好字典的例子(GDEX)——句子中最适合的一个字典的单词的定义。规则的启发式GDEX非常剧烈,需要大量的时间提交手工过程。在这方面,本文着重于两个主要任务,即。,the development of labelled corpora for top 3K English words through the usage of distant supervision approach and devising a state-of-the-art artificial intelligence-based automated procedure for discriminating Good Dictionary EXamples from the bad ones. The proposed methodology involves a suite of five machine learning (ML) and five word embedding-based deep learning (DL) architectures. A thorough analysis of the results shows that GDEX elicitation can be done by both ML and DL models; however, DL-based models show a trivial improvement of 3.5% over the conventional ML models. We find that the random forests with parts-of-speech information and word2vec-based bidirectional LSTM are the most optimal ML and DL combinations for automated GDEX elicitation; on the test set, these models, respectively, secured a balanced accuracy of 73% and 77%.

1。介绍

任何语言的综合词典提供了一个词的意义;与此同时,我们找到了正确的使用这个词与句子的一个例子。因此,当我们能想到的一个,一套多个句子可以设置为例子来定义它。所有这些例子都可以准确的w.r。tgrammatical structure, the metaphor it delivers, and the context it is used into. In practice, with the corpus of these many (hundreds of thousands of) sentences against a single word, the lexicographers, under the activity of considering Good Dictionary EXamples (GDEX), try to elicit one particular sentence which best defines the very word on the qualitative grounds of being typical, informative, and highly readable [1,2]。有一定的规则,词典编纂者必须照顾在抽取过程中。在这些规则,例如,Kilgarriff et al。2)坚持认为,一个好的句子一个——一个适当的长度汽车销售的话,两个—在前17000的单词,三个象牙的目标搭配主要条款,四个——参与代词回指词,提供一个上下文等等。总的来说,活动很懒散的,有时是聚集到妥协的情况下当一个好句子是不够一个例子在当代时尚。它最终变成了一个强大的需要替换一个自动化GDEX引出过程人工智能,专门处理自然语言处理(NLP)和自然语言理解(NLU)。

最近自动化这样的文本分类任务的方法是基于监督机器学习(毫升)和神经网络(NN)深度学习(DL)技术为基础的。这些系统严重依赖prelabelled数据,它的意思是,从技术上讲,人类所标记的数据集。任何此类系统的准确性直接依赖于数据的质量和数据标签的大小。然而,最近,研究人员产生了丰富的各种分类任务的数据集,但问题正在研究数据是模糊的,非常深的关系,大量的数据在互联网上可用的形式原始/未标记的语料库;如果我们的目标是使用人类做数据标签,需要大量的时间和劳动的努力来完成它。在一个平行对比,我们看到了技术,如遥远的监督,使广义假设数据标签。例如,而不是标签的巴拉克•奥巴马和米歇尔•婚姻关系句子“米歇尔·巴拉克在1992年结婚,他们有两个女儿,“我们认为每个句子婚姻关系,奥巴马和米歇尔出现(3]。同样,产品评论的情感分析,我们可以提供双星评级(如评论3或以上五星的积极,否则负(4])。

因此,GDEX的手动过程的自动化,在这篇文章中,我们做出了贡献(我)使用不同的数据集监督技术的发展为GDEX分类。(2)监督毫升和DL算法预测的应用,对于一个给定的单词,一个句子在英语文本运行是否良好。(3)鲁棒性的比较分析和毫升与DL之间的权衡方法。(iv)之间的竞争分析手册GDEX启发式程序和自动GDEX分类。

然而,这并不意味着该方法明确检查好文章的语法和其他语言元素,也不应对推理极性(在计算研究效果)在给定的文本,而一般惯例,指的是情感分析的任务。相反,正如前言的研究,它旨在验证是否可以寻求有识别力的分类器分类的英语句子是二进制类通过监督ML算法好的和坏的。

本文系统地分为5后面的部分,在相关工作在第二章详细给出了同样的问题。部分3提供详细的材料和方法:数据源、数据标签策略和方法之后,维护信息毫升和DL方法。洞察结果、批判、比较和分析完成的这项研究的结果发表在第四节。论文的结论和未来的工作。

2。文献综述

在问题研究中,有许多研究者提出的重要方法;然而,我们认为,相比其他分类任务在NLP, GDEX分类的工作量很小。

Pilan et al。5]使得GDEX分类最相关的工作;他们已经开发出一种系统评价句子是否适合字典示例或很好的例子用于教学目的。他们认为应该是典型的一个很好的例子,信息,理解和学习者应该简单易读的。两种技术基于自然语言处理和机器学习用于句子的选择。内容已经从瑞典小说,报纸,博客应用这两种技术。从这个工作,总数的70%的句子被学生和老师适合理解。Srdanović和Kosem6]介绍了日语GDEX分类;它的设计主要的词典编纂日本语言和学习的目的。在本研究中,随机提取的前题是用于评估GDEX配置列表。

Kilgarriff et al。2)提出了一些规则和边界一个好的句子;根据这项研究,这句话应持有以下特征(或遵守以下规则):(我) 10到15个单词组成的句子将被优先考虑。(2) 一个句子会惩罚不躺在17000个常见词汇的语言。(3) 一个句子包含代词和照应语将被处罚。(iv) 目标搭配应该在主要条款。(v) 一个句子应该用大写字母开始,句号,结束惊叹号,或问号。

此外,GDEX, Kilgarriff et al。2]颂扬前两个特性/功能(句子长度和词频)应给予最高的重量比其他特性。根据Kosem et al。7GDEX的),最重要的特点是真实性、典型性,信息量和可理解性。好字典示例系统的开发人员和他们的配置通常是词典编纂者和缺乏编程技能在许多情况下。

Geyken et al。8]表明GDEX工作通过ML技术可以扩展映射例句词典意义。他们做了所有搭配集然后最大熵的计算(9)是用于学习正确的语料库句子和它们的正确的词典意义之间的映射。Ljubešić和Peronja10)提出了另一个毫升GDEX提取方法。在他们的实验中使用的数据集包含几个例子句子注释四类/(即水平。非常糟糕,糟糕,好,非常好)。他们用随机森林回归量算法(11),平均精度为90%。

Stankovićet al。12)做了一个类似的工作的选择GDEX塞尔维亚,用于发展的初步模型的组件。他们的方法分析了语料库的词法和句法方面组成的五个数字化的例子来自塞尔维亚科学院和艺术(莎莎)字典。他们比较的特性分布的例子与句子的功能分布样本语料库从语料库中提取包括其他各种文本。这种方式,选择候选人140例子被表示为特征向量,和监督机器学习分类器被用于标准和非标准塞尔维亚的句子。

柯柏走(13]介绍了爱沙尼亚语GDEX分类的工作。团队使用web etTenTen13语料库;在他们的方法,他们关注句子的长度,字长,下属的数量条款,和关键字的位置。在另一个类似的研究,Uprety和释迦14)的效果进行了测试分析上下文线索的句子在尼泊尔的学生。他们的研究结果表明,上下文线索的句子比GDEX更有用的学习词汇的句子。基于他们的研究结果得出结论,并建议应该包含在上下文线索的句子好字典示例来帮助新学生。

3所示。材料和方法

这部分分为三个部分;每一个处理集中等方法收集数据和标签(3.1节),预处理和特征选择(3.2节),概述关于实验设置采用套预测机器学习算法(3.3节)。

3.1。数据源和数据标签

我们准备数据集时尚的遥远的监督。使用BeautifulSoup (https://www.crummy.com/software/BeautifulSoup/bs4/doc/我们从网站刮的句子sentence.yourdictionary.com(YD.com)。顶级的刮了3 k上市由牛津英语单词学习者的字典(https://www.oxfordlearnersdictionaries.com/wordlist(2021年5月20日通过))。平均我们有≈250句为一个字,超过785 k的英语句子。此外,该网站不仅提供了例句,但它也介绍了计数竖起的大拇指,大拇指向下的对这个词每个句子。因此我们维持语料库词典结构,每一个字作为键,元组的列表保留。意味着它在数学上,考虑方程(1)如下: 在哪里C键值是一个字典,如单词 的关键,是一个元组列表保留;此外,元组的内容显示了示例的句子 连同其竖起大拇指选票 和反对的票数(D);下标分别表示句子的指数。一个句子的目标标签,即在各自的订单(或1和1),是由计数竖起的大拇指,大拇指向下的选票。在进一步的分析中,我们注意到YD.com持有不同的投票支持相同的句子如果引用的句子为例,不同的单词。因此,C也没有用,如果存在多余的句子用不同的选票。重组数据集我们提取一组不同的句子 C根据以下方程:

进一步,我们准备不同datasets-corresponding池功能 婚前的句子和它们的标签形式的元组的方式显示在以下方程: 在哪里 各自的标签吗th句子中 并确定在标准函数 给出以下方程:

在方程(4), 是一个实数通过池功能了吗 在以下文本(稍后解释)。在 ;下标j 明确表明的发生率 ;因此, ,意味着竖起大拇指选票 和反对票数 最后,的价值 计算根据以下方程: 在哪里 是一个计算最后得分函数, 指标集在上面的方程中已经定义在方程(2)。因此,我们利用这些选票的众包标签和判定一个句子好如果总竖起大拇指票等于或大于反对投票(见方程(4))。

1给出了统计信息的标签在这个实验中使用的数据集。每个评分函数的数据集是平衡的,即。,each class contains 20K records (which alternatively means 40K sentences, in total, are used in the experiments.) One key observation we can get from the table is the average sentence length of good examples is approximately half of its counterclass. It further asserts that the distinct supervision (or nearly crowdsourced data) appeared to have aligned with rule#1 (i.e., already stated in Subsection 2.2).

3.2。基于机器学习的分类:功能增强、转换和算法

初这一节中,作者想要维持一个想法的实验总结GDEX分类基于传统ML算法;在相同的情况下,下列分项文本提供了一个简短的评论描述的组件图1(我)我们尝试了两种不同的方法增强的特性,如以下:(1)袋(鞠躬)。(2)使用词性(PoS)标签与单词。(2)除了上述两种方法,我们设置了两个功能转换的句子(或向量化)技术在数据集,如以下:(1)向量化词frequency-based计数。(2)术语Frequency-Inverse文档频率 功能normalization-based向量化。(3)这些功能增强的组合方法和功能向量化技术评估下五个常规10 ML算法随机生成的训练和测试子集在蒙特卡罗方法。本文中使用的ML算法列举如下:(1)k最近的邻国(k神经网络)。(2)朴素贝叶斯(NB) /高斯朴素贝叶斯(GNB)。(3)随机森林树木(RFT)。(4)线性支持向量机(linear-SVM)。(5)支持向量机与径向基函数内核(rbf-SVM)。

因此,实验的总数为ML-based GDEX分类是60,即。,2(feature enhancement approaches) × 2 (feature vectorization) × 5 (ML algorithms) × 3 (datasets yield from the three different final scoring functions) = 60. The details of each of these components are provided in the subsequent subsections.

3.2.1之上。特性增强方法

弓方法被认为是一个非常基本的方法在任何任务在NLP (15]。它包含标记的文本/文档和提交的令牌进行进一步的过程。不过,我们可以认为这些序列的单词更重要,成为有意义的分析和信息与相应的PoS标签。因此,数以百计的论文在NLP的域和NLU利用这样的信息“PoS与单词的能力(16,17]。在相同的方面,我们可以预见的话除了各自的PoS标记信息(弓+ PoS)将获得更多的鲁棒性预测毫升模型中有两个重要的假设:(我)弓+ PoS GDEX创建高度区别的特征分类。(2)接近前面的点,弓+ PoS体现写作模式,存在较长的序列n克,而我们推测它可能接触更好的句法和语义属性。

就技术而言,我们使用自然语言工具包(NLTK)基础单词记号赋予器(https://www.nltk.org/api/nltk.tokenize.html;有许多分词器提供的模块;函数,它正是本文使用,也就是说,word_tokenize句子标记);紧随其后,PoS标签也完成了NLTK-based PoS标签模块(https://www.nltk.org/api/nltk.tag.html模块-nltk.tag)。我们连接词和其各自的PoS和下划线标记,它显示为一个句子在表2;然而,标记集的信息可以访问的在线文档NLTK (https://www.nltk.org/book/ch05.html)。

3.2.2。功能向量化技术

ML算法不应该直接在文本运行工作。因为有成千上万的术语的词汇和一些人出现在一个句子中,我们需要把每个句子通过特定的机制,适用于所有的数据集,因此句子ML算法可行。一般来说,句子转换机制需要一个句子和项目成高维向量空间(15]。最后的数据集的结构将一个矩阵。它包含的行数等于句子和词汇表的列数的大小(换句话说,一个向量的维数等于词汇)的大小。因此,我们能想到的维度上的值,对应的单词出现在句子和携带非零的数值;否则,他们是零(nonsparsity而言)。的矩阵可以被忽略了稀疏索引的单词/维度没有出现在句子和保留的记录出现在句子的词。

数向量化,这是第一个向量化技术本文涉及句子向量化通过保持句子中出现的单词计数和零在其余维度。图2说明了伯爵向量化过程中,第一步包括生成字典word-indices,其次是利用字典的句子向量空间的变换。

我们可能认为的情况最常见的单词(即。,,,,,,等等,称为停止词)主导sentence-diminishing影响至少words-hence频繁,导致更大的值在各自的维度。在这方面, 方法集之间的一种权衡沙尘暴和更少的单词15,18]。这个方法通过计算产品的频率相对于文档(TF)和逆文档频率的词语料库(IDF)。意味着特遣部队和IDF数学,考虑下面的方程;此外,图3使用这些公式来说明 计算。

就技术而言,我们使用了n蟋蟀sklearn范围[1,3],假定unigrams的形成,三元,三元模型的输入字符串。一起,我们保持着相同的标记功能,向量化的过程,这已经在前面的小节讨论。

3.2.3。机器学习算法

再邻居是基于实例的懒惰学习技术在传统ML算法(19,20.]。功能,它计算目标文档向量之间的距离和所有的文档向量,其次是选择k文档的距离是最小的。在最后,它决定目标文档的类通过的投票k最近的邻居向量。邻居为这项工作的数量是5(也就是,k=5)。此外,我们想保持,有很多办法计算文档之间的距离,和我们使用的是余弦相似性。由于相似的距离成反比,与相似的情况下,k神经网络算法将进行投票k具有最大相似度的文档。余弦相似度的值范围在[0,1],那里的相似性得分0表示没有相似性而1表示绝对相似。两个文档向量之间的余弦相似度(一个B)通过以下公式计算15]:

朴素贝叶斯是一个传统的ML算法分类任务(4,15]。它将利用条件概率的句子使用贝叶斯定理;然而,基本假设朴素贝叶斯之间条件独立的特性。基本的计算由朴素贝叶斯分类一个句子 在以下方程:

方程(7)是扩大w.r。tthe individual features ;看到方程(9)如下:

然而,当文档规范化和转换 向量化,功能不再是离散的值。因此,对于连续的特性,我们不能使用上述传统的朴素贝叶斯算法。相反,我们必须使用它的变体,使用高斯分布(因此被称为高斯朴素贝叶斯)(21,22];的替换 高斯朴素贝叶斯的定义在以下方程:

最后,目标类 (通过传统的朴素贝叶斯或高斯朴素贝叶斯)是引起()是最大的;意味着它在数学上,见方程(11),K是一组类:

随机森林是一个整体的方法毫升分类算法,基于决策树(DT) [23]。而不是依靠一个决策树,基本目标是绘制多个决策树bootstrapped-random样本的训练数据。测试数据将在每个预测DT,其次是诱发最后标签通过投票11]。因此,我们可以把射频通过系综技术克服过度拟合的问题。图4显示了RF分类器是如何工作的和输出最终从所有的DTs类。在实验中,我们使用200棵树构建森林(或DT估计)。

支持向量机是一个广泛使用的分类器在传统ML算法(24]。适合复杂的分类,不平衡的,但应该是小型或中型的数据集。支持向量机的目标是在一个画一个超平面n -维向量空间,这样的超平面数据点分为两个截然不同的分区数据,代表各自的类(25]。可以用于线性或非线性支持向量机分类。然而,基本的支持向量机,适合一个超平面,通常被称为linear-SVM [25,26]。方程(12linear-SVM)给出了数学语义理解。

在这项工作中,我们使用linear-SVM和径向基函数(rbf) SVM(通过内核技巧)。基本目的rbf-SVM集适合圆形边界的非线性数据集。在图的插图5(一个)显示了linear-SVM,相比之下,图5 (b)显示了超平面的情况不适合分离数据集分成两个截然不同的部分;相反,这个只能实现rbf核技巧。红色和蓝色的点代表单独的类。实线是灰色的颜色决定边界;点与虚线称为支持向量。

3.3。深度上优于工程特点分类

在本节中,讨论DL模型和输入数据编码方案详细给出。同样,在早期的3.3节中总结方法,涉及毫升,作者想要维持一个简短评论DL-based模型;图6显示了这些实验的总体方案。(我)由于我们经验发现,ML-based套件的算法,最优的结果是获得的数据集的基础上最后一个得分函数 ,所有的DL-based实验只在执行上述数据集。(2)由于神经网络本质上需要编码的输入数据以数字形式,进行必要的,我们使用了3种不同数据编码方法,如下:(1)在一个炎热的编码。(2)全球基于向量(手套)的嵌入式编码。(3)word2vec-based嵌入式编码。(3)结合这些数据编码方法是由以下5 DL算法/网络:(1)递归神经网络(RNN)。(2)封闭的复发性单元(格勒乌)。(3)多空词记忆(LSTM)。(4)双向格勒乌(Bi-GRU)。(5)双向LSTM (Bi-LSTM)。(iv)我们没有执行任何功能工程(例如,提取和使用PoS标签)在DL-based实验中,因为先天,NNs作为学习和适应和内在特性在数据。(v)方法中使用的所有款编程与面向Keras (https://keras.io2()库,它使用张量流https://www.tensorflow.org在后台进行处理。此外,实验是运行在谷歌Colaboratory (https://colab.research.google.com)GPU-accelerated运行时。

因此,实验用DL-based方法的总数是15,即。3(数据编码方法)×5(款)= 15。这些组件的细节在后续部分中给出。

3.3.1。数据编码方法

得到需要的数据以数字形式,我们有很多转换或编码的方法。一个炎热的编码是其中的一种技术,它生成一个向量对句子中每一个字,这样这个词对应的指数是1,其余的发生率为0。因此,我们可以看到一个稀疏矩阵像结构(或一组四个在一个炎热的向量)的句子“这是一只猫”,如图7(一)。黄色块的每一行是一个向量的存在只有一个条目1,表示向量中这个词的存在。因此,通过这种技术,我们可以认为输入数据稀疏和存在于一个非常高维空间。

相比之下,第二种方法对数据编码是基于神经网络词嵌入和统计方法的启发,密度和可调的 - - - - - -维空间,提供 ;7 (b)说明了词的例子嵌入每一行在蓝色的密度表示词在四维空间。嵌入的渲染弗斯的哲学含义”这个词你应该知道一个词的公司它!“(27)通过实现保留上下文的能力的话,这样说的每一句话将存在与相似的单词(使用手套,最近的例子对“王”这个词是“国王”,“女王”,“君主”等等;通过在线工具,可以在检索http://bionlp-www.utu.fi/wv_demo) - - - - - -嵌入维空间的词。在这项工作中,我们使用了两个不同的字嵌入,即word2vec [28和手套29日),分别由谷歌和斯坦福大学。此外,word2vec采用连续弓在神经网络学习当前单词的预测(考虑到语境的输入)和skip-grams学习类似的单词(给定一个源/输入词),而手套利用矩阵分解技术,如潜在语义分析(LSA) [30.在word-word上下文矩阵生成词向量表示。在technical note,表示用于这项工作是基于300维度(这些向量可以访问http://vectors.nlpl.eu/repository)。

3.3.2。深层神经网络

NNs计算系统连接松散的单位,模拟生物大脑神经元的工作的生物。思想和进步的故事在神经网络的文件是历史性的。(NNs早些时候由麦克洛克和沃尔特(45),1943年,人为地模拟生物神经元的工作39,46]。这个早期的作品呈现计算方法称为“计算器”和“感知器”,分别在1954年法利和克拉克(47),1958年由Rosenblatt [48];然而这些作品仅限于单一神经元的工作(39,44]。升级与多层神经网络(因此,称为款)是1965年由Ivakhnenko和拉49]。1975年,Werbos [50]介绍了反向传播技术可用于新的权重学习训练的多层网络(46];所做的进一步研究Rumelhart et al。51)表明,反向传播技术学习有趣的特性用于文本处理。)然而,作者想维持简要介绍这些连接的基本工作单位或者神经网络(也见图8),输入(或信号)在输入层接收和传播,进一步分析了神经元连接。我们知道输入应该是一个数值(在前一节中我们保持信息);因此,输入 接收单位的隐藏层和各自的权重 相应地与边缘被关联的点积 ——创建一个线性输出。在下一步中,偏差(b)被添加到这个线性输出 ,结果通过传递到非线性转化为非线性激活函数,也就是说,在我们的案例中,谭h函数,给出了方程(13)。

同样,隐藏的神经元的输出传送到最终的输出神经元,阶跃函数来计算给定的输入数据的类。阶跃函数,本文中使用乙状结肠,返回一个数字的范围[0,1],我们考虑预测有关的积极类如果值大于0.5;否则它属于负类。乙状结肠函数给出以下方程:

反向传播技术是用于更新权重考虑预测的错误发生在训练。在这种情况下,通常将训练集划分为多个批次款;因此,随着一批计算错误之后,更新新的权重值。执行相同的过程在每批将标志着一个运行,这在技术上被称为一个时代。

在本文中,我们使用了三种类型的神经网络特别发达的文本(或一般以序列)处理。RNN [31日)是第一款试图涉及输入历史序列数据,RNN的过程与后续行动开始输入与合并的结果(隐藏的状态)之前输入单元。

W.r。t图9,RNN每工作时间戳t,隐藏的状态 和输出 每个方程表示为(15)和(16)。 在哪里 是系数,f是激活函数;理解这些系数和蓝盒子的内部结构(见图9)在图10

RNNs虽然是留住记忆,而是他们没有这样做的时间序列。另外,Hochreiter[的和。施密德胡贝尔表示33)代表了一个RNN-based架构,即LSTM,提供更好的保留输入的问题。门的概念引入的LSTM记忆输入;然而,后来升级LSTM形式提出了蒙古包et al。34),这增加了忘记门架构;此外,遗忘的感应门LSTM成为能够重置其状态(35]。LSTM虽然是美妙的RNN架构但是需要更多的内存和处理时间36,37]。曹et al。38]介绍了格勒乌,都LSTM但包含更少的参数。传统RNNs遭受消失梯度的问题,处理的最佳水平LSTM和格勒乌32,33,39]。双向LSTM和格勒乌香草LSTM和格勒乌的变体,它能够使款过程字符串向前和向后的方向(39]。在表3盖茨的总结用于LSTM和格勒乌,此外,我们可以看到它们的用法在插图LSTM和格勒乌的表中4,在那里 两个向量之间的显示elementwise乘法。

本文使用的网络,我们有相同的输入和输出层。

然而,隐藏层不同w.r。t架构。这款程序Keras使用顺序模型。信息层hyperparameters用于这项工作表中给出56

4所示。结果与讨论

讨论在本节中,我们提出了一个全面的评估和比较毫升和DL模型。但是,在继续之前,它应该在知识评价是以一组验证与帕累托原则从标注语料库中提取或80/20规则15,40]。这些详细信息都保存在单独的后续部分。

4.1。评估标准和指标

在监督学习分类任务域通常是评估通过混淆矩阵(CM),统计了数量的正确和错误的预测w.r.t.中的实际标签验证集,给出了一个示例厘米在表7TNs是真正的底片逻辑上,这意味着实际上的数量-文件和预测-;TP (真正的阳性)将意味着完全相反TN(即。,consider a positive class in place of negative). The FP is the假阳性在逻辑上表示文档的数量,实际上是消极但并被错误地归类为阳性;fn (假阴性)是FP的完全相反,这样他们的分类错误的文档实际上是-但错误地预测-。

我们可以开几个评价统计评估的质量预测系统使用CM (PS)。统计数据及其派生的ML和DL模型用于评估这项工作在表中定义8。此外,理想的PS,我们希望左边的最高价值对角线的每个个体厘米,然而,在适当的矩阵的对角线,我们预计至少价值。

绩效评估在这篇文章中,我们考虑R和英航是更重要的。的R是至关重要的,因为我们考虑失去或分类一个积极的文档转换为另一个类别是perilous-as我们有小GDEX分类数据的巨大dataset-thus相比,我们将考虑一个毫升或DL模型最优R是更高的地方。在类似的情况下,这并不意味着小的价值年代;因此,英航是最终选择公平评价,既包括有关TP、TN的统计数据。

4.2。毫升模型和分析结果

所有评价指标的量化统计给出(分别为最后得分函数,也就是说, )在表中9- - - - - -11。ML-based模型的总体结果是积极的。我们可以看到一个明显的洞察所有毫升的更好的性能模型(在所有各自的数据集对应于最后的得分函数)矢量化的 的方法。地面上的集体,与创建的数据集 ,解析,指出最优的方法创建数据集通过遥远的监督。相比之下,与结果 显示的最小意义判别预测模型的数据集;因此,我们可以认为,遥远的监督不能使用平均方法对数据管理的监督学习任务。

因为数据集 显示了更好的结果,我们会考虑(考虑到表中11在剩下的文本)的讨论。朝特性增强技术的评估,我们看到弓+ PoS标签显示更好的结果相比,唯一的弓的方法。然而,剧烈变化的准确性k神经网络(即。,w.r.t ,改进数向量化的+ 12%和+ 2% 向量化)时看到PoS信息引入与简单的单词。然而,伯爵向量化技术相比,我们主张有额外的PoS改进信息更可见的特遣部队 以色列国防军向量化技术。

最优的ML算法和组合发现最大精度为77.3% rbf-SVM +真沸点。(真沸点将缩略词的组合 向量化+蝴蝶结+ PoS标签功能。同样,CBP将向量化的组合计数+蝴蝶结+ PoS标签功能。结核病会站的结合 功能;和CB将计数向量化+弓功能。)忽略了微不足道的差异linear-SVM其他变体,我们可以考虑RFT +真沸点获得第二个位置精度达到76.8%。英国航空公司,k神经网络+真沸点找到最好的结合分数75.5%,其次是RFT +结核病获得73.9%的分数。除了准确性和平衡精度,最高的回忆(即。75.4%)是在一个数据集 RFT + CB和linear-SVM +结核病。除此之外,我们看到R高与SVM无处不在。

11显示弓+ PoS的改进方法在传统弓方法。在最上面一行显示subfigures改进w.r。tcount vectorization, and in contrast, the bottom row carries information on the 向量化。整体观察改进给出了混合信息除了 特性平均数据,改进是稳定的积极趋势。然而,最不改进,即。,≈0.8% on an average basis, is seen for the same dataset. In the same context, on average the maximum pointer of improvement (i.e., ≈3%) is found with the dataset with

12显示所有的CM传统ML算法,分离w.r。t功能增强和向量化技术。然而,而不是图空间三乘以各自的最终得分为每个数据集函数,我们提出aggregated-normalized厘米。图的右边的彩条13设置为一个特定的目的,这样的最大值为0.5(≈50%)对应于数据在一个类的大小。

我们主张支持向量机+真沸点的线性和rbf变体是所有中最优的算法。这是因为linear-SVM实现TN + TP = 0.35 + 0.4≈0.75≡75%的准确率;然而,其他的变种,rbf-SVM,第二站在一起。作者想要维持RFT + CBP的性能;0.34 + .41点≈。75一个lso similar to the previously mentioned linear- and rbf-SVM. Forbye it, we must maintain that the competition between the SVM + CBP and RFT + CBP is near equal, but the RFT + CBP is found champion such that it has got minimum value on right diagonal (i.e., FP + FN = 0.16 + 0.09 ≈ 0.21), and in a similar context, it has got the least FN which, per se, is an additive advantage.

4.3。DL模型和分析结果

NN-based DL模型用于得分函数的数据集 ,因为它产生了最优的结果相比,剩下的两个评分功能。

12只显示了验证的指标集。在三个输入编码技术中,word2vec发现更好的GDEX分类。然而,单向或香草格勒乌和LSTM发现偏向于消极类。或者,换句话说,前面提到的DL网络未能区分GDEX和坏的例子,因此开发出一种只倾向于负类。(作者将保持,biasedness单向可以克服神经网络引入辍学,但我们害怕这么做的原因是不公正的NNs从事这项工作)。此外,这种行为被密集的嵌入技术word2vec和手套。相比之下,这两个技术的双向变体实现近似等于和相对最优的结果。我们主张用Bi-LSTM word2vec GDEX的最优算法,取得了77%的准确率(以及平衡的精度)。除了它,最高的回忆,即。,86%, is also on record for this setting. The NNs with the one-hot encodings though have shown the least but steady results.

14显示epochwise损失和准确性训练集和验证集。我们有典型的行为计算时代的增量;的损失,验证集,最大限度地减少在某种程度上,后来,它倾向增加;相比之下,继续在训练集(减少损失39,42,43]。我们都可以看到这种行为在DL models-except Bi-LSTM和Bi-GRU word2vec和手套,这显示稳定性能。此外,因为我们知道DL更适合大规模数据集,和目前数据用于实验相对比较小,我们可以预见几个数字时代是足够的培训(或不沉迷于过度拟合模型对训练数据)。在这方面,作者认为3世是足以让任何DL-NNs用于实验。这是因为我们看到的验证数据集第三时代后的精度下降。

13显示精度的改善和平衡精度通过一个款网络;这些指标的量化值中减去神经网络x神经网络y前提是xy,在那里x款(与输入编码方法用于)上定义x设在和y款在y设在。细胞的深浅的红色数字显示消极的改善;相反,细胞与灰色阴影表示改进。颜色的强度成正比的价值提高。同样,在报告的观察表8,我们发现,除了几个网络比较,准确性和平衡精度的改善产生在款同样是相同的。我们发现双向款与字嵌入了剩下的所有款的一个重大改进。在类似的情况下,尽管最高精度和平衡精度在单向NN我们忽视这种情况下对偏见的地面性能显示由单向款(字嵌入的)。除了前面提到的情况下,真正的获得最高精度和平衡精度/ RNN + word2vec;即。,B我- - - - - -GRU and Bi-LSTM have secured ≈23% improvement with word2vec, followed by attaining ≈22% improvement by the same DNNs with GloVe. Keeping the focus on Bi-GRU and Bi-LSTM, the most optimal word embedding scheme is word2vec such that it achieved ≈4% and ≈5% improvement over vanilla one-hot encodings used for the same DNNs and ≈1% improvement over GloVe.

观察CMs呈现在图15我们确认双向LSTM word2vec最优的神经网络和输入数据嵌入对解决问题正在研究。我们也认为,手套和word2vec相比,一个炎热的编码是最表现不佳的输入编码方案。

4.4。在ML和DL模型进行比较分析

在几个不同的研究报道比较毫升和DL模型(16,39,43,44本文的作者),重申DL模型优于传统ML模型。除了它,我们也认为DL-based模型显示在准确性和平衡精度达到平衡的分数。然而,DL-based单向算法失败,我们考虑的问题正在研究;相比之下,双向DL算法找到最优的。

因此,w.r。tthe results compiled in Table13,如果我们看所有毫升的平均模型(数据集 )和比较他们的平均价值DL-based模型(即。,RNN Bi-LSTM Bi-GRU;离开单向LSTM和格勒乌由于biasedness),那么,我们只看到一个改善和≈≈+ 3.56% + 2.47%,分别在回忆和平衡精度GDEX分类。然而,这么小的改善的主要原因在于RNN的低分数相比,剩下的两个双向发自。相比之下,ML-based模型花了很少的时间在预处理和培训。在类似的情况下,我们可以看到一个炎热的编码将培训时间长,而DL 300 -维密集的字嵌入模型训练在一个小的时间。

4.5。竞争分析毫升和DL模型手工GDEX引出例程

14显示所选的例子句子从测试/验证集和预测由最优的ML和DL模型。除了它,我们也显示GDEX规则提出了开创性工作Kilgarriff et al。2]。这些规则实际上是5,这已经在文献综述中提到(见2.2节);然而,省略规则3在讨论交易的处罚一个句子包含回指词和代词(尽管有句子处理上述问题,ML / DL没有明确处理处罚)。示例1 - 8展示TP、TN,其中,特别是 当实际的标签是错误的。示例9和10展示FP, 是假的。示例11和12是真实的错误,这些FN,句子不仅符合所有规则,也似乎是非常简洁的结构。

我们可以画出另一个有意义的洞察数据集通过遥远的监督管理。规则1和规则2一致如此和正确评估规则4和5确认使用基于web的数据的可靠性YD.com与标签赋值评分函数的方法 GDEX分类和类似的其他问题。

5。结论

本文提供了实现两毫升和DL GDEX分类模型。结果编译后在实验中,我们得出结论,该方法是手动GDEX抽取的自动化程序可完成的。50 k示例的数据集与遥远的监管技术,提取的求和方法发现比投票聚合(平均和max)方法。对传统ML-based方法的区别 标准化在计数期间重新向量化实验。同时,我们分析了PoS特性是重要的和更好的GDEX的简单分类和歧视。DL-based模型,Bi-LSTM + word2vec余下的所有DL-based组合之间的冠军。

在未来,这项工作可以延长将监督学习对给定的目标词GDEX启发。我们还想评估当前系统引起DL模型。最后,我们想申请和评估当前技术等东方语言阿拉伯语,波斯语,Urdu-where GDEX被认为是历史性的相关性在诗意的工作。

数据可用性

可以访问模型和数据文件https://github.com/MuhammadYaseenKhan/english-gdex

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

本研究部分由两个教育机构:默罕默德·阿里真纳大学,卡拉奇,巴基斯坦,沙特阿拉伯和伊斯兰Madinah大学。