机器学习方法检测论坛回答:大数据分析的应用

文摘

如今,数据涌入在线网络论坛,这是非常可取的巨大数量的数据转化为可操作的知识。在线网络论坛成为网络的一个组成部分,是知识的主要来源。人们用这个平台来发布他们的问题和从其他论坛成员得到答案。通常,最初的帖子(提问)得到不止一个回复帖子(答案),使得用户很难扫描所有的质量和最相关的答案。因此,如何自动提取最相关的回答的问题在一个线程是一个很重要的问题。在这个研究中,我们把答案提取的任务作为分类问题。回复帖子可以分为相关,部分相关,或与最初的职位无关。找到的相关性、相似性回复这个问题,词汇和使用nonlexical特性。我们建议使用LinearSVC,支持向量机(SVM)的变体,答案分类。两个选择技术,如卡方和单变量是用来降低特征空间的大小。 The experimental results showed that LinearSVC classifier outperformed the other state-of-the-art classifiers in the context of classification accuracy for both Ubuntu and TripAdvisor (NYC) discussion forum datasets.

1。介绍

网络论坛是一个在线讨论板,志趣相投的人收集有关特定主题和讨论问题。网络论坛已经成为不可或缺的一部分网络由于其不断增长。有一个很好的机会而寻找一个问题/主题论坛页面。

关于不同主题的论坛用户共享信息。讨论用户开始当一个用户问问题和其他用户/成员回答,这形成了一个论坛线程一个问题得到超过一个答案(1]。

问题在一个论坛线程通常与不同质量得到答案。质量意味着在多大程度上一个回复帖子地址的问题。每个用户回答问题根据自己的知识和理解,这可能是相关的,部分相关或无关紧要。这使得很难找出最相关的海报回答的问题(1]。是非常繁琐和艰苦的经历所有的回复帖子,然后识别相关的答案。所以,本研究的主要目的是自动提取/确定最相关的答案/回答问题张贴在一个线程。

我们考虑线程的初始职务问题,所有其他作为候选人回答不同的品质。保持过程简单,我们忽略所有的问题在回复帖子和主题漂移的线程。

有两种类型的特点、词汇和nonlexical。他们都是用来发现回复相关性和相似性与给定问题[1- - - - - -5]。一些nonlexical特性并不总是可用的(6),也不能计算容易,使模型论坛相关的,例如,如果论坛元数据用于训练模型,模型然后变得依赖那些特定的功能,因此它不容易适应其他论坛。因此,在这项研究中,我们主要利用词法,基于内容和语义特征模型论坛独立可以很容易地适应其他论坛。

像其他研究工作7- - - - - -9),我们也认为答案抽取是文本分类问题。回复分为三类:高质量、低质量,和nonquality,取决于他们的相关性问题。回答检测/分类中,我们使用支持向量机(svm)。一群算法用于分类、回归、异常值检测。两种变体,LinearSVC SVC,使用支持向量机。LinearSVC优于其他分类器,给76.3%的精度高。

词汇相似特性的余弦相似性一样,我们使用bag-of-words(弓)方法将文本转换成向量(10]。因为所有功能/单词不是同样重要的是,通过使用TfidfVectorizer冗余的贬值。在这项研究中,我们使用unigram,三元,卦词序列。

挖掘最佳回复帖子有很多应用在一个线程。问题/回答论坛等雅虎答案可以建议答案从论坛中提取用户线程。

也可以用于生成问答对可进一步过滤常见问题(FAQ)。贡献我们的工作总结如下:(一)答案提出基于支持向量机(SVM)的检测模型使用词汇和nonlexical特性。(b)增强该模型通过确定最优的特征组合使用单变量和卡方特征选择技术。(c)为了提高该模型提出了一些新的语义特征。

本文的其余部分组织如下。部分2相关工作。部分3解释了我们的提议框架。部分4描述了实验设置,结果和讨论。最后,部分5总结并提出了未来的工作。

预测答案质量在线网络论坛是一个文本分类问题(7- - - - - -9,11,12]。不同的方法和方法已经使用了这一任务。Bag-of-words(弓)方法是一种常用的方法1]。在这种方法中,文本是由它的单词,每个单词视为一个特性。每个特性的频率记录和创建一个向量,进一步用于发现与其他向量相似性。通常,弓是用三元和三元模型来获得更多信息。这种方法增强了同现功能从维基百科和被用来分类新闻文章的20组(13]。作者在14)综合弓方法论坛的元数据,简单的规则的问号,疑问词提取网络论坛的提问。使用多通道深度信念网(8)质量检查答案。该模型解决了非线性词法和nonlexical特性之间的相关性问题。一个框架开发的基于卷积神经网络(11大规模网络公开课程进行分类(蕴藏)论坛线程。其他字符级事先用于文本分类(15]。

在网络论坛分类文本问题或nonquestion,连续模型(2),提出了基于模式提取问题,nonquestions。答案抽取的模型然后用图论方法在同一线程。

介绍了另一种方法称为级联框架(16]<帖子标题、回复>对提取的网络论坛丰富chatbot知识。在第一步中,回复提取逻辑线程相关的标题。然后,提取对排名和N选择。

两种类型的算法,传统的朴素贝叶斯和深度学习等卷积神经网络和多通道深网,用于提取质量的内容从网上论坛(1,8,11,15,17]。

文本分类任务是基于内容的质量。质量意味着在多大程度上是相关的查询和处理。对于分类来说,这是必要的测量内容使用不同的质量特性(18]。回复帖子在论坛线程被归类为高质量、低质量,nonquality基于相关性的问题。

主要有两种类型的特性,词汇和nonlexical,用于回答中提取一个线程。这些以不同的方式分类:作者在1)确定六个功能组和进一步划分成28 subfeatures。作者在6五种功能描述词汇,内容基础,结构,论坛具体、应答和进一步划分成17 subfeatures。

在一些论坛、词汇相似度不能使用更有效,因为极少有重叠的问题的答案和nonanswers也显示相同的行为(6]。在这种情况下,nonlexical特性比词汇更可靠。在某些情况下,研究人员提出了一个框架完全依靠nonlexical特性判断的质量文件(19]。一些研究人员表明,结合语法词法nonlexical特性给好的结果(7]。作者在11)使用用户交互行为功能分类大规模网络公开课程(蕴藏)线程使用卷积神经网络等模型基于特征是语言和内容无关的。作者在16)结构和基于内容的特性来开发他们的框架用于<标题、回复>对提取丰富chatbot知识。作者在5]nonlexical线程特征用于分类成主观和nonsubjective论坛线程。因此,不同的研究使用的各种组合特性增强模型的性能。这样的一个研究发现12特性而另确认6最佳特性(1,6]。

简而言之,并不是所有的功能都是非常重要的;一些不贡献而另一些人则对模型性能产生不利影响,所以为了得到最优subfeature列表,作者在1,20.)消除nonvaluable和冗余功能。此外,论坛的噪音也会影响模型的性能(20.]。另一方面,正常化论坛噪声将增强模型的性能。因此,如何选择最好的功能列表是重要的数据由于不同性质的论坛。

有不同的选择技术以减少特征空间的大小。主要是,这些都是分为过滤、包装、和嵌入方法。文档频率阈值(DF)、卡方(气),信息增益(IG),Acc和Acc2 (Acc2)是最常用的特征选择方法21]。作者在17)利用单变量和集群特性技术提高朴素贝叶斯的文本分类任务的性能。作者在21]引入了两个新的特征选择度量等文本分类相关频率特征选择(复位触发器)和替代Accuracy2 (AAcc2);和建议的新指标取得了可喜的成果与当前频率指标使用。其他研究人员使用信息增益(IG),卡方检验,并获得比(GR)得到最高12最好的特性。来衡量每个特性的意义,排列和烧蚀测试也执行(6]。

然而,我们提出研究使用LinearSVC分类回复的帖子在论坛线程。减少特征空间大小、单变量和卡方选择技术是用于选择最佳subfeature列表。下一节描述了我们建议的方法。

3所示。提出的方法

我们建议的模型总结了图1。它分为四个阶段:在第一阶段,数据预处理,消除错误和噪音。在第二个阶段,词汇和nonlexical特性的计算问题,回复帖子找到他们的相似之处。第三,特征是选择过滤使用不同的技术。在最后阶段,内核方法称为LinearSVC用于分类的支持向量机与高质量的回答,低质量,nonquality。下面将详细介绍这些步骤。

3.1。预处理

将原始数据转化为可预测和可分析的格式是数据预处理。采取以下步骤进行预处理的数据:(一)将所有单词转换为小写(b)使用WordNetLemmatizer NLTK Lemmatizing单词(c)删除所有停止词(d)扩大缩写

3.2。特征提取

用于查找不同特性的相关性和相似性回复帖子最初的职位。这些特性以不同的方式进行分类。一项由奥斯曼et al。1)分类特征相关性分成六组,作者主观能动性、时效性、易懂性,数据量和礼貌。这些团体被进一步分为28 subfeatures。同样,另一个研究发现五个功能组:词汇,内容,论坛具体,结构,和应答类型,并进一步划分成17 subfeatures [6]。

广泛地说,特性分为词法和nonlexical。text-specific词法特性特性,例如,余弦相似性的问题和回复帖子。同样,独特的单词的数量回复帖子也是一个词法特性。意图Nonlexical特性(作者或线程结构有关)和基于内容的功能。总数量的线程用户参加,作者在论坛的声誉和时间之间的问题和回复帖子的一些例子nonlexical特性。

答案抽取,在论坛中,一些研究人员首选nonlexical特征在词汇的(5- - - - - -7,19),而另一些人提出了词法特征(20.]。当然,问题有一些词汇相似的答案(20.),因此每个人都应该使用词汇和nonlexical特性提取最相关和质量的答案(8]。词法特性被用来找到答案的相关性问题,虽然nonlexical特性是用来检查他们的质量19)这是一个答案在多大程度上解决了问题。

一些功能并不总是可用的。一位研究人员检查了12个数据论坛,发现36.3%意图进行特性是可用的,而75%的作者主观能动性的特征是可用的(6]。在我们的例子中,时间性特征并不可用。此外,使用一些特性使得该模型具体论坛。因此,在本研究中,我们使用词汇和nonlexical特性尤其针对那些100%的特性,可以很容易地计算出的文本或结构线。这些特性是词法、基于内容和语义特征。

在这项研究中,我们使用二十特性表中给出1简要描述。这些,十四词法特点,基于内容或语义特征如表所示2。表中,三个突出特征F1, F16和F17我们新提出的语义特征。一些特性,比如F7,季、F12 F13, F20直接从文本或线程结构计算。例如,F7是独特的单词回复帖子的数量可以计算通过分裂的话,然后应用集和len在Python语言的功能。


代码	缩写	描述	功能类型	子类型

F1	ThrdCntrodRplyWMDistance	字发回复从线程中心的距离	词汇	语义
F2	ThrdCentrodRplyCosnSmlrty	余弦相似性的回复线程中心	词汇	纯粹的词汇
F3	TtlRplyCosnSmlrtyWholCrps	余弦相似性的回复基于语料库从所有线程创建的标题	词汇	纯粹的词汇
F4	QustionRplyCosnSmlrtyWholCrps	余弦相似性与最初的帖子回复基于语料库的创建的所有线程	词汇	纯粹的词汇
F5	TtlRplyCosnSmlrty	余弦相似性的回复帖子标题	词汇	纯粹的词汇
F6	QustionRplyCosnSmlrty	余弦相似性的回复线程初始职位	词汇	纯粹的词汇
F7	UnqWrds	独特的单词数量回复	词汇	纯粹的词汇
F8	IsRplyByCrtrOfInitlPost	是由最初的创造者的帖子给予答复?	Nonlexical	结构
F9	NumRepliesByUsrCurrentThrd	回复总数由用户在当前线程	Nonlexical	结构
F10	NoThrdsUsrParticipated	用户参与的线程总数	Nonlexical	结构
季	ReWrdsOvrlpInitialPost	之间的重叠词最初的帖子和回复帖子	词汇	纯粹的词汇
F12	ReWrdsOvrlpThrdTitl	线程之间的重叠词数量标题和回复帖子	词汇	纯粹的词汇
F13	IsRplyContan5WHWrds	回复包含5 wh单词吗?	Nonlexical	基于内容的
F14	IsRplyMntionOthrUsrNames	回复引用其他论坛用户吗?	Nonlexical	结构
F15	IsRplyHvHyperlnk	回复有任何超链接吗?	Nonlexical	基于内容的
F16	WMDbtwnTitlRpl	单词发帖子标题之间的距离和回复	词汇	语义
F17	WMDbtwnQustionRpl	字发距离最初的帖子和回复	词汇	语义
F18	TotlNoRpliesByUsrInAllThrds	回复总数由用户在所有线程	Nonlexical	结构
F19	TotlNoIntialPstsByUser	由用户创建的最初的帖子总数	Nonlexical	结构
F20	NoWrdsRply	总数量的单词出现在回复	词汇	纯粹的词汇


代码	缩写

F1	ThrdCntrodRplyWMDistance
F2	ThrdCentrodRplyCosnSmlrty
F3	TtlRplyCosnSmlrtyWholCrps
F4	QustionRplyCosnSmlrtyWholCrps
F5	TtlRplyCosnSmlrty
F6	QustionRplyCosnSmlrty
F7	UnqWrds
季	ReWrdsOvrlpInitialPost
F12	ReWrdsOvrlpThrdTitl
F13	IsRplyContan5WHWrds
F15	IsRplyHvHyperlnk
F16	“WMDbtwnTitlRpl”
F17	“WMDbtwnQustionRpl”
F20	NoWrdsRply

纯词法特性,比如F2、F3、F4, F5、F6,我们使用bag-of-words(弓)的方法。弓方法是一个著名的技术从文档中提取特征向量和代表他们。向量的值代表文件中一个单词出现的次数。因为弓方法忽略了功能只秩序和词频事情,保持句子结构和语言秩序,我们使用三元和卦词序列将从文档中获得更多的意义。一些功能得到高频但不更有价值,所以对于过滤/单词不重要特性,我们使用这个词的频率逆文档频率(TF-IDF)技术,将文本转换成向量和分配weightage文档中每个单词根据其重要性。

我们介绍了三个新的语义特征称为F1, F16, F17答案提取在论坛,和我们所知,这些特性还没有在文献中使用。我们用文字发距离和谷歌pretrained word2vec模型对我们提出的新功能。谷歌pretrained word2vec模型,用于上下文/语义相似度的话,向量为三百万词/短语,它一直在训练大约数百十亿的话从Google新闻数据集。我们保留默认词向量长度为300的特性,因此word2vec模型将检查的相关性两个词在300维空间。其专业词汇有相同语义/上下文将密切向量。词发(WM)距离的测量是不同的两个文档。WM距离越大,越会不同,反之亦然。零距离意味着两个文档是完全彼此相关。

功能F1是每个回复与线程的上下文相似性重心。线程重心,最重要的功能/单词使用TF-IDF技术得到。字发距离每个回复的质心计算使用谷歌pretrained word2vec模型。特性的F16推动者这个词距离F17线程标题和回复,特点是发这个词距离最初的帖子/问题和回复。

拟议的新语义特征(F1、F16和F17)是重要的因为卡方和单变量特征选择技术选择在顶部特征空间对Ubuntu和TripAdvisor(纽约)数据集表3- - - - - -6。


代码	缩写

F1	ThrdCntrodRplyWMDistance
F2	ThrdCentrodRplyCosnSmlrty
F7	UnqWrds
F8	IsRplyByCrtrOfInitlPost
F9	NumRepliesByUsrCurrentThrd
F13	IsRplyContan5WHWrds
F15	IsRplyHvHyperlnk
F16	“WMDbtwnTitlRpl”
F17	“WMDbtwnQustionRpl”
F19	TotlNoIntialPstsByUser
F20	NoWrdsRply


代码	缩写

F1	ThrdCntrodRplyWMDistance
F2	ThrdCentrodRplyCosnSmlrty
F3	TtlRplyCosnSmlrtyWholCrps
F5	TtlRplyCosnSmlrty
F6	QustionRplyCosnSmlrty
F7	UnqWrds
F8	IsRplyByCrtrOfInitlPost
F10	NoThrdsUsrParticipated
季	ReWrdsOvrlpInitialPost
F13	IsRplyContan5WHWrds
F15	IsRplyHvHyperlnk
F16	“WMDbtwnTitlRpl”
F17	“WMDbtwnQustionRpl”
F19	TotlNoIntialPstsByUser
F20	NoWrdsRply


代码	缩写

F2	ThrdCentrodRplyCosnSmlrty
F6	QustionRplyCosnSmlrty
F7	UnqWrds
F8	IsRplyByCrtrOfInitlPost
F13	IsRplyContan5WHWrds
F17	WMDbtwnQustionRpl
F19	TotlNoIntialPstsByUser
F20	NoWrdsRply


代码	缩写

F1	ThrdCntrodRplyWMDistance
F2	ThrdCentrodRplyCosnSmlrty
F6	QustionRplyCosnSmlrty
F7	UnqWrds
F8	IsRplyByCrtrOfInitlPost
F9	NumRepliesByUsrCurrentThrd
F16	WMDbtwnTitlRpl
F17	WMDbtwnQustionRpl
F19	TotlNoIntialPstsByUser
F20	NoWrdsRply

3.3。特征选择

有一个功能列表,词汇和nonlexical,可用于提取答案的问答论坛。但他们并不是同等重要,不能使用由于以下原因:(一)一些特性nonvaluable和对模型性能产生不利影响1](b)有些特性是相关的,而有些是来自其他特性的组合(c)并非所有功能都可用数据集(d)使用意图进行特性使得模型论坛相关的(e)使用所有这些计算昂贵

克服上述局限,最初我们选择这些功能的可用性是倍,可以很容易地计算出讨论的文本部分3.2。然后,我们使用两种特征选择方法,即卡方和单变量,减少特征空间大小为了得到最优特性节中详细讨论4.3。

3.4。分类模型建设

这个阶段的目标是分类相关回复帖子,部分有关,无关的使用机器学习算法。我们使用一个内核的支持向量机(SVM)方法称为LinearSVC。这种分类是基于相关性的回复最初的职位。

我们比较LinearSVC分类器的分类精度和其他内核的支持向量机方法以及其他先进的分类算法如多项朴素贝叶斯、伯努利朴素贝叶斯、随机森林,和逻辑回归。所有分类器训练和测试三组的功能特性和两套subfeature选择不同的特征选择技术。更多细节可以在部分4。

4所示。实验设置

4.1。评估数据

提出答案检测模型评估两个datasets-the在线TripAdvisor论坛(https://www.tripadvisor.com.my/ShowForum-g28953-i4-New_York.html)对纽约城市(纽约)和在线论坛(Ubuntu Linux发行版http://ubuntuforums.org)。作者从两个论坛随机选择了100个线程,每一方都有一个和多个回答问题。在Ubuntu和788年总有756回复回复在TripAdvisor(纽约)数据集。回答被分为三类。回答是完全相关的分配一个类标签3,部分相关的答复是指定一个类标签2,和1是分配给不相关的回复。。这两个数据集有7列,“ThreadID”,“标题”,“UserID_inipst”,“问题,”“标识”,“回答,“和”类,“为每一个线程。我们把标签数据集以这样一种方式,80%的数据用于训练和20%数据用于测试。

4.2。分类算法

我们选择了一个线性内核的支持向量机(SVM)方法LinearSVC呼吁回答/答复在文本分类论坛线程。支持向量机是广泛应用于文本分类问题(22]。我们也将LinearSVC的性能与其他内核的支持向量机方法以及其他先进的分类算法。分类器的简要讨论如下。

4.2.1。准备朴素贝叶斯

它是一组监督学习算法基于贝叶斯定理认为每个特性是独立于其他特性。这种分类器主要用于文本分类问题和给了好的结果23]。

贝叶斯定理如下所述: 在哪里类变量和代表一个依赖的特征向量。

朴素贝叶斯需要少量的数据训练和其他分类器相比,非常快。

朴素贝叶斯的变异后用于本研究的评价。

多项朴素贝叶斯用于多项式分布数据。它主要用于文本分类。

4.2.2。支持向量机(svm)

一群算法用于分类、回归、异常值检测。它在高维空间表现良好4),并使用更少的内存。它与不同的内核,定制的内核也可以被指定。我们使用以下三个实现。

支持向量分类(SVC)。它是基于libsvm。适应时间与平方增加样本的数量。“rbf”是默认的内核。其他内核是“线性”、“聚”和“乙状结肠。”

NuSVC。SVC是一样的但有稍微不同的参数设置和数学公式。它是基于libsvm。在这里,ν是一个正则化参数值从0到1。的参数C和ν是相同的上下文中分类能力但评价ν更容易比C。

LinearSVC。它是基于“liblinear”与“线性”的内核。输入可以是稠密或稀疏和更灵活的选择处罚和损失函数。

4.2.3。逻辑回归

它是一种分类方法,概括了逻辑回归(LR)多类问题,即。,超过2离散结果。这是一个概率模型用来预测不同结果的给定目标变量的一组输入功能。

4.2.4。随机森林

他们也被称为随机决定森林。他们是一个学习方法分类任务和工作通过建立决策树的大量训练时间和输出的模式类的类(分类)的个人决策树。

4.3。功能降低

消除nonvaluable和冗余特性,采用两个选择技术:卡方检验和单变量。前选定11 Ubuntu的最佳特性和八个TripAdvisor的最佳特性数据集表所示3和5分别,而后者最好选择15个最佳特征Ubuntu和十特性TripAdvisor数据表所示4和6,分别。在下一节中,它已经表明,与这些子集分类器的功能比所有功能表现良好。

4.4。实验结果和讨论

所有六个分类器的结果,在这项研究中,使用所有功能和特性选择不同的选择技术将在本节中讨论。SVC, LinearSVC NuSVC MultinomialNB,随机森林(RF),逻辑回归(LR)被用于这项研究。

在第一阶段,数据集分类器被用于Ubuntu二十特性如表所示7。所有六个分类器给好的结果,但MultinomialNB LinearSVC表现不错,给了相同的准确性为73.7%。LR第二最高精度(72.4%),SVC导致了71.1%的准确率。随机森林占据了第四的位置,准确率达到63.2%。


分类器	精度(%)

LinearSVC	73.7
SVC	71.1
MultinomialNB	73.7
随机森林	63.2
逻辑回归	72.4
NuSVC	61年

然后,TripAdvisor数据集使用所有二十特性的分类器进行测试。结果如表所示8。很明显的结果LinearSVC最高68.4%的准确性。射频和LR在第二位置精度虽然NuSVC 64.6%的准确率为67.1%。SVC和MultinomialNB精度最低。


分类器	精度(%)

LinearSVC	68.4
NuSVC	64.6
随机森林	67.1
逻辑回归	67.1
SVC	62.5
MultinomialNB	59

在第二个阶段,特征空间降低了采用卡方特征选择技术。十一个最佳特征选择Ubuntu和八个最佳特征选择TripAdvisor数据集(表3和5)。三个新的语义特性,介绍了工作,选择了特征选择技术。这表明,这些特性是答的重要的相似之处。

分类器是用于Ubuntu数据集与这些最优特性。结果在表9再次表明LinearSVC精度最高的73.7%。MultinomialNB和LR有相同的准确性为72.4%。SVC在第四的位置,准确率达到67.1%。随机森林是在第五和NuSVC第六的位置。指表7和9、LinearSVC和LR给二十的人一样的精度特性。随机森林和NuSVC也增加了准确性。MultinomialNB的准确性略减少,但这一次只有11特性被用来代替二十。


分类器	精度(%)

LinearSVC	73.7
SVC	67.1
MultinomialNB	72.4
逻辑回归	72.4
随机森林	64年
NuSVC	63.1

所有六个分类器的结果,LinearSVC NuSVC,射频,LR, SVC和MultinomialNB TripAdvisor数据集,前八名最佳特性选择卡方技术如表所示10。再次LinearSVC表现良好有76%的准确度而LR在第二位置和NuSVC在第三位置精度为73.4%和67.1%,分别。射频精度最低(65.8%)。


分类器	精度(%)

LinearSVC	76年
NuSVC	67.1
随机森林	65.8
逻辑回归	73.4
SVC	64年
MultinomialNB	62年

LinearSVC的精度提高了7.6%,NuSVC的精度提高了2.5%,LR的准确性相比增加了6.3%,准确性与所有二十特性表中给出8。SVC和MultinomialNB也增加了准确性。

在第三阶段,单变量特征选择技术是用来过滤功能。15个最佳特征选择Ubuntu数据集和十选择TripAdvisor的数据集,如表所示4和6,分别。再次,新引入三个语义特征也选择这两个数据集。

分类器的结果,Ubuntu数据集的选择特性,给出了表11。LinearSVC最高准确率达到了76.3%。MultinomialNB的准确性为73.7%。SVC和LR具有相同精度72.4%,而射频的准确性为60.5%。分类器表现更好,选择15个特性,相比20所有功能。


分类器	精度(%)

MultinomialNB	73.7
LinearSVC	76.3
SVC	72.4
随机森林	60.5
逻辑回归	72.4
NuSVC	60

TripAdvisor数据集,算法使用单变量选择的十大选定的最佳特性特征选择技术。结果在表12表明,该分类器的表现与所有二十特性比这要好得多。LinearSVC精度从68.4%上升到73.4%。NuSVC的准确性和射频增长了2.5%而LR精度从67.1%提高到了72.2%。


分类器	精度(%)

LinearSVC	73.4
SVC	69.6
NuSVC	67.1
随机森林	69.6
逻辑回归	72.2
MultinomialNB	61.5

不同分类器的分类精度基于Ubuntu的上下文中不同的特性和TripAdvisor数据集描述的数据2和3,分别。从实验结果,我们发现以下几点:(1)大多数分类器的精度与最佳选择增加或保持不变特性。(2)我们建议的分类器LinearSVC比其他所有先进的分类器。(3)我们新提出的三个语义特征选择技术选择的两个数据集和大大提高LinearSVC分类器的准确性。

5。结论和未来的工作

自动提取最相关的解决方案和质量回答最初的帖子(提问)在线程/论坛是一个具有挑战性的任务。本研究设置了一个新的方向呈现词汇,基于内容和语义功能,大大提高了该分类器的分类精度。在这项研究中,我们提出了使用监督机器学习模型中提取最相关的回复最初的帖子,论坛内螺纹,使用一个内核的支持向量机方法称为LinearSVC和比较它与其他内核支持向量机方法和其他先进的分类算法。LinearSVC, SVM的变体,给最高的精度。两个子集的特性进行了探讨,提高了模型的性能。此外,介绍了三个新的语义特征和选为最佳特性由卡方和单变量特征选择技术显著提高LinearSVC的准确性。对于Ubuntu数据集,卡方技术选择6词汇和5 nonlexical特性,而单变量技术选择10个词汇和5 nonlexical特性。TripAdvisor(纽约),卡方技术选择5词法和3 nonlexical特性而单变量技术选择7词法和3 nonlexical特性。所以,词汇特征更为必要和重要的讨论版的答案抽取。

在未来,我们打算探索更多的语义模型,基于内容的功能进一步加强。此外,这项工作可以扩展到线程总结。

数据可用性

可用的数据公开https://ubuntuforums.org和https://www.tripadvisor.com.my/ShowForum-g28953-i4-New_York.html。

的利益冲突

作者宣称没有利益冲突。

确认

作者扩展他们的感谢院长以来在沙特国王大学科研资助这项工作通过研究小组。rg - 1438 - 089。

引用

a .奥斯曼:萨利姆·赛义德,“质量维度特征识别高质量用户回复文本论坛线程使用的分类方法,”《公共科学图书馆•综合》,14卷,不。5,2019。视图:出版商的网站|谷歌学术搜索
g .琮、“发现问答对从网上论坛,”31日学报》国际市立图书馆年会在信息检索的研究与开发2008年7月,乌敏岛Ujong、新加坡。视图:谷歌学术搜索
周g . et al .,“改善社区问题检索使用世界知识问答,”二十三学报》国际联合会议上人工智能2013年8月,北京,中国。视图:谷歌学术搜索
v . s . Shirsat、r s Jagdale和s . n .德斯穆克”句子水平情绪识别和计算使用机器学习技术,从新闻文章”计算、通信和信号处理施普林格,页371 - 376年,柏林,德国,2019年。视图:谷歌学术搜索
p . Biyani Bhatia, c . Caragea, p . Mitra”使用non-lexical特性确定事实和固执己见的线程在网络论坛上,“以知识为基础的系统卷,69年,第178 - 170页,2014年。视图:出版商的网站|谷歌学术搜索
r·c·Kanjirathinkal”相似度有关系吗?答案抽取的情况下从技术论坛、“科尔学报》2012年12月,孟买,印度,。视图:谷歌学术搜索
l .香港和b·d·戴维森”基于分类的方法在讨论版问答,”美国第32国际市立图书馆会议在信息检索的研究与开发美国,波士顿,MA, 2009年7月。视图:谷歌学术搜索
h·胡”,多通道DBN cQA门户预测高质量的答案,”美国第51计算语言学协会的年度会议,卷2,索非亚,保加利亚,2013年8月。视图:谷歌学术搜索
j . b . Liu,胡锦涛h . m . Liu和x王”预测的质量在社区问答网站使用co-training用户生成答案,“模式识别的字母卷,58 29-34,2015页。视图:出版商的网站|谷歌学术搜索
美国斯科特和s . Matwin“文本分类使用WordNet上位词,”《科尔/ ACL使用WordNet研讨会在自然语言处理系统1998年8月,加拿大蒙特利尔大学。视图:谷歌学术搜索
l·冯·l·王,S.-l。刘,G.-c。刘,“分类讨论线程蕴藏基于深度学习论坛,”在计算机科学和工程DEStech事务卷,2018年,第498 - 493页,2018年。视图:出版商的网站|谷歌学术搜索
e . Agichtein“在社会媒体,找到高质量的内容”《2008年国际会议上网络搜索和数据挖掘美国帕洛阿尔托,CA, 2008年2月。视图:谷歌学术搜索
美国乔治•K和s·约瑟夫“文本分类的增加包与同现功能的话(弓)表示,“IOSR计算机工程杂志》上,16卷,不。1、品种马非常,2014页。视图:出版商的网站|谷歌学术搜索
人工智能Obasa:萨利姆,a .汗”杂交bag-of-words和论坛的元数据网络论坛的问题后发现,“印度科学和技术杂志》上,8卷,不。32岁的1 - 12,2016页。视图:谷歌学术搜索
j .赵张x, y LeCun(“字符级卷积网络文本分类,”2015年,http://arxiv.org/abs/1509.01626。视图:谷歌学术搜索
黄j . m .周和d·杨,“提取从在线讨论论坛,聊天机器人知识”20国际联合会议上人工智能程序海得拉巴,印度,2007年1月。视图:谷歌学术搜索
s . d . Sarkar美国他,:A . Agarwal和j .兹”小说文本特征选择技术使用朴素贝叶斯分类,“国际学术研究的通知文章ID 717092卷,2014年,10页,2014。视图:出版商的网站|谷歌学术搜索
k .柴”,自动测量在论坛用户生成内容的质量,”澳大拉西亚的联合会议上人工智能学报》上施普林格,珀斯,澳大利亚,2011年12月。视图:谷歌学术搜索
j·琼”,一个框架与分文本预测答案的质量特性,”学报》第29届国际市立图书馆年会在信息检索的研究与开发美国,奥林匹亚,佤邦,2006年3月。视图:谷歌学术搜索
人工智能Obasa:萨利姆,汗,“增强词汇基础模型论坛回答检测,”学报》第五届国际会议上数字信息处理和通信(ICDIPC)IEEE Sierre,瑞士,2015年10月。视图:谷歌学术搜索
d . O。Şahin和e . Kılıc”两个新的文本分类特征选择度量标准,“Automatika,60卷,不。2、162 - 171年,2019页。视图:出版商的网站|谷歌学术搜索
吴x, v . Kumar j·罗斯昆兰et al .,“十大算法在数据挖掘中,”知识和信息系统,14卷,不。1,1-37,2008页。视图:出版商的网站|谷歌学术搜索
诉Kharde和p . Sonawane情绪分析Twitter的数据:调查技术,”2016年,http://arxiv.org/abs/1601.06971。视图:谷歌学术搜索