医学知识分享社区为用户提供了一个开放的平台访问医疗资源和分享医学知识,治疗经验,和情绪。与一般商品的接受者,接受者在医学知识分享社区更加注意强度或综合评价情感词汇的评论,如治疗效果,价格,服务态度,和其他方面。因此,综合评价不是医疗服务评价的关键因素,但情感极性的语义是影响医疗信息的接受者的关键。在本文中,我们提出一种自适应学习情感识别方法(ALEIM)基于互信息特征重量,它捕获特性的相关性和冗余。为了评估该方法的有效性,我们用四个基本语料库图书馆爬Haodf的在线平台,采用台湾大学NTUSD简体中文情感字典对情感分类。ALEIM提出的实验结果表明,我们的方法具有更好的性能,识别低频词的冗余特性在线评论的医学知识分享社区。
一个bstract>越来越多的评论,意见,建议,评级,并反馈生产在社交网络上与互联网的快速发展(
自然语言处理和文本情感分析技术被用来提取特征情感评论(
情感分析已广泛应用于许多领域(
直到现在,情感分类方法大致可以分为三个领域:机器学习方法,情感词典的方法(
我们基本的语料库表示<我nl我ne-formula>
我们每个特性中包含的所有形容词数量和替代数量作为后续计算矩阵特征值的。
让<我nl我ne-formula>
由于不确定性的形容词语言选择评论图书馆,概率是用来描述其分布特征。<我nl我ne-formula>
情感极性的不确定性的评论集中在评论的功能冗余,互信息可以有效地测量变量之间的冗余特性集。因此可能找到一组输入功能,有一个很大的互信息值识别的类别和低冗余之间的其他特性。该功能Relation-Redundancy系数(R<年代up>2年代up>C)用于歧视考虑特征值的范围和分布值。
在特征选择过程中,多个候选特征的联合行动的范畴<我nl我ne-formula>
如果<我nl我ne-formula>
空间互信息发表评论。
在<我nl我ne-formula>
更大的<我nl我ne-formula>
让<我nl我ne-formula>
<我nl我ne-formula>
当特征值的范围是一样的,统一的价值越多,那么重要
特性值均匀分布时,值范围越大,越不重要
当<我nl我ne-formula>
当<我nl我ne-formula>
当<我nl我ne-formula>
当<我nl我ne-formula>
考虑到互信息和冗余的特征,实证指数<我nl我ne-formula>
作为一个模型的重要参数,<我nl我ne-formula>
基于语料库的基本的数据库中的数据,得到最优特征冗余和最少的子集中的每个功能特性的相对权重集和计算的无名语料库的情感价值显著特点在此基础上的重量。具体步骤如下:
从无名语料库中提取情感词,将它们转换为一个基本的语料库。
根据基本的语料库,删除冗余特性的最佳功能,包括权重过滤掉。
特征值对应的特征的名词被分配根据情感词典编纂的NTUSD台湾大学;积极的单词是分配1 -单词分配−1和情感价值根据重量计算(忽略了副词或语法结构的影响情感价值)和情感阈值基于基本的语料库是集。
法官的极性和准确性测试根据权重和情感阈值基于语料库训练库。
执行我们的实验分析之间的互信息方法和情感词典,TI-IDF和支持向量机。使用四个数据集爬Haodf在线平台的评估我们的提议ALEIM方法的性能,实验分为四个方面:
在实验中使用的数据集。
整个流程和评价措施的实验。
实验细节的描述使用四个数据集从Haodf爬的在线平台。
实验的讨论。
实验数据集从Haodf爬的在线平台。这些医疗服务评价提取使用八达通,然后分词使用Java编程中,重组和每个句子在评论的metamatrix结构分为“名词+动词。“我们首先选择100医生和随机收集750年数据在评论区域和构造四个基本语料库训练库基于上述数据与不同的评论,如图所示
实验数据集的准备过程。
正面和负面评论的数量在四个基本语料库训练库不同,和积极评价比率高于负面的。由于随机抽取评论数据作为语料库训练库,分布的训练库中的积极和消极的评论是不确定的。这种随机提取的数据作为训练语料库数据,它不仅可以测试的依赖不同的分类算法根据不同类别数量也是学习能力的具体分类基于小样本。400年的数据准备的测试数据表
情感在不同分类算法的测试数据。
当进行特征提取,特征与100年从语料库中提取数据都包含在其他卷文集;从语料库中提取的特性与150年的数据都包含在200年的语料库,300年和400年数据;的主体之一,200年和300年数据提取相同的特性;数量特征与400年的数据从测试语料库中提取42岁和一个额外的功能与200年和300年从语料库中提取数据。
由于数据是随机爬的,彼此之间的语料库数据重复性较低,因此可以近似的概率减少迅速出现的新特性选择评论语料库数据增加。因此,评论的数量确定合适的训练语料库的数据,和提取的特征可以包含几乎所有的功能包括在医学评论(由小概率通常不是一些特殊的特征提取相关医疗服务本身)。这表明评论经常有限制的特性与传统的商品评论相比由于医疗服务的一致性和标准化。一般商品的评论并不固定,由于产品的功能属性;产品高度不同,不同的产品通常包含独特的特性,通常影响整个评论的极性。因此,商品评论特征提取有很高的要求,需要不断更新基于大量的数据提取功能实现情感极性的准确分类。由于医疗服务没有一般商品的可变性,评论的功能是有限的,所以选择一定数量的数据提取功能几乎可以涉及的所有特性的医疗服务评论。
年代ec>我们采用台湾大学NTUSD简体中文情感词典语料库对情绪和情感的分类。本文实验的总体流程图如图
实验的总体流程图。
这个实验中使用的SVM和特征权重算法通过使用MATLAB实现。其中,互信息算法和IDF算法计算特征权重通过使用基本的语料库,然后结合的情感词典NTUSD来计算情感价值的语料库训练库和情感阈值根据语料库数据集(分别计算出正面和负面评论,然后用加权平均两种类型的情感意味着情感阈值)。情感极性测试语料库的基于特征的权重和阈值判断。我们选择以下指标作为评价指标:
真阳性:最初积极情绪,分为积极的情感。
真正的负面:最初的负面情绪,列为负面情绪。
假阳性:原来消极情绪,分为积极情绪。
假阴性:最初积极情绪,分为消极的情绪。
准确反映出分类器来确定整个样本的能力:积极的决定可以积极和消极的决定-,可以表示为
精度反映真阳性样本的比例在积极的情况下由分类器,可以表示为
召回反映阳性病例的比例,正确判断总正面例子,可以表示为
图
本文中使用的四种方法的准确性。
表
详细的MI和其他方法之间重要的测试结果的准确性。
图
本文中使用的四种方法的精度。
表
心肌梗死之间的详细的精度的重要测试结果和其他方法。
图
召回的四个方法。
表
心肌梗死之间的详细的召回的重要测试结果和其他方法。
图
互信息算法和TI-IDF算法之间的差异。
互信息算法权值明显高于IDF权重前三个特性。这三个特征是医学评论中常见。IDF算法认为,这些评论与高频率低的重要性和过滤给小重量,而互信息算法根据识别的高互信息值和低冗余特性给出了高体重,这样的重量使互信息算法在识别精度低于IDF的积极情感极性。这些特性是作为评论的基本特征;它往往有较低的指导作用的情感极性的评论家积极评价和主要角色情感极性的方向的负面评论。
在后者的两个特性,互信息算法体重明显低于IDF算法。这些特性属于低频特性和出现的6倍和7倍300年数据,分别。IDF算法假定低频词更能影响的情感极性的评论评论图书馆作为一个整体,和互信息算法认为这些特性是小互信息值和高冗余性和低体重。实验表明,这两个特性实际上削弱了评论的情感极性。IDF算法分类中的所有错误6测试评论类别与上述两个特点,和互信息的识别率为100%。
年代ec>从上面的实验分析,我们可以获得互信息是最合适的方法来解决这样的问题。它显示了良好的性能方面的准确性,当样本数量的增加,只需要一个温和的计算成本为解决情感分类问题的简短文本在线医学知识分享社区。然而,在精度和召回,之间没有显著差异的互信息方法和TI-IDF方法,但图
情感分析已广泛应用于许多领域,成为一个重要工具提取情感信息的评论。情感分析在医学知识分享社区与一般商品相比仍相对缺乏。信息接受者在医学知识分享社区更关心情感词汇的强度在评论或整体评估。在这个研究中,我们提出一种自适应学习情感识别方法基于互信息特征重量,它捕获特性的相关性和冗余。其有效性验证数据集从Haodf爬的在线平台,我们采用台湾大学NTUSD简体中文情感词典语料库对情感分类。最后,实验结果表明,该ALEIM方法可以实现良好的性能,特别是在低频词特征提取的评论在线医学知识分享社区。
年代ec>实验数据来自Haodf的在线平台,可以爬
作者宣称没有利益冲突有关的出版。
年代ec>这项研究得到了国家自然科学基金(批准号71571105)和中国人民大学的基础研究基金(批准号63172074)。
一个ck>