文摘

随着物联网的发展,智能医疗设备和智能咨询平台已经迅速普及,提供极大的方便医疗病人和咨询医生。面对大规模的医疗电子信息数据,如何自动、准确地学习专业知识,实现应用程序是非常重要的。现有智能医学问答模式通常使用查询扩张改善模型匹配的准确性的答案但忽略相应的实体之间的关联问题和答案,和随机生成负样本的方法不能训练模型来捕获更多的语义信息。要解决这些问题,一个问题回答的方法提出了基于dual-dimensional实体智能医学协会。这种方法学习语义分别dual-dimension的问题和答案。维度的问题,查询扩展词,并有很强的相关性查询意图通过实体关联的医学知识图。回答维度,答案句子分割和采样采用各种相似性距离产生负样本在不同的范围,提供不同级别的实体之间的关联信息模型训练,然后将训练模型,提高准确性和鲁棒性的问答模式。实验结果表明,问答模式提出了具有良好精度的改善。

1。介绍

作为应用自动问答(QA)模型的分支,医学问答模式的研究和应用一直是高压线NLP(自然语言处理)技术的提高。QA模型由两个阶段(1问答:问题处理和匹配。前分析和分类问题,提取关键字,并重建问题,而后者搜索和匹配的答案基于语义和语法分析。目前,查询扩展(2)被广泛用于狭窄之间的偏差问题和理解问题的答案更准确。与此同时,许多研究匹配问题和答案的规则(3),聚类(4],相似[5)和神经网络(6,7)培训获得的模型使答案更接近金色的答案。

然而,基于关键字的查询扩展方法或语义只从表面开始等信息统计、医学词典,和互信息挖掘候选人扩展词汇,忽略了关键作用的关系问答医疗实体语料库和消极医疗实体识别获取扩展词汇。此外,QA模型的训练方法基于一个相似或神经网络收集负样本样品中只关注实体之间的关系在一个特定的层次结构,而缺乏多样性和稳定性。表1给我们的测试数据的两个例子,有一个症状实体之间的关系疾病引起的症状,如“呕吐”“腹痛,”和“胃肠道菌群失调的疾病实体问题1 (Q1)。然而,症状实体“凸肚脐”和“可约肿瘤”被忽略,因为查询的偏差,和“不热”等负面实体还干扰QA模型,因为他们并不认可。此外,答案2 (A2)和A2的Q2词汇相似度高,因为它们包含等实体“泡形状的凸起,”“高烧”,和“食欲不振”。

一个优雅的框架提出了捕捉潜在的实体协会在中国医学QA语料库的帮助下医学知识图,并采用模型集成的概念(8)培养模式专注于多个相似之处同时结合多个基本的学习者。具体来说,主要贡献如下:(我)我们收获的中医QA句子XunYiWenYao (http://3g.xywy.com/)和39健康(http://www.39.net/)。查询意图分类器训练在预处理的数据通过使用semi-supervised自我训练方法实现查询意图的自动注释在最初的问题。(2)提出医学综合质量保证方法关注dual-dimensional实体关联,其重点是实体关联维的问题和答案,减少了噪声引入扩展词汇,并捕获实体关联在不同层次对模型通过集成学习,这样可以搭配金色的答案更准确。(3)测试数据集上的结果表明,提出的模型的有效性DDEA (dual-dimensional实体智能医学协会的问题和回答技术)在获取查询扩展词和匹配问题和答案,并能更有效地捕捉潜在的语义信息在不同的查询意图。

2.1。基于查询扩展的问答

因为问题句子和答案句子之间的内容是不同的,语义偏移造成,大大影响了质量保证模型的准确性。因此,查询扩展方法引入QA模型,构成之间的语义鸿沟问题和答案通过添加单词相关的原始查询的答案。在医学领域,外部等医学知识资源网(9],uml [10),和多个医学本体数据库11)作为扩展词的来源。然而,基于同义词的查询只扩张无法准确捕捉语料库中的语义信息。杨et al。12)开发了一个QA系统训练分类器基于欧氏距离和词从医学专家选择适当的单词词汇来提高用户的查询。尽管QA模型提高了本体的性能数据库,很难构建和介绍在一个特定的系统由于大规模。王等人。13]扩展查询找到最相关的语义关联与潜在的特征向量,用三元组协会条款。李等人。14)基于医学术语提出查询的重量加权重建方法和self-information医学术语,然后结合加权医学术语和原始查询的比例。沈et al。15)反映单词之间的关联程度,利用互信息,把最高的实体概念互信息值作为查询扩展词。促进质量的性能模型,艾莎et al。16]扩展查询与医疗实体和语义关系基于OWL的外部资源。纳西尔et al。17)提出了一个共同的知识和相关反馈的方法,分析了查询词的多样性和通过不同的方法找到同义词。胡锦涛et al。(18)使用领域概念扩展查询通过融合领域知识图和提取上下文特性来获得查询的上下文感知。然而,查询扩展的方法只采用一个域的概念实体和实体之间的关系的忽略了至关重要的作用。

2.2。基于模型集成的问答

计算句子和文本之间的相似度大大有助于QA模型(19]。斯科特et al。20.)提出了一个增强的词汇语义资源模型提高QA模型的有效性。Zhang et al。6)采用端到端多尺度CNN基于词向量模型的问题和答案分别找到正确答案用相似的问题和答案。基于分布式表示技术,Word2Vec Si et al。21]匹配得到正确答案句子之间的余弦相似性对。然而,这些模型基于单一模型的性能不稳定,影响质量保证模型的准确性。

集成多个优秀的基础模型的方法开始出现并被应用到QA模型增加了模型的有效性。侯et al。22)选择第一个N最佳分类器集成通过训练样本使用交叉验证。王等人。23]训练模型相同的几轮hyperparameter和结构,将选择问题的答案。陈等人。24]几个随机人工神经网络训练和综合模型来预测答案的准确率高。刘等人。25装袋)训练有素的异构基础模型的方法和集成。Bandyopadhyay et al。26)集成pre-trained BioBERT模型在不同的主体来实现更好的结果。杨et al。27)提出了一种自适应决策融合方法,该方法自适应地结合了分类器和不同级别的特性来培养一个答案选择模型的鲁棒性和有效性。然而,以上负样本与集成策略来自随机抽样,不能显式地控制基础模型的多样性。因此,有:et al。28]提出的想法基础培训(管理)。管理的概念是获取训练样本集之间的语义相似度计算正负样本集,然后排序和分段负样本,从而显式地管理控制的粒度语义表示学习的基本模型。然而,语义相似性的一维距离并不能保证模型可以充分利用负样本的多样性,导致多样性基本模型的不足。

3所示。方法

摘要QA模型应用于中医自动问答系统。我们爬行医学问答对语料库,然后查询意图训练分类器,利用半监督和自我训练方法标记的意图问题。此外,我们开发一个dual-dimensional实体智能医学协会的问题和回答技术,DDEA。图1显示了框架,给出了问题及其答案作为一个例子,这扩展了问题医疗实体之间的关系和互信息问题维度,然后完成负样本细分采样基于multi-similarity距离答案维度训练基础模型,专注于不同层次的实体之间的相关性。最后,基础模型集成实现更精确的自动QA匹配不同的查询意图。

3.1。语料库标注
数据清洗:删除无效数据,如不可读的表情,没有答案,和7987对合格的问答对通过删除个人问题以外的其他疾病的分类诊断、症状、治疗和病因的语料库,确保平衡语料库。接下来,统一的语料库和大约20%的疾病名称问题,即。,1408 questions, are selected to tag the intent category as an initial training set for the classifier.目的分类:问题与同样的意图常常包含类似的疑问词,即使他们是不同的在不同的问题。问题的类型分为五类:疾病的诊断,治疗,症状,病因和诊断。后者是一种复合类型的问题,既有疾病诊断疑问词和治疗疑问词。疑问词的例子给出了表2自动注释:查询意图有积极影响提取的关键医疗实体问题,使质量保证模型准确地推断出医疗实体类型可能出现在原始查询的答案,以避免噪声引起的引入扩展词无关。考虑到样本不平衡数据集,支持向量机(29日)被选中,这是对样本不平衡,作为初始分类器,训练分类器利用的疑问特性和TF-IDF特性问题。最后,两个医生被邀请去检查和正确的注释结果分类器。
3.2。获取查询扩展词

查询扩展是一个至关重要的问题处理的阶段。它的准确性直接影响到QA模型性能。那里,候选扩展单词更相关的问题得到关注实体之间的关系问题在不同的查询意图,和负面的干扰医疗实体实体之间的互信息的价值是通过消除负面医疗实体识别获得更准确的扩展词。

由于缺乏一个完整的医学知识基础在中国,我们首先获得一个域字典的疾病,症状,药物,和测试通过整合39健康,搜狗同义词典(https://pinyin.sogou.com/dict/cate/index/132),ICD-9-CM (https://www.cdc.gov/nchs/icd/icd9cm.htm)和结果(https://www.cdc.gov/nchs/icd/icd10.htm)。字典信息如表所示3。与此同时,我们从开放中提取三元组与标记部门中国医学常识图(https://github.com/liuhuanyong/QASystemOnMedicalKG)和发展中国医学知识图利用来自39健康的医疗数据。然后,结合医学领域词典,最初的查询关键词选择与意图标签问题。这里,症状实体提取作为初始查询关键词的问题疾病诊断和诊断,疾病实体提取作为初始查询关键词的问题治疗和病因。查询关键字 获得通过移除负面医疗实体通过触发功能词和停止功能词基于上下文算法(30.从最初的查询关键词。表4显示了触发功能词和停止功能包含在文集中。

可能的医疗实体类型的对应问题的答案预计基于查询关键词 通过使用推理规则R和类型的查询意图,推理规则如下: 在哪里 分别是问题和答案; 是查询关键字的查询意图和类型 分别在问题;和 是医学实体答案的类型。然后,如果有症状中的实体问题的疾病诊断,它可能存在于答案,也就是说,

根据医学知识图公斤在中国语言,各种意图的问题进行分类和扩展采用推理规则R结合查询关键字 和类型的查询意图 在这个问题。查询关键字 规范化是基于实体的公斤,避免口语化的词之间的偏差的负面影响在语料库和相同的概念在公斤。然后,结合医疗实体类型 在回答了推理规则R,医疗实体 提取实体的疾病、症状、药物,病因在公斤。对疾病诊断的问题,疾病医疗的交集实体对应的症状被认为是候选人查询扩展词 因为多种疾病可能引起一些症状。此外,相应的药物和医疗症状实体的结合被认为是候选查询扩展词的治疗和症状的问题,分别。候选人的查询扩展词的诊断问题是疾病和药物的联合实体。很难概括,扩展几句话,因为病因通常包含许多句子的病因的问题,这类问题将不会被处理暂时避免了噪音。

考虑到有一些罕见的医学实体答案,这将带来噪音得到扩展词汇,本文筛选候选查询扩展词 通过负医疗实体识别和互信息。在这里,互信息指的是两个词之间的相关性。它是通过计算两个词出现的频率在常见的窗口中, 在哪里 出现的数量吗 同现窗口中出现的同时, 出现的数量吗 分别出现在语料库 语料库是实体的数量。

避免消极的单词频率的干扰医疗实体的互信息计算医疗实体,上下文中算法被用来识别-医疗实体,和相关的单词频率映射到0。假设医疗问题是相互独立的实体,扩展词之间的关联程度 问题 可以通过计算获得的和互信息的每个单词,和归一化的结果吗 比较的hyperparameter扩展阈值来选择最后的扩展词呢 , 在哪里 最大和最小的吗 ,分别。算法1演示了具体的过程。

输入:问题、问题类型T、接口规则R中国儿科知识图公斤,阈值
输出:扩大单词列表
(1) ←getKeywordsByType (checkNegative (、类型)
(2) 在1、2、…j
(3) 正常化 与公斤
推断出医疗实体类型 用R
搜索医疗实体类型 公斤:
(4) 结束了
(5) 如果T平等的诊断然后
(6) 合并所有响应实体:
(7) 其他的
(8)
(9) 如果
(10) 得到候选查询扩展词:
(11) n在0,1,…,h
(12) 计算关联的程度
(13) 如果 然后
(14)
(15) 其他的
(16)
(17) 如果
(18) 返回
(19) 结束了
3.3。问题和答案匹配

随机生成的负样本可能低相似性和相关性与积极的样品,这将损害模型训练和减少了模型的有效性。灵感来自于基础培训(管理)模型的集成方法(28),我们开发的负样本代基于Multi-Similarity分段采样(mss)答案维度,也就是说,最初的负样本分割和采样两个级别的语义相似度和词汇相似构造训练样本集关注实体之间的不同程度的相关性,用于列车不同的基础模型,然后这些基础模型集成匹配问题和答案。负样本生成的海量存储系统(mss)中使战略学习的基础模型语义和词汇等多类型的声明表示,从细微的抽象和多粒度声明中表示。

TF-IDF算法(31日)经常被用来计算文本相似度基于词汇由于它可以捕获文本中单词的重要性通过统计方法。域词往往更有识别力的比常用单词和重要医学问答语料库的汉语。因此,TF-IDF域加权算法用来计算词汇正负样本之间的相似性: 在哪里 常用单词的TFIDF吗 和域的单词 ,分别 频率和这个词吗 分别是逆文档频率,然后呢 是重量。

此外,中国医学主题词(CMeSH,树结构http://cmesh.imicams.ac.cn/index.action?action=index),它可以清楚地显示医学词汇之间的语义关系,采用正负样本之间的相似度计算在语义级别。具体地说,基于CMeSH和指提出的语义相似度计算方法江et al。32),我们首先获得语义相似度 域词之间语义相似度 正负样本之间的计算: 在哪里 域词之间的语义距离吗 , 域的数量是积极和消极的单词在句子中的样本。

通过排序 , , ,得到了两种负样本序列的相似性,然后样品通过段 获得不同的负样本集 在不同领域的扩展问题 , 在这里, 表示答案, 问题的正确答案吗 , 之间的余弦相似度是积极的和消极的答案, 段最大语义相似度值 , 段最大词汇相似度值 在这里,任何 , th阴性样本 在段 的问题 满足 2说明分段采样所产生的负样本集在给定的相似性,这段的数量 作为一个例子, 是积极的样本吗 负样本,有三个负样本集在图吗2 在第一段, 在第二段, 在第三段。在这个例子中,可以生成多个训练样本集。在这篇文章中,我们训练基地模式 在每个训练样本集进行不同的训练样本集充分利用由QA和基础模型集成通过加权平均的方法。预测概率 最终集成的模型如下: 在哪里 基本模型的总数, 的重量吗 th基本模型 预测的结果吗 基本模型。在这里,重量 取决于准确性 基本模型的验证集和基本模型的重量比与高精度集成模型是相对较大。

我们减少公式(8)培养模式: 在哪里 的重量和 是所有的参数的集合DDEA。问题的答案匹配算法是算法2所示。

输入:问题,段数 ,算法1
输出:集成模型即时通讯
(1)
得到肯定的答复 和源负样本S_
(2) W年代_做
(3) 得到TFIDT 常见和域分别的话
(4)
(5) 计算
(6) 结束了
(7) 结束了
(8)
(9)
(10) 得到NegativeSamples
三。追加(构造 )
(11) 结束了
(12) j
(13) 得到基本模型
测量基础模型p并获得重量
(14) 返回即时通讯
(15) 结束了

4所示。实验

4.1。数据集

我们爬的问答对中国医疗XunYiWenYao和39健康和注释的查询意图的自动标注方法中提到的部分3.1。因此,中国医学问答(CMQA)集开发,组成的三元组 ,在哪里 , , 这个问题,积极回答,分别和消极的回答。三元组的负样本是基于海量存储系统(mss)中生成的方法3.3。训练集,验证集和测试集的实验数据基本上是划分的比例10%,10%,和80%的数据量,也结合字符的长度问题句子和答案的句子。减少造成的实验误差数据,我们尽量保持字符问题句子和答案的句子的长度一致。因此,6287年,850年和850年问答对训练集,验证集和测试集的实验数据是最终选择。表5显示了CMQA。

4.2。细节

在这项研究中,一些比较实验实施中突出实体关系的积极影响知识图获取查询扩展词和集成模型的验证改进基于multi-similarity负样本代questions-answers匹配的影响。ACC@1 ACC@3, MRR、地图33],NDCG [34)选择评价模型的性能。

实验采用scikit-learn机器学习模块基于Pytorch框架(https://pytorch.org/这个词),利用向量Chinese-word-vectors[发表的35]。亚当优化器选择,学习速率是最初设置为0.001,辍学设置为0.3,和域词的重量TF-IDF算法和分段取样段的数量是0.6和3,分别。

4.3。结果

从表6、查询意图的数据分类问题的CMQA自动标记的查询意图和注释的结果被医生检查。

评估的意义提出了基于实体关系的查询扩展方法-医学的知识图和互信息实体、QA模型基于混合神经网络设计的张(36)选为QA编码器,如stack-CNN multi-CNN, BIGRU, BIGRU-CNN, multi-stack-CNN,最后一个是前两个框架的结合。表7说明答案选择模型基于原始查询的性能,同义词典扩张(QE-T),和我们的查询扩张(QE-KG)和扩展的问题可以提高精度。然而,结果下multi-stack-CNN QE-T低于原来的查询,这表明扩展问题只有通过匹配关键字的同义词典可能引入噪声。的ACC@1 QE-KG比原来的高出3.88%平均查询。QE-T来比较,它增加了3.23%。这些结果表明,该方法基于实体的查询扩展关系可以提高扩展词汇的准确性通过利用潜在的知识信息,减少噪声引入了扩展单词认识到负面的医疗机构。此外,地图和QE-KG NDCG改进,分别显示的准确性和相关性返回答案QE-KG更高。

证明的有效性基础模型的集成学习方法的训练,负样本生成基于multi-similarity通过分段取样测试方法的准确性和鲁棒性,本文以最好的BIGRU-CNN性能为基础的模型结构,并实现了集成模型和比较基于单个模型,消极的随机抽样,管理(28我们的DDEA),和实体关系。表8显示了不同的模型通过整合学习的结果。这里,我们设计实验集成模型的基于负随机抽样从三个方面:参数随机初始化,不同的检查点,训练集与随机抽样。基础模型的数量设置为6,在节解释具体原因4.4。有两个负样本生成方法分段采样基于域词的词汇相似体重的语义相似度CMeSH基于管理的集成模型,和三个基础模型从词汇的角度选择相似性和语义相似度DDEA确保基础模型的数量与对比模型是一致的。从表8单一模型不如其他集成模型,并与集成模型基于负随机抽样,本基于相似采样显示ACC@1平均提高4.65%以上,和DDEA MGT-based方法优于1.57%,这表明,质量保证模型的准确性提高了学习更全面的语言表达等多个层面通过DDEA词法和语义。此外,由于DDEA在NDCG高出0.99%的管理,这表明DDEA更稳定。

4.4。讨论

摘要QA模型DDEA从实体之间的关系我扩展的言语,有更高的相关性的关键医疗实体问题,然后火车基础模型基于负样本生成的分段采样多个相似性促进模型的精度。具体的查询意图的分类可以帮助模型提取医学实体问题的关键。信心的阈值对查询意图分类器精度有显著影响。从图3,分类精度最高的在设置为0.8。

根据中国医疗质量数据集的特点,分为常用单词和域语言词汇方面的相似性和重量域强调单词的重要性,这将直接影响性能的词汇相似度的结果。因此,我们评估的综合模型BIGRU-CNN由六个分段采样所产生的负样本训练基于词汇相似与不同的权重,和ACC@1最高重量是0.6,如图所示4。此外,基础模型的数量和基本模型的学习粒度直接由段的数量的过程中负样本的一代。图4解释了ACC@1结果不同数量的部分,和最优数量的段是三。此外,它显示了一个drastical下降段的数量下降,使模型难以利用的基础学习。基础模型之间的歧视程度降低,当四、五段的数量,从而减少ACC@1和计算时间较长。因此,段的数量设置为3,即。,的three base models for each similarity level, a total of six base models.

9为疾病的诊断提供质量保证模型的几个例子的问题显示这些模型返回的得分最高的答案,包括原始查询,查询扩展基于词典(QE-T),查询扩展基于知识图(QE-KG),基于语义相似度的集成模型与QE-KG (QE-KG +管理),和说明我们的模型DDEA DDEA更直观的优点。BIGRU-CNN与模型结构选择最佳的性能。答案在表9显示查询扩展模型QE-KG之间的匹配度更高扩展单词和正确的答案。相比之下,查询扩展模型QE-T原因查询偏差由于引入医疗实体与低相关性与正确的答案。通过对比答案,QE-KG优于QE-T因为QE-KG可以有效地缩短语义之间的差距问题和答案匹配潜在医疗实体答案原始查询来获得正确的疾病实体“脐疝”,但仍有差异返回答案和正确的答案。DDEA成功地捕捉关键信息集成模型,正确的疾病或“凸肚脐、呕吐”问题,和DDEA是基于与multi-similarity分段采样所产生的负样本,这使得模型学习的多粒度语言表示的抽象,也确保其在多层次学习语言表示,提高模型预测的精度。

5。结论

在本文中,我们提出一种新的模型称为DDEA,它有效地避免了弱相关性之间的查询扩展词和查询意图通过实体的关系从不同医疗场景维度的问题。同时,干扰的互信息值-医疗机构减少了识别这些实体的扩展词的阶段检查,从而提高查询的准确性扩张。回答的维度,DDEA采用负样本一代战略细分采样基于多层次相似性集成基础模型由这些样本集的训练模型侧重于实体在不同层次上的相关性,这提高了质量保证模型的准确性和稳定性。结果表明,DDEA优于本集成方法,和DDEA能够获取信息的基础知识。

在未来,我们将采用一个更复杂的集成方法培训更准确和智能QA模型,使模型自动生成答案的低匹配问题和答案的深度学习的方法。

数据可用性

没有可用的数据由于隐私问题。如果有必要,作者将选择一些实验数据作为样本,可以获得相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由中国国家重点研发项目(2019号yfb2101600)。