研究文章|开放获取
6月梁,Xuemei西安,小军他Meifang徐,盛戴,小君'yi鑫,杰,剑,简帛Lei, ”小说对中国临床医学实体识别文本的方法”,医疗保健工程, 卷。2017年, 文章的ID4898963, 16 页面, 2017年。 https://doi.org/10.1155/2017/4898963
小说对中国临床医学实体识别文本的方法
文摘
医疗实体识别,语言处理的一个基本任务的临床数据,已经被广泛研究分析指出按字母语言如英语的承认。然而,更不用说在非结构化文本的工作已经完成,是用中文写的,或在中国设置的分化药物名称中医与西医之间。在这里,我们提出一个新颖的层叠式中国药物实体识别方法,旨在整合句子一类支持向量机分类器,条件随机实地药物实体识别。我们假设这种方法可以避免的副作用丰富的负样本和提高命名实体识别的性能从笔记写在中国的承认。因此,我们应用这种方法的测试集324年中国书写笔记由医学专家人工注释的承认。我们的数据表明,这种方法有一个分数94.2%的精度,记得,92.8%和93.5% F-measure承认中医药物名称和精度91.2%,92.6%在回忆,91.7% F-measure承认西医药物名称。F-measure的差异都显著比基线系统。
1。介绍
现有的自然语言主要分为字母和语标的语言。语语言包含写字符代表的词或短语,和最著名的语标的语言是中文,而写字母语言的字符代表声音或声音组合而不是概念(1]。电子健康记录(EHRs)已经在全球范围内广泛采用。在医疗改革在中国,中华人民共和国国家卫生和计划生育委员会已考虑全国电子病历的应用优先级和适度推出了一套可互操作的2010年中国EHR模板指导(CEHRTG) (2- - - - - -4]。2013年,中国医院协会信息管理进行了一次调查电子医疗纪录在中国使用医疗信息系统的数据。这项研究涉及1004名中国医疗机构表明,电子医疗记录(电子病历)普遍地应用于这些医院(77.8%)和部分医院EMR系统并入到地区或国家级电子医疗纪录(5]。大量的数据挖掘和知识发现的研究一直致力于电子病历的临床数据积累。然而,结构化数据挖掘方法不能直接用于我的电子病历存储在非结构化文本;因此,这些文本需要预处理与结构化(6]。命名实体识别(尼珥)在自由叙事形式的临床相关文本旨在识别命名实体(NEs)从非结构化临床资料,也是一个基本的医学语言处理任务(MLP) [7]。研究医疗实体识别(MER)承认笔记(ANs)语标的语言编写的,如汉语、落后研究MER答用字母写的语言,比如英语。这种差距两个方面的研究很大程度上是由于字母之间的巨大差异和语标的语言(8之间)和现代西方医学(WM)和中国传统医学(中医)[9],它阻碍了利用字母语标的调查领域的研究成果一般实体识别和MER在特定的。特别是,与监督算法基于歧视模型(10),我们必须解决许多紧急问题研究非结构中国承认票据涉及TCM-WM联合治疗。(1)有广义的方法有效的非结构化电子病历MER语标的编写的语言?(2)选择性地提取混凝土是可行的医疗特性从自由叙述临床文献,以便监督算法能够满足MER任务在临床ANs语标的编写的语言?(3)在一些监督算法(如。,support vector machine (SVM), conditional random field (CRF) with specific characteristic types] that are widely applied in NER, which of them are applicable for MER in ANs written in a logographic language?
在这里,我们提出了一种新的级联类型MER方法称为层叠式中国药物实体识别(ccm)处理在中国的承认。我们旨在测试ccm在临床文献英文(字母语言)和调查4的角色特征类型基于监督算法(6)用于MER非结构化中国承认笔记TCM-WM联合治疗。这是第一次使用一个MER在这样的背景下。此外,我们设计并进行了一系列的实验使用ccm ANs TCM-WM联合治疗相比书面中英文和ccm的性能与三个基线系统(基于规则、基于简单的局部上下文特征,和其他基于简化ccm的过滤模块分类的潜在hot-sentence删除)。根据正确的软分数公认的药物名称的实体,我们统计分析结果的ccm和基线2系统如下:
结果表明,性能显著改善( )。本研究中长期规划提供指导和参考价值的非结构化语标的电子医疗纪录。
2。相关的工作
在全世界范围内,关键信息通过电脑搜索大量非结构化ANs决议被用来帮助更好的临床决策早在1967年。根据不同的目的和背景,关键信息搜索可以实现通过信息检索(IR)在文档级别(识别和识别相关的文档从巨大的自由文本格式的ANs) (11- - - - - -13)或通过更好的识别,识别各种描述相同的临床文献的意义和它们映射到相同的概念。梅尔是一个典型的概念级别信息提取(IE)任务和中长期规划的主要和基本的区域研究[6]。
早期延时系统的MER通常采用基于规则的方法(14]。近年来,基于机器学习——(ML) MER方法已经逐渐应用于临床叙事文本处理。这一趋势的一个重要原因是丰富的匿名临床ANs的可用性和引入图书馆带注释的单词作为金标准,发布的信息整合生物学和床边(I2B2) [15]。例如,第三I2B2大赛的主题是提取信息药物名称、剂量、用法,从放电总结和持续时间7];第四I2B2比赛subtheme之一是提取的概念对疾病状态,检查和治疗(16]。之后,这些数据集从临床ANs启发了许多英文尼珥临床研究笔记。这些尼珥任务通常被转化为序列注释和被监督ML算法,如条件随机场和结构支持向量机(SSVM)。这些初步的作品重新检验它的三个主要因素影响的系统性能监督ML算法基于歧视模型为尼珥任务:描述数据集的输入特性,模型选择的分类函数,和学习过程模型参数的确定17]。我们认为适当的特征选择对延时任务尤其重要,因为当前的技术参数确定无效high-redundancy和高噪音出现临床上下文中的一个文本。研究处理临床文献在其他字母语言除了英语,如法国、德国、荷兰,一直在进行,临床描述映射到系统化的医学术语的规范(18]。
然而,上述的研究大多局限于临床ANs字母语言编写的。研究尼珥语标的语言相对较少。在中国的广泛应用,电子医疗纪录,迫在眉睫的是测试的可靠性的二次使用丰富的中国临床ANs。到目前为止,小的努力一直在致力于尼珥ANs语标的语言编写的,尤其是在中国。报道,几个ML-based算法包括CRF、支持向量机和最大熵被用来识别症状描述和致病机制从中医电子病历19]。同时,CRF已被用于识别生物医学实体名称在中国研究摘要20.]。的并行实现分词和尼珥任务提出了取代串行应用程序的两个任务,为了提高尼珥的表演放电总结写在中国21]。一些研究几尼珥的ML算法的性能在临床WM ANs写在中国是非常重要的22]。然而,并没有研究MER任务中国的文字TCM-WM联合治疗,尤其是在WM和中医药物合作伙伴,然而这样的文本是最常用在中国医院。
在这里,基于文档级红外ANs (23),我们提出了一种新的级联类型MER算法(ccm)和验证答用中文写的。英文我们也旨在测试MER临床文献(英语是字母的代表语言)和调查4的角色特征类型基于监督算法(6MER)在非结构化的文本TCM-WM MER中国ANs联合治疗。我们在这里讨论的是第一个MER的。这项研究可能为语标的语言中长期规划提供指导和参考价值。
3所示。数据集和注释
3.1。药物命名实体的描述和定义
根据标准编写格式WM和中医处方医疗订单(24)和医疗命令的特定格式的组合在一个数据集和药物命名实体的特点,我们列出了WM /中医治疗毒品事件及其定义(见表1ANs(中)25]。
|
||||||||||||||||||||||||||||||||
在实际的临床环境中,关于中医医疗订单或WM可能只包含WM和中医药物命名实体没有任何其他描述性术语相关的药物使用事件。
3.2。注释规则词库的药品命名实体
提高可靠性的手动带注释的药物名称,我们建立了详细的注释规则基于上述基本定义。我们细分药物到西方和中国传统药物和进一步提高TCM-related注释规则。核心药物的名称标注规则表中列出2。
|
||||||||||||||||||||||||||||||||||||
3.3。数据集描述
完全1000 120000 CEHRTG-based ANs 2011年1月至2012年12月记录在SAHZU随机提取。删除不完整答后,972 ANs保持匿名,然后手工注释:私人信息包括身份证,姓名,性别,年龄,和接待部门被删除。然后,两个本地华人护士带注释的临床治疗和中药药物的名称根据预定义的指导。测量interannotator协议(IAA),护士独立标注相同的100 ANs,高级医生评估使用仲裁分歧的注释。潜在的问题被确定和预定义的注释准则在必要时修改。最困难的一步概念注释的中国药品名称的边界的确定是一个表达式。使用修改后的注释指南、护士手工标注药物名称在872年剩下的承认。因此,100被两个护士,带注释的,其余872 ANs均匀划分和注释的护士。
然后,总972 ANs被分为2组:2/3 (648 ANs)作为训练集和1/3 (324 ANs)作为测试集。分类器的最优性能的特性集是由10倍交叉验证使用训练集。然后性能评估使用测试集。所使用的统计数据表中列出3。
|
|||||||||||||||||||||||||||||||||||||||||||||||||
972答包含61046句,2739提及药物名称。完全有2599药物命名实体,其中包括1903 WM(73.2%)和696年中医的(26.8%)。根据100年ANs注释由专家、IAA衡量kappa统计数据是0.968,这表明注释是可靠的。
4所示。方法
4.1。ccm框架
ccm是new-pipelined层叠式框架方案。它定位hot-text块基于句子分类和识别药物命名实体从候选目标句子通过监督算法序列注释。(图的系统结构1)包括一个预处理模块,过滤模块为潜在hot-sentence分类、识别模块识别药物尼珥和后处理模块。
4.2。预处理模块
预处理模块直接运行在原始文档集。因为特定的写作习惯,ANs与TCM-WM结合治疗包含丰富的数据,汉字和英语单词。首先这样的文档应该规范化,以重建输入句子,然后可以由标准化处理自然语言处理(NLP)工具。例如,数字和希腊字母是9和@规范化,分别。然后,character-to-pinyin函数在2011年微软办公室文书处理软件,我们所有的汉字变成拼音。最后,调整ICTCLAS的句子分解器系统(26)是用于文本分割成句子。值得注意的是,在这个过程中,我们没有使用stopword列表(27),这是常用的一般NLP领域。这是因为由于transliterative WM药物名称的特点,中国WM药物的名字命名实体包含丰富的虚词,所以直接删除函数的话会破坏药物命名实体的完整性。不同于英语文本,中文文本单词之间没有空格,这使识别词边界变得更复杂了。因为中国临床笔记的特点(例如,电报风格,无处不在的缩写),中国临床文献的自动分割单词或短语是极大的困难,更不用说从这些片段的认识的细节。这些早期的研究结果表明,中国通用裂殖体训练一般文本不能处理好临床指出,特别是在临床方面,和可能会破坏其有效性28]。因此,我们没有使用的方法过滤用户定义函数的话,这是由统计指标(例如,术语frequency-inverse文档频率)。相反,我们交付了预处理文本直接进入下一个模块。
4.3。潜在的热过滤模块分类判决
尽管CRF-based识别器取得了出色的表现在不同序列注释任务(29日),CRF严重取决于周围的命名实体(NEs)在当地环境和假定相似的当地环境导致相同的判断(28]。然而,这种假设在临床ANs的上下文基本上是站不住脚的。例如,一个短语“测试结果”一节中是指一个特定的测试名称可能代表一种药物名称“药物”部分。同一个词在不同的地方环境可以确定不同。这样的训练集与丰富的误导性信息可以很大程度上降低CRF-based注释器的性能。
删除这样的混乱的数据集,我们使用了一个基于支持向量机的(30.)用户定义句子类别分类器过滤掉无关紧要的句子,不包含信息的药物名称。潜在的hot-sentence分类器中包含的句子ANs分为两个部分。包括一部分句子可能包含药物名称;另一部分包含剩余的句子。只有第一部分是传送到随后CRF-based识别模块识别药物名称,从而减少噪音和操作时间,减轻干扰的正负样本分布的不平衡语料库与后续识别模块,并改善系统的性能。基础科学的假设是“每一个句子,一个属于句子类型包含药品名称或类型不。”研究的基本假设是,一个句子是一组假想类的一个实例:“句子与药物名称”和“句子没有药物的名字。”
当NLP系统训练文本集组成的字符,它通常通过选择短语描述文本特征。一个短语的出现被认为是最重要的短语bag-of-words模型中的特征。然而,精确的分割中国词或短语并不容易,尤其是在临床文献[31日]。phrase-based语言形式的准确性分析也减少了。因此,我们使用降维特征提取函数,可以被解释为一个从高维转换到低维向量空间。特征提取利用句子的功能元素组件实例以及模式模板隐藏在组件的组合。模式模板包括重复性和并发事件。这种方法会导致一个更一般的模型character-composed情况下,进一步降低的概率模型过度拟合。
在这个特征提取函数,每个句子被描述为一个向量的特性。定义1。为一个特征向量 ,让体重测量功能的发生频率在句子。向量的句子被表示为 。请注意,是发生频率呈现正相关在句子。如果功能发生在句子那么,> 0;否则, 。然而,的价值取决于相应的情况。
在这里,我们使用一个6维特征向量,主要包括基于临床知识的特性,分别统计,和语言学。具体定义如下:
4.3.1。在符号列表(SF1)
正式的符号的数量(例如,“<、“”>,”“(”和“)”常用在临床药物治疗规则)是包含在当前的句子。如果SF1 = 0,这句话不包含这样的描述性的符号。
4.3.2。在中国药品名称字典(SF2)
做中国的药物名称条款包含在中国药品名称字典出现在当前句子?
4.3.3。在拼音字典(SF3)
拼音对应的药物名称中包含的药物名称术语字典出现在当前句子?背后的想法是“一个输入汉字字符串映射到一个语音编码序列,这是拼音的发音或输入字符串的一个粗略的近似,“因为英语WM药物名称的中文翻译是主要基于音译。在实际临床EHR写作,由于广泛使用的中文拼音输入法,当药物名称的描述在汉字显示ANs书写或印刷错误,相应的拼音拼写实际上可能是正确的。所以不同的汉字发音相同的字符串映射到同一voice-encoded字符串,因为他们有相同的拼音拼写。这种方法本质上是一个特征聚类,可以用来纠正许多写作和印刷错误。
4.3.4。阳性组(SF4)和消极词统计特性统计词功能(SF5)
SF4特性和SF5由frequency-weighted值统计词特征的总和(WFs)在当前的句子。一个n-gram-based特征提取算法(32)是用于提取2 -角色设置的关键字(即积极的句子。,与医学信息)和句子的否定句(即。分别,句子没有医学信息)。段句子成三元,该算法不仅总结了出现频率的电流元也相邻的汉字组合之前,当前的和确定哪些组合不断频繁发生。我们经验储备统计特征短语排名的前30%的体重。SF4开采积极组的句子与医学信息和负集SF5。最后,共有119个积极功能词和313 -特征提取和保留。然后,这个功能的话按频率加权所有选定功能词出现在正面或负面词库。例如,“团队,拥有“积极功能词义“给予帮助或治疗,”114次积极的词库,而所有选中的积极功能词共出现2524次,所以“团队”拥有的重量是0.045。
4.3.5。在事件模式(SF6)
预定义的药物使用事件短语搭配模板出现在当前句子?通过观察药物使用事件,我们定义了一些常用的短语模式在吸毒事件,如
(数字+ DOSEPATTERN);
[MODEPATTERN];
[FREQUENCYPATTERN];
[MODEPATTERN +候选药物名称);
(候选药物名称+ FREQUENCYPATTERN)。
这些短语的搭配是吸毒事件的良好指标。
一个病人的一个包含“抗炎治疗提供(氧氟沙星)左氧氟沙星片问。D连续7天0.5 g在当地诊所,“由特征变换函数转换成6维特征向量:
< 2,2,2,0.045,0,4 >➔药物。
第一个特性表明,特殊字符的数量是2。
第二个特性表明,候选药物名称术语出现2次在当前句子。
第三个特征表明,相对应的拼音描述候选药物名称术语出现了2次在当前句子。
第四和第五的特性表明,积极的功能词,但不是消极功能词,出现在当前句子,频率分量的积极功能的话等于0.045。
第六特性表明,中常用短语模板<药> 4次出现在当前的句子。
然后,我们使用分类器,一个随机梯度下降法模块(33),来实现随机梯度下降学习模型中使用的支持向量机(SVM)。与上面的特性集,一个线性SVM句子训练分类模型在测试集上的训练数据集和评价。最后,这个句子分类器过滤无关紧要的句子和传播医学句子(包含药物的条款名称)到另一个模块。
4.4。识别模块识别药物尼珥
在某些方面中国俺们是特别的。例如,多数中国人的名字WM药物实际上是音译外来词,因此需要额外的分词歧义,更复杂的比一般的自动分词的中文命名实体。现有的常用工具和方法对中国分词因此不能直接应用于临床ANs的分词,这对医学领域需要定制。因此,我们没有进行分词和词性分析中常用的文本处理。我们选择汉字作为基本的注释使用单位相反,因为汉字是最基本的sentence-composing单位和也包含语义。
药物命名实体的注释可以被转换为一个序列注释的任务: 在哪里是一个汉字。
目标是建立一个注释器p能够准确地标注一个可靠的标签序列 对于一个中国的字符序列,在那里
实际的注释CRF-based监督任务完成后的ML序列注释器,由一个带注释的语料库训练,而训练集是由一对序列( )。CRF英语广泛应用于MLP ANs (34具有优秀的性能。在这里,我们使用CRF + +,一个工具提供CRF-targeted高效实现(35)和使用L-BFGS进行优化。
在这个模块中,我们使用一个包含5种功能集特性(见表4)。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4.1.1。当地的环境特性(F1)
F1是由二维:文本和发音。俺们TCM-WM联合治疗包含相对简单的简短的解说(如短subsentences)和技术术语的缩写。通常,一个中文词组的平均长度是2汉字(36]。因此,我们尝试一个中文字符n克模式为基本单位,n∈(1、2、3)。相关文献表明,该上下文窗口大小(水煤浆)尼珥任务不应该预设太大(37]。ANs的分析表明,收购的片段范围文本特性或上下文窗口不应该太大;否则,将引入更多的噪音,这减少了注释的准确性。因此,我们设置了水煤浆< 4。例如,被视为2克,包括当前和以前的汉字。
10/24/11。功能的药物名称字典(F2)
F2两个维度包括文本和发音,即在当前上下文窗口和相应的汉字拼音字典出现在药物名称。这个简单的字典查找方法使用正向最大匹配算法来搜索药品名称字典(定义在部分“药物的名字词典和相关术语列表”)。
4.4.3。功能的药物进行命名实体相关的术语(F3)
汉字或字母在当前上下文窗口与列表中的词汇相关药物命名实体?此外,它使用正向最大匹配算法来搜索词列表(定义在部分“药物的名字词典和相关术语列表”)。
4.4.4。的特征模式(F4)
包含在其他相关模式的特性n蟋蟀文本;例如,当前上下文的文本窗口包含英文字母,数字,特殊符号,或时间描述?
4.4.5。特性的全球结构(F5)
F5表明是否包含当前节的名称n蟋蟀文本出现在预定义的部分列表。临床ANs的主要特点之一是基于上下文的自然语言描述。例如,医学术语“地高辛”“实验室结果”一节的名字是临床检查,而同一术语“过去的病史”部分是治疗药物的名字。我们手动审查一些笔记和一些文章38)和15个不同的节标题定义(例如,“疾病”的历史)。
4.4.6。的特征分类注释(F6)
F6的注释类第一当前字符前3个字符。
4.5。后处理模块
叙事文本注释,注释“生物”是解决如下:“B”表明,性格是在药品命名实体的开始,“我”展示了角色在中间或末尾的药物命名实体,和“O”表示字符不属于药物命名实体。保证一致性的性格标签和知名度的完整性,我们也使用一些简单的启发式规则(见表5)。
|
||||||||||||||||||
5。实验
5.1。基线系统
首先,我们构造的基线系统1,使用最大匹配算法(39)和专业药品字典。是最成熟和常用方法在在中国。然后我们添加了最大匹配之间的药物名称和汉语拼音。基于WM中医字典、词典和我们从分割文本提取的药物名称。如基于规则term-matching系统,从科学文献中提取的基因和蛋白质的名字,这个基线系统也使用术语的词典识别命名实体,促进随后的IE或红外。因为我们关注ML-based组合系统的性能,该基线系统采用一个预处理步骤的主要系统。然后,我们使用一个简化的ccm采用简单的局部特性集组合f1 1基线系统2和比较不同的特征集下的系统性能。最后,我们使用一个简化的ccm(不包括潜在热句子)的过滤模块分类采用完整的特性集组合(F1 + F3 + F4 + F5 + F6)作为基线系统3的性能,并与整ccm系统相同的功能集。
5.2。实验评价方法
关于MER识别的特点和困难TCM-WM结合中国ANs,我们用1类型的软评价指标(40),广泛应用于研究中国命名实体和评估基于标准的精度,召回,F-measure [41]。主要的思想是,我们score-recognized从三个方面即:检测、分类、和边界。表中列出的详细规则6。
|
||||||||||||||||||
应该注意的是,在临床实践中,“静/ B-WM滴/ I-WM恩/ I-WM度/ I-WM查复/ O / O有/ O展进/ O / O”更可靠的比“静/ O滴/ O恩/ B-WM度/ I-WM复/ I-WM查/ I-WM展进有/ O / O / O,“所以我们分配更多的分数在我的起始位置。
6。结果
6.1。结果基线系统1
我们第一次测试的性能基线系统1。如表所示7整体性能明显低,F-measures中医药物知名度和WM药物知名度都不到55%。初步分析后,我们假设性能可以进一步增强专业药物名称字典的规模是否改善。
|
||||||||||||||||||||||||||||
| 注意:到最近的0.1%。 |
||||||||||||||||||||||||||||
6.2。ccm的结果
混淆矩阵表8显示过滤模块的测试集的潜在hot-sentence分类基于SVM使用句子分类的结果,决定从预定义的特性集(定义在“过滤模块分类的潜在热句子”部分)。显然,大多数句子包含药物名称(s)被正确分类和转移到后续识别药物命名实体识别模块,安装准确,全面,和自动注释(即。类别)的药物名称。
|
||||||||||||||||||||||||||||
图2显示的性能CRF-based MER系统而言n克当地环境特性集的汉字和拼音。功能设置测试候选人hot-sentence训练集的子集。显然,当地环境特性有助于提高基体的性能。在大多数情况下,使用更多的特性产生了更高的识别性能。我们比较了系统性能水煤浆与水煤浆= 3 = 1。药品命名实体识别的F-measure只使用汉字的特性集只提高了3.1%,而使用的本地特性集汉字和拼音是提高了4%。因此,在后续的测试中,F1-3 + F1-6(水煤浆= 3)被用作特性集(F1)本地文本上下文。
(一)
(b)
(c)
的表演和各种特性集,CRF-based MER系统如图候选人hot-sentence子集3。显然,找到最优性能与F1 + F3 + F4 + F5 + F6。与F1的唯一使用相比,ANs的WM药物命名实体识别F-measure = 91.2%,而中医药品的命名实体识别ANs F-measure = 93.5%,分别增长了2.5%和2.7%。整个药物命名实体识别F-measure高出2.6%。
(一)
(b)
(c)
新方法明显优于基线系统1基于专业药品字典。如图4,中医的F-measures和WM药物命名实体识别增加了45.8%和38.2%,分别。因为潜在hot-sentence过滤模块的分类也删除无关的句子,丰富系统的运行效率在很大程度上改善,缩短了操作时间。
此外,我们还进行了实验,建立基线系统3(见表9),确定过滤模块的贡献的潜在hot-sentence ccm性能分类。热的检测价值ccm的句子可以看到通过比较基线系统的结果3与了解完整的ccm的;这两个系统之间唯一的区别是使用hot-sentence检测。F-measure的不同的两个系统一样大20.6%,了解完整的实现一个F-measure ccm的92.2%,而基准系统3没有过滤模块分类的潜在热句子F-measure只有71.6%(图的4)。
|
||||||||||||||||||||||||||||
| 注意:到最近的0.1%。 |
||||||||||||||||||||||||||||
7所示。讨论
这里,我们手动建立了一个数据集包括972注释包含TCM-WM ANs联合治疗。在此基础上,我们测试了一种新方法,ccm,调查其性能在不同的功能分配。ccm的性能明显得到改善,与基线系统1的F-measures中医和WM药物命名实体识别增加了45.8%和38.2%,分别。删除无关紧要的句子丰富的数据集的结果在很大程度上提高了操作效率。
最优性能发生使用特性集(F1 + F3 + F4 + F5 + F6),作为整体的F-measure药物知名度就是使用基线系统高出41.9%。这表明不同维度的特性集也谦虚地补充和证明的结果Meystre et al。6)也可以被应用到处理ANs语标的语言编写的。
然后,我们初步研究了单一特征的贡献对药物命名实体注释。首先,使用小规模的医疗药品名称字典(F2)并不能提高系统性能。这并不奇怪,因为相同类型的信息已经被F1和某些药物名称条目在F2缺乏全面和详细的信息关于药物。不幸的是,我们的休闲药物名称字典的小鳞片。可以进一步提高系统的性能,如果外国资源,比如中国版RxNorm [42可以组合在一起。在未来,我们将把徐et al。方法(43丰富和提高中国药品字典。此外,F5有助于减少假阳性(FP)率。例如,虽然血药浓度的结果,如地高辛0.7 ng / ml的ANs的“实验结果”一节,类似于药物形式的传统医学的订单,系统会自动删除这样的结果如果一节起源于“实验室”的结果,因为系统已经从训练集没有治疗药物名称的语境下“实验结果”一节。然而,假阳性系统中仍然存在。医疗订单包含的部分不仅毒品订单还测试项目等其他内容。一些测试项目可以作为药物的名称如“叶酸+维生素B12”和可以错误地认为是药物命名实体。这样的假阳性结果可能使药物尼珥更复杂。结果集的误差分析表明,F6有助于确定药物的结束位置名称,而不是发现新药物的名字。然而,最后的结果集包含大多数字符对应标签”啊,“所以这也是我们直观的评价。
此外,我们发现hot-sentence检测在一个文本是影响系统性能的关键因素。hot-sentence检测技术是一种确定的重点领域文本,从而过滤掉大量的噪音。消除潜在热过滤模块分类的句子就会很大程度上降低系统性能。
与此同时,我们发现在中医药物知名度中医被细分为中国草药和中国专利药物。中国草药的名字通常由2 - 3(平均2.57)汉字,而中国专利药物制剂由中药材料通过现代制药方法/过程符合质量标准。他们的命名实体相结合的特点,中国草药和治疗;因此,这些药物名称的认可率非常低。例如,对于HeartleafHouttuynia注入液体,Heartleaf中国专利药品。Houttuynia”被认为是“中药”,而“注入液体”被认为是“西医”;其他的例子包括基数鼠尾草miltiorrhizae平板电脑。一般来说,然而,中医药物名称的边界更比WM药物无法辨认的名字。
7.1。误差来源
带注释的结果与分数的软评价指标等于零对医疗实体,主要误差源的识别一般条款的药物,如抗凝剂、抗生素、复合维生素和抗高血压药物。这些一般条款包括在这里的黄金标准,因为药物命名实体是重要的药物使用事件被注释器,这些药物的一般条款也可能表明这种重要的事件,然而由于缺乏支持细粒度的信息来源和医学知识,目前的系统不能认出他们来。这也是一个未来的研究方向。
另一个常见的错误只发生在样本识别与测试组,但不与训练集。监督ML体系有一个优势,它可以准确地捕获药物名称测试不是在训练集的数据集。这种鲁棒性是由于系统获取上下文信息的能力。正如上面所讨论的,尽管我们注释648 ANs作为训练集,带注释的数据集在这个规模仍不能完全覆盖测试集。例如,这个系统检测到“戊氧基”“戊氧基(阿莫西林)0.5 g PO TID”作为药物的名字,不过这药的名字不是在训练集。我们认为,该系统从训练集通过上下文学习模式”<药品名称> <用量> <药物使用方法> <频率>。“另一方面,系统无法检测”-戊氧基测试,“因为这个上下文模式不会出现在训练集。
由于临床工作的及时性和紧迫性,医生通常缩写和简写一些药物名称,这样“维生素A和维生素C”通常缩写为“维生素A, C。”这两个药物名称分享共同开始字符”维生素(维生素)”,两者的结合药物名称缩写为一个新的简单的名称的组合。这种省略缩写药物描述相同的开始或结束字符不包含”和“或”或“;因此,与一般文本处理复合描述不同,在这些简短的描述,识别常见的开始或结束字符compound-drug名称只能导致的正确识别第一个或最后一个药物名称的组合,而所有其他的药物名称将被忽略。
此外,基于诊断标准的临床指导治疗尚未广泛的医疗机构,我们的样本收集。这个机构的医生处方药物根据以前的经验对于大多数疾病。因此,对于相同的疾病和症状,医生可以开出不同的药物,导致单药命名实体出现频率较低。以输血药物为例,除了溶剂注入葡萄糖和生理盐水的解决方案;约50.3%的医疗溶剂用于输血只出现一次,这是一个WM药物名称的认可率低的原因。
7.2。限制了应用
我们的方法也有一定的局限性。首先,我们只测试了俺们从一个数据源模式从一个医学中心。尽管CEHRTG HL7 CDA R2-based [44广义EHR可互操作的一个文档框架,即也与ANs写的方式,习惯,和质量的临床医生。因此,这种方法的通用性在其他医疗机构或其他类型的ANs应该验证(45]。第二,这里使用大部分特性只在汉字的水平;使用功能语义层面的超出了我们的研究。因此,临床ANs的常见问题,如指称相同分辨率和主体审查,目前无法很好的解决。第三,这里的药物名称字典建立完整,规模小,不贡献的系统性能。在未来,我们将尝试其他机器学习技术可行MER,如监督ML算法(如热SSVM),并逐步扩大实验范围和ANs的类型。提高系统效率和准确性,我们应该考虑语义特征。
8。结论
在这里,我们针对分析文本用中文写的,一个典型的语标的语言;试图在非结构化文本关于MER TCM-WM联合治疗;并提出了一种新的级联类型approach-CCMER。这种方法避免了由于丰富的负样本的副作用,提高药物命名实体的识别性能语标的(中国)描述。我们认为这种方法可能会提供一些参考价值MLP的其他语标的语言。我们也进行了许多实验。我们发现n克信息和部分信息基于汉字和拼音有助于提高基体的性能。然而,小规模的专业词典的贡献很小。发现MER系统最优性能的测试集包括324手工注释ANs TCM-WM联合治疗。在此系统中,中医的F-measures和WM药物命名实体识别是93.5%和91.7%,分别显著高于基线系统。
缩写
| MER: | 药物实体识别 |
| 一个: | 入学注意 |
| 中医: | 中国传统医学 |
| WM: | 西方医学 |
| ccm: | 层叠式的中国药物实体识别器 |
| 支持向量机: | 支持向量机 |
| CRF: | 条件随机场 |
| I2B2: | 信息整合生物学和床边 |
| NTCIR: | NII台和社区信息访问研究 |
| 尼珥: | 命名实体识别 |
| 电子健康档案: | 电子健康记录 |
| CEHRTG: | 中国电子病历模板向导 |
| 简要: | 医学语言处理 |
| ML: | 机器学习 |
| 红外光谱: | 信息检索 |
| SAHZU: | 浙江大学医学院附属第二医院 |
| NLP: | 自然语言处理 |
| 国际宇航科学院: | Interannotator协议 |
| 水煤浆: | 上下文窗口大小 |
| 即: | 信息提取 |
| WF: | 词功能 |
| 外交政策: | 假阳性 |
| SF1: | 符号列表中 |
| SF2: | 在中国药品名称字典 |
| SF3: | 在拼音字典 |
| SF4: | 积极的统计特性 |
| SF5: | 消极的统计特性 |
| SF6气体: | 在事件模式 |
| 外国游客1: | 当地的环境特点 |
| F2: | 药物名称的字典 |
| F3: | 进行药物名称的功能实体相关的条款 |
| F4: | 模式的特点 |
| F5: | 全球一个结构的特性 |
| F6: | 的特征分类注释。 |
信息披露
作者仅负责内容和论文的写作。
的利益冲突
作者报告没有利益冲突。
作者的贡献
简帛Lei开发研究的概念框架和研究协议。6月梁起草手稿和小军他和简帛Lei做出重大修改。Xuemei西安Meifang徐标注语料库,盛戴评估了注解,和小君梁简帛Lei,小军,他进行了试验和数据分析。小君'yi鑫杰徐,剑于提供评论和修改了手稿。所有作者阅读和批准最终的手稿。
确认
作者感谢魏教授朱,Ting Chen博士和女士TingXue太阳对他们有用的讨论和建议。这项工作得到了浙江省医疗卫生规划项目(没有。2017 ky386)和中国医疗卫生规划项目(没有。2015109528)从国家卫生和计划生育委员会、中国国家研究项目的关键项目格兰特(没有。2015 bah07f01),中国国家自然科学基金(国家自然科学基金委)(没有。81171426也没有。81471756)。
引用
- b . a . NctpnhWenzi de Chansheng他Fazhan(书面语言的起源和发展)》,北京大学出版社,北京,1987年,在中国。
- p h .你y Yu Yang et al .,“在中国建立电子病历的临床数据组,”医疗系统杂志,36卷,不。2、723 - 736年,2010页。视图:谷歌学术搜索
- f . d . Liu x Wang锅et al .,“健康数据在国家层面上的协调:一个试点研究在中国,“国际医学信息学杂志》上,卷79,不。6,450 - 458年,2010页。视图:出版商的网站|谷歌学术搜索
- j .梁m .徐l . Zhang et al。”在中国发展可互操作的电子健康记录服务。”国际期刊数字内容技术的应用程序,5卷,不。4、280 - 295年,2011页。视图:谷歌学术搜索
- 李,“中国健康白皮书”中国卫生信息技术会议&国际论坛Zhenzou, 2013年,在中国。视图:谷歌学术搜索
- s . m . Meystre g·k . Savova k . c . Kipper-Schuler和j·f·障碍,“从文本文件中提取信息的电子健康记录:回顾最近的研究,“医学信息学年鉴,卷2008,不。1,第144 - 128页,2008。视图:谷歌学术搜索
- o . Uzuner i Solti大肠Cadag,“从临床中提取药物信息文本,”美国医学协会杂志》上,17卷,不。5,514 - 518年,2010页。视图:出版商的网站|谷歌学术搜索
- l . Wieger和l . Davrout汉字:他们的起源、词源、历史、分类及意义:从中国文档做一次彻底的研究,多佛的出版物,纽约,1965年。
- 吴谢,m .崔z d和h赵,“中医药信息数字化的讨论,”替代和补充医学杂志》上,16卷,不。11日,第1209 - 1207页,2010年。视图:出版商的网站|谷歌学术搜索
- y Bastanlar和m . Ozuysal”引入机器学习。”分子生物学方法,卷1107,不。1,第128 - 105页,2014。视图:谷歌学术搜索
- b·夏纳'Avolio l . w . D, t·m·阮m·h·扎耶德b .诉瓦和l .百花大教堂”心理治疗注意文本的自动分类:对创伤后应激障碍护理质量评估,”杂志的评估在临床实践中,18卷,不。3、698 - 701年,2011页。视图:谷歌学术搜索
- a . m . Liu Shah m .江泽民et al。研究现有吸烟状态检测模块的可移植性的机构,AMIA物质协会Proc,芝加哥,2012年。
- o . Uzuner“认识到肥胖及并发症在稀疏数据,”美国医学协会杂志》上,16卷,不。4、561 - 570年,2009页。视图:出版商的网站|谷歌学术搜索
- 大肠Sirohi和p . Peissig”效应的研究药物词典从电子医疗记录中提取药物,”太平洋生物运算研讨会上,第318 - 308页,夏威夷,2005年。视图:谷歌学术搜索
- o . Uzuner戈尔茨坦,y罗,小羽,“从医疗放电记录识别病人吸烟状态。”美国医学协会杂志》上,15卷,不。1、14 - 24,2008页。视图:出版商的网站|谷歌学术搜索
- o . Uzuner b . r .南方,沈,和s . l .杜瓦尔,“2010 i2b2 / VA挑战的概念,断言,在临床文本和关系,“美国医学协会杂志》上,18卷,不。5,552 - 556年,2010页。视图:谷歌学术搜索
- k·罗伯茨和s . m . Harabagiu”,一个灵活的框架从电子医疗记录中断言,“美国医学协会杂志》上,18卷,不。5,568 - 573年,2011页。视图:出版商的网站|谷歌学术搜索
- s . Doan m·康威t . m .莳和l . Ohno-Machado”自然语言处理在生物医学:一个统一的系统体系结构概述,“分子生物学方法,卷1168,不。1,第294 - 275页,2014。视图:谷歌学术搜索
- y, z, l . Chen等人“监督方法症状知名度在自由文本传统中药的临床记录:一个实证研究,“生物医学信息学杂志卷,47号2、91 - 104年,2013页。视图:谷歌学术搜索
- 顾,f . Popowich诉达尔,“生物医学中文命名实体识别的研究摘要”人工智能的进步:21日会议的加拿大社会计算研究的情报,2008年加拿大AI、美国Bergler埃德。,页114 - 125,温莎,加拿大,2008年5月,诉讼。柏林,海德堡:海德堡激飞柏林。视图:出版商的网站|谷歌学术搜索
- 刘y, y, t . et al .,“联合分割和命名实体识别在中国使用对偶分解放电总结,“美国医学协会杂志》上,21卷,不。e1, pp. e84-e92, 2013年。视图:谷歌学术搜索
- j . Lei b . Tang x, k .高,m .江和h,“一个全面的临床文本,中文命名实体识别的研究”美国医学协会杂志》上,21卷,不。5,808 - 814年,2014页。视图:谷歌学术搜索
- j .梁x郑,m .徐,x,, y,”一个组合分类模型对中国临床所指出的,“应用数学和统计的国际期刊卷,49号19日,201 - 209年,2013页。视图:谷歌学术搜索
- l . NaiFen和美国,中国临床医学命令手册,科学出版社,北京,2007年,在中国。
- y莫,”中国命名和翻译西医。”承德医学院杂志》上,30卷,不。3,第265 - 264页,2013年,在中国。视图:谷歌学术搜索
- H.-P。张,H.-K。Yu D.-Y。熊问:刘,HHMM-Based中文词法分析器ICTCLAS,学报第二SIGHAN中国语言处理研讨会,2003年札幌。视图:出版商的网站
- y杨和j·威尔伯”,使用语料库统计删除多余的单词在文本分类中,“美国信息科学学会杂志》上卷,47号5,357 - 369年,1996页。视图:出版商的网站|谷歌学术搜索
- p . Zweigenbaum t . Lavergne n . Grabar t·亨茂,安全,和c . Grouin”相结合的基于专家经验的医学实体识别器机器学习系统:方法和案例研究,“生物医学信息学的见解》第六卷,附录1,51 - 62,2013页。视图:出版商的网站|谷歌学术搜索
- s . k .萨哈、p . Mitra和s . Sarkar”功能还原方法进行比较研究,在北印度语和孟加拉语命名实体识别中,“以知识为基础的系统,27卷,不。1,第332 - 322页,2012。视图:谷歌学术搜索
- t . joachim”,与支持向量机的文本分类:学习许多相关特性,”10日欧洲机器学习会议开,142,页137 - 1998。视图:谷歌学术搜索
- 江y, y, z . Yu k .徐和x陈,“自动症状规范化中医临床记录名称,“BMC生物信息学卷。11日,40 - 50,2010页。视图:出版商的网站|谷歌学术搜索
- j . Yu y . Wang和h·陈,“一种改进的基于语法的文本特征提取算法,”图书馆和信息服务,48卷,不。8 48-50页。2005年,在中国。视图:谷歌学术搜索
- m·霍尔·e·弗兰克,g .福尔摩斯b . Pfahringer p . Reutemann和i . h .威滕”WEKA数据挖掘软件:一个更新”,SIGKDD探索通讯,11卷,不。1,10 - 18,2009页。视图:出版商的网站|谷歌学术搜索
- h . b . Tang曹、吴y m .江和h,“认识到临床实体出院摘要特性,使用支持向量机结构和词表示“BMC医学信息学和决策补充1卷。13日,13-23,2013页。视图:谷歌学术搜索
- c·萨顿和a . McCallum”介绍条件随机域。”机器学习,4卷,不。4、267 - 373年,2011页。视图:谷歌学术搜索
- m .太阳和j .邹”的一个重要评价汉语单词segmention,研究”当代语言学,39卷,不。1 22-32页。2001年,在中国。视图:谷歌学术搜索
- s . k .萨哈、p . Mitra和s . Sarkar”词聚类和基于词选择特性减少MaxEnt印地语尼珥,”学报ACL-08:停止,页488 - 495,美国2008年。视图:谷歌学术搜索
- p . j . Lei Sockolow, p .关,孟,j·张,“电子健康记录的比较两个主要的美国在中国北京大学医院有意义使用目标,“BMC医学信息学和决策,13卷,不。1,第105 - 96页,2013。视图:谷歌学术搜索
- 江y, z, y, y . Liu和l·陈,“一个框架及其实证研究中药利用原始自由文本的自动诊断临床记录,“生物医学信息学杂志,45卷,不。2、210 - 223年,2011页。视图:谷歌学术搜索
- j .赵和f·刘”的产品命名实体识别中文文本,“语言资源和评价,42卷,不。2,页197 - 217,2008年,在中国。视图:出版商的网站|谷歌学术搜索
- o . Uzuner i Solti、f·夏和e . Cadag”社区注释实验为地面实况代i2b2药物挑战,”美国医学协会杂志》上,17卷,不。5,519 - 523年,2010页。视图:出版商的网站|谷歌学术搜索
- j·j·西米洛和朱x”,生物医学信息学本体的实际影响,”医学信息学年鉴1卷,第135 - 124页,2006年。视图:谷歌学术搜索
- y, y . Wang J.-T。阳光、张j . j .辻井和大肠,“建设大集合的中文和英文医学术语从半结构化和百科全书网站,“《公共科学图书馆•综合》,8卷,不。7篇文章e67526 2013。视图:出版商的网站|谷歌学术搜索
- r·h·道林l . Alschuler s波伊尔,c·毕比f . m . Behlen p v拜伦,“HL7临床文档体系结构、释放2”美国医学协会杂志》上,13卷,不。1 - 39,2005页。视图:谷歌学术搜索
- t·康美国张:徐,d, x,和j . Lei“检测否定和范围在中国临床使用字符和单词嵌入指出,“计算机在生物医学方法和项目,卷140,不。3,53至59页,2017年。视图:谷歌学术搜索
版权
版权©2017年6月梁等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。