药物警戒与变形金刚:一个框架来检测药品不良反应使用伯特微调和农场

文摘

药品不良反应(adr)的使用相关的不良影响是由于一些药物药理作用的药物。在过去的几年里,社交媒体已经成为一个流行的平台,人们讨论他们的健康问题,因此,已成为一个受欢迎的分享信息来源与ADR的自然语言。介绍了一个端到端的系统造型ADR从给定的文本检测通过微调伯特为适应高度模块化框架表示模型(农场)。伯特克服主要神经网络带来显著的性能提升。然而,训练伯特是一个计算昂贵的任务限制了其使用的生产环境中,很难确定最重要的hyperparameters下游任务。此外,开发一个端到端的ADR下游提取系统包括两个任务,即。,text classification for filtering text containing ADRs and extracting ADR mentions from the classified text, is also challenging. The framework used in this work, FARM-BERT, provides support for multitask learning by combining multiple prediction heads which makes training of the end-to-end systems easier and computationally faster. In the proposed model, one prediction head is used for text classification and the other is used for ADR sequence labeling. Experiments are performed on Twitter, PubMed, TwiMed-Twitter, and TwiMed-PubMed datasets. The proposed model is compared with the baseline models and state-of-the-art techniques, and it is shown that it yields better results for the given task with the - - - - - -分数为89.6%,97.6%,84.9%,95.9%的人在推特上,PubMed, TwiMed-Twitter TwiMed-PubMed数据集,分别。此外,提出了模型的训练时间和测试时间与伯特的相比,和结果表明,该模型计算速度快于伯特。

1。介绍

药品不良反应(adr)根据世界卫生组织(世卫组织)的定义是为了回应有毒药物发生由于正常剂量用于诊断或治疗疾病的人(1]。adr极大地影响生活质量和在更糟糕的情况下可以导致死亡。一项研究显示,3.5%的患者住院,因为美国存托凭证(2]。据估计,adr负责在欧洲(每年约197000人死亡3]。药物的安全监控的食品和药物管理局(FDA)后释放。药物警戒,也称为药品安全,药理科学有关收集、检测、评估、监控和预防药品的不良反应(4]。这些监测活动,然而,在很大程度上依赖于一个被动的自发报告的数据库称为不良事件报告系统(aer) [5]。延迟和低估了事件可以使这些系统效率低下。

为了解决被动监测的局限性,积极药物警戒技术用于标签adr分析频繁更新的数据来源。数据从社交媒体尤其是Twitter,因为它可以使用公共性质和广阔的执行时间药物监测。研究观察到显著之间的相关性在爱尔兰adr报告中提到这些Twitter [6]。几项研究已经在Twitter上进行数据7,8];然而,限制出现由于社会媒体的非正式的语言。比Twitter,非常正式的描述存在于生物医学文本。因此,一些研究使用生物医学文本来自PubMed ADR提取摘要(9,10),而一些利用社交媒体和生物医学文本数据(11,12]。在这项工作中,我们也使用数据集来自两个来源,即。、Twitter和PubMed。

ADR提取使用常规机器学习模型已经完成,如支持向量机(SVM) [13),随机森林(RF) (14),和条件随机场(CRF) [15]。这些模型依赖于手动功能工程。利用这些模型包括最常见的特征 - - - - - -克,否定语境、语义类型从统一医疗语言系统(uml)、词性(POS)标签、药品名称、lexicon-based特性,和字嵌入16]。许多研究利用深度学习技术,如双向长期短期记忆(BLSTM) [12],卷积神经网络(CNN) [17),引起深层神经网络(11]。最近研究采用双向编码器陈述变压器(BERT)及其不同的变异显著提高ADR的性能检测(8,18]。然而,尽管提高精度,伯特计算昂贵,较慢的速度推理时间限制了其可用性。一项研究发现模型花了1.7秒在谷歌一段文本分类像素3智能手机(19]。为工业用途,数十亿请求每秒需要处理的任务像文本分类。这使得使用伯特不切实际的生产环境。此外,它也需要大量的时间训练,限制hyperparameters的调优。因此,确定最贡献hyperparameters变得具有挑战性。此外,从社交媒体数据中提取ADR首先要求文本分类删除与ADR提到噪音和过滤文本。文本分类是紧随其后的是ADR的任务序列标签。因此,一个框架的支持下多任务学习需要端到端的建模的问题。

在这项工作中,我们使用通过小说框架农场(BERT调整https://farm.deepset.ai/)检测adr在Twitter和PubMed数据集。农业支持并行处理使模型计算速度更快,因此实际的工业用途。hyperparameters用于标准等FARM-BERT伯特模型修改,他们最适合的学习任务。农场有一个语言模型的模块化设计和预测头使转移学习简单。农场是一个自适应组合多个预测模型提供支持正面的语言模型。ADR提取我们提出一个端到端的解决方案通过使用两个预测与伯特,一个为分类文本与ADR提到其他标签ADR序列在文本分类。简而言之,这项工作的主要贡献下面列出:(我)FARM-BERT基于高度模块化的设计是用于检测药物不良反应(2)框架的支持下多任务学习使用两个预测负责人提出了端到端问题的建模(3)提出了一种快速计算解决方案检测adr支持并行处理和学习速度对大数据集相比传统伯特(iv)FARM-BERT与不同的微调hyperparameters相比标准伯特(v)比较的结果表明,伯特调整使用农场优于先进的技术用于提取药物不良反应

剩下的论文结构如下:部分2介绍了文献综述部分3提出了一个框架,用于端到端检测药物不良反应,部分4讨论了实验和结果部分5结论。

2。文献综述

已经有大量的工作检测adr从生物医学文本自动使用机器学习的方法。早期作品利用传统的机器学习方法与手动功能工程。刘和陈13]通过包的话,三元,词性(POS)标签功能,支持向量机在袋的话产生最好的结果。袋子里的单词方法是基于语料库中出现的单词。它忽略了文本的语义和语法。因此,这种方法并不是一个可靠的方法导致错误的分类。Alimova和Tutubalina20.美联储支持向量机和逻辑回归(LR)功能,包括lexicon-based特性,嵌入的情绪特征,语义特征和词。由于词典是基于一个特定的药物,lexicon-based特性不扮演重要角色在ADR识别。情绪和字嵌入特性被发现是最有效的。衬衣和冈萨雷斯21)使用SVM美联储与话题模型特性结合等特点 - - - - - -克,sentiword分数,词典功能,同义词集扩张特性,和uml语义类型。扁et al。22)也使用基于uml语义特征结合其他文本的功能。在共享任务社交媒体挖掘医疗(SMM4H) 2017年表现最佳的系统采用SVM用不同的特定领域,surface-form和情绪功能(23]。Aramaki et al。24SVM和CRF)用于使用lexicon-based特性提取药物不良影响,POS标签、文字链,等。CRF也被用于(15),利用上下文特征,词中嵌入特性,和字典。另一种方法(14利用射频模型再辅以 - - - - - -克特性、否定情绪,等。传统方法依赖手动功能工程需要相当多的时间和精力。

最近对ADR检测方法采用深层神经网络。CNN与Pyysalo的话嵌入的初始化25)被用于(17检测药物不良反应。Chowdhury et al。26)提出了卷积递归神经网络(CRNN) ADR检测。在[12),BLSTM网络使用字嵌入作为输入功能。在[26),提出了一个多任务encoder-decoder框架提供端到端解决方案的造型三个ADR检测任务,即。药物不良反应的分类,ADR标签,标签指示。为ADR解决有限的问题带安全标签的数据时,古普塔et al。27)提出了一个semisupervised方法基于cotraining可以增加标记数据和大量的未标记数据。semisupervised模型还提议在28]。无监督学习的阶段,药物的名字是预测的基础上,在给定的上下文使用BLSTM推模型。追杀word2vec-based词BLSTM模型嵌入在监督学习训练阶段预测的序列标签tweet。张,耿29日)提出了一种弱监督CNN-LSTM模型来识别药物不良反应。弱带安全标签的数据时采用pretrain模型。模型参数对标签数据集的进一步调整。一些模型结合深层神经网络与传统模型如BLSTM-CRF序列标签(30.]。他们利用词embedding-based特性和其他自然语言处理特性,比如拼写功能, - - - - - -克的特性,和POS特性。另一个BLSTM-CRF模型使用字符嵌入除了字嵌入(31日]。在[32,33),CNN, LSTM, CRF提出了词嵌入在哪里使用人物等级CNN增强。

神经网络模型,在处理长文本,遭受梯度消失的问题。这个问题可以使用注意处理机制。注意力机制,译码器检索选择性信息来源的最相关的部分句子而不是使用所有的信息编码到一个固定大小的向量(34]。Ramamoorthy和基于9)提出了一个self-attention-based BLSTM促进intrasequence交互模型在给定的文本序列。丁等。11)提出了嵌入水平注意力机制双向封闭的复发性单元(BGRU)允许模型学习最重要的特性。最近SMM4H在2019年举行的会议显示进一步改进神经网络技术用于ADR检测(35]。卷积和复发性神经架构再辅以word2vec或手套嵌入的最流行的架构应对任务在2018年超过2019年由神经网络使用字嵌入pretrained伯特(36]。获胜的团队的方法是基于培训伯特大无标号从Twitter微博数据集收集使用的药物名称列表(37]。在[8)、特定领域的预处理和一个不同的伯特实现,即。,一般 ,特定领域BioBERT [38,领域特定ClinicalBERT [39),也被证实是有效的药品分类在社交媒体上。李等人。18)综合伯特与CNN和利用情感信息区分ADR和non-ADR tweet。Aroyehun和Gelbukh7]LSTM美联储使用三种类型的嵌入,即。,character embeddings, glove embeddings, and BERT embeddings, to detect ADR reportage in tweets. Informal expression in social media text makes ADR detection a challenging task. To mitigate the effect of such informality, Zhang et al. [40)提出了一个敌对的传输网络与双线性的注意力转移的辅助信息PubMed社交媒体数据集的数据集。康等。41)提出了adr的实体识别中文文本通过构造一个模型包括self-attention、敌对的转移学习,RNN BLSTM, CRF。

ADR提到大多是重叠和不连续使ADR提取一项艰巨的任务。为了克服这个问题,El-allaly et al。42)提出了一个深层神经网络命名为DeepCADRME解决ADR提取作为 - - - - - -水平标记序列之间的问题和转移知识的水平。的序列是美联储 - - - - - -层次模型的基础上,上下文映射进行输出的当前水平的pretrained模型用于创建一个新的情景化表示以下水平。

3所示。提出的方法

我们使用伯特通过小说框架实现农场来检测药物不良反应。本节简要介绍的架构pretrained伯特的伯特,随后简要描述在我们的研究中使用。然后我们描述伯特的微调和农场。图1提出了提出了系统的总体架构。

3.1。伯特

培训伯特包括两个阶段,即。,pretraining和微调。在第一阶段,即。,pretraining, unlabeled data is used to train the model over different tasks. In fine-tuning, the pretrained parameters are fine-tuned on the labeled dataset to model a downstream task. The architecture of BERT is based on bidirectional transformers in multiple layers [43]。在这项工作中,我们使用由12层表示 ,768隐藏单位表示 ,和12 self-attention负责人表示。

3.2。输入表示

伯特生成更符合实际的嵌入。许多模型已经广泛被用于将文字转换成嵌入如word2vec fasttext,手套。然而,这些模型产生嵌入一个词不考虑它的上下文。在自然语言中,意义类似的词在不同的上下文中可能会有所不同。上下文相关的表示不是被这些模型导致类似的向量表示一个词在不同的上下文中有不同的含义。与之前的模型,伯特生成更符合实际的嵌入。

伯特带作为输入一个句子或句子。伯特使用零件模型标记输入序列。添加特殊标记的记号赋予器在输入序列的开始和结束。第一个标记,标记每个输入序列的开始。输入序列中的两个句子除以一个特殊的标记。除了对输入句子分词,个别单词,如果不是发现在词汇表中,也标记化的subwords和字符。这样,伯特生成嵌入的词汇通过生成嵌入他们的成分subwords和人物在词汇表中找到。除了生产令牌嵌入,伯特通过添加嵌入到每个令牌生成句子嵌入在标记化的文本表示令牌是否属于第一个或第二个句子。它进一步生成位置嵌入的指示输入序列中的一个令牌的位置。最后,对于一个给定的输入表示令牌可以用连接对应的令牌嵌入,句子嵌入,嵌入的位置。

让代表这个词的标记嵌入和代表其句子嵌入代表它的位置嵌入,嵌入的一个字表示为可以表示如下: 在哪里代表了连接操作。

3.3。Pretrained伯特

我们使用通用伯特模型pretrained BBC新闻语料库。Pretraining伯特由两个监督任务。在第一个任务中,伯特使用掩蔽的概念掩盖一些输入令牌随机和预测蒙面的令牌,因此学习双向表示。蒙面的隐藏表示令牌传递将softmax层。第二个任务是下一个句子预测,其目的是了解两个句子之间的关系。

3.4。微调伯特与农场ADR检测

转移学习代表的想法适应学习从一个任务到另一个地方。知识学到pretrained伯特模型可用于任何下游任务模型。我们使用农场微调伯特从给定的文本检测adr序列。农场提供了一个框架,使转移与伯特学习简单。使用变压器,为语言提供了一个模块化设计模型和预测。过程分为以下两个阶段。

3.4.1。数据处理

农场的模块化结构使预处理十分方便和可定制的作为标记伯特的零件相比,它遵循传统HuggingFace方法。利用处理器将输入文件转换成PyTorch数据集。为了这个目的,一个记号赋予器所需的处理器可以根据所需的语言模型加载。

3.4.2。造型

农场转让提供了一个通用和灵活的方法学习。农场提供了一个框架的自适应模型的端到端传输的学习。它结合了以下两个组件,即。、语言模型和预测。(我)语言模型。pretrained语言模型如伯特和XLNet标记转换成向量表示。正如前面提到的,在我们的案例中是使用的pretrained语言模型。(2)预测的头。预测头层的语言模型用于模拟下游任务。语言模型的矢量表示美联储的预测主管将他们转化为下游的预测任务。

pretrained语言模型适应下游使用预测任务。下游任务在我们的案例中是ADR提取。农场简化了多任务学习通过允许切换多个预测正面的语言模型。使用农场,任何pretrained语言模型如伯特和XLNet可以被附加到一个或多个预测如尼珥交头接耳和分类。两头用于该模型预测,一个用于文本分类的文本样本提到药物不良反应检测,另一个用于ADR序列标记,每个标记的标签是预测在给定的序列输入文本的令牌。

在培训过程中,模型backpropagates损失在整个神经网络包括语言模型。

3.5。平均每日房价预测

给定一个输入序列 ,权重矩阵 ,和偏差值 ,给定序列的概率属于类通过将softmax函数计算变量的值呢 : 在哪里表示美国存托凭证类别的总数。

3.6。优化

FARM-BERT使用亚当优化器进行了优化。亚当给出的参数更新规则如下: 在哪里代表模型的权重,代表移动平均线,步长。

4所示。实验和结果

在本节中,我们简单的模型用于实验的实验设置。我们也评估模型和讨论结果。

4.1。数据集

实验三个数据集上执行。第一个数据集是Twitter数据集用于(12)是由合并两个数据集,即。,推特ADR dataset and Attention Deficit Hyperactivity Disorder (ADHD) dataset. The Twitter ADR dataset was collected using the names of 81 drugs common in the US market [44]。这个数据集的微博使用的药物并不代表任何特定条件但广泛的不同的药物不良反应。数据集是补充了额外的ADHD数据集包含了用于治疗多动症药物名称。数据集分为训练数据和测试数据25% 75%。序列标签通常是通过使用标准I-O-B方案根据该令牌是基于他们的位置在开始(B),(我),内部或外部(O)给定的实体。Twitter数据标签采用投入计划有4类:I-ADR指示给定的令牌是一个ADR的一部分,I-indication指示给定的令牌是一个迹象的一部分,O-indication表示令牌以外的任何指示或ADR,和表明令牌是一个填充。

第二个数据集包括生物医学文本收集从PubMed摘要45]。在数据集有6821个句子。数据集分为训练数据,验证数据和测试集的比例8:1:1。类似的投入计划已被用于注释PubMed数据集。然而,数据集不包含任何I-indication类别留下3标签对于每一个令牌,即。、I-ADR O,或。图2显示的例子句子提到adr在Twitter和PubMed数据集。

第三个数据集是TwiMed语料库[46]。这个数据集进一步包括两个部分,TwiMed-Twitter TwiMed-PubMed。三种类型的实体标注语料库,即。、毒品、症状和疾病。我们认为症状和疾病的不良反应在我们的实验。此外,这些实体之间的关系有三种类型,即。、理由使用outcome-negative, outcome-positive。Outcome-negative表明药物在给定的输入序列可以引起不良反应。我们把这句话当作ADR-positive如果药品和不良反应之间的关系像outcome-negative注释。类似的问题也在实验Zhang et al。47]。

表1提供了量化数据集用于实验的细节。


数据集	不。的文档	不。的标签	马克斯句子长度

推特	844年	4	36
PubMed	6821年	3	93年
TwiMed-PubMed	1000年	2	137年
TwiMed-Twitter	625年	2	64年

4.2。评价指标

精度( ),回忆( ),和 - - - - - -评分( )是用来评估模型的性能。我们选择这些指标,因为他们已经广泛被用于评估模型在最先进的作品。

精密测量结果的相关性。换句话说,它描述了许多预测样本属于某个类实际上属于这类。它通常表明我们的模型分类其他类,这个类:

召回措施有多少实际相关的结果被返回。计算有多少实际样本属于某个类的正确预测模型提供洞察这个类作为另一个类的错误分类:

通常,精度和召回互为逆相关。为了克服这种不平衡, - - - - - -分数是使用精度和召回的调和平均数:

4.3。模型配置

该模型使用PyTorch库是在Python编程语言实现。FARM-BERT将学习速率。模型调整使用批处理大小8 5时代。

4.4。与基线模型比较

实验用以下执行常规和深度学习模型在推特上和PubMed数据集。这些模型的结果相比,该模型。(我)支持向量机(SVM)。我们使用一个线性内核支持向量机检测基于词的ADR - - - - - -克,句子嵌入的,和词汇特征,即。的名字,毒品和药物不良反应。(2)多层感知器(MLP)。我们使用美联储MLP分类器的话 - - - - - -克,句子嵌入的,和词汇特征,即。的名字,毒品和药物不良反应。批处理大小设置为16,和亚当是作为优化器。(3)卷积神经网络(CNN)。我们初始化嵌入层嵌入的CNN的词。三个过滤器高3,4,5用于卷积层。1-max池在卷积特性映射到应用选择最突出的特性和减少输出尺寸。合成功能连接和传递到输出层检测ADR在给定的输入序列的存在。我们使用16批大小和亚当的优化算法。(iv)长短期记忆(LSTM)。我们初始化嵌入层LSTM字嵌入。这一层返回的序列被传递到LSTM层致密层紧随其后。最后一层是输出层使用softmax激活函数来检测药物不良反应。我们使用16批大小和rmsprop作为优化器。(v)双向编码器陈述变压器(BERT)。伯特是一个双向的变压器编码器有多个层。我们使用pretrained变压器模块/层数在哪里是12和隐藏的尺寸吗是768,而self-attention正面是12。模型是精确检测adr使用5时代。批量大小和学习将16 ,分别。

表2显示了基线模型和该模型的结果。可以看出深度学习技术一般产生更好的结果比传统的模型,即。、支持向量机和延时。在传统模型,延时执行比支持向量机。我们发现美国存托凭证和药物方面没有发挥实质性作用仅识别药物不良反应。这表明发现关键词在给定的句子不能导致提取有效药品不良反应的问题更多的取决于上下文。将使用词的上下文信息 - - - - - -克使用句子和语义信息嵌入的改善了这些模型的性能。然而,词 - - - - - -克在这些模型表示为词频率为有效的分类是不够的。


模型	特性	推特			PubMed
模型	特性

支持向量机	词 - - - - - -克	0.701	0.650	0.675	0.711	0.682	0.695
	ADR条款	0.503	0.514	0.508	0.539	0.558	0.548
	嵌入的句子	0.604	0.644	0.624	0.671	0.611	0.641
	词 - - - - - -克+ ADR条款+句子嵌入	0.729	0.688	0.708	0.717	0.706	0.711

中长期规划	词 - - - - - -克	0.711	0.661	0.686	0.719	0.684	0.701
	ADR条款	0.512	0.524	0.518	0.521	0.544	0.532
	嵌入的句子	0.615	0.645	0.630	0.685	0.666	0.675
	词 - - - - - -克+ ADR条款+句子嵌入	0.727	0.738	0.732	0.733	0.756	0.744

LSTM	Word2vec字嵌入	0.779	0.798	0.788	0.801	0.792	0.796
	Fasttext字嵌入	0.786	0.812	0.799	0.825	0.798	0.811
	手套字嵌入	0.771	0.782	0.776	0.810	0.786	0.798

美国有线电视新闻网	Word2vec字嵌入	0.854	0.799	0.826	0.861	0.806	0.833
	Fasttext字嵌入	0.863	0.801	0.832	0.877	0.819	0.848
	手套字嵌入	843年0 . .	0.803	0.823	0.872	0.798	0.835

伯特	伯特嵌入	0.831	0.850	0.870	0.920	0.930	0.910

FARM-BERT	伯特嵌入	0.840	0.861	0.896	0.982	0.964	0.976

深度学习模型,就是在输入序列表示为嵌入的,上下文信息是后天习得的,因此,利用单词的语义表示的形式通过多层网络的嵌入。在深层神经网络中,伯特执行比CNN, CNN执行比LSTM更好。我们发现CNN执行比LSTM因为CNN捕捉当地模式虽然LSTMs捕捉全球模式的输入。我们观察到,在大多数情况下,输入序列组成短的文本。因此,提取有效信息从本地关键短语运用CNN在ADR提取中起着主要作用。LSTMs另一方面擅长捕捉远程依赖关系。应用LSTM时,输入句子长编码作为一个例子。因此,一些重要的短语可能不是学会了作为一个显著特征。

我们还观察到不同的嵌入模型的影响,即。、word2vec fasttext,手套,CNN和LSTM。我们发现两个CNN和LSTM执行初始化fasttext嵌入时比word2vec和手套嵌入。fasttext模型考虑了词的形态从单词的内部结构中提取信息而不是仅考虑整个单词的上下文。Fasttext代表每个单词字符的总和 - - - - - -克。通过考虑subword信息,fasttext word2vec和手套生成不同的嵌入的词汇。训练数据用于任何机器学习模型,无论它可能是多大,仍然可以不包括所有的词在一种语言的词汇。如果这种看不见的单词测试数据中发现,他们表示并不是由word2vec手套嵌入模型。然而,fasttext克服这个限制,代表了词汇通过添加成分的嵌入的字符 - - - - - -克在词汇表中找到。

伯特优于CNN和LSTM。伯特的更好的性能的原因是它学习情景化双向的方式嵌入。在自然语言中,一个词可能转达多重含义是基于使用的上下文。Word2vec fasttext,手套生产同样的一个词表示即使在不同语境下的含义不同。伯特,另一方面,产生一个词的上下文相关的嵌入。在伯特,一个输入单词是由其标记嵌入的总和,句子嵌入,嵌入的位置。

该模型FARM-BERT优于所有产生的模型 - - - - - -89.6%和97.6%的分数在Twitter和PubMed数据集,分别。FARM-BERT执行比伯特在Twitter上2%和6% PubMed数据集。FARM-BERT的更好的性能比标准的伯特表示的有效性微调伯特hyperparameters农场使用修改后的值。

4.5。比较计算的性能FARM-BERT伯特

在本节中,我们比较了计算时间被训练和测试伯特和FARM-BERT在Twitter和PubMed数据集。表3显示了训练这两个模型的计算时间为每个时代在几秒钟内同时表4显示了模型的测试时间以秒为单位。模型的训练时间在PubMed和Twitter数据集也展示了数据3(一个)和3 (b),分别。类似地,两个数据集上的测试时间的模型显示在图4。


时代	模型的训练时间
	PubMed数据库		Twitter数据集
	伯特	FARM-BERT	伯特	FARM-BERT

时代1	604.01	360.37	192.21	152.44
时代2	596.36	420.06	193.04	151.31
时代3	589.01	399.42	187.22	156.51
时代4	579.32	393.21	192.11	149.22
时代5	574.50	391.40	192.38	153.49


	测试时间的模型
	PubMed数据库	Twitter数据集

伯特	46.1	22.51
FARM-BERT	33.4	18.32

伯特(a)培训时间和每个时代FARM-BERT PubMed数据库

(b)培训时间伯特和每个时代FARM-BERT Twitter数据集

实验表明,训练伯特在每个时代比训练FARM-BERT花费更多的时间。类似的观察测试伯特和FARM-BERT时已经取得了。因此,FARM-BERT工作计算速度比标准伯特在训练和测试。FARM-BERT计算速度比伯特因为农场支持并行处理。此外,支持多任务学习使用多个预测头也使得FARM-BERT速度比标准伯特。分析这两种模型的计算性能表明使用FARM-BERT ADR预测的有效性,而不是标准的伯特。

4.6。与最先进的工作

在本节中,我们比较的结果,我们建议的方法与先进的三个数据集上执行工作,我。e, PubMed数据库、Twitter数据集和TwiMed数据集。

表5汇总方法的结果和之前的PubMed和Twitter数据集上执行工作。 - - - - - -成绩通过这些模型直观地显示数据5(一个)和5 (b),分别。


模型	推特			PubMed
模型

可可et al。12]	0.704	0.829	0.755	- - - - - -	- - - - - -	- - - - - -
Ramamoorthy和基于9]	- - - - - -	- - - - - -	- - - - - -	0.884	0.824	0.853
丁等。11]	0.785	0.914	0.844	0.867	0.948	0.906
FARM-BERT	0.84	0.861	0.896	0.982	0.964	0.976

(一) - - - - - -分数在推特上的数据集

(b) - - - - - -分数在PubMed数据库了

作品的比较都是由可可et al。12),Ramamoorthy和基于9,丁等。11]。模型由可可et al。12)使用BLSTM正向和反向RNNs相结合。400 -维pretrained嵌入用于初始化嵌入层(52]。模型被应用到Twitter的数据集。Ramamoorthy和基于9]使用BLSTM初始化charCNN嵌入,嵌入word2vec词,和PoS嵌入。模型使用self-attention机制,已应用于PubMed数据库。丁等。11)使用BGRU charLSTM嵌入和300 -维手套词表示(52通过嵌入水平的注意机制。嵌入的输出水平的关注层用作辅助分类器和添加到BGRU输出层识别药物不良反应。该模型被应用到PubMed和Twitter的数据集。很明显从表5,该模型FARM-BERT优于所有最先进的模型应用于Twitter和PubMed数据集。的 - - - - - -分数,FARM-BERT执行比可可et al。12约14%的Twitter数据集。它执行比Ramamoorthy和基于9大约10%在PubMed数据集。它得到更好的性能比丁等。11)在Twitter上大约5%和7%和PubMed数据集,分别。

表6比较结果通过FARM-BERT与以前的工作成果的TwiMed语料库。 - - - - - -模型的分数TwiMed-Twitter和TwiMed-PubMed数据集也在数字6(一)和6 (b),分别。


模型	TwiMed-Twitter			TwiMed-PubMed
模型

支持向量机(48]	0.752	0.810	0.778	0.799	0.681	0.728
伊恩(48]	0.836	0.813	0.824	0.878	0.738	0.792
CNN-based方法(49]	0.739	0.788	0.761	0.849	0.831	0.835
多通道CNN (50]	0.738	0.841	0.780	0.861	0.780	0.816
联合AB-LSTM [51]	0.748	0.856	0.799	0.858	0.852	0.853
MSAM [47]	0.701	0.828	0.754	0.817	0.856	0.831
FARM-BERT	0.831	0.868	0.849	0.952	0.966	0.959

(一) - - - - - -成绩取得了TwiMed-Twitter数据集

(b) - - - - - -成绩取得了TwiMed-PubMed数据集

前两个模型在表6,即,支持向量机和interactive attention network (IAN), have been used by Alimova and Solovyev [48TwiMed数据集)。伊恩使用注意机制学习目标和上下文表示。实验使用CNN-based方法、多通道CNN联合AB-LSTM,多次反射Self-Attention机制(MSAM)由(47]TwiMed语料库。CNN-based方法提出了刘et al。49)和全et al。50为检测之间的关系。提出了联合AB-LSTM Sahu和阿南德(51]。MSAM已经提出的(29日)利用多次反射机制来学习复杂的语义信息通过专注于不同领域的一个句子。从表中可以看出,FARM-BERT方法提出的我们的工作表现优于其他方法。

5。结论

这项工作提出了伯特调整与农场(FARM-BERT)来检测药物不良反应。该模型FARM-BERT使用并行预处理使其计算速度比标准伯特,因此合理的使用在生产环境中。使用多任务学习,识别提出了adr的端到端解决方案。伯特pretrained在BBC新闻语料库与农场,然后调整使用模型检测adr的下游任务。实验是在Twitter上执行,PubMed和TwiMed数据集,并与不同的基线模型相比,结果。中长期规划,支持向量机,CNN、LSTM和标准伯特。结果也与其他先进的作品。结果表明,拟议中的FARM-BERT优于所有的基线和最先进的模型产生 - - - - - -分数为89.6%,97.6%,84.9%,95.9%的人在推特上,PubMed, TwiMed-Twitter TwiMed-PubMed数据集,分别。此外,训练时间和测试时间由伯特和FARM-BERT相比,这是表明FARM-BERT花费更少的时间比伯特进行训练和测试。

结果通过该方法是很有希望的;然而,伯特pretrained在BBC语料库作为语言模型在生物医学领域的下游任务。使用语言模型不同的域不有效地代表了语言域下游任务的细节。因此,该方法可以进一步提高pretraining伯特在生物医学文本语言模型和该模型适应下游ADR检测的任务。我们的目标是在未来解决这个限制的影响通过调查pretraining伯特与农业生物医学文本然后微调来检测药物不良反应。

数据可用性

Twitter对ADR数据集用于支持本研究的发现是包含在这篇文章。

的利益冲突

作者宣称没有利益冲突。

引用

世界卫生组织,国际药物监测:国家中心的作用,世卫组织会议的报告(1971年9月在日内瓦举行20到25)日内瓦,世界卫生组织,1972年。
m . l . j . c . Bouvy De熊先生,m . a . Koopmanschap“药品不良反应在欧洲流行病学:回顾最近的观察性研究,“药品安全,38卷,不。5,437 - 453年,2015页。视图:出版商的网站|谷歌学术搜索
欧洲委员会,提案规定修改,至于药物警戒的医药产品供人类使用。监管(ec) 726/2004号。影响评估,2008年。
世界卫生组织,药物警戒的重要性,世界卫生组织,2002年。
s r·艾哈迈德“药品不良事件监测在美国食品和药物管理局,“普通内科医学杂志》上,18卷,不。1、年度,2003页。视图:出版商的网站|谷歌学术搜索
c . c . Freifeld j·s·布朗斯坦,c . m . Menone et al .,“数字药品安全监测:监测药品在twitter上,“药品安全,37卷,不。5,343 - 350年,2014页。视图:出版商的网站|谷歌学术搜索
s t Aroyehun和a . Gelbukh”检测药物不良反应在微博使用嵌入的,异构的组合词”第四社交媒体挖掘学报》对健康应用程序(# SMM4H)车间&共享任务,页133 - 135,佛罗伦萨,意大利,2019年。视图:谷歌学术搜索
a . Breden和m·李”检测药品不良反应从twitter通过特定于域的预处理和伯特合奏,”2020年,https://arxiv.org/abs/2005.06634。视图:谷歌学术搜索
Ramamoorthy和美国基于”,一个细心的序列模型药物不良事件从生物中提取文本,“2018年,https://arxiv.org/abs/1801.00625。视图:谷歌学术搜索
f·李,张y、m . Zhang和d .霁”联合模型从生物医学文本中提取药物不良事件”IJCAI卷,2016年,第2844 - 2838页,2016年。视图:谷歌学术搜索
p .叮,x, x, z Lei, j . Wang”一个细心的神经序列标签药品不良反应提到提取,模型”IEEE访问》第六卷,第73315 - 73305页,2018年。视图:出版商的网站|谷歌学术搜索
答:可可,a·g·Fiks和a·j·Masino“深度学习药物警戒:复发性神经网络架构在twitter发布标签药品不良反应,“美国医学协会杂志》上,24卷,不。4、813 - 821年,2017页。视图:出版商的网站|谷歌学术搜索
x刘和h·陈,“Azdrugminer:矿业信息提取系统patient-reported病人药物不良事件在网络论坛”国际会议上聪明健康,第150 - 134页,北京,中国,2013。视图:谷歌学术搜索
m . Rastegar-Mojarad r·k·Elayavilli y,和h·刘,“检测信号在嘈杂的数据可以系综分类器帮助识别药物不良反应在tweet,”社交媒体挖掘学报车间太平洋生物运算研讨会上分享任务,科哈拉海岸,美国,2016年。视图:谷歌学术搜索
z s Miftahutdinov大肠诉Tutubalina, a . e . Tropsha”识别疾病相关评论使用条件随机领域的表情,“计算语言学和知识技术1卷,第166 - 155页,2017年。视图:谷歌学术搜索
周宏儒。戴,m . Touray j . Jonnagaddala, s . Syed-Abdul”特性识别药品不良反应的工程从twitter帖子,“信息,7卷,不。2,p。27日,2016年。视图:出版商的网站|谷歌学术搜索
d·s·米兰达,“自动检测药品不良反应的生物医学文献使用卷积神经网络嵌入和生物医学词,”2018年,https://arxiv.org/abs/1804.09148。视图:谷歌学术搜索
李z h·林,w .郑,“一个有效的情感表达和丰富知识的方法检测药物不良反应,“IEEE访问,8卷,第87093 - 87083页,2020年。视图:出版商的网站|谷歌学术搜索
f . n . Iandola a·e·肖r·克里希纳和k·w·Keutzer Squeezebert:计算机视觉能教nlp高效的神经网络呢?“2020,https://arxiv.org/abs/2006.11316。视图:谷歌学术搜索
即Alimova和e . Tutubalina”自动检测药品不良反应的社交媒体与机器学习的帖子,”图像分析的国际会议上,社交网络和短信2017年,页3日- 15日,莫斯科,俄罗斯。视图:谷歌学术搜索
a .衬衣和g·冈萨雷斯,”便携式自动文本分类药品不良反应检测通过multi-corpus训练,”生物医学信息学杂志53卷,第207 - 196页,2015年。视图:谷歌学术搜索
j .扁,Topaloglu, y粉丝,“Twitter大规模开采与毒品有关的不良事件,”学报2012年国际研讨会上聪明的健康和福祉页,25-32美国夏威夷毛伊岛,2012年。视图:谷歌学术搜索
s Kiritchenko s·m·穆罕默德·j·莫兰,和b . de Bruijn”Nrc-Canada smm4h共享任务:分类tweet提及药物不良反应和药物摄入量,”2018年,https://arxiv.org/abs/1805.04558。视图:谷歌学术搜索
e . Aramaki y三浦,m . Tonoike et al .,“从临床记录提取药物不良影响。”MedInfo卷,160年,第743 - 739页,2010年。视图:谷歌学术搜索
s p·摩恩,t . s . Ananiadou分布语义资源生物医学文本处理”39-44页。视图:谷歌学术搜索
s . Chowdhury c·张,p . s . Yu“多任务从社交媒体文章、药物警戒矿业”学报2018年万维网会议法国里昂,页117 - 126年,2018年。视图:谷歌学术搜索
Gupta, m·古普塔诉Varma帕瓦尔,n . Ramrakhiyani和g·k . Palshikar”Co-training提取药物不良反应提到从微博”欧洲会议信息检索562年,页556 - 2018年法国格勒诺布尔。视图:谷歌学术搜索
古普塔,s .帕瓦尔n . Ramrakhiyani g·k . Palshikar诉Varma,“Semisupervised药物不良反应提到提取,递归神经网络”BMC生物信息学,19卷,不。S8,第212页,2018年。视图:出版商的网站|谷歌学术搜索
m .耿张和g“药品不良事件检测使用弱监督卷积神经网络和递归神经网络模型中,“信息,10卷,不。9,276年,页2019。视图:出版商的网站|谷歌学术搜索
徐黄z . w . k . Yu,“双向lstm-crf模型序列标签,”2015年,https://arxiv.org/abs/1508.01991。视图:谷歌学术搜索
g . Lample m . Ballesteros萨勃拉曼尼亚,k .川上和c·戴尔“神经结构命名实体识别,”2016年,https://arxiv.org/abs/1603.01360。视图:谷歌学术搜索
马x和e . Hovy“端到端通过双向lstm-cnns-crf序列标签,”2016年,https://arxiv.org/abs/1603.01354。视图:谷歌学术搜索
大肠Tutubalina和s . Nikolenko”相结合的递归神经网络和深条件随机域从用户评论中提取药物不良反应的,”医疗保健工程卷。2017年,9页,2017。视图:出版商的网站|谷歌学术搜索
d . Bahdanau k .赵,y Bengio”神经共同学习对齐和翻译机器翻译,”2014年,https://arxiv.org/abs/1409.0473。视图:谷歌学术搜索
d . Weissenbacher袍,a玛吉加入et al .,”概述第四社交媒体挖掘的健康(smm4h)共享任务acl 2019年”第四社交媒体挖掘学报》对健康应用程序(# SMM4H)车间&共享任务,页21 - 30,佛罗伦萨,意大利,2019年。视图:谷歌学术搜索
j·德夫林,硕士。Chang k·李,和k Toutanova,”伯特:训练的语言理解的深度双向变形金刚,”2018年,https://arxiv.org/abs/1810.04805。视图:谷歌学术搜索
x y s .陈黄黄,h .秦j .燕和唐,“Hitsz-icrc: smm4h共享任务报告2019 -自动分类和提取tweet的药品不良反应”第四社交媒体挖掘学报》对健康应用程序(# SMM4H)车间&共享任务,页47-51,佛罗伦萨,意大利,2019年。视图:谷歌学术搜索
j·李,w . Yoon美国金et al .,“Biobert: pre-trained生物医学生物医学文本挖掘语言表征模型,”生物信息学,36卷,不。4、1234 - 1240年,2020页。视图:出版商的网站|谷歌学术搜索
e . Alsentzer j·r·墨菲w . Boag et al .,“公开临床伯特嵌入的,”2019年,https://arxiv.org/abs/1904.03323。视图:谷歌学术搜索
张t、h·林y任et al .,“敌对的传输网络与双线性注意检测药品不良反应的社会媒体,”应用软计算第107358条,卷。106年,2021年。视图:出版商的网站|谷歌学术搜索
k康、美国田和y长,”命名实体识别基于转移的新疆当地药品不良反应学习,”《智能与模糊系统40卷,硕士论文,2021页。视图:谷歌学术搜索
工作流管理。El-allaly, m . Sarrouti: En-Nahnahi, s . o . El Alaoui”Deepcadrme:深神经模型对于复杂提到提取药物不良反应,“模式识别的字母卷。143年,27-35,2021页。视图:出版商的网站|谷歌学术搜索
答:Vaswani: Shazeer: Parmar et al .,“关注”是你所需要的,先进的神经信息处理系统,第6008 - 5998页,2017年。视图:谷歌学术搜索
a . Nikfarjam袍,k . O’connor r . Ginn g·冈萨雷斯,“药物警戒从社交媒体:矿业药物不良反应提到使用词的序列标签嵌入集群功能,“美国医学协会杂志》上,22卷,不。3、671 - 681年,2015页。视图:出版商的网站|谷歌学术搜索
h . Gurulingappa a . m .拉其普特人,a·罗伯茨,j . Fluck m . Hofmann-Apitius l .托尔多,“开发基准语料库的支持自动提取药物相关副作用的医学案例报告,“生物医学信息学杂志,45卷,不。5,885 - 892年,2012页。视图:出版商的网站|谷歌学术搜索
n .阿尔瓦罗·y Miyao n·科利尔,“Twimed: Twitter和PubMed可比语料库的药物,疾病,症状,和他们的关系,“JMIR公共卫生和监测,3卷,不。2,p . e24 2017。视图:出版商的网站|谷歌学术搜索
任张t、h·林y et al .,“药品不良反应检测通过多次反射self-attention机制,“BMC生物信息学,20卷,不。1,p。479年,2019。视图:出版商的网站|谷歌学术搜索
即Alimova和诉Solovyev互动关注网络分类、药物不良反应”人工智能和自然语言,页185 - 196,圣彼得堡,俄罗斯,2018年。视图:谷歌学术搜索
刘,b .唐问:陈,x,“通过卷积神经网络提取药物之间的相互作用,”计算和数学方法在医学卷。2016年,8页,2016。视图:出版商的网站|谷歌学术搜索
c .全l .华、太阳x和w·巴姨,“多通道生物关系卷积神经网络提取。”生物医学研究的国际卷。2016年,10页,2016。视图:出版商的网站|谷歌学术搜索
s . k . Sahu和a . Anand”,从生物医学文本使用长期短期记忆中提取药物之间的相互作用网络,”生物医学信息学杂志卷,86年15到24,2018页。视图:出版商的网站|谷歌学术搜索
j·彭宁顿、r . Socher和c·d·曼宁”手套:blobal向量表示,”这个词学报2014年会议上实证方法在自然语言处理(EMNLP)1543年,页1532 -多哈,卡塔尔,2014。视图:谷歌学术搜索

计算和数学方法在医学