药品不良反应(adr)的使用相关的不良影响是由于一些药物药理作用的药物。在过去的几年里,社交媒体已经成为一个流行的平台,人们讨论他们的健康问题,因此,已成为一个受欢迎的分享信息来源与ADR的自然语言。介绍了一个端到端的系统造型ADR从给定的文本检测通过微调伯特为适应高度模块化框架表示模型(农场)。伯特克服主要神经网络带来显著的性能提升。然而,训练伯特是一个计算昂贵的任务限制了其使用的生产环境中,很难确定最重要的hyperparameters下游任务。此外,开发一个端到端的ADR下游提取系统包括两个任务,即。,textclassification for filtering text containing ADRs and extracting ADR mentions from the classified text, is also challenging. The framework used in this work, FARM-BERT, provides support for multitask learning by combining multiple prediction heads which makes training of the end-to-end systems easier and computationally faster. In the proposed model, one prediction head is used for text classification and the other is used for ADR sequence labeling. Experiments are performed on Twitter, PubMed, TwiMed-Twitter, and TwiMed-PubMed datasets. The proposed model is compared with the baseline models and state-of-the-art techniques, and it is shown that it yields better results for the given task with the<我nline-formula>
F
分数为89.6%,97.6%,84.9%,95.9%的人在推特上,PubMed, TwiMed-Twitter TwiMed-PubMed数据集,分别。此外,提出了模型的训练时间和测试时间与伯特的相比,和结果表明,该模型计算速度快于伯特。
神经网络模型,在处理长文本,遭受梯度消失的问题。这个问题可以使用注意处理机制。注意力机制,译码器检索选择性信息来源的最相关的部分句子而不是使用所有的信息编码到一个固定大小的向量(
34]。Ramamoorthy和基于
9)提出了一个self-attention-based BLSTM促进intrasequence交互模型在给定的文本序列。丁等。
11)提出了嵌入水平注意力机制双向封闭的复发性单元(BGRU)允许模型学习最重要的特性。最近SMM4H在2019年举行的会议显示进一步改进神经网络技术用于ADR检测(
35]。卷积和复发性神经架构再辅以word2vec或手套嵌入的最流行的架构应对任务在2018年超过2019年由神经网络使用字嵌入pretrained伯特(
36]。获胜的团队的方法是基于培训伯特大无标号从Twitter微博数据集收集使用的药物名称列表(
37]。在[
8)、特定领域的预处理和一个不同的伯特实现,即。,一般<我nline-formula>
的误码率
T
大
特定领域的BioBERT [
38,领域特定ClinicalBERT [
39),也被证实是有效的药品分类在社交媒体上。李等人。
18)综合伯特与CNN和利用情感信息区分ADR和non-ADR tweet。Aroyehun和Gelbukh
7]LSTM美联储使用三种类型的嵌入,即。,character embeddings, glove embeddings, and BERT embeddings, to detect ADR reportage in tweets. Informal expression in social media text makes ADR detection a challenging task. To mitigate the effect of such informality, Zhang et al. [
40)提出了一个敌对的传输网络与双线性的注意力转移的辅助信息PubMed社交媒体数据集的数据集。康等。
41)提出了adr的实体识别中文文本通过构造一个模型包括self-attention、敌对的转移学习,RNN BLSTM, CRF。
ADR提到大多是重叠和不连续使ADR提取一项艰巨的任务。为了克服这个问题,El-allaly et al。
42)提出了一个深层神经网络命名为DeepCADRME解决ADR提取作为<我nline-formula>
N
程度的标记序列之间的问题和转移知识的水平。的序列是美联储<我nline-formula>
N
层次模型的基础上,上下文映射进行输出的当前水平的pretrained模型用于创建一个新的情景化表示以下水平。
培训伯特包括两个阶段,即。,pretraining和微调。在第一阶段,即。,pretraining, unlabeled data is used to train the model over different tasks. In fine-tuning, the pretrained parameters are fine-tuned on the labeled dataset to model a downstream task. The architecture of BERT is based on bidirectional transformers in multiple layers [
43]。在这项工作中,我们使用<我nline-formula>
的误码率
T
基地
由12层表示<我nline-formula>
l
,768隐藏单位表示<我nline-formula>
H
,12 self-attention正面表示<我nline-formula>
一个
。
伯特带作为输入一个句子或句子。伯特使用零件模型标记输入序列。添加特殊标记的记号赋予器在输入序列的开始和结束。第一个标记,标记每个输入序列的开始<我nline-formula>
C
l
年代
。输入序列中的两个句子除以一个特殊的标记<我nline-formula>
年代
E
P
。除了对输入句子分词,个别单词,如果不是发现在词汇表中,也标记化的subwords和字符。这样,伯特生成嵌入的词汇通过生成嵌入他们的成分subwords和人物在词汇表中找到。除了生产令牌嵌入,伯特通过添加嵌入到每个令牌生成句子嵌入在标记化的文本表示令牌是否属于第一个或第二个句子。它进一步生成位置嵌入的指示输入序列中的一个令牌的位置。最后,对于一个给定的输入表示令牌可以用连接对应的令牌嵌入,句子嵌入,嵌入的位置。
让<我nline-formula>
t
我
代表这个词的标记嵌入<我nline-formula>
我
和<我nline-formula>
年代
我
代表其句子嵌入<我nline-formula>
p
我
代表它的位置嵌入,嵌入的一个字<我nline-formula>
我
表示为<我nline-formula>
E
我
可以表示如下:
(1)
E
我
=
t
我
⊕
年代
我
⊕
p
我
,在哪里<我nline-formula>
⊕
代表了连接操作。
给定一个输入序列<我nline-formula>
年代
、体重矩阵<我nline-formula>
w
,偏差值<我nline-formula>
b
,给定序列的概率<我nline-formula>
年代
属于类<我nline-formula>
c
通过将softmax函数计算变量的值呢<我nline-formula>
x
:
(2)
P
x
=
c
∣
年代
;
w
;
b
=
softmax
w
·
年代
+
b
=
e
w
c
·
年代
+
b
c
∑
n
=
1
n
w
n
·
年代
+
b
n
,在哪里<我nline-formula>
n
表示美国存托凭证类别的总数。
3.6。优化
FARM-BERT使用亚当优化器进行了优化。亚当给出的参数更新规则如下:
(3)
w
t
=
w
t
−
1
−
η
米
^
t
v
^
t
+
ε
,在哪里<我nline-formula>
w
代表模型的权重,<我nline-formula>
米
代表移动平均线,<我nline-formula>
η
步长。
4所示。实验和结果
在本节中,我们简单的模型用于实验的实验设置。我们也评估模型和讨论结果。
4.1。数据集
实验三个数据集上执行。第一个数据集是Twitter数据集用于(
12)是由合并两个数据集,即。,推特一个DR dataset and Attention Deficit Hyperactivity Disorder (ADHD) dataset. The Twitter ADR dataset was collected using the names of 81 drugs common in the US market [
44]。这个数据集的微博使用的药物并不代表任何特定条件但广泛的不同的药物不良反应。数据集是补充了额外的ADHD数据集包含了用于治疗多动症药物名称。数据集分为训练数据和测试数据25% 75%。序列标签通常是通过使用标准I-O-B方案根据该令牌是基于他们的位置在开始(B),(我),内部或外部(O)给定的实体。Twitter数据标签采用投入计划有4类:I-ADR指示给定的令牌是一个ADR的一部分,I-indication指示给定的令牌是一个迹象的一部分,O-indication表示令牌以外的任何指示或ADR,和<我nline-formula>
<
垫
>
表明令牌是一个填充。
双向编码器陈述变压器(BERT)。伯特是一个双向的变压器编码器有多个层。我们使用pretrained<我nline-formula>
的误码率
T
基地
变压器模块/层数在哪里<我nline-formula>
l
是12和隐藏的尺寸吗<我nline-formula>
H
是768,而self-attention正面<我nline-formula>
一个
是12。模型是精确检测adr使用5时代。批量大小和学习将16<我nline-formula>
2
e
−
5
,分别。
表
2显示了基线模型和该模型的结果。可以看出深度学习技术一般产生更好的结果比传统的模型,即。、支持向量机和延时。在传统模型,延时执行比支持向量机。我们发现美国存托凭证和药物方面没有发挥实质性作用仅识别药物不良反应。这表明发现关键词在给定的句子不能导致提取有效药品不良反应的问题更多的取决于上下文。将使用词的上下文信息<我nline-formula>
n
克使用句子和语义信息嵌入的改善了这些模型的性能。然而,词<我nline-formula>
n
克在这些模型表示为词频率为有效的分类是不够的。
我们还观察到不同的嵌入模型的影响,即。、word2vec fasttext,手套,CNN和LSTM。我们发现两个CNN和LSTM执行初始化fasttext嵌入时比word2vec和手套嵌入。fasttext模型考虑了词的形态从单词的内部结构中提取信息而不是仅考虑整个单词的上下文。Fasttext代表每个单词字符的总和<我nline-formula>
n
克。通过考虑subword信息,fasttext word2vec和手套生成不同的嵌入的词汇。训练数据用于任何机器学习模型,无论它可能是多大,仍然可以不包括所有的词在一种语言的词汇。如果这种看不见的单词测试数据中发现,他们表示并不是由word2vec手套嵌入模型。然而,fasttext克服这个限制,代表了词汇通过添加成分的嵌入的字符<我nline-formula>
n
克在词汇表中找到。
该模型FARM-BERT优于所有产生的模型<我nline-formula>
F
89.6%和97.6%的分数在Twitter和PubMed数据集,分别。FARM-BERT执行比伯特在Twitter上2%和6% PubMed数据集。FARM-BERT的更好的性能比标准的伯特表示的有效性微调伯特hyperparameters农场使用修改后的值。
表
6比较结果通过FARM-BERT与以前的工作成果的TwiMed语料库。<我nline-formula>
F
模型的分数TwiMed-Twitter和TwiMed-PubMed数据集也在数字
6(一)和
6 (b),分别。
比较的结果成果通过FARM-BERT TwiMed语料库取得了最先进的模型。
模型
TwiMed-Twitter
TwiMed-PubMed
P
R
F
P
R
F
支持向量机(
48]
0.752
0.810
0.778
0.799
0.681
0.728
伊恩(
48]
0.836
0.813
0.824
0.878
0.738
0.792
CNN-based方法(
49]
0.739
0.788
0.761
0.849
0.831
0.835
多通道CNN (
50]
0.738
0.841
0.780
0.861
0.780
0.816
联合AB-LSTM [
51]
0.748
0.856
0.799
0.858
0.852
0.853
MSAM [
47]
0.701
0.828
0.754
0.817
0.856
0.831
FARM-BERT
0.831
0.868
0.849
0.952
0.966
0.959
F分数产生了不同模型在TwiMed数据集。
F成绩取得了TwiMed-Twitter数据集
F成绩取得了TwiMed-PubMed数据集
前两个模型在表
6,即,支持向量机和我nteractive attention network (IAN), have been used by Alimova and Solovyev [
48TwiMed数据集)。伊恩使用注意机制学习目标和上下文表示。实验使用CNN-based方法、多通道CNN联合AB-LSTM,多次反射Self-Attention机制(MSAM)由(
47]TwiMed语料库。CNN-based方法提出了刘et al。
49)和全et al。
50为检测之间的关系。提出了联合AB-LSTM Sahu和阿南德(
51]。MSAM已经提出的(
29日)利用多次反射机制来学习复杂的语义信息通过专注于不同领域的一个句子。从表中可以看出,FARM-BERT方法提出的我们的工作表现优于其他方法。
5。结论
这项工作提出了伯特调整与农场(FARM-BERT)来检测药物不良反应。该模型FARM-BERT使用并行预处理使其计算速度比标准伯特,因此合理的使用在生产环境中。使用多任务学习,识别提出了adr的端到端解决方案。伯特pretrained在BBC新闻语料库与农场,然后调整使用模型检测adr的下游任务。实验是在Twitter上执行,PubMed和TwiMed数据集,并与不同的基线模型相比,结果。中长期规划,支持向量机,CNN、LSTM和标准伯特。结果也与其他先进的作品。结果表明,拟议中的FARM-BERT优于所有的基线和最先进的模型产生<我nline-formula>
F
分数为89.6%,97.6%,84.9%,95.9%的人在推特上,PubMed, TwiMed-Twitter TwiMed-PubMed数据集,分别。此外,训练时间和测试时间由伯特和FARM-BERT相比,这是表明FARM-BERT花费更少的时间比伯特进行训练和测试。