识别疾病的遗传信息从非结构化文本数据基于BiLSTM-CRF分子机制

文摘

疾病相关的实体是一个重要的任务从生物医学文献挖掘非结构化文本数据实现生物医学知识。自闭症谱系障碍(ASD)是一种神经系统相关的疾病和发育障碍的特点是赤字在沟通和社会交往和重复的行为。然而,这种疾病迄今仍不清楚。在这项研究中,它识别与疾病相关联的实体使用的机器学习计算方法从文本数据收集与自闭症相关的分子机制。实体相关的疾病从与自闭症相关的生物医学文献中提取利用深度学习与双向长短期记忆(BiLSTM)和条件随机场(CRF)模型。其他以前的作品相比,识别实体相关疾病的方法是有前途的。该方法包括五种类型的分子实体由GENIA评估语料库获取76.81%的f值。145年工作9146年提取蛋白质,rna, 7680 dna, 1058细胞类型,981细胞系自闭症的生物医学文献后删除重复的分子实体。最后,我们执行和KEGG分析测试数据集。本研究为进一步研究可以作为参考的病因疾病分子机制的基础上,提供一种方法来探索疾病的遗传信息。

1。介绍

与智能计算和机器学习技术的快速发展,特别是深度学习技术的发展(1),人工智能技术开发了更广泛的涉及算法和应用程序(2- - - - - -6]。此外,它已广泛应用于学术界和产业界通信安全等(7,8和意见和文本挖掘9- - - - - -11]。它在生物医学领域也很受欢迎12,13]。在生物医学研究提供丰富的实验数据(14]。大量的术语的资源和知识基地也可以用于生物医学文本挖掘(机器学习方法15]。娜et al。16]提供了一个基于语义的方法提取概念定义自闭症表型的科学出版物。Thabtah et al。17)提出了一种新的计算智能方法基于变量分析为自闭症筛查检测功能。斯宾塞等。18)发现基因关联使用频繁模式挖掘特定于自闭症。布什et al。19)提取ASD电子健康记录的数据为不同的工作流。Macedoni-Lukšičet al。20.)使用本体建设识别自闭症的主要概念通过使用基于Swanson RaJoLink方法的ABC模型。在我们以前的工作,我们提取候选基因与孤独症基于关联规则(21]。

自闭症是一种神经发育障碍叫做自闭症谱系障碍(ASD)。自闭症是一种神经和发展障碍,其特征是赤字沟通、社交活动,和重复的行为。也是综合症的神经发育至今未知统一病理或神经生物学病因。Zhang et al。22)进行了全基因组关联研究和集成大脑region-related enhancer-gene网络ASD探索染色体增强地区的角色在这个障碍。帕尔et al。23]采用贝叶斯框架来理解大脑功能制定感知和行动推理过程。佐藤et al。24)结合模糊熵谱聚类和功能磁共振成像数据的分析来确定隔离地区自闭症患者的脑功能连接体。他们也证明了这个新工具描述神经精神障碍(效率25]。罗森博格et al。26提出非线性变化,规范计算是自闭症患者的行为特征的基础。他们认为计算角度对自闭症可能帮助确定生理途径在自闭症的治疗目标。上述计算方法可以用来探索自闭症的病因不需要昂贵和耗时的实验验证。虽然广告的病因尚不清楚,一些研究已经表明,强大的基因成分参与ASD发展(27- - - - - -29日]。在目前的研究中,我们探索了通过计算与自闭症相关的分子机制了解这种疾病的病因。

探索潜在疾病的机制,我们确定了五个自闭症相关疾病实体基于深度学习使用混合模型包含两个双向长期短期记忆(BiLSTM) [30.)和条件随机场(CRF) [31日)模型,探讨了分子机制通过分析他们的分子实体之间的关系。

2。材料和方法

作为一个大型非结构化数据存储库,生物医学文献包含丰富的生物医学信息的有用的知识(具体和相关利益点)可以通过对非结构化文本自然语言处理。在这项研究中,分子与自闭症相关的信息可从生物医学文献。我们首先从实验语料库中提取分子实体通过一个合适的计算模型,然后研究了它们的分子实体之间的关系。然后,我们把这些实体与自闭症分为和未知样品确认。最后,我们探讨了已知样本有关自闭症理解的动物行为学障碍,这可能为理解未知的分子机制提供了一个参考的其他样本与自闭症有关。

识别分子实体在本研究中是一个关键因素。机器学习是主流方法。被认为是一个序列标签NLP问题的任务。涂画者可以用于下游的输出输入序列标签。线性统计模型被应用于序列标签包括隐马尔可夫模型(32),最大熵马尔可夫模型(33),和CRF模型。最近,神经网络提出了解决序列标注问题[34- - - - - -36]。本研究结合混合网络BiLSTM和CRF BiLSTM-CRF模型识别分子实体。网络可以有效地使用过去的输入特性通过BiLSTM层和句子水平通过CRF层标记信息。以下部分将描述识别模型。

2.1。LSTM模型

长期短期记忆(LSTM) [37)网络类似于复发性神经网络(RNNs)。RNNs无法了解相关信息的输入数据和西格玛细胞或双曲正切细胞。隐层的更新在LSTM专用记忆细胞所取代。因此,LSTM递归神经网络模型是一种特殊的可以有选择地存储上下文信息使用一个特别设计的包含输入门,门结构输出门和忘记门。LSTM可以处理的长期依赖。作品中所描绘的LSTM记忆细胞(30.,38]。被遗忘的信息细胞状态和记忆新信息,这使得信息用于后续计算传输的时候,而无用的信息就会被丢弃,在每个时间步隐层状态输出。遗忘的值、记忆和输出是由国家控制的隐藏层在最后一刻和内存的值门,记忆的大门,大门和输出计算当前的输入。

通常,LSTM包括5个计算过程:(1)计算忘记门和选择信息被遗忘;(2)计算内存门和选择信息记住;(3)计算当前电池状态的时刻;(4)计算输出门和隐藏层在当前时刻的状态;(5)获得一个隐藏层状态序列长度相同的句子。更多的细节描述(37]。LSTM的阈值机制能有效过滤和记住的信息RNN的内存单元来解决这个问题。然而,LSTM只向前抓住了从文本信息。命名实体识别的任务,向后传播的信息也有重要的参考价值。因此,混合网络应用在以下部分的工作。

2.2。混合网络

混合网络级别包含两部分:双向LSTM网络(BiLSTM)和CRF。水平BiLSTM利用序列中的标记任务访问过去和未来输入功能。这主要取决于前后状态导致两个单独的隐藏状态捕捉过去和未来的信息,分别。在这项研究中,使用BiLSTM获得更多上下文信息。输入序列提出了神经网络。为每个输入序列( )在一个句子中,转换成字嵌入。这些话在一个给定的句子嵌入BiLSTM网络,计算每个单词的前后表示。符号作为输出的远期LSTM吗时间和标志反向的称为输出表示LSTM吗时间。BiLSTM的输出表示时间的定义是。因此,这个输出包含更多的上下文信息。它是用来在文本标签命名实体。其他网络级别是条件随机场(CRF)模型,集中在句子层面上,而不是个人职位序列标签的任务。它利用邻居预测当前标签的标签信息。是很有帮助的,标签之间的相关性在社区,共同解码的最佳连锁标签对于一个给定的输入句子。考虑相邻标签之间的关系,线性控可以获得全局最优的标签序列可以最大化相邻标记的关系。此外,它还优化全球输出标记序列,表明增强生物命名实体识别性能与更大的长度和修改词汇。混合网络集成两个网络的优势更多的识别分子实体。

2.3。管道标识的实体

在这项研究中,混合网络包含BiLSTM和控。BiLSTM模型的输出作为输入的crf模型获得全局最优序列标记。字嵌入是一种词汇映射到一个真正的矢量捕捉分布式语法和语义信息的单词使用谷歌发起切换单词word2vec向量。针对多字实体,入会标签是用来检测实体边界检测。“B”的标签显示实体的边界的开始,“我”的标签显示中间实体,和标签“O”表示非生物医学实体。因此,实体将标记为B-entity_category I-entity_category,和o .例如,当这个词是蛋白质的组成部分,它将被标记为b蛋白质,I-protein, o .识别实例的管道“Th2细胞诱导抗原IgE抗体”图所示1。

3所示。结果与讨论

本研究使用GENIA [39]语料库来评估由专业人员带注释的语义标注数据集是关于生物医学文献来验证实体识别的方法。它还提供的黄金标准文本挖掘系统的评价。GENIA语料库提取与MEDLINE MEDLINE数据库ID、标题和摘要编码在一个xml数据库。针对上述方法,我们专注于五个类别的实体,即DNA、蛋白质、RNA,程控,细胞系使用三种流行的测量使用的作品(40]。实验结果见表1。我们的方法实现了f值的76.81%。表2说明了我们的方法之间的比较和以前的工作和之前报道的。


分子实体	P (%)	R (%)	f值(%)

蛋白质	84.32	80.32	82.27
DNA	76.28	71.33	73.72
核糖核酸	85.71	77.97	81.66
程控	83.67	80.37	81.98
细胞系	65.22	63.64	64.42
整体	79.04	74.72	76.81

其他以前的作品相比,表2说明了我们的方法之间的比较和以前的作品。


方法	P (%)	R (%)	f值(%)

周et al。41]	75.99	69.42	72.55
廖和吴42]	72.80	73.60	73.20
唐et al。43]	70.78	72.00	71.39
姚明et al。(44]	76.13	66.54	71.01
李等人。45]	74.77	70.85	72.76
李、郭(46]	79.58	69.86	74.40
我们的方法	79.04	74.72	76.81

周et al。41)确定实体f值为72.55%。廖和吴42]使用人工特性来构造一个skip-chain CRF模型,认为长距离依赖GENIA语料库的f值73.20%。然而,本文提出BiLSTM-CRF模型,它不使用任何人工特征但GENIA语料库得到更好的结果比辽所使用的模型和吴42]。姚明et al。(44)用多层神经网络学习特性表示,取得了71.01%的f值。李、郭(46)建造了一个BiLSTM模型与文字和特征向量和获得74.40%的f值。我们建议的方法获得76.81%的f值,表明我们的方法是比以前的作品(42- - - - - -46]。因此,它承诺从生物医学文献中提取分子实体。

在这项研究中,我们也使用“自闭症”的关键词搜索NCBI数据库,包括29767年的文学研究,直到2018年8月12日。145 rna的方法提取9146蛋白质,7680 dna, 1058细胞类型,981细胞株后删除重复的分子实体。在这些提取的分子实体,MECP2基因出现最频繁,紧随其后的是基因催产素基因在实验数据集。这两种基因是确诊为孤独症易感基因。我们使用Python来提取相关的分子实体自闭症和开发了一个识别系统。屏幕截图如图2。

比较成熟的基因在工作(11),有相同的70个基因中提取实体。他们如表所示3。去和KEGG分析的70个基因数据所示3和4,分别。


相同的70个基因相比,成熟的基因在工作(11]

不	的兵	RORA基因	FOXP1	TCF4	CDH13	VEGF
TRPV1	NLGN4	HMGB1	NRG3	联合包裹	HNF1B	ST8SIA
PAFAH1B1	肿瘤坏死因子	FGF22	HDAC4	TLR3	NTK2	CDH8
SCN3A	DIA1	L1CAM	CRK	NOS1	副总裁	AGC1
CACNA1A	减震器	ATP8A1	最有价值球员	NR4AL	WNT1	FMR2
SOX5	CRBN	SUSD4	DAT1	MAPT	MTNRLA	ATRNL1
LRRTM3	DLG4	PCDH15	MKL2	RPP25	OGG1	CTCF
SLOS	GLUT1	KIF1A	GRIA1	ID3	BDMR	INS
TSGA14	CRHR1	CD28	气体	TSC	男朋友	GATM
凋亡	SOX9	GAP43	ARA	PLA2	FOSB	世界媒体峰会

去分析表明,大约70%的基因参与发展进程和近50%的基因参与应对外部刺激,如图3。近30个基因是位于细胞的神经元投射,部分组件。最后,大约90%的基因显示绑定和蛋白结合分子功能。

KEGG分析表明这些基因与长期抑郁,glutamatergic突触,多巴胺突触,昼夜夹带在神经系统如图4。大约9%的基因参与MAPK信号通路。去和KEGG分析已知的基因与孤独症的分子机制提供参考了解未知的样本,可以发现新基因与孤独症有关。

4所示。结论

实体相关的疾病被确定使用BiLSTM-CRF模型和方法是评估一个f值的76.81%。我们所知,所提供的方法是技术发展水平相比以前的作品。基于该方法,我们也开发一个系统识别。与此同时,本研究还分析了提取基因去和KEGG分析。该方法将被应用到探索其他神经系统疾病相关的分子机制,如帕金森。本研究可以作为参考了解疾病的病因,这是承诺对于识别疾病实体。

数据可用性

自闭症相关实验数据集提取生物医学文献与E-utilities PubMed数据库(http://eutils.ncbi.nlm.nih.gov/corehtml/query/static/eutils_help.html)通过使用关键字“自闭症。“生物医学语料库中扮演一个重要的角色在生物医学文本挖掘实现生物医学知识域。它促进了基于机器学习的文本挖掘技术开花。GENIA语料库提供了一个参考材料为生物医学文本挖掘利用自然语言处理技术。这种语义标注数据集提供了评估标准文本挖掘方法。还带注释的生物方面的权威领域专家编码在一个基于xml的标记方案。GENIA本研究应用语料库构建方法的识别分子实体。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究得到了国家自然科学基金(批准号61502243和61502243),江苏省自然科学基金(BK20170934),浙江2016 e10011下智能医学工程研究中心,中国博士后科学基金会(2018 m632349), NUPTSF (NY217136),和自然科学基金会在中国江苏省的高等教育机构(16 kjd520003)。

引用

r .欢,t .妈,j .曹y .田,A.-D。阿卜杜拉,“深度轧制:小说情感multi-participant通信上下文预测模型,”信息科学卷,488年,第180 - 158页,2019年。视图:谷歌学术搜索
l .傅z李,问:你们et al .,“学习强大的基于联合判别子空间L2, p - L2, s-norm距离度量,”IEEE神经网络和学习系统,2020年,早期的访问。视图:出版商的网站|谷歌学术搜索
l .傅d·张,问:你们“复发性节俭关注网络遥感场景识别,”IEEE地球科学和遥感,2020年,早期的访问。视图:出版商的网站|谷歌学术搜索
李问:你们z l .傅z, w•杨和g·杨,非高峰时间的判别分析数据表示,“IEEE神经网络和学习系统,30卷,不。12日,第3832 - 3818页,2019年。视图:出版商的网站|谷歌学术搜索
问:你们,j·杨,f .刘赵c, n .你们和t .阴”L1-Norm距离线性判别分析基于一个有效的迭代算法,”IEEE电路和系统视频技术,28卷,不。1,第129 - 114页,2018。视图:出版商的网站|谷歌学术搜索
李问:你们h .赵z, et al .,“L1-Norm距离minimization-based快速强劲的双k美元支持向量平面聚类,“IEEE神经网络和学习系统卷,29号9日,第4503 - 4494页,2018年。视图:出版商的网站|谷歌学术搜索
b . Al-Otibi: Al-Nabhan y .田,“保护隐私车辆恶意节点检测方案计算的雾,“传感器,19卷,不。4 p。965年,2019年。视图:谷歌学术搜索
y, m . m . Kaleemullah m·A·Rodhaan et al .,“隐私保护cloud-of-things定位服务系统”,杂志的并行和分布式计算,第123卷,第215页,2019年。视图:出版商的网站|谷歌学术搜索
C.-N z盘。杨,s盛维克多:熊,w•孟“无线多媒体数据安全、机器学习”安全性和通信网络卷,2019篇文章ID 7682306, 2019。视图:出版商的网站|谷歌学术搜索
t·马r .欢,y, j .曹y .田,Al-R。Mznah”小说情绪极性检测框架对中国,“IEEE情感计算,2019年。视图:出版商的网站|谷歌学术搜索
l .锣、r·杨和x太阳,“优先级疾病易感基因的利用LSM /圣言,“IEEE生物医学工程,60卷,不。12篇文章ID 000327554000020, 3410 - 3417年,2013页。视图:谷歌学术搜索
l .龚y, j .谢h . Liu和x的太阳,“预测基于关联规则的孤独症易感基因,”神经科学研究杂志,卷90,不。6、文章ID 000302536300002, 1119 - 1125年,2012页。视图:谷歌学术搜索
l .龚x太阳,d .江,s .龚”AutMiner:使用文本挖掘系统中提取ASD-related的基因,”《生物系统,19卷,不。1、文章ID 000288809600007, 113 - 125年,2011页。视图:谷歌学术搜索
w·w·m·Fleuren和w . Alkema应用生物医学文本挖掘的领域。”方法卷,74年,第106 - 97页,2015年。视图:出版商的网站|谷歌学术搜索
a .港务局耶佩斯和r . Berlanga“知识基础词概念模型估计和优化生物医学文本挖掘,”生物医学信息学杂志53卷,第307 - 300页,2015年。视图:出版商的网站|谷歌学术搜索
s .娜·m·j·奥康纳和A . k . Das,“基于语义的方法从科学出版物中提取概念定义的:评估在自闭症表型域,“生物医学期刊》的语义,4卷,不。1,p。2013。视图:出版商的网站|谷歌学术搜索
f . Thabtah、f . Kamalov和k回历的七月,“一个新的计算智能方法为自闭症筛查检测自闭症特征,“国际医学信息学杂志》上卷,117年,第124 - 112页,2018年。视图:出版商的网站|谷歌学术搜索
m·斯宾塞:高桥,s . Chakraborty j .英里,C.-R。害羞的,来说“遗传基因型对比挖掘小说揭示了基因关联特定于自闭症子组,“生物医学信息学杂志卷。77年,50 - 61年,2018页。视图:出版商的网站|谷歌学术搜索
r·a·布什,c·d·康纳利a·佩雷斯·h·巴洛,和g . j .蒋介石“提取自闭症谱系障碍电子健康记录的数据,”应用临床信息学,8卷,不。3、731 - 741年,2017页。视图:出版商的网站|谷歌学术搜索
m . Macedoni-LukšičPetrič,b . Cestnik, t . Urbančič”发展中更深入地理解自闭症:连接知识通过文献挖掘,”自闭症研究和治疗文章ID 307152卷,2011年,10页,2011。视图:出版商的网站|谷歌学术搜索
l .龚y, j .谢h . Liu和x的太阳,“预测基于关联规则的孤独症易感基因,”神经科学研究杂志,卷90,不。6,1119 - 1125年,2012页。视图:出版商的网站|谷歌学术搜索
l, l . Liu y温家宝et al .,“全基因组关联研究和识别染色体增强地图在多个脑区与孤独症谱系障碍有关,”自闭症研究,12卷,不。1,p。26日,2018。视图:出版商的网站|谷歌学术搜索
t·帕尔·g·里斯,k . j . Friston”计算神经心理学和贝叶斯推理。”人类神经科学前沿,12卷,p。61年,2018年。视图:出版商的网站|谷歌学术搜索
j . r .佐藤j . Balardin m·c·维达尔和a . Fujita”标识隔离地区自闭症患者的脑功能连接体的结合模糊谱聚类和熵分析,“精神病学和神经科学杂志》上第41卷。。2、124 - 132年,2016页。视图:出版商的网站|谷歌学术搜索
j . r .佐藤m . Calebe维达尔德Siqueira桑托斯,k .布劳尔Massirer和a . Fujita“复杂网络在孤独症谱系障碍的措施,”IEEE / ACM事务计算生物学和生物信息学,15卷,不。2、581 - 587年,2018页。视图:出版商的网站|谷歌学术搜索
A·罗森博格,j·s·帕特森和d e . Angelaki”计算的角度对自闭症”,美国国家科学院院刊》上,卷112,不。30日,第9165 - 9158页,2015年。视图:出版商的网站|谷歌学术搜索
s . Jamain h . Quach h . Quach et al .,“x连锁的突变基因编码neuroligins NLGN3 NLGN4与自闭症有关,”自然遗传学,34卷,不。1、27 - 29,2003页。视图:出版商的网站|谷歌学术搜索
a . m .夫和t . Bourgeron寻找方法自闭症的迷宫:遗传、表观遗传和环境线索,”神经科学的趋势卷,29号7,349 - 358年,2006页。视图:出版商的网站|谷歌学术搜索
j·f·阿贝尔森,刘贤美关颖珊,b . j . O 'Roak et al .,“在SLITRK1序列变异与妥瑞氏综合征有关,”科学,卷310,不。5746年,第320 - 317页,2005年。视图:出版商的网站|谷歌学术搜索
徐黄z . w . k . Yu,“双向LSTM-CRF模型序列标签,”2015年,http://arxiv.org/abs/1508.01991。视图:谷歌学术搜索
j·拉弗蒂,a McCallum f·佩雷拉,“条件随机域:概率模型分段和标签序列数据,”ICML学报》2001年,卷。28日。视图:谷歌学术搜索
l . Patel n . Gustafsson y, r·欧博r·亨利克·e·科恩,”一个隐藏的马尔可夫模型的方法来描述photo-switching荧光团的行为,”应用统计学的史册,13卷,不。3、1397 - 1429年,2019页。视图:出版商的网站|谷歌学术搜索
r . Cofre c Maldonado f .玫瑰花,”大偏差最大熵马尔可夫链的性质从高峰火车,”熵,20卷,不。8,573年,页2018。视图:出版商的网站|谷歌学术搜索
m .阴c .备忘录、k .熊和j .任“中国临床命名实体识别与radical-level特性和self-attention机制,“生物医学信息学杂志文章ID 103289卷,98年,2019年。视图:出版商的网站|谷歌学术搜索
m . Basaldella l .毛皮c .《f·里纳尔蒂,“实体识别使用混合方法在生物医学领域,“生物医学期刊》的语义,8卷,不。1,p。51岁,2017。视图:出版商的网站|谷歌学术搜索
x x, y,任et al .,“十字头式生物命名实体识别与深多任务学习,”生物信息学,35卷,不。10日,1745 - 1752年,2019页。视图:出版商的网站|谷歌学术搜索
x y Yu Si c·胡,j .张“复发性神经网络的审查:LSTM细胞和网络架构,”神经计算没有,卷。31日。7,1235 - 1270年,2019页。视图:出版商的网站|谷歌学术搜索
李x, y l .龚et al。“双向LSTM-CRF生物命名实体识别,”学报》2018年第14届国际会议对自然计算,模糊系统和知识发现(ICNC-FSKD)黄山,中国,2018年7月。视图:出版商的网站|谷歌学术搜索
j。金,t .太,y Tateisi, j .辻井”GENIA文集——bio-textmining语义标注语料库,”生物信息学,19卷,不。1,pp. i180-i182, 2003年。视图:出版商的网站|谷歌学术搜索
l .龚r·杨问:刘,z, h . Chen和g·杨,“基于字典的方法对于识别生物医学的概念,”学报2015年12日国际会议上模糊系统和知识发现长沙,中国,2005年8月。视图:谷歌学术搜索
g .周j . Zhang j . Su d .沈和c . Tan“识别在生物医学文本名称:机器学习的方法,”生物信息学,20卷,不。7,1178 - 1190年,2004页。视图:出版商的网站|谷歌学术搜索
z吴辽和h,”生物命名实体识别基于skip-chain控”《2012国际工业控制与电子工程会议西安,页1495 - 1498年,中国,2012年8月。视图:出版商的网站|谷歌学术搜索
b . Tang h .曹问:陈,x Wang和h .徐”评价词表示特性在生物医学命名实体识别任务,”生物医学研究的国际240403卷,2014篇文章ID, 2页,2014。视图:出版商的网站|谷歌学术搜索
l .姚明,h·刘,x, y . Liu和m . w .安瓦尔,”生物命名实体识别深层神经网络基础上,“国际期刊的混合信息技术,8卷,不。8,279 - 288年,2015页。视图:出版商的网站|谷歌学术搜索
l . l . Li, y江et al .,“生物医学命名实体识别基于句子向量/双字嵌入条件双向LSTM,”《中国会议上中国计算语言学昆明,页165 - 176年,中国,2019年10月。视图:谷歌学术搜索
l·李和郭y”,基于CNN-BLSTM-CRF生物命名实体识别模式,”中国日报的信息1卷,第122 - 116页,2018年。视图:谷歌学术搜索

安全性和通信网络

大数据驱动的多媒体网络安全分析

文摘