氨基酸的方法太赫兹光谱识别基于卷积神经网络和双向封闭的循环网络模型

文摘

为了提高氨基酸的识别精度,模型基于卷积神经网络(CNN)和双向封闭的复发性网络(BiGRU)提出了太赫兹光谱识别氨基酸。首先,我们利用CNN太赫兹光谱的提取特征信息;然后,我们使用BiGRU氨基酸时域频谱特征向量的过程,描述时间序列的动态变化信息,并最终实现氨基酸识别通过完全连接网络。实验进行的太赫兹光谱的各种氨基酸。CNN-BiGRU模型实验结果表明,本研究提出了能有效实现太赫兹光谱识别氨基酸和将提供一个新的、有效的分析方法识别氨基酸的太赫兹光谱技术。

1。介绍

太赫兹波(太赫兹)之间的电磁波频率跨越0.1太赫兹和10太赫兹,占据大部分的电磁频谱之间的微波和红外光波(1]。结合生物分子的振动和转动频率转换是在太赫兹波段,因此,太赫兹谱可以反映细微变化的分子种类和结构;这就是所谓的分子指纹(2]。太赫兹光子的能量很低,光子的能量1太赫兹的电磁波的频率可以设置为4.1伏,可以直接检测生物样本不破坏它们的结构。与其他检测方法相比,太赫兹光谱可以实现label-free,快速、无损检测的生物分子(3]。因此,它在生物医学领域,有很大的应用潜力和太赫兹辐射最近被用于研究DNA, RNA (4,5),氨基酸(6)、蛋白质(7),和其他生物分子(8]。

氨基酸是蛋白质的基本构建块,和各种蛋白质在生物体是由20个基本氨基酸。可以使用氨基酸不仅作为疾病的标志,也作为治疗药物。氨基酸是代表生物分子,他们的快速无损检测和定量分析尤为重要(9]。

大量的物质的太赫兹光谱指纹相互叠加,使定性和定量分析基于光谱极其困难。研究人员主要使用机器学习或多变量分析(化学计量学)实现定性和定量识别的生物样品(10]。看不到这样的方法包括多元线性回归(MLR)、主成分分析、偏最小二乘(11,12]。上野et al。13)进行了定量分析2006年不同氨基酸的混合物。2016年,陆等人使用偏最小二乘(PLS)和区间偏最小二乘回归(ipl)定量分析二进制氨基酸(9]。为了提高定量分析的准确性,一些研究小组提出了机器学习方法的使用(10,14]。元等。14)进行了光谱分类的三氟喹诺酮类原料药基于反向传播神经网络(摘要)和获得80.56%的准确率。与此同时,彭et al。15)小波滤波结合支持向量机用于定量分析大脑组织的主要成分;这种方法的均方根误差为0.4%。此外,刘等人。16)使用了随机森林(RF)算法来区分转基因水稻种子nontransgenic水稻种子,和他们的模型的分类精度达到96.67%。

基于机器学习的方法有一个共同的问题,需要手动提取特征。这个过程是复杂和繁琐,一些方法的非线性拟合能力有限,导致缺乏隐藏信息提取的特征。相比之下,深度学习非常适用于太赫兹信号识别,和他们不需要手动提取功能。

在深层学习算法中,双向封闭的复发性网络(BiGRU)是一种双向递归神经网络模型,该模型可以充分表达当前的输出序列之间的关系和先前的信息17]。然而,氨基酸时间序列的特征维数过高,BiGRU是直接用于处理氨基酸序列参数,从而导致低效率。此外,卷积神经网络(CNN)有强大的特征提取能力。在某种程度上,层次越多,越先进的提取功能,包含的信息越多,和更好的最终分类结果。此外,CNN需要hyperparameters少,计算复杂度低,并广泛应用于图像处理、语义分割和识别。

在此基础上,本研究使用代表CNN和BiGRU建立CNN-BiGRU识别模型的优点,充分利用两个网络对氨基酸进行分类。首先,我们使用CNN提取氨基酸的抽象特征时间序列,然后使用BiGRU的动态时间信息建模能力过程氨基酸序列的特征向量。

最后,实验是进行各种氨基酸的太赫兹光谱。CNN-BiGRU模型实验结果表明,本研究提出了有效实现太赫兹光谱识别氨基酸和避免了繁琐的人工特征提取的步骤,选择,和降维。此外,它证明了自己是一个合适的太赫兹光谱技术在氨基酸的识别。

2。方法

2.1。美国有线电视新闻网

深度学习可以确保有效信息提取和功能表达和可以完成图像识别等任务,时间序列预测,和文本预测。典型的深度学习网络包括CNN、深层信念网络,递归神经网络。其中,CNN可以自动学习器过滤器和已经发展成为一个成熟的特性。

CNN提出了勒存et al。18),这是一个前馈多层神经网络。它使用卷积操作大大降低数据的维数和可以实现抽象表达的原始数据19,20.]。CNN的基本结构包括输入、卷积、池、完全连接,和输出层,如图1。

CNN的本质是构建多个过滤器,可以提取数据特征和数据之间的拓扑结构特点隐藏使用分层技术卷积和池操作输入数据。最后,这些抽象的特性是通过完全连接层合并,分类问题是解决通过Softmax或乙状结肠激活函数(21]。

卷积层可变信息的接受域卷积内核设计一个合适的大小和抽象地表达了原始数据。当输入数据X卷积的特征映射层可以表示如下: 在哪里卷积运算,卷积的权向量的内核,是抵消,是激活函数,双曲正切或ReLU。

池层downsamples卷积输出,提取强特性和删除弱的特性,减少了参数的数量,防止过度拟合。

完全连接层执行回归分类特征提取上一层。通过加权求和的输出卷积和汇聚层,然后通过激活函数的响应,得到下面的公式: 在哪里是网络权重系数。

2.2。BiGRU

BiGRU是一种新型的双向递归神经网络模型。递归神经网络(RNN)有效地解决了问题,没有操作输入之间的连接传统神经网络的隐层和可用于预测的时间序列数据和文本语义数据。其结构图如图2。然而,RNN使用反向传播算法。当学习很长时间序列,RNN可能梯度消失和梯度爆炸问题,因此,它无法掌握复杂的时间序列数据的非线性关系很长一段时间。

当过程递归神经网络的时间序列数据,其状态的传播是由前往后。然而,在最复杂的时间序列数据,输出在当前时刻不仅是与之前的状态,还与随后的状态。舒斯特尔(22提出了双向RNN (BiRNN)来解决上述问题。基本的想法是,每个训练序列完成后由两个向前和向后递归神经网络,这两个RNNs连接到相同的输出层。输出层包含完整信息的过去和未来中每个点的输入序列,形成双环网络结构。BiRNN带来一定的改善较普通RNN [23]。

双向封闭的复发性单元是BiRNN基于封闭的复发性单位。BiGRU,格勒乌输入两个相反的方向提供了同时在每一个时间t。天鹤座的两个方向不是直接连接,输出是两个单向天鹤座共同决定的。BiGRU模型具有良好的预测性能的非线性时间序列数据(24,25]。BiGRU的结构如图3。

在转发层,我们计算时间1到时间的前进方向t并获得并保存输出每次前进的隐藏层。逆向层,反向计算执行时间t时间t−1,输出每次向后隐层的获得和保存。最后,最终的输出模型相结合,得到的输出结果转发层和逆向层在每一个时间。并给出了数学表达式如下。(1)在转发层,输出由前往后 (2)在逆向层,输出从后往前 (3)结合层和落后的层,BiGRU的最终输出在哪里 , , , , ,和 ,分别代表相应权重正向和反向隐状态。

2.3。模型建立

深上优于模型能够自动提取功能。CNN模型通常依赖于卷积核的卷积层提取特征。然而,卷积核的存在限制了CNN的长期依赖性问题当处理时间序列数据(26]。在这项研究中,BiGRU的引入可以有效地解决这个问题,我们可以捕获时间序列前后的依赖关系。氨基酸的高功能维度的时间序列,我们首先利用CNN提取氨基酸时间序列的特点。然后,BiGRU用于处理氨基酸序列的特征向量。最后,通过氨基酸序列识别完全连接网络。模型结构如图4。

该模型由三个模块组成:CNN, BiGRU,识别网络。CNN平均池由五卷积层和五层。双向长期和短期记忆BiGRUs网络由三层,每一层由512年,256年和96年隐藏的单位。识别网络由一个丢弃层(丢弃率参数设置为0.35),一个完全连接层,和一个Softmax。最后,一种氨基酸识别模型。

3所示。实验设备和样品

3.1。实验设备和样品制备

实验设备使用光纤类太赫兹时域光谱系统(THz-TDS)信噪比高达70分贝,如图5。设备包括飞秒激光,激发和探测太赫兹辐射天线,延迟线,锁定放大器。超短脉冲光纤激光器脉冲的中心波长为1560 nm,和重复频率为100 MHz。为了获得更高的分辨率、测量时间是53 ps。

三个氨基酸谷氨酸的样本,谷氨酰胺、天冬酰胺是由上海阿拉丁试剂公司提供。样本烤24小时在50°C,然后用玛瑙地面。颗粒大小是小于80μm减少散射效应。样本然后与高密度聚乙烯粉末混合不同比例(30不同比例),和平板电脑13毫米的直径是20 MPa的压力下20.]。每个样品的重量是120毫克,厚度约1.2毫米。每个样本在不同时间测量获得10太赫兹光谱。

3.2。评价指标

本研究使用三个评价指标,即准确性,回忆,和精度,对模型的性能进行评估。准确性是氨基酸的比例总测试样本正确分类。精度是最直观的方式对模型的性能进行评估。

回忆是真阳性率(TPR),也就是说,召回是真正的阳性样本所有阳性样品的比例目前分为阳性样本类别:

精密的测量精度,代表例子的比例分为积极的例子:

f值精度和召回的加权调和平均数: 当α= 1,那么f值是F1的:

曲线下的面积定义为接受者操作特征(ROC)曲线下的面积和坐标轴包围了。中华民国,横坐标是假阳性率(玻璃钢),纵坐标是TPR;因此,当TPR较大和玻璃钢较小,分类结果更好。

4所示。结果与讨论

为了验证CNN-BiGRU模型的有效性提出了在本文中,我们使用BiGRU [27],PCA-SVM [28],PCA-LSTM [29日],CNN-LSTM [30.)进行比较。在实验中,1000年总计训练集和验证集,包括80%的训练集,验证集的10%,和10%的测试集,准确率召回率,精确率,和F为每个模型给出了表1-score1。


模型/索引	准确率	召回率(%)	精度(%)	F1-score (%)

PCA-SVM	68.35%	68.35	68.35	56.08
BiGRU	91.56%	91.56	91.56	97.82
PCA-LSTM	97.89%	97.89	97.89	97.82
CNN-BiGRU	99.16%	99.16	99.16	99.17

每个模型的民国人物所示6- - - - - -9。

传统的机器学习方法的非线性拟合能力非常有限,这可能无法准确提取高层和高分辨率特性。相反,它将忽略重要信息在去噪和特征提取。同时,支持向量机在分类的效果一般,因此,PCA-SVM模型在所有指标都是最糟糕的。

LSTM是专门为时间序列,但LSTM并不能取得良好的效果,因为它overfits氨基酸的序列特征。PCA-LSTM比LSTM的主要原因是,PCA压缩特性和消除冗余数据。

CNN-BiGRU模型被用来输入一个简单的预处理后的氨基酸。基本的形态学特征提取酸的CNN,然后,颞BiGRU提取氨基酸的特性。这两个功能是结合我深藏的信息在氨基酸。分类测试结果的平均精度为99.16%。从表可以看出,我们的模型在所有指标达到最好的结果。CNN的主要原因是,可以提供更多的功能,和BiGRU可以考虑特征之间的关系。

5。结论

因为很难进行大量的实验在实验环境中,各种氨基酸的样本数很小在目前的研究中,对实验结果有一定的影响。然而,测试模型的相对效果不受影响。在未来,我们将进行更多的实验,并提供更多类型的氨基酸样品。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究受到了中国国家重点研发项目(2018 yfc0809200)。

引用

p·h·西格尔,“太赫兹技术”,IEEE微波理论和技术,50卷,不。3、910 - 928年,2002页。视图:出版商的网站|谷歌学术搜索
y, z, y Ke et al .,“生物医学应用太赫兹光谱和成像,”生物技术的发展趋势,34卷,不。10日,810 - 824年,2016页。视图:谷歌学术搜索
k . Serita e .松田k Okada, h村上,Kawayama,和m . Tonouchi”邀请文章:太赫兹微流控芯片sensitivity-enhanced一些数组硬邦邦的,”Apl光子学,3卷,不。5、文章ID 051603, 2018。视图:出版商的网站|谷歌学术搜索
w·张,e·r·布朗,m·拉赫曼·m·l·诺顿,“观察的太赫兹吸收签名微升DNA的解决方案,“应用物理快报,卷102,不。2、219 - 229年,2013页。视图:出版商的网站|谷歌学术搜索
e·r·布朗·e·a·门多萨,d .夏和s . r . j . Brueck“狭窄的太赫兹光谱特征通过一个RNA在微流体通道的解决方案,“IEEE传感器杂志,10卷,不。3、755 - 759年,2010页。视图:出版商的网站|谷歌学术搜索
m . r . Kutteruf c·m·布朗l . k .磐m·b·坎贝尔·t·m·科特和e . j . Heilweil“短链多肽的太赫兹光谱,”化学物理快报,卷375,不。3 - 4、337 - 343年,2003页。视图:出版商的网站|谷歌学术搜索
l .谢y姚明,y应et al .,“太赫兹光谱的应用蛋白质检测方法:复习一下,”应用光谱学评论卷,49号6,448 - 461年,2014页。视图:出版商的网站|谷歌学术搜索
j . Neu e·a·斯通,j . a .间谍et al .,“四聚物的多肽的太赫兹光谱,”《物理化学快报》杂志上,10卷,不。10日,2624 - 2628年,2019页。视图:出版商的网站|谷歌学术搜索
张陆,x, y, z . Zhang和y,“定量测量黄谷子的二进制氨基酸混合物太赫兹时域光谱,”食品化学卷,211年,第501 - 494页,2016年。视图:出版商的网站|谷歌学术搜索
j . El哈达德b . Bousquet l . Canioni和p . Mounaix”在太赫兹光谱分析评论,”TrAC分析化学的趋势,44卷,第105 - 98页,2013年。视图:出版商的网站|谷歌学术搜索
j . El哈达德f . de Miollis j . Bou Sleiman l . Canioni p . Mounaix和b . Bousquet“化学计量学应用于定量分析三元混合物的太赫兹光谱,”分析化学,卷86,不。10日,4927 - 4933年,2014页。视图:出版商的网站|谷歌学术搜索
j·b·Sleiman b . Bousquet n . Palka和p . Mounaix”5-trinitro-1 hexahydro-1定量分析,3日,3,5,三嗪/季戊四醇四硝酸酯(RDX-PETN)混合物通过太赫兹时域光谱,”应用光谱学,卷69,不。12日,第1471 - 1464页,2015年。视图:出版商的网站|谷歌学术搜索
y上野,r . Rungsawang即获利,k . Ajito”氨基酸的定量测量太赫兹时域透射光谱,”分析化学,卷78,不。15日,第5428 - 5424页,2006年。视图:出版商的网站|谷歌学术搜索
l .元,l·本·l .欢,“氟喹诺酮类原料药的抗生素残留的分析饲料使用太赫兹光谱矩阵,”应用光学卷,57号3,p。544年,2018年。视图:谷歌学术搜索
c . y . Peng Shi, m .徐et al .,“定性和定量识别组件的混合物通过太赫兹光谱,”IEEE太赫兹科学技术,8卷,不。6,696 - 701年,2018页。视图:出版商的网站|谷歌学术搜索
w·刘,刘,x, j .杨和l .郑”的应用太赫兹光谱成像的歧视与化学计量学转基因水稻种子,”食品化学,卷210,不。1,第421 - 415页,2016。视图:出版商的网站|谷歌学术搜索
y, g·杨,j·罗和j .他“电子组件识别算法基于深度学习更快SqueezeNet,”数学问题在工程卷,2020篇文章ID 2940286, 11页,2020年。视图:出版商的网站|谷歌学术搜索
y Lecun (l . Bottou y Bengio, p . Haffner“Gradient-based学习应用于文档识别,”IEEE学报》,卷86,不。11日,第2324 - 2278页,1998年。视图:出版商的网站|谷歌学术搜索
k .徐j .英航r . Kiros et al .,”节目,参加并告诉:神经图像标题代视觉注意力,”学报》国际会议上机器学习,37卷,不。7,2048 - 2057年,2015页。视图:谷歌学术搜索
y, w .严,g .杨j .罗t·李和j .他“CenterFace:联合人脸检测和校准使用的脸,“科学的规划卷,2020篇文章ID 7845384、8页,2020。视图:出版商的网站|谷歌学术搜索
k Ping-Huan和h Chiou-Jye”高精度人工神经网络模型对短期能源负荷预测,“能量,11卷,不。1,第226 - 213页,2018。视图:谷歌学术搜索
m·舒斯特尔和k . k . Paliwal”双向复发性神经网络”,IEEE信号处理,45卷,不。11日,第2681 - 2673页,1997年。视图:出版商的网站|谷歌学术搜索
d .她和m .贾”,bigru的剩余使用寿命预测方法机械、”测量,卷167,不。1,文章ID 108277, 2020。视图:谷歌学术搜索
刘问:朱、张,s . et al .,“混合VMD-bigru橡胶期货价格时间序列模型预测,“应用软计算,卷84,不。1,文章ID 105739, 2019。视图:出版商的网站|谷歌学术搜索
刘问:朱、张,s, y,“预防犯罪的信息支持系统设计:K-Means-VMD-Bigru在芝加哥城市中的应用”信息与管理,17卷,不。11日,ID 103247条,2019年。视图:谷歌学术搜索
d .美国永平、赵x和b .贝聿铭“简短的文本情感分类基于CNN-LSTM模型”,北京大学技术杂志》上,45卷,不。7,662 - 670年,2019页。视图:谷歌学术搜索
a . Baccouche b . Garcia-Zapirain c·卡斯蒂略齐墩果和a . Elmaghraby”合奏深心脏疾病分类学习模型:一个案例研究来自墨西哥、”信息,11卷,不。4 p。207年,2020年。视图:出版商的网站|谷歌学术搜索
l . i Yun-Fei y .问:黄,g . l .江“基于PCA-SVM短期负荷预测,”《中国社会大学的电力系统和自动化,19卷,不。5,66 - 70年,2007页。视图:谷歌学术搜索
m·齐默尔曼m . Mehdipour勇士,Ekenel h . k和j . p . Thiran”为视觉语音识别,结合多个视图”语音处理国际会议进行首次报告学报》(AVSP)2017年8月,斯德哥尔摩,Swedden,。视图:谷歌学术搜索
t . n .阮d .问:Tran t . n .阮和h .问:阮”CNN-LSTM架构对CT扫描检测颅内出血,”2020年,arXiv预印本arXiv: 2005.10992。视图:谷歌学术搜索

科学的规划

对智能世界2021年科学规划