计算和数学方法在医学

在这一页上

文摘介绍材料和方法结果与讨论结论数据可用性的利益冲突作者的贡献确认补充材料引用版权相关文章

特殊的问题

开发和应用基于机器学习方法在特殊功能蛋白质的鉴定

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID6683051| https://doi.org/10.1155/2021/6683051

iMPTCE-Hnetwork: Multilabel分类器识别代谢途径与异构网络类型的化学物质和酶

朱渊源 ,¹ 胡本 ,² Lei陈 ,¹ 和气戴 ³

学术编辑器: 回族叮

收到了 2020年11月19日

修改后的 2020年12月16日

接受 2020年12月19日

发表 2021年1月05

文摘

代谢途径是一种重要的生物通路。它产生重要的分子和能量维持生物体的生命。每个代谢途径由一连串的化学反应,它总是需要酶参与。因此,化学物质和酶是每个代谢途径的两个主要组件。虽然已经发现了一些代谢途径,代谢途径体系还远未完成。一些隐藏的化学物质或酶没有发现在某一代谢途径。除了传统的实验来检测隐藏的化学物质或酶,另一种管道是设计有效的计算方法。在这项研究中,我们提出了一个强大的multilabel分类器,称为iMPTCE-Hnetwork,均匀分配的化学物质和酶代谢途径在KEGG类型。这种分类器采用了来自异构网络嵌入特性,化学物质和酶定义为节点和边缘的化学物质和酶之间的相互作用,通过强大的网络嵌入算法,Mashup。流行的随机k-labELsets (RAKEL网)算法来构造分类器,将支持向量机(多项式内核)为基本分类器。 The ten-fold cross-validation results indicated that such a classifier had good performance with accuracy higher than 0.800 and exact match higher than 0.750. Several comparisons were done to indicate the superiority of the iMPTCE-Hnetwork.

1。介绍

代谢途径是生物的生物学途径的基本类型。它生成必要的分子和能量来维持生命的生物1]。在每个代谢途径中,有几个连续的化学反应,改变一个分子转移到另一个的帮助下一些酶。的两个主要组件是化学和酶代谢途径。识别每个通路的化学物质和酶尽可能完整有助于了解其机制。到目前为止,一些公共数据库,如KEGG [2,3),提供详细信息的代谢途径进行验证。然而,每个代谢途径的完整性仍然是一个问题。还存在未被发现的化学物质或酶代谢途径。小说传统的实验是一个坚实的管道来确定化学物质或酶的代谢途径。然而,它总是耗时和昂贵的。因此,迫在眉睫的是设计创新的方法来加快检测过程和降低成本。

随着计算机科学和技术的发展,它变得越来越受欢迎的应对不同的生物和医学问题,先进的计算方法。其中,基于机器学习方法一直是一个重要的选择。问题的解决在这项研究中,提出了几个这样的方法在最近的十年。他们中的大多数是为了将化学品分配给相应的代谢途径类型。Cai et al。4)首先建立一个最近邻算法(NNA -)建立模型来预测代谢途径的一种化学物质,化学物质是由功能群组成。陆后,et al。1)改进该模型采用一个更强大的分类算法,演算法。这两种方法只能处理化学物质参与代谢途径只有一个类型。事实上,一些化学物质可以属于两个或两个以上的通道类型,导致上面的方法的局限性。之后,调查人员开始设计模型,可以处理多种代谢途径类型中的化学物质。胡锦涛et al。(5]给出了计算方法和化工交互(CCI)信息,可排名候选人对于一个给定的化学通路类型。化学概率最高参与第一个通道类型,其次是第二通道类型,等等。陈等人。6)采用相同的计划列出候选路径类型。化学物质是由其分子片段编码的特性,和支持向量机(SVM) [7采用]给每个通路类型得分。尽管上述方法可以处理化学品与多个通路类型,他们不是纯multilabel分类器,因为他们不能确定哪些通路类型预测的途径。最近,Baranwal et al。8)提出了一个强大的multilabel化学分类器分配到多个通道,采用图卷积网络获取化学物质的分子形状特征。贾et al。9)建立了一个multilabel web服务器、iMPT-FRAKEL预测化学物质的代谢途径。这个web服务器有广泛应用,因为它只需要微笑化学品作为输入的字符串。此外,一些其他的研究以不同的方式解决这个问题。方和陈10)认为对化学物质和通路类型样本。在这种情况下,multilabel分类问题转化为一个二元分类问题。贾et al。11)上述模型扩展到一个实际的代谢途径,而不是一个通路类型。采用“相似”的概念提取每一对化学和通路的关键特性。郭et al。12)构建了一个基于svm模型为每个通道类型,化学物质在哪里由嵌入特性提取多个化学网络。从上面的描述,我们可以看到,他们只解决一个组件,化学物质,在代谢途径。至于其他组件,酶,只有一项研究涉及到我们的知识。高et al。13]广义胡锦涛等人的方法5]采用chemical-protein交互(CPI)和蛋白质交互(PPI)信息,从而使通路类型等级对于一个给定的化学或酶。正如上面提到的,这种方法不是一个纯multilabel分类器和直接使用化学物质和蛋白质之间的联系但不是我深深联系背后的隐藏信息。

在这项研究中,我们采用了KEGG代谢途径的信息报道,在化学和酶分为11个代谢途径类型。异构网络是组织建立的化学物质,酶,CCI, CPI和PPI信息,化学物质和酶定义节点和三种类型的交互信息确定边缘。我完全异构网络中的信息,一个强大的网络嵌入算法,Mashup (14等),应用于网络。信息特征得到每个化学和酶。这些特性和标签,代表代谢途径类型,被送入随机k-labELsets (RAKEL网)15)算法来构建分类器,iMPTCE-Hnetwork。支持向量机(多项式内核)[7)采用的基本分类器。异构网络的影响,结合信息的化学物质和酶的优点阐述了。此外,其他multilabel分类器和二进制相关性的比较(BR) [16),来自其他网络嵌入算法,或者其他基本分类器进行指示iMPTCE-Hnetwork的优越性。

2。材料和方法

2.1。材料

化学物质和酶(人类)在代谢途径从KEGG检索途径(https://www.genome.jp/kegg/pathway.html2019年9月,访问)2,3]。5682种化学物质,由KEGG id、编码和792酶,由电子商务数字,。同样的表示的化学物质和酶在构造网络KEGG IDs的化学物质被映射到他们PubChem id和特定的人类蛋白质获得欧共体数字提取,进一步转化为运用id。根据KEGG通路,这些化学物质和酶分为11种代谢途径,第一列中列出的表1。所有above-obtained化学和酶被用作构建异构网络中的节点中所描述的“异构网络建设。“然而,某些节点在网络和孤立的被丢弃。结果,我们得到2329种化学物质(PubChem IDs)和1124年人类酶(运用id)。化学物质和酶的数量在每个代谢途径类型是列在表中1。详细的化学物质和酶提供了每个代谢途径类型表S1。

很容易看到表1(最后两行),化学品的总数/ 11代谢途径中酶类型的数量大于不同化学物质/酶。因此,分配问题的化学物质和酶代谢途径类型multilabel分类问题。在这项研究中,一个统一的multilabel分类器建立正确预测和酶代谢途径类型的化学物质。

2.2。异构网络建设

化学物质和酶代谢途径的主要组件。经典的特征提取方法总是接基本特征的属性。随着网络技术的发展,它提供了另一个管道来访问重要的化学物质和酶的特性。在这里,我们采用网络计划和酶组织化学物质。

构建网络,我们下载的信息CCIs和cpi(针(http://stitch.embl.de/,4.0版)(17,18]。此外,从字符串(质子泵抑制剂的信息检索https://string-db.org/,10.0版)(19,20.]。“chemical_chemical.links.v4.0.tsv CCIs的文件。广州”下载,我们提取CCIs之间的2329种化学物质。因此,82368 CCIs被获得。每个CCI含有两个化合物,由PubChem id,一个信心得分介于1和999之间。这样的分数综合几种类型的关联来自不同方面的化学物质,包括结构、活动,发生反应,和文学。因此,这样的分数可以广泛测量协会的化学物质。配方,让我们表示这个分数之间的CCI的化学物质和作为。cpi,我们下载文件,命名为“9606. protein_chemical.links.v4.0.tsv.gz。”从这个文件,cpi(2329年至1124年化学和酶被拾起,造成41066年cpi。每个消费者价格指数由一个化学和一个蛋白质,用PubChem ID和运用ID,分别和一个信心得分介于1和999之间。这样获得的分数也评估化学物质和蛋白质的几个方面。化学之间的分数和蛋白质是用。至于质子泵抑制剂,文件“9606. protein.links.v10.txt。广州“在弦被下载。我们之间的质子泵抑制剂提取1124酶,获得59868个质子泵抑制剂。两种蛋白质,由运用id,一个分数由每个PPI的信心。同样,蛋白质的分数综合几种类型的协会,可以广泛衡量他们的链接,和它的范围也在1和999之间。为了方便起见,蛋白质的分数和是用。因为上述所有信心得分是1到999,我们提炼他们除以1000,这样精致的信心指数为0和1之间。

根据针CCIs检索,我们构建了一个化学网络。等2329种化学物质定义网络节点。是相邻的两个节点当且仅当相应的化学物质组成的CCI精制信心得分大于零。此外,精制信心得分被分配到相应的边缘作为它的重量。为方便起见,这种网络是用。由两部分构成的网络根据缝合的cpi(检索。每条边连接节点和节点如果他们能组成酶精制的CPI信心得分高于零。同样,精制信心得分被定义为相应的重量优势。这个网络是表示。第三个蛋白质网络构建与质子泵抑制剂获得字符串。连接两个节点的边当且仅当相应的蛋白质组成的PPI精制信心得分高于零。此外,精制分数被分配到边缘的重量。这种网络是用。

above-constructed三个网络相结合构建一个大型异构网络。对于一个简单的描述,这网络是表示。的施工程序说明在图1。

2.3。网络嵌入算法

异构网络是建立在上面的部分。信息中包含的化学物质和酶之间的关系是这样的网络。在这项研究中,一个强大的网络嵌入算法,Mashup (14),采用化学和酶的提取信息特征。该算法采用处理几个生物和医学问题[12,21- - - - - -27]。其简要描述如下。

Mashup包括两个阶段提取网络中节点的嵌入特性,说。在第一阶段中,每个节点在是捡起的种子节点重启(RWR)算法的随机游走28,29日]。RWR算法停止时,概率分配给所有节点排列在一起构成一个原始特征向量 ,表示为。然而,这样的向量维数高。降维过程是必要的,这是在第二阶段完成的。让是最终的特征向量和的上下文特征向量在。第二阶段的目的是在这两个向量来确定最佳的组件。因此,建立一个优化问题如下: 在哪里代表在网络的节点数量 , 表示的功能KL-divergence(相对熵)的组件被定义为以下

结果被选为特征向量的 ,这将是用于构造分类模型。

本研究采用Mashup程序检索http://cb.csail.mit.edu/cb/mashup/。为了方便起见,使用缺省参数。

2.4。Multilabel分类器(iMPTCE-Hnetwork)

因为一些化学物质/酶可以属于两个或两个以上的代谢途径类型,指定化学物质/酶代谢途径的问题类型显然是multilabel分类问题。一般来说,处理这样的问题,有两种类型的计划。第一个是问题转换,即原始multilabel分类问题转化为若干个单标牌分类问题。第二个是算法适应。这个方案扩展了现有单标牌分类算法,新算法可以处理multilabel问题。在这项研究中,我们采用第一个方案构建分类模型。

随机k-labELsets (RAKEL网)15)是一个经典的方法来构建multilabel分类器,可以视为标签Powerset的推广(LP)算法。到目前为止,这种方法被应用到构建几个multilabel分类器应对不同的生物和医学问题9,21,30.- - - - - -34]。multilabel问题涉及标签( 在这项研究中),让是它的标签集。选择一个整数与和构造k的子集。对于一个随机选择的 - - - - - -子集 ,LP构造分类器。在细节,幂集的成员被定义为新标签。和每个样本都被分配一个新标签根据原来的标签。例如,如果一个样本有两个标签,说和 ,一个新的标签,代表 ,分配给这个示例。之后,每个样品只有一个新标签,和一个单标牌标识符,称为LP分类器,可以构建基于单标牌分类算法。显然,多个LP与不同的分类器 - - - - - -应该构造因为一个子集 - - - - - -子集不能覆盖所有标签。因此,有另一个参数, ,RAKEL网来确定LP分类器的数量。最后above-constructed multilabel分类器集成LP分类器。

给定查询示例中,每个LP分类器使其二进制决定每个标签。二元决策的平均在每个标签计算。如果平均大于一个预定义的阈值(一般情况下,它被设置为0.5),分配给相应的标签样本。

在这项研究中,我们采用了工具在Meka“RAKEL网”(http://waikato.github.io/meka/)[35),实现了上述RAKEL网。正如上面提到的,和RAKEL网的两个主要参数。几个值设置为他们建立一个最佳multilabel分类器。对于一个简单的描述,分类器由RAKEL网被称为RAKEL网分类器。

2.5。分类算法

RAKEL网是用来构造一个多标记分类器。一个基本的单标牌分类算法需要设置多个LP分类器。在这里,我们选择了一个最经典分类算法,支持向量机(7),已广泛应用在生物信息学21,30.,31日,36- - - - - -40]。

支持向量机是统计学习理论基础的分类算法。关键是找出一个最优超平面,可以单独的样品以最大利润分成两类。然而,在大多数情况下,样本在原有空间不是线性可分的,也就是说,不能发现这些超平面。采用了一种核函数与高维样本映射到另一个空间,是线性可分的样本。最优超平面后发现,新样本的类是确定属于超平面的一侧。最初的支持向量机只能处理二元问题。一些方案(例如,one-versus-others one-versus-one)可以采用多个类,这样就可以解决问题。

在这项研究中,我们选择的SVM训练过程优化的序列最小优化算法(41]。这种类型的支持向量机集成在Meka。该工具“RAKEL网”可以直接调用它。两个内核函数(多项式内核,内核RBF)试图选择最好的一个。

2.6。绩效评估

multilabel构造分类器都是评价十倍交叉验证(42]。在这样的测试中,样品被分成十个部分。每个部分是指出一个接一个的测试数据集,而其余九个部分是用来训练分类器。因此,每个样品测试一次。

据十倍交叉验证的结果,一些测量计算。在这里,我们选择了三个测量:准确性、精确匹配,和汉明损失9,21,30.,31日]。它们的定义如下在哪里代表样品的总数,是标签的数量,和表示的实际和预测标签集 - - - - - -th样本,表示对称差分操作,定义如下:

显然,对于准确性和精确匹配,他们越高,分类器有更好的性能。相反,汉明损失越低,性能就越好。此外,给一个统一的评估中,我们使用以下方程将上述三个测量

得分高的分类器集成的显示它的高性能。我们试图构造一个分类器集成的分数尽可能高。

3所示。结果与讨论

在这项研究中,我们提出了一个multilabel分类器,称为iMPTCE-Hnetwork,识别和酶代谢途径类型的化学物质。整个程序见图2。本节给出评价结果的分类器,阐述了其高实用程序。

图2

整个程序构建和评估multilabel分类器识别和酶代谢途径类型的化学物质。从KEGG代谢途径的信息检索,诱导化学物质和酶的标签。三种类型的交互信息获得针和字符串构建异构网络。Mashup,网络嵌入算法是应用于异构网络中提取特征向量的化学物质和酶。标签和随机向量被送入k-labELsets (RAKEL网)算法,将支持向量机(SVM)作为基本分类器,构建multilabel分类器。十倍交叉验证的评估分类器。

3.1。iMPTCE-Hnetwork的性能

所构造的分类器特征向量通过Mashup使用异构网络。然而,向量的维数是一个问题。这里,我们尝试了六个维度不同50 50和300年之间的时间间隔。的主要参数和RAKEL网,设置为5,10,试着在每个值2 - 11所示。此外,支持向量机被选为最基本的分类算法。内核被设置为多项式内核,指数(E)被设置为1,2,3。三个值,包括1、2和3的正则化参数都试过了。很多分类器建立了所有可能的设置,进一步评价十倍交叉验证。

测试结果表明,当 , , , ,和 ,iMPTCE-Hnetwork实现的综合得分最高,为0.591(表2)。精度,精确匹配和汉明损失分别为0.818,0.754和0.042(表2),分别。精度高于0.800,精确匹配超过0.750,暗示iMPTCE-Hnetwork的良好的性能。

此外,全面评估的性能iMPTCE-Hnetwork十倍交叉验证,我们进一步做了10倍交叉验证100倍。获得值的精度,精确匹配,汉明损失,和综合得分诱导4小提琴情节,如图3。它可以观察到,精度0.805和0.825之间变化,精确匹配改变在0.740和0.760之间,汉明损失是在0.040和0.045之间,综合得分0.570和0.600之间变化。这些结果暗示iMPTCE-Hnetwork相当稳定的样品的不同部门。

(一)

(b)

(c)

(d)

3.2。分析异构网络的影响

iMPTCE-Hnetwork,提出分类器采用了化学和酶功能源自于异构网络。显然,的准确性是一个重要的因素可以影响分类器的性能。在本节中,将获得分析表明异构网络的重要性。此外,我们还分析了化学的贡献和蛋白质网络构建的分类器。

异构网络的 ,一个排列完成节点(表示酶)和节点(表示化学物质),分别。获得的特性(250 - d)被送入RAKEL网构造分类器。同样的参数设置( , , , )是使用。这样的分类器是由十倍交叉验证评估。使结果更可靠,上述程序进行了100次,导致100值的精度,精确匹配,汉明损失,和综合得分。这些值在图所示4,iMPTCE-Hnetwork也列出的性能。它可以观察到,排列使分类器的性能很差。与iMPTCE-Hnetwork的性能相比,精度,精确匹配,和综合得分减少约0.667,0.630,和0.570,分别,而汉明损失增加约0.145。指出异构网络的准确性构建有效的分类器是很重要的。

(一)

(b)

(c)

(d)

图4

条形图来说明RAKEL网的性能与支持向量机分类器的基本分类算法在异构网络中的节点的排列。“所有”表明,化学和蛋白质节点更动;“酶”仅表明蛋白质节点更动;“化学”仅表明化学节点更动;“没有排列”表示没有排列是化学和蛋白质节点(即完成。该分类器,iMPTCE-Hnetwork)。(一)精度;(b)精确匹配;(c)汉明损失;(d)综合得分。

此外,我们还分析了化学和蛋白质网络的重要性构造分类器。首先,我们只有改变蛋白质(酶)节点。Mashup (250 - d)产生的特性被用来构建RAKEL网分类器( , , , ),这也是由十倍交叉验证评估。这种手术也做了100次。平均性能如图4。显然,分类器变得更糟了。精确匹配的准确性,综合得分下降约0.230,0.220,和0.306,分别,而汉明损失增加约0.056。第二,上述程序进行化学节点。结果见图4。另外,分类器的性能下降。详细、准确、精确匹配和综合得分是0.478,0.448,和0.497,分别低于iMPTCE-Hnetwork,汉明损失比iMPTCE-Hnetwork高出约0.097。它可以观察到化学节点更动时,分类器的性能远远低于酶排列的分类器,这表明化学构建分类器网络给了更多的贡献。

3.3。相结合的优势信息的化学物质和酶

如前所述,iMPTCE-Hnetwork为识别提供了良好的性能和酶代谢途径类型的化学物质。从其建设过程,我们可以看到,化学物质和酶的信息涌入一个统一的系统,也就是说,可以用来预测信息的化学物质代谢途径类型的酶,反之亦然。这个事实可能会导致分类器的优越性。在这里,我们给了一些分析。

有两个基本阶段的信息化学物质和酶是互相利用。第一阶段是特征提取。因为化学物质和酶有几种不同的点,一个普通的方法可能只考虑化学物质(酶)提取化工(酶)的特性和不含酶(化学物质)的信息。在我们的分类器,化学物质和酶都视为异构网络中的节点 ,也就是说,他们被组合在一起来提取特征。第二个重要阶段是分类。iMPTCE-Hnetwork,酶的特性被用来预测化学物质的代谢途径类型,反之亦然。普通的方法可能单独的分类过程,即。,the prediction of metabolic pathway types of chemicals (enzymes) only used the chemical (enzyme) features. Considering the above two stages, we did the following two tests.

在第一个测试中,我们提取的化学特性的化学网络蛋白质和酶功能的网络Mashup。在这种情况下,特征提取过程分离的信息化学物质和酶。因为我们不知道哪个维度是最好的,六个维度从50到300年的间隔50。与给定维度,multilabel分类器建立了化学和酶,分别。我们使用相同的参数设置iMPTCE-Hnetwork。每个分类器被十倍交叉验证评估。对于每个维度的化学物质和酶结合,我们结合交叉验证的结果来计算四个测量中提到“绩效评估。”因此,当化学物质和酶的尺寸都是100年,我们获得了最高的综合得分(0.120)。精确匹配的精度为0.390,0.352,和汉明损失为0.130,如图5。它可以观察到,这样的表现远低于iMPTCE-Hnetwork,暗示特征提取与化学和酶的结合提高化学和酶的质量特性。

第二个测试的分类过程。我们使用了250 - d iMPTCE-Hnetwork的特征向量。然而,分类程序严格分离和酶的化学物质。预测结果的化学物质和酶结合计算四个测量。综合得分为0.583,精度为0.814,精确匹配为0.749,和汉明损失为0.043,如图5。这种性能略低于iMPTCE-Hnetwork,暗示分类过程结合化学和酶特性还可以提高分类器的性能。然而,它的影响远远小于的特征提取。

与上述参数,化学物质和酶的结合是一个重要的方面导致分类器的良好性能。

3.4。RAKEL网的比较和不同的分类算法分类器

iMPTCE-Hnetwork分类器,建立了基于支持向量机(多项式内核)。事实上,我们也尝试SVM (RBF内核)和随机森林(RF) (43]。支持向量机、射频也是一个广泛使用的和强大的分类算法(8,11,22,44- - - - - -47]。支持向量机(RBF内核),相同的正则化参数的值都试过,设置为0.01,0.02和0.03。至于射频,主要参数,决策树的数量,设置为不同的值从10到100的间隔10。RAKEL网(相同的尺寸和参数和 ),是尝试构建iMPTCE-Hnetwork时,也使用。每个分类器也评估了十倍交叉验证。支持向量机的最佳性能(RBF内核)和射频表中列出2。四个测量SVM (RBF核函数)是0.757,0.670,0.055,和0.479,分别,而他们是0.803,0.743,0.045,和0.570,分别时的基本分类器是射频。与iMPTCE-Hnetwork的性能相比,也列在表中2,他们的表现是少或更低。综合得分,他们要低0.112和0.021,分别。RAKEL网分类器和射频iMPTCE-Hnetwork略差,但RAKEL网的性能与支持向量机分类器(RBF内核)比iMPTCE-Hnetwork低很多。建议选择支持向量机(多项式内核)为基本分类器是一个相对正确的选择。

3.5。BR分类器的比较

RAKEL网算法是一种有效的方案解决multilabel分类问题。二进制相关性(BR) [16方法是另一个广泛使用的方案。该方案采用one-against-all策略构建几个二进制为每个标签和分类器集成在一起。事实上,如果参数RAKEL网设置为1,RAKEL网是一样的品牌。在这里,我们比较了基于BR与RAKEL网分类器的分类器。为了方便起见,分类器基于BR被称为BR分类器。三个基本分类器:支持向量机(多项式内核),支持向量机(RBF内核),射频,采用构造BR分类器。所有参数设置上面提到的都试过了。每个BR分类器被十倍交叉验证评估。最好的每个基本分类器是列在表的性能2。

BR与支持向量机分类器(多项式内核)取得了0.786的准确性,0.690的精确匹配,汉明损失为0.043,综合得分为0.519。SVM基本分类器时(RBF内核),提供的BR分类器的精度0.598,0.533的精确匹配,汉明损失为0.058,综合得分为0.300。至于射频,BR生成分类器的精度0.666,0.602的精确匹配,汉明损失为0.052,综合得分为0.380。每个测量低于相应的iMPTCE-Hnetwork之一,表明RAKEL网比品牌更有效的识别和酶代谢途径类型的化学物质。此外,三个基本分类器给了相同的力量构建BR分类器构建RAKEL网分类器,也就是说,SVM(多项式内核)是最好的,其次是射频和SVM (RBF内核)。

3.6。比较与其他嵌入特性分类器

iMPTCE-Hnetwork建于使用化学和酶特性来自异构网络的Mashup。到目前为止,已经有几个网络嵌入算法被提出来并应用于解决一些现实的问题。在这里,我们选择两个进行比较。他们DeepWalk [48]和Node2vec [49]。这两个算法采用了完全不同的方案来提取特征表示节点。他们总是为每个节点产生许多路径。每条路径被视为一个句子,路径中的节点称为单词。然后,Word2vec [50)应用于这些句子提取特征。这两个算法的主要区别是生产路径的方式。Node2vec采用更先进的方案,因此被认为是比DeepWalk更为强大。我们下载DeepWalk项目https://github.com/phanein/deepwalk,Node2vec是检索的程序https://snap.stanford.edu/node2vec/。他们都应用于异构网络与他们的默认参数。同样,尺寸设置为50到300的区间50。

DeepWalk产生的特性和Node2vec送入RAKEL网不同的值和和不同的基本分类器(SVM(多项式内核),支持向量机(RBF内核),和RF)构造RAKEL网分类器。所有分类器被十倍交叉验证评估。DeepWalk产生的特性,RAKEL网分类器的最佳性能的三个基本分类如表所示3。可以看出,这些分类器都表现不佳。精度低于0.350,低于0.310精确匹配,汉明损失高于0.140,综合评分低于0.090。而RAKEL网分类器使用特性的测量产生的Mashup(表2),他们是低得多。至于Node2vec所产生的特性,RAKEL网分类器给了更好的性能。四个测量数据表中列出4。精确匹配的精度高于0.700,高于0.650,汉明损失低于0.060,综合分数高于0.460。然而,他们仍然不如RAKEL网分类器的使用功能产生的Mashup(表2)。它可以得出结论,Mashup的特性产生了更多的信息比由DeepWalk Node2vec代谢途径的识别类型的化学物质和酶。

此外,全面详尽的结论在上面的段落中,我们还用DeepWalk产生的特性和Node2vec构建BR分类器。在表中列出的10倍交叉验证结果3和4,分别。由DeepWalk BR分类器使用功能产生了,他们的表现还是非常贫穷。相同的基本分类器,这样BR分类器远不如通过Mashup功能产生了。BR分类器的特性由Node2vec给了更好的性能。支持向量机基本分类器时(RBF内核),BR分类器略优于BR分类器通过Mashup使用功能了。然而,其他两种基本分类器仍然生成低性能。此外,最好的BR分类器使用功能产生了Mashup是比最好的BR分类器使用由Node2vec特性产生了。这些结果进一步证实,Mashup的特性产生了更有效,这是一个重要的原因iMPTCE-Hnetwork可以提供如此高的性能。

4所示。结论

本研究提出了一个高效的代谢途径multilabel分类器识别类型的化学物质和酶。我们做了几个测试阐述其合理性,包括参数设置、基本分类器的选择、方案解决multilabel问题和网络嵌入算法。该分类器的主要优点是化学和酶的集成信息。他们的信息是相互利用特征提取和分类过程。希望这个分类器可以是一个有用的工具为研究代谢途径系统。

数据可用性

原始数据用来支持本研究的结果可在KEGG通路和补充信息文件。

的利益冲突

作者宣称没有利益冲突有关的出版。

作者的贡献

朱渊源和胡本同样这项工作。

确认

本研究支持上海自然科学基金(zr1412500 17日),中国国家自然科学基金(61772028),广东省关键领域的研究和发展项目(2018 b020203003)广州市科技计划项目(201707020007)、广东省科技计划项目(2017 a010405039)。

补充材料

表S1:化学和酶在代谢途径。(补充材料)

引用

w . j .,妞妞,l . Liu c . Lu和y . d . Cai”预测基于官能团的小分子代谢途径的成分,”蛋白质和多肽的信件,16卷,不。8,969 - 976年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
m . Kanehisa m . Furumichi m .田边,佐藤y,和k . Morishima”KEGG:基因组的新视角,途径,疾病和药物,”核酸的研究,45卷,不。D1, D353-D361, 2017页。
视图: 出版商的网站 | 谷歌学术搜索
m . Kanehisa和s . Goto”KEGG:京都基因和基因组的百科全书”,核酸的研究,28卷,不。1、研究,2000页。
视图: 出版商的网站 | 谷歌学术搜索
y . d . Cai z钱,陆l . et al .,“预测化合物的生物功能(代谢途径)基于官能团组成,”分子多样性,12卷,不。2、131 - 137年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
l l。胡,c .陈黄t . y . d . Cai和k . c .周”预测生物功能基于化工化合物的相互作用,”《公共科学图书馆•综合》》第六卷,没有。12篇文章e29491 2011。
视图: 出版商的网站 | 谷歌学术搜索
c . l . Chen楚,k .冯”预测化合物的代谢途径的类型使用分子碎片和序列最小优化”组合化学和高通量筛选,19卷,不。2、136 - 143年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
c·科尔特斯和诉Vapnik支持向量网络。”机器学习,20卷,不。3、273 - 297年,1995页。
视图: 出版商的网站 | 谷歌学术搜索
m . Baranwal A .无功功率p . Elvati j . Saldinger A . Violi和A . o .英雄,“代谢途径预测深度学习架构,”生物信息学,36卷,不。8,2547 - 2553年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
y, j . p .周l . Chen和m .刘”iMPT-FRAKEL:一个简单的多标记的网络服务器,只使用指纹识别哪些代谢途径类型化合物可以参与,”开放的生物信息学杂志,13卷,不。1,第91 - 83页,2020。
视图: 出版商的网站 | 谷歌学术搜索
方y l·陈,“二元分类器的预测类型的化学物质的代谢途径,”组合化学和高通量筛选,20卷,不。2、140 - 146年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
y贾、r .赵和l .陈“相似性机器学习模型预测化合物的代谢途径,”IEEE访问,8卷,第130696 - 130687页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
Z.-H。郭,l·陈,x赵”,网络集成方法破译的类型与异构信息化学物质的代谢途径,”组合化学和高通量筛选,21卷,不。9日,第680 - 670页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
y . d . y . f .高,l . Chen Cai,刘贤,t·黄和y江,“预测小分子和酶代谢途径基于交互信息的化学物质和蛋白质,”《公共科学图书馆•综合》,7卷,不。9篇文章e45944 2012。
视图: 出版商的网站 | 谷歌学术搜索
h·曹、b·伯杰和j .彭“紧凑的集成多网拓扑结构基因的功能分析,“电池系统,3卷,不。6,540 - 548页。e5, 2016年。
视图: 出版商的网站 | 谷歌学术搜索
g . Tsoumakas i Vlahavas,随机K-Labelsets: Multilabel分类的一个方法海德堡,激飞柏林,柏林,海德堡,2007年。
g . Tsoumakas i Katakis,“多标记分类”国际期刊的数据仓库和采矿业,3卷,不。3,1-13,2007页。
视图: 出版商的网站 | 谷歌学术搜索
m·库恩d . Szklarczyk s Pletscher-Frankild et al .,“针4:protein-chemical与用户交互数据的整合,“核酸的研究,42卷,不。D1, D401-D407, 2013页。
视图: 出版商的网站 | 谷歌学术搜索
m·库恩c·冯·仅仅m . Campillos l . j . Jensen和p·博克,“针:化学物质和蛋白质相互作用网络,”核酸的研究36卷,第688 - 684页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
d . Szklarczyk a . Franceschini s零八et al .,”字符串v10:蛋白质相互作用网络,集成在生命之树,”核酸的研究,43卷,不。D1, D447-D452, 2015页。
视图: 出版商的网站 | 谷歌学术搜索
c·冯·仅仅m . Huynen d。杰西,s .施密特·博克和b . Snel,”字符串:数据库的预测功能的蛋白质之间的联系,“核酸的研究没有,卷。31日。1,第261 - 258页,2003。
视图: 出版商的网站 | 谷歌学术搜索
j。周,l·陈,Z.-H。郭,“iATC-NRAKEL:一种有效的多标记分类器识别解剖治疗化学类的药物,”生物信息学,36卷,不。5,1391 - 1396年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
赵x, z h .郭l . Chen和t . Liu”预测药物副作用和紧凑的异构网络的集成,”目前的生物信息学,14卷,不。8,709 - 720年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
周赵x, y罗j . et al .,“网络集成方法对药物相互作用预测和计算药物从异构信息,重新定位”自然通讯,8卷,不。1,p。573年,2017。
视图: 出版商的网站 | 谷歌学术搜索
c . r . Wang g . Liu, l . Su和l .太阳”预测重叠蛋白质复合物基于种核心的依恋感和当地的模块化结构,”BMC生物信息学,19卷,不。1,p。305年,2018。
视图: 出版商的网站 | 谷歌学术搜索
j·佩特·g·w·施瓦茨,y,, r . b . Faryabi“微分整合转录组和蛋白质组标识pan-cancer预后的生物标记,”遗传学前沿,9卷,p。205年,2018年。
视图: 出版商的网站 | 谷歌学术搜索
l . c . Tranchevent p v纳扎罗夫,t . Kaoma et al .,“预测神经母细胞瘤患者的临床结果使用一个综合网络的方法,”生物学直接,13卷,不。1,p。2018。
视图: 出版商的网站 | 谷歌学术搜索
c . y, y . p . Chen b·伯杰和c . s .廖”识别的蛋白质复合物通过集成多个对齐的蛋白质相互作用网络,”生物信息学,33卷,不。11日,第1688 - 1681页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
h, c·凯利,j .锅”与重启及其应用,快速随机游走”第六次国际会议上数据挖掘(ICDM 06年)2006年12月,香港,中国,。
视图: 出版商的网站 | 谷歌学术搜索
美国科勒,美国鲍尔、d角和p·n·罗宾逊,“步行优先的interactome候选致病基因,”美国人的人类遗传学杂志》上,卷82,不。4、949 - 958年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
j。周,l·陈,t . Wang和m .刘”iATC-FRAKEL:一个简单的多标记的web服务器与他们的指纹识别解剖的化学类药物治疗,”生物信息学,36卷,不。11日,第3569 - 3568页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
郭z h·j·格瓦拉,l . Chen, s . Wang, Aorigele”药物目标群体预测与多个药物的网络,”组合化学和高通量筛选,23卷,不。4、274 - 284年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
a . h .翁z Liu麦克斯韦et al .,“多标记的中医诊断高血压的症状分析和建模,”2018年IEEE国际生物信息学和生物医学会议(BIBM)2018年12月,马德里,西班牙,。
视图: 出版商的网站 | 谷歌学术搜索
b . a .麦克斯韦r . Li Yang et al .,“深度学习多标记分类架构的智能健康风险预测,“BMC生物信息学,18卷,不。14,523年,页2017。
视图: 出版商的网站 | 谷歌学术搜索
j . s . Saleema b . Sairam s . d . Naveen k . Yuvaraj和l . m . Patnaik”突出的标签识别和多标记分类癌症预后的预测”TENCON 2012 IEEE地区会议,宿务岛,菲律宾,2012年11月。
视图: 出版商的网站 | 谷歌学术搜索
j .读取、p . Reutemann b Pfahringer, g .福尔摩斯“MEKA:多标记/多目标扩展WEKA,”机器学习研究杂志》上,17卷,不。1,2016。
视图: 出版商的网站 | 谷歌学术搜索
l . Chen s . Wang黄懿慧Zhang et al .,“确定键序列功能改善CRISPR sgRNA功效,“IEEE访问5卷,第26590 - 26582页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
张,t .曾庆红,b .胡锦涛et al。”歧视起源组织甲基化肿瘤细胞系的签名和dys-methylated规则,”在生物工程和生物技术前沿,8卷,p。507年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
f·艾哈迈德·r·Kaundal, g . p . Raghava”PHDcleav:基于SVM的方法预测人类帽子乳沟网站使用序列和二级结构的microrna的前兆,”BMC生物信息学文章S9,卷。14日,2013年补充14日。
视图: 出版商的网站 | 谷歌学术搜索
y Matsuta、m .伊藤和y Tohsato,“ECOH:酶委员会数量使用互信息和支持向量机预测,“生物信息学卷,29号3、365 - 372年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
b . h . Liu, l·陈,l . Lu”识别蛋白质亚细胞位置嵌入功能从网络,”目前蛋白质组学,17卷,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j·普拉特序贯最小Optimizaton:训练支持向量机的快速算法、技术报告msr - tr - 98 - 14, 1998。
r . Kohavi”,交叉验证的研究和引导精度估计和模型选择”人工智能国际联合大会,1995年劳伦斯Erlbaum协会有限公司。
视图: 谷歌学术搜索
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。
视图: 出版商的网站 | 谷歌学术搜索
赵h .梁l . Chen x, x张“预测药物副作用与精制负样本选择的策略,”计算和数学方法在医学卷,2020篇文章ID 1573543, 16页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
赵x l·陈,j . Lu”相似性方法预测药物副作用的异构信息,“数学生物科学卷,306年,第144 - 136页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
汗,即Naseem、r . Togneri和m . Bennamoun”RAFP-Pred:健壮的抗冻蛋白预测使用本地化n-peptide成分的分析,“IEEE / ACM事务计算生物学和生物信息学,15卷,不。1,第250 - 244页,2018。
视图: 出版商的网站 | 谷歌学术搜索
e·s·珊和d . Manimegalai预测膜蛋白类型将小说的特性集纳入周的PseAAC将军”理论生物学杂志》上卷,455年,第328 - 319页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
b . Perozzi r . Al-Rfou, s . Skiena“Deepwalk:在线学习的社会表示,”20 ACM SIGKDD国际会议的程序对知识发现和数据挖掘,知识发现(KDD) 14美国,纽约,纽约,2014年8月。
视图: 出版商的网站 | 谷歌学术搜索
a·格罗弗·j . Leskovec”node2vec:可伸缩的特性为网络学习,”22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘,页855 - 864年,旧金山,美国,2016年8月。
视图: 出版商的网站 | 谷歌学术搜索
t . Mikolov Sutskever, k . Chen g·s·柯拉和j .院长”的分布式表示单词和短语及其组合,”先进的神经信息处理系统26卷,第3119 - 3111页,2013年。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

557年

下载

801年

引用