文摘

组合化学的进步,大量的合成化合物飙升。然而,我们的知识有限。另一方面,设计新药的速度非常缓慢。的一个关键原因是不可接受的毒性的化学物质。如果人能正确识别的毒性化学物质,不合适的化学物质可以被丢弃在早期阶段,从而加速新药的研究和降低研发成本。在这项研究中,一种新的预测方法是识别的化学毒性,基于本体信息的化学物质。通过比较前一个方法,我们的方法是很有效的。我们希望该方法可能会给新见解,研究化学毒性的化学物质和其他属性。

1。介绍

在药物发现,检测候选药物的毒性是一个非常重要的过程。一些批准的药物,如非那西汀(1]和troglitazone [2),通过了III期临床试验,必须退出市场,因为他们意外的发现了毒性。制药公司因此损失了数百万美元。针对这一点,有必要检测毒性的化学物质前选为候选药物。然而,评估某些化学需要全面的毒性实验测试,花费数百万美元,需要许多年的时间。另一方面,组合化学的进步,大量的合成化合物飙升,诱导,通过传统方法检测化学毒性是一个不可能完成的任务。因此,快速、有效和non-animal-involved迫切必要的预测方法。

近年来,一些预测方法建立了检测化学毒性。他们中的大多数只能处理单一毒性在同一时间(3,4),预测一个特定的化学有毒或无毒的单一毒性。检测所有的化学毒性,这些方法需要多次执行。最近,陈等人建立了一个多级预测方法利用化工交互信息(5),它可以提供一个候选人的毒性顺序从最可能的毒性最不可能。他们的方法应用于检测毒性的化学物质中列出Accelrys毒性数据库(6),六种毒性的报道:(1)急性毒性;(2)诱变;(3)致瘤性;(4)皮肤和眼睛刺激;(5)生殖的影响;(6)多个剂量效应。在这项研究中,我们使用的数据(Chen等人的研究5),采用一种新型的信息来确定化学毒性的化学物质。ChEBI本体,集成在一个知名数据库ChEBI(化学实体的生物感兴趣)7),报告的本体信息化学物质和由以下subontologies:(1)分子结构;(2)生物作用;(3)应用程序;(4)亚原子粒子。因为基因本体论(8),蛋白质的本体信息一直被认为是一个有用的工具来调查相关蛋白质的问题(9- - - - - -12]。相信ChEBI本体也是一个有用的工具为研究化学物质和建立有效的预测方法来确定化学属性。在这里,我们建立了一个基于该信息预测方法和报告的方法相比5]。结果表明,此信息适用于识别化学毒性。我们希望该方法可能刺激大规模调查基于这些信息,从而促进化学物质和药物发现研究。

2。材料和方法

2.1。数据集

化学物质的毒性信息检索从先前的研究[5),收集从Accelrys毒性数据库(6]。六种毒性报告在这个数据库;有(1)急性毒性;(2)诱变;(3)致瘤性;(4)皮肤和眼睛刺激;(5)生殖的影响;(6)多个剂量效应。因此,Accelrys毒性数据库中的有毒化学物质可以分配给六类。调查预测化学毒性的问题更多,我们还采用无毒的化学物质,它也从陈等检索的研究(5]。这些化学物质收集从DrugBank (http://www.drugbank.ca/)[13人类代谢组数据库)和(HMDB) (http://www.hmdb.ca/)[14]。收集完全,174137种化学物质,它们中的每一个无毒或至少有一个类型的毒性。

获得一个定义良好的数据集,没有本体信息的化学物质被排除在外,导致4177种化学物质。因此,我们获得的数据集 组成的4177种化学物质,其中3769种化学物质是有毒的和408种化学物质是无毒的。如前所述在上面的段落中,每个有毒化学物质都有至少一种类型的毒性。为方便起见,让我们标签使用六种毒性 和无毒性 。因此,数据集 分为七个子集规定 在哪里 由化学物质有毒性 。化学物质的数量(即在每个子集。,number of chemicals having each type of toxicity) is listed in Table1第三列,从中我们可以看到,急性毒性是一个包含大多数化学物质毒性最大的类型,其次是诱变、多个剂量效应,等等,而无毒化学品的数量最少。因为一些化学物质可能有多个类型的毒性,也就是说,它们可能出现在多个组 ,数字七子集之和大于总数量的化学物质 。因此,它是一个multilabel分类问题。图1给的数量1 - 7种毒性化学物质。像许多先前的研究处理multilabel分类问题(5,15,16),该方法将一系列的候选人为每个查询毒性化学序列的最有可能的毒性最不可能。

2.2。建筑图的本体信息化合物

从ChEBI化合物的本体信息检索(http://www.ebi.ac.uk/chebi/init.do)[7]。我们下载一个文件命名为“chebi。鄂博”(2014年11月访问)从ftp网站:ftp://ftp.ebi.ac.uk/pub/databases/chebi/ontology/,其中包含大量的本体术语及其描述。自从本体术语可以被设想为图形理论结构,图可以根据信息的本体构造条件,节点代表本体术语和边表示两个术语之间的关系。通过使用条目“是一个”和“关系”获得的文件显示两项之间的关系,我们建造了一个大的图 45206个节点和113549边缘。

2.3。预测方法

就像前面提到的2。2根据本体,构造一个图表信息的化合物。它可以观察到相应的本体中两个相邻节点 有一些特殊的关系。它可以进一步推断,如果两个节点与小的距离 ,相应的本体条件有密切联系。针对这一点,使用距离 定量测量两个本体术语之间的关系是合理的。有两个方面 ,让我们表示相应节点的距离 通过 ,

两个化学物质 ,让 本体的角度 ,让 本体的角度 。很明显,如果 ( , )是小的, 是高度相关的,高概率分享相同的结构,功能,等等。因此,我们给了下面的公式来衡量化学物质的共同特征 : 在哪里 表示的距离 构造图的部分2。2,可以获得的迪杰斯特拉算法(17]。越小 是,越近的关系 有。

该预测方法高度依赖的结果(2)。介绍的方法很明显,有必要使用一些符号。让 是一个训练集组成的 化学物质,说 ;也就是说, 。的毒性信息 可以表示为 在哪里 被定义为

为一个查询化学 ,其毒性的分数 计算如下。(1)对于每一个化学 在训练集 ,计算 根据(2)。然后,找到所有最近的邻居,说 ,没有推广,这样 (2)为每一个 的分数 有毒性 计算了 很容易观察到的分数 有毒性 中化学物质的数量吗 具有毒性 。自 是高度相关的 更大的 表明,许多培训化学密切相关 有毒性 ,诱导的概率 有毒性 是很高的。特别是, 表明的分数 有毒性 的可能性是零,诱导 这种毒性是零。

就像前面提到的2。1调查的问题是multilabel分类问题。只给最可能的候选人毒性是不够的。幸运的是,我们可以输出一系列候选人根据查询的分数化学毒性有7种毒性。接收得分最高的毒性是最可能的毒性,而毒性收到第二个最高分是第二个可能毒性等等。例如,如果七个分数的排名查询化学 这表明 (即。,acute toxicity) is the most likely toxicity for ,紧随其后的是 (即。,skin and eye irritation) and (即。,mutagenicity), while the other types of toxicity are not predicted to be candidate toxicities for 。此外, 被称为第一个预测, 第二个预测,等等。

2.4。精度测量

为一个查询化学,该方法可以提供一系列的候选毒性。针对这一点,我们应该计算每个订单预测的准确性。的 th预测精度可以计算5,15] 在哪里 的化学品的数量吗 预测是正确的, 是化学物质的总量预测的方法。因为很难知道为查询毒性化学物质的数量,第一个预测精度是最重要的措施来评估性能的方法。此外,一个有效的预测方法multilabel分类问题应该排名候选人毒性;即预测精度应该遵循一个下降的趋势的预测订单的增加。

此外,评估的性能预测方法总的来说,另一个测量也采用(5,15]。这措施的比例真的毒性被第一个覆盖 预测的化学物质,可以通过计算 在哪里 是真正的毒性的数量 首次化学中列出 预测和 是真正的毒性的总数 化学。一般来说, 总是作为最小的整数大于或等于平均数量的毒性的化学物质处理的方法;也就是说, 。很明显,大 表明真正的毒性排列在前面的候选人毒性。

3所示。结果与讨论

3.1。性能的方法

的4177种化学物质 ,预测方法来识别他们的毒性评估通过重叠测试执行15]。七个预测精度因此获得的(7)表中列出22列。它可以观察到,第一个预测精度为75.17%,第二个43.52%,第三个是28.47%。此外,七个预测精度总是跟着一个下降趋势预测订单的增加,表明该方法安排所有测试的候选人毒性化学物质很好。此外,毒性的化学物质的平均数量 大约是2.38。因此,前三个预测的化学物质 收集,获得61.87%的准确性(8),这意味着真正的毒性化学物质的比例 由他们前三个预测。所有这些表明,提出的方法是非常有效的化学毒性的识别。

3.2。理解清单一个例子的方法

为了更好地理解我们的方法,本节列出的一个例子。CID104975是化学毒性 (诱变)和 (致瘤性)。其本体术语CHEBI: 25957。根据该方法,我们之间的距离计算CHEBI: 25957和本体术语的其他化学物质 之间的关系,从而计算CID104975和其他化学物质(2)。四种化学物质,列在表中3,被发现是CID104975密切相关;他们CID995 CID2236、CID6763 CID13257。他们的毒性和本体术语表中列出3分别,第2列和第3列。通过该方法,毒性 收到3票, 4票, 3票, 2票,和其他毒性没有选票。因此,我们获得的候选人毒性CID104975 , , , 。很明显,第一和第三的预测是正确的,而第二个预言是错误的。

3.3。其他方法的比较

在本节中,我们使用另一种化学信息,已申请鉴定的化学毒性Chen等人的研究(5]。他们的方法使用化工交互信息,已被认为是有用的信息研究化工相关的问题(5,15,18,19)、构建预测方法和良好的性能。

比较我们的方法和陈et al。s方法在一个公平的情况下,化学组,包括3955种化学物质,提取 ,被称为 ,这样每个化学 既有本体信息和交互信息;即,每个化学可以通过这两种方法预测。化学物质的数量 在每个类型的毒性是列在表中1列4,我们可以看到七种类型的分布的3955种化学物质毒性化学物质相似 。也一些化学物质有两个或两个以上的毒性。我们的方法和Chen等人的方法都上执行 的表现被重叠测试评估。表中列出2列3和4,七个预测精度。可以看出,第一我们的方法的预测精度为75.40%,略高于75.14%的Chen等人的方法。然而,随着预测订单的增加,预测精度Chen等人的方法获得的高于我们的方法。这是合理的,因为本体信息的化学物质目前并不是很完整,导致许多关系的本体术语没有被发现。此外,我们还计算中定义的测量(8)。因为毒性化学的平均数量 大约是2.44,前三个预测化学物质 两种方法得到的,收集,从而获得61.70%的准确性,我们的方法为65.31%,Chen等人的方法。这也是由上述原因造成的。虽然,如果一个人认为超过一个特定的化学毒性,我们的方法并不比陈et al。’s方法,第一我们方法的预测精度高于Chen等人的年代的方法,这是最重要的一个,因为一个总是更关注最可能的毒性化学物质。针对这一点,我们相信,我们的方法具有优势的识别化学毒性。

4所示。结论

这项研究给了一个新的预测方法来确定化学毒性。利用本体信息的化学物质在ChEBI报道,可以预测一定的毒性化学质量相当高。希望这个方法可以促进化学的研究。

利益冲突

作者宣称没有利益冲突有关的出版。