抽象性
最近,在多数现有研究中,假设药与目标之间没有互连并有未知互连未知交互表示药与目标之间的关系并未得到确认本文中未确定毒品与目标关系样本被视为无标签拟用加权聚合多源信息法筛选药目标交互作用第一,选择一些可能有交互作用的药目标对第二,选择的药目标对加正样本,这些样本被认为已知有交互关系,并修改原创交互关系矩阵最后,修改数据集用于预测双方局部模型与邻基交互剖面推导的交互作用(BLM-NII)。实验显示,与BLM-NII方法相比,拟方法大大提高了特性、敏感度、精度和精度此外,与数项最先进方法相比,接收器操作特征曲线下的区域和拟议方法精度回调曲线下区域是极佳的。
开工导 言
目标指生物宏素可具体联结生物体小分子复合物并产生特定的生理或药理效果机体生理容留或疾病预防处理功能最常用目标为离子通道、酶、受体和其他分子药目标交互预测现时广泛使用此外,它对于说明可用于制造新药的药物分子机制有重要影响一号..实现新药开发的关键步骤是发现并重新定位目标2..寻找新候选药物程序称为发现毒品,查找新目标程序称为重新定位毒品3..数据集中只有一小部分交互关系一直验证到现在传统生物测试需要大量投资,严重限制新药开发因此,与药目标交互作用有关的研究已转而成为药学热点4..技术的进步加深了对基因、蛋白质、细胞等物质的理解借助计算机技术 药物发现大增此外,缩短新药开发周期并降低研发成本[5..
传统药目标交互预测方法大致划分为对接模拟法6,7和基于方法8..前者基于已知目标三维结构,通过计算小分子对复合数据集目标的绑定能力预测候选化合物的生物活动九九..缺三维目标结构时,对接模拟方法无效目前仍有多维结构未解决,这使得对接模拟方法大受限制10..离散法主要包括化学相似性搜索和逆药法搜前一种方法基于一个事实,即拥有近似结构的药物可与具有相同或近似字符的目标交互[11..后一种方法预建药法数据库,内含多药法模型单查询分子反向匹配目标匹配查询结构基于Ligand结构的方法会失效 学上几分Ligands传统计算法严重依赖药的化学结构,而化学结构有极大的局限性12..
近些年来,来自世界各地的学者建议从方方面面研究药物目标交互作用方法,大大提高预测效率和精度。与传统方法相比,这些方法充分利用计算机技术帮助研究,这有助于缩短新药开发周期并降低研究成本常用方法主要划分为四种类型,包括矩阵分解预测方法、网络推理预测方法、药和目标特征预测方法以及双片图模型预测方法所述方法将在下文介绍
基于矩阵分解法预测药物与目标之间的关系Gonen等[13依据内核维度减法、矩阵因子分解二分法预测贝叶斯矩阵分解法这种方法只需知道药的化学相似性以及目标空间相似性,然后使用变异推理更新参数推广模型效果Liu等[14推荐DTI预测法基于邻里正规化后勤矩阵分解NRLMF和KBMF的差异在于NRLMF为已知交互型对分配更高权值贝叶斯算法在预测DTIs方面有许多应用佩斯卡等[15依据贝叶斯排名法提出了DTI预测法算法利用目标偏差和结构相似性预测DTIs16..贝叶斯算法也可以用于矩阵乘法超参数优化Ban等人[17提议交互预测法取自贝叶斯优化,大大缩短超参数优化计算时间
预测取自网络推理法的关系主要指搭建多式网络,使用药物相似性与药物相似性,目标相似性与目标相似性并预测DTI基于网络这种方法可分为三类:监督式、半监督式和无监督式Cheng等[18号提议受监督推理DTI预测法算法仅使用双方网络表层相似性推导已知药的新目标,双方网络由药目标关系构建结果证明,该方法能力超出DTI推理算法基于药或目标相似性Pliakos等[19号监督学习与多输出任务并发 视预测为多输出任务 通过学习重构网络双集群树Yan等[20码半监督DTI推理法建议使用标签传播推理药节点标签与传统受监督半监督DTI推理法相比,网络推理法基于Seal等建议随机步行框架[21号slity网络更新标签网络数据集成工具预测关系网络随机步行框架推理法常用于预测塔法尔等[22号使用图嵌入法、图挖掘法和DTI预测法预测关系增等[23号执行自序近端网络嵌入多式网络并使用深学习算法预测DTIsSamizadeh等[24码使用从节点嵌入生成的新方法并用二分分类器实现分类结果
多数DTI预测方法基于机器需求特征 药和目标预测交互性25码,26..其中包括每种药对目标由长段特征矢量表示特征矢量药对分为两类:交互性非交互性减少计算复杂性,Van等[27号推荐加权近邻法改善高斯交互剖面28码方法使用近邻信息预测新药一些学者从药对目标数据集提取可靠的负样本,然后与原数据正样合并构建分类器例例Lan等[29提议DTI预测法,使用正样和无标签样本使用这种方法时,药对目标间未知交互作用被视为无标签样本,加权支持向量机用于DTI预测eng等[30码提议负采样法减少随机选择负采样引起的误差在DTI预测中,大多数方法面临两个问题:类偏和高维数据Redkar等[31号高效有序编码目标蛋白质解决高维数据问题类平衡问题通过合成少数采样解决
Bleakley等[32码提出双方本地模型,使用已知药和目标培训本地模型最终结果通过合并两个局部模型的预测结果计算BLM的局限性在于当交互关系不为人知时难以预测药与目标之间的交互关系正因如此 Mei等[三十三BLM-NII法基于近邻交互剖面推理进一步推动预测效果,Buza等[34号引入回归技术作为局部模型预测多式相似空间中药物和目标的交互性并增强表示力后导Buza等[35码使用基于BLM的非对称损耗模型提出DTI预测算法修改线性回归模型提高BLM模型预测能力上文提到的DTI预测算法基于分类法,这是执行特征提取所需要的全部方法使用分类器时需要正样和负样然而,在DTI预测问题中,带未知标签的样本往往被视为负样本,这将影响结果并有某些限制。
在现有研究中,大多数研究者不知道哪些交互对为负样本然而,无标签样本中可能有药对目标,这些样本有交互作用,但未经实验验证。本文中,这些未知交互对被视为无标签样本无标签样本用三种方法筛选:药类相似法、随机复用法和WNN-GIP法重聚多源信息法集成三种方法获取的筛选结果最后,培训集交互矩阵根据聚变结果修改,然后我们使用BLM-NII模型预测交互性实验显示,拟方法可获取高超预测效果
二叉相关算法
2.1.随机漫步
图是一种数据结构,可用以表达现实世界复杂交互关系每一图有两个基本组件,即节点和边缘节点靠边连接从药对目标交互预测看,药对目标由节点表示,关系由边缘表示图中由药和目标组成,随机行走可以在图中预测交互性
随机行走信息传播常用方法随机行走的基本原则是通过遍历图从顶点行走在每个顶点随机漫步器有两种选择:其中一种选择是概率步行到顶点近邻 ,则随机跳转到任何顶点 .概率表示跳转的可能性步行后获取概率分布,从中我们可以获取访问每个节点的概率后用此分布作为起始概率并迭代此进程分配条件实现后会稳定随机复工36号一种随机行走变式起始点为特定节点并每步面对两个选择,随机选择邻接节点或返回种子节点并有一定概率与传统随机行走相比,随机复用可更充分地探索节点之间的直接或间接关系
药目标关系预测图显示多式网络一号.黄段表示药物相似性网络,绿段表示目标相似性网络,双网虚线表示交互关系节点通过多式网络接收另一个同质网络信息
随机复机可有效整合上述网络构造多维网络不依赖三维结构信息已知药对目标交互作用只占一小部分,这导致多式网络中鲜多交互作用稀疏网络新药或新目标往往隔离难以预测交互作用,这也限制随机步行能力提高为促进随机行走预测力,多源信息聚合法可用于选择高交互概率药对目标对并添加选择药对目标从而可以获取更可靠的药目标交互关系,网络广度可减少,隔离子网络也可减少
2.2.WNN-GIP
本文假设 表示药药相似度矩阵 表示目标与目标相似矩阵 表示药化结构相似性GIP28码高斯内核函数表达 并 .内核函数 可合并获取 并 原封 去哪儿 表示药特征
类似地,我们可以合并 序列相似性蛋白质基因 按一定权值 获取内核函数 ,等类 去哪儿 表示目标特征
组合 并 由克罗内克产品获取内核矩阵 关于药目标对显示合并内核矩阵 并交互剖面 ,正规化最小方分类器可用于获取预测值 ,计算公式显示如下: 去哪儿 表示规范化参数 身份矩阵
GIP只能处理至少有一种已知交互作用的药新药加权近邻信息用于预测药物交互关系,如下公式显示: 去哪儿 表示数据集中的药数 表示权值 表示行 邻接矩阵 ,表示药间关系 和所有目标 表示预测新药评分 .
WNN根据数据集交互关系推断新药的交互作用,预测评分是所有药交互作用的加权和其中包括权值取当前药与新药相似度高相似度新药高重量,低相似度药低重量,对最终预测结果贡献微弱
GIP预测至少一种已知交互作用的药物,WNN预测新药结合上述两种算法的优势,WNN-GIP可预测药目标交互WNN-GIP27号.........预测新药精度低关系预测依赖训练集已知信息忽略负样本,现有数据集样本分类不准确训练分类程序基础将导致偏差预测结果此外,据WNN公式显示,如果目标有更多药与之交互作用,目标预测评分更高,而这个目标更容易被认为与新药交互作用如果已知交互药少见特定目标,预测目标评分将较低预测目标与新药之间没有交互关系目前,药对目标交互作用认知不全面,许多交互作用未获核准。因此,仅预测基于已知交互作用的新药交互作用将导致预测结果错误为了减少现有数据集引起的预测偏差,拟议方法选择了一些药对对与无标签样本可能的交互作用并修改数据集以减少误差提高WNN-GIP预测性能
3级加权多源信息聚合
预测方法基于药类相似性,随机复用,WNN-GIP自有优势基于药类相似性的方法可以更好地利用药类结构相似性预测它们的交互性随机复用可整合多网络,充分使用节点间相关预测WNN-GIP预测低计算复杂性新药为了综合上述三种方法的长处,降低计算复杂性,提高预测精度,建议基于多源信息加权聚合的药对目标预测法图中显示流程图2.
本文基于KEGLIGAND数据库化学结构信息37号药类相似性按常用子结构大小计算38号..已知高相似度药可能有完全相同的目标三十九..相似度越高,目标相同的可能性越高因此,根据相似性药物矩阵,可选择高相似性的一些药物举例说 药 高相似度药 .已知毒品 与目标交互 ,药间交互 目标 未知数因此,根据上述条件,我们可以假设该药 与目标交互 ,但尚未证明本文使用上述三种方法对药对目标交互矩阵进行筛选细节如下:
根据高相似度选药和上述假设,选择部分配方与可能的交互作用,修改现有交互矩阵以获取新交互矩阵使用修改数据集预测可减少因将无标签样本处理为负样本而引起的虚负误差图显示交互矩阵修改过程基于药类相似性3.
图中3圆表示药物,平方表示目标,圆和平方表示药与目标之间的交互作用,Y表示原创交互矩阵,Y表示Y一号表示相似度筛选后修改交互矩阵
上文所选配对加到训练集正样中,随机漫步转换矩阵表示 ,可表述如下: 元素表示概率从网络转成网络 表示目标对目标 表示药药 指目标药 药目标
随机行走进程多式网络可写作如下: 去哪儿 表示迭代后概率 时间间隔参数显示 表示重开概率 起始概率向量可表示如下: 去哪儿 并 表示初概率目标网络和药网参数显示 权重两个种子节点几步后 归并向量 ,去哪儿 .弗罗比尼乌斯规范间差 并 不超过10-10迭代停止稳态概率向量 表示交互概率,所以修改矩阵 可获取性 。
训练集中,上述选对加到正样中 WNN-GIP获取药对目标交互矩阵 , ,并 以上三种方法均值直接计算,预测效果差法对预测结果产生更大影响因此,我们的方法使用加权聚变法获取最终药目标交互矩阵 ,也就是说 哪里参数 表示权数 每种方法获取值介于0至1 . 表示订正矩阵 表示加权聚合后药目标交互矩阵本文用三种方法筛选取三大修改矩阵 等于3
权值表示对结果的贡献 权值由预测效果决定效果良好的方法对结果大有帮助, 相应的权值也很大最终矩阵 原意预测BLM交互修改药对目标交互矩阵后,正样本数增加,从而减少数据广度,从而大大提高预测能力
4级实验
4.1.数据集评价Metrcis
论文中,我们采用文献中汇总的数据集40码..数据集包含四类已知药物目标数据集,其中包括酶、离子通道、G-protein相联受体[41号和核接收器数据集包含三大矩阵:药物相似性矩阵、目标蛋白相似性矩阵和药对目标交互矩阵矩阵化 表示交互作用 并 分别为药数和目标数if药 与目标交互 ,并发 ;换句话说 .统计信息显示表一号.可发现现有数据集中已知交互作用微乎其微
已知交互作用只代表可用数据中的一小部分,大多数关系未知,导致当前数据集中微数正数样本无标签样本比例大,数据集不平衡如果只有一个评价索引评价我们的方法,它不够全面。四种精度、敏感度、特性和精度基本索引用于评估模型能力
为了更好地描述拟议方法的优越性,接收器操作特征曲线还用于评估DTI方法的能力ROC曲线绘制正正率与abscissa坐标率和假正率之比ROC曲线离左上角越近,DTI预测法精度越高ROC曲线将敏感度和特征与图形方法合并,可直觉分析实验法精度AUC和AUP还提供值AUC区域ROC曲线AUC大于0小于142号..越大AUC预测法精度越高AUP是精确回调曲线下的区域AUP值介于0至1越高值AUV预测精度越高43号..
4.2实验结果
证明数据集有效性多源信息聚合法建议方法,我们将建议方法与BLM-NII方法精度、敏感度、特性和精度作比较论文使用十倍交叉验证计算时所有预测结果分类顶值1%对取正样预测结果的精度、敏感度、特征和精度可以通过比较预测结果和已知数据集而获取表22显示两种方法的对比结果表红字体表示最佳实验结果
从表2,我们可以知道,客观评价索引建议方法在四套数据集中名列前茅与BLM-NII相比,NR数据集中拟方法的精度、敏感度和精度分别提高1.4%、14.28%和6.67%按表结果2多源信息聚合能提高BLM-NII模型所有方面性能特别是在四类数据集中,NR数据集中建议方法的改进范围最大,这表明我们方法即使在小样本数据集中也极强能力
图情直觉分析方法能力4显示用四套数据集测试时方法 ROC图4(a)ROC通过NR数据集中建议方法获取NR数据集样本不多,曲线不甚平滑,曲线下面积达0.92图4(b)ROC取自GPCR数据集与NR数据集曲线相比,GPCR数据集中拟方法能力优异精度更高显示图4(c)并4(d)AC数据集和E数据集都达0.98,表示我们方法优于多样数据集更多阳性样本有助于促进预测能力
(a)
(b)
(c)
d)
说明多源信息聚合法的有效性时,我们比较建议方法与预测结果,即用单方法修改药目标数据集时。方法如下:(1)SIM:基于药类相似性选择双RS:选择双组随机复用WS:基于WNN-GIP选择双本文采用的客观评价指标为AUC和AUP实验结果显示于表3.红色字体部分表示数法中最优实验结果,蓝字体部分表示次优实验结果表单3-8以同样方式表示
表内3sIM、RS和WS分别表示实验结果,当初始交互矩阵仅按药相似性修改时,随机复用和WNN-GIP观察表3可见,本文提议的多源信息加权聚合法在四套数据集中获取最高AUC和AUP聚合多源信息可综合每种方法的长处,聚合方法可有效提高预测精度实验结果显示多源信息加权聚合法在修改数据集时比单筛选法高能力
表示加权聚变法有效性时,聚变法代之以平均聚变法和投票聚变法结果显示表4.
AVE表示平均DTI矩阵获取实验结果 , ,并 由上述三种方法组成最后修改矩阵VOTE表示实验结果,即上述三大矩阵用多数投票法处理从表4可发现AUC和AUP通过加权聚变法获取的AUC和AUP都最高同时,平均值或投票法将大大降低预测精度加权聚变法可分配不同权值取决于三种方法实现优聚变效果的结果
验证方法可用性时,我们将拟议方法与数种最先进方法比较如下:(1)NetLapRLS[NetLapRLS44号DTI预测法基于半监督学习(2)BLM-NII三十三dTI预测法基础BLM通过邻接交互剖面推理提高WPN-GIP27号dTI预测法基础是加权近邻提高GIPALADIN34号DTI预测法基于高级局部药对目标交互预测技术和(5)MOILIER35码:DTI预测法基于修改线性回归模型
表单5-8dTI预测结果NR、IC、GPCR和E数据集分别使用上述方法并使用我们方法
表内5AUC和AUP方法中NR数据集中最高值,这表明我们方法即使在带少样的数据集中也具有超强预测能力。与ALADIN和NetLapRLS相比,我们方法的预测效果明显改善,这表明它可以减少样本数的影响
表内6AUC和AUP方法也是IC数据集中最高值,显示我们方法已实现高预测精度已知交互作用比例四大数据集中最高,这是拟用方法实现优异性能的关键更多已知交互作用有助于预测网络关系
表27显示拟议方法在AUC中最高值和GPCR数据集中次优AUP主要原因是E和IC数据集中平均交互数大于GPCR数据集中的交互数也就是说,在培训阶段,E和IC数据集中正样比例远高于GPCR数据集中正样比例这有助于获取高预测能力分类模型因此AUV在E和IC数据集中可获得更高值gpcr数据集中正样比小,所以Gmcr数据集中显示建议方法略差
表28显示我们方法获取E数据集中AUC和AUP顶值AlADINM-NII性能提高结果显示,在大多数情况下,AUC和AUP方法优于前两种方法,特别是在小样本NR数据集中。总的来说,拟议方法能力良好,但仍有改进空间,AUV需要进一步改进
5级结论
本文建议使用基于多源信息加权聚合的DTI预测法使用这种方法,无名交互关系样本被视为无标签样本样本中可能有交互作用但未经实验验证,则筛选出来,原创数据集则根据筛选结果修改实验结果显示 加权聚变法比平均和投票法 更合理加权聚合法提高筛选结果的有效性和可靠性AUC和AUP建议方法都取得了更好的结果然而,拟议方法也有一些局限性。数据集多采样效果更好,而数据集少采样泛化能力则会变差特别是数据集阳性样本较少时,预测精度需要提高聚合模型带来了一些限制,AUV应进一步改进未来,我们可以合并更多生物信息预测,以便引入更多与已知交互作用相配药法已知关系可减少网络隔离节点,预测网络边际关系更有用同时,我们可以进一步探索聚变法目标是寻找聚变模型 可灵活变换实现更好的聚变效果下一步,我们可以减少聚变带来的约束优化模型
数据可用性
DTI预测测试数据支持这项研究结果http://web.kuicr.kyoto-u.ac.jp/supp/yoshi/drugtarget/依据许可无法免费提供
利益冲突
作者声明不因发布此论文而产生利益冲突
感知感知
这项工作部分得到中国自然科学基金会Grant nos支持河北省自然科学基金会F20201025F2019201151F2018210148河北大学校长基金会BJ2020030和QN2017306XZJ201909,河北大学自然科学基金会2014-303和8012605,广东开基实验室数字信号和图像处理技术2020GDDSIPL-04这项工作还得到了河北大学高性能计算中心的支持。