文摘
我们重新审视了蛋白质二级结构预测的问题使用线性和反向传播神经网络架构通常应用在文献中。在这种情况下,神经网络映射构造训练集的蛋白质序列和分配结构类之间为了分析测试数据的类成员和相关措施的意义。我们给出数值结果证明对分类器性能的措施取决于不同分类器体系结构和结构类编码技术。此外,介绍了一种分析制定为了证实观察到的数值数据。最后,我们分析和讨论神经网络精确模型的能力蛋白质二级结构的基本属性。
1。介绍
蛋白质二级结构预测问题可以作为监督模式识别问题的措辞1- - - - - -5)的训练数据很容易就可以从可靠的数据库,如蛋白质数据库(PDB)或CB513 [6]。基于训练的例子,子序列来自主要序列编码基于一组离散的类。例如,三个类编码通常应用在文献中以数值表示(α螺旋设置的二级结构,测试表,线圈)[7- - - - - -11]。通过应用模式识别方法中,未知分类的子序列可以被测试来确定其所属类的结构。这样措辞,反向传播神经网络(7,12- - - - - -14),和神经网络主题的变奏8,10,11,15- - - - - -18)已经成功应用于不同的二级结构预测问题。此外,许多工具目前应用混合方法如PredictProtein [19,20.],JPRED [8,17,21],划痕[22,23]和PSIPRED [24,25)依赖于神经网络范式作为预测计划的一部分。
的主要原因之一,应用神经网络方法首先是,他们往往是很好的通用近似者(26- - - - - -30.),而且理论上有可能创建二级结构模型。换句话说,在一个给定的网络体系结构选择和提供一组健壮的例子,最优参数与训练网络,原则上,定义一个显式的函数,它可以将一个给定的蛋白质序列映射到相关的二级结构。如果结构预测的网络函数通常是正确的和一致的一个任意的输入序列不包含在训练集,必须离开得出神经网络具有准确建模的一些基本的一组属性定义属性的蛋白质二级结构。在这种情况下,一个人应该能够从训练神经网络模型参数提取信息;因此,导致二级结构预测问题的解决方案以及参数的理解底层的二级结构的基础。
这项工作的目的是重新审视的应用神经网络对蛋白质二级结构预测问题。在此设置中,我们考虑常见情况三个类(α螺旋结构,测试表,线圈)用于给定的子序列的蛋白质进行分类。给定的相同的一组输入训练序列,我们证明,反向传播神经网络的体系结构、分类结果和相关信心措施可以改变当两个同样有效的编码方案采用数值代表了三个结构类(即。“目标编码方案”)。结果违背直觉,二级结构的物理本质属性应该是独立目标编码方案的选择。
这项工作的贡献并不是展示在现有技术的改进。上述混合动力技术已经被证明是优于单独使用时神经网络。相反,我们关注的能力基于模型的神经网络方法来准确描述蛋白质二级结构的基本属性,因为某些模型给出了在收益变量结果演示了这项工作。具体地说,在这项工作中,我们的礼物(1)数值结果表明二级结构分类结果如何变化的函数分类器体系结构和参数的选择;(2)一个解析公式来解释在什么情况下分类变化可以产生;(3)具体挑战的大纲与上述基于模型的神经网络方法。
这里的结论报道有关,因为他们把讨论的文献的解决方案提供一个可行的路径,二级结构预测问题。部分3描述的方法应用于这项工作检查保留他们的分类使用的总数。特别是,本节提供细节关于编码的蛋白质序列数据(3.1节),结构类的编码(3.2节)以及神经网络架构(章节3.3 - -3.4),和分类器性能的措施(3.5节)应用于这项工作。部分4然后提出了从数值二级结构分类的实验结果。部分5提出了一种分析配方中描述的线性网络和反向传播网络部分3为了解释部分中给出的数值结果4。
2。符号的监督分类问题
在监督分类的问题1,2),假设一个训练集由培训对: 在哪里是维列向量和输入是维列向量输出。监督分类方法的目标是确保所需的响应给定的输入向量的维度从训练集维输出向量。此外,当训练数据可以划分不同的类,一组的目标 维列向量选择编码(即。,mathematically represent) each class for。在这种情况下,每个输出训练向量来自一组吗。基于此讨论,我们总结使用以下符号:(我) 一个分类器的输入向量的维数;(2) 一个分类器的输出向量的维数;(3) 是离散的数量类分类问题;(iv) 是培训的数量对监督分类问题。
3所示。方法
为了应用神经网络模式,两个数值问题必须加以解决。首先,由于输入数据的氨基酸序列的形式,3.1节讨论了一个简单的编码方案,将氨基酸字母转换为可用数值形式。其次,对于这个工作,我们的二级结构目标字母由元素组。因此,一个编码方案还必须为代表选择神经网络分类器的输出。3.2节讨论了两种方法在细节编码输出,因为它对于本文的主要观点是至关重要的。具体来说,我们选择两个不同的目标向量编码方案,可以通过一个简单的数学相关的关系。这种方法将使我们能够比较基于分类器性能的措施目标向量编码;此外,它将促进节中给出的解析公式5。最后,部分3.3 - -3.5检查神经网络架构和具体分类器性能措施应用于这项工作。部分6然后总结一些有关的基于模型的神经网络方法最后观察蛋白质二级结构预测问题。
3.1。编码的蛋白质序列输入数据
建立了数值实验,训练集使用一百蛋白质序列随机选择从CB513数据库(6)可以通过JPRED二级结构预测发动机(21]。此外,我们雇佣了一个移动的窗口长度为17的每个蛋白质序列,为了避免蛋白质终端的影响,第一个和最后一个50个氨基酸是省略的分析。中央残留的二级结构分类是分配给每个窗口的17种氨基酸。一百年序列进行了分析,共有12000个窗口长度17提取。17的窗口大小价值选择是基于假设的八个最亲密的邻国残留会对二级结构构象的影响最大的中央残渣。这种假设与类似的方法在文献中报道是一致的(7,12- - - - - -14]。
编码的输入氨基酸序列长度17,我们采用稀疏的正交编码(31日)从一个给定的地图符号序列字母表上一组正交向量。具体地说,对于一个字母包含符号,一个独特的维单位向量是分配给每个符号;此外,单位向量是一个位置和在其他位置是零。因此,如果所有的训练序列和未知的测试序列长度一致,一个编码输入向量的维度在哪里。在我们的例子中,和;因此,任何给定的输入向量的维数。
上面的输入向量编码技术普遍应用于生物信息学和二级结构预测文献[7,15]。虽然许多不同的和优越的方法已经提出这个阶段的机器学习问题(3- - - - - -5),我们选择正交编码因其简单性和工作结果不依赖于输入编码方案。相反,我们的工作特别引起关注潜在的神经网络分类器可变性的选择目标向量编码方案。
3.2。目标向量编码
分析的不变性特征分类器性能措施显然涉及首先建立不同的目标向量之间的关系和。作为一种手段的不变性制定提出了更容易处理,我们假设两个备选目标集的向量可以通过一个仿射变换涉及到相关的翻译,刚性旋转,,在那里是一个正交矩阵和一个比例因子,, 在哪里 翻译是一个矩阵列向量应用到每个目标向量。许多目标向量的选择经常应用在文献中可以通过转换相关(2)。例如,两个同样有效和普遍应用编码方案3类问题是正交编码(31日), 和 选择类编码在三角形的顶点在一个二维平面上(14]。事实证明,(4)和(5可以的措辞)(2)[32];因此,这项工作中给出的数值结果将这组编码。更确切地说,与一个给定的输入向量相关的二级结构分类编码使用(4)和(5)(因此,)。目标向量的集合来自(4)和目标向量的集合来自(5)。线性和反向传播网络测试首先训练使用然后比较分类器性能与训练使用。在数值实验中,MATLAB用于模拟和测试这些网络。
3.3。线性网络
当监督分类器模型(1假定一个仿射输入和输出数据集之间的关系(如多元线性回归的情况下),矩阵的形式 一般介绍。具体来说,试图确定一个线性网络矩阵系数和常数维列向量这样th输出向量在训练集可以近似 根据这个模型,我们可以形成一个体重未知系数矩阵 ,理想情况下,将每个输入训练向量映射到相应的输出训练向量。如果最后一行输入数据矩阵是附加行导致的矩阵 在矩阵形式,然后找到一个目标权重矩阵最小平方误差求和 组数据对 通过满足一阶导数条件。这个问题的最小二乘解是发现通过伪逆(33),
一旦计算权重的优化设置,网络响应未知输入向量由定义可以吗向量 和计算 在哪里是一个列向量。
3.4。反向传播网络
给定一个输入向量,该模型反向传播神经网络的一个隐藏层组成的节点被描述为 在哪里,,定义网络权重的设置和是一个“s形”函数是有界的,单调递增。执行监督训练,在某种程度上类似于线性网络,决定通过最小化目标函数: 给定的训练数据中定义(1)。自不再是线性的,数值技术,如梯度下降算法及其变化是依靠计算一组满足一阶导数条件。
考虑以下定义: 在哪里。规定的网络权值的一阶导数条件(16)和(17)可以写成矩阵形式如下: (“”表示矩阵的转置), 在哪里是一个正方形对角矩阵的对角线项由组件从向量。
3.5。分类的措施
一个给定的分类器训练后,当面对一个输入向量未知的分类,它将应对一个输出。相关的类成员然后经常取决于应用最小距离准则: 目标向量这是最接近意味着类。此外,当描述一个模式分类器的性能,一个经常给出一组测试向量和分析相关的输出。除了确定类会员,也可以排名一个特定的目标向量之间的距离和分类器的响应。在这种情况下,一个类似的距离判据可以应用为了排名一个输入向量对类, 这项工作的目的,(15)促进类成员的决心和排名对类对于线性网络。同样,假设一组权重对于一个训练有素的反向传播网络(21)和(22)将应用使用(16)。
证实,在一个正态分布的数据的情况下,上面的分类措施提出了最小化分类误差的概率,直接关系到一个分类的统计意义的决定(1]。考虑到神经网络的监督分类技术和两种截然不同的选择目标向量的集合和在某些情况下,我们将演示,分类和排序结果不存在不变的这样和对于任何一个输入向量。
4所示。Noninvariance二级结构的预测
在本节中,我们数值表明,当不同的目标向量编码应用,神经网络分类器上面列出的措施,在某些情况下,观察到的差异很大。对于每一个神经网络架构考虑,然后提出了一种分析公式5为了解释观察到的数值数据。
正如3.2节中提到的,数值试验首先通过训练使用然后比较分类器性能与训练使用。需要多个交叉验证试验,以防止潜在的评估精度的依赖特定的培训或测试集选择(7,15]。在这项工作中,我们应用一个hold-n-out策略类似于(14)使用85%的12000编码序列作为训练数据(例如,),15%的测试数据来验证分类结果。识别利率为线性和反向传播率使用的目标向量编码大约65%这是典型的类型的分类器应用类似的编码方法(7,12- - - - - -14]。虽然这些聚合值保持一致,使用(21)和(22)我们现在的数据证明,类成员和排名保持不变的线性网络,这些措施的性能相差很大的反向传播网络的训练,,17个隐藏节点和一个训练均方误差小于0.2。排名结果代表测试并给出了线性和反向传播网络排名前20名的向量的表1和3。类成员数据表中给出2和4。观察到,对于线性网络,指数排名前20名的向量保持不变的指示排名不变性;此外,没有类会员是观察到的变化。另一方面,表3和4标明缺乏一致性,当考虑到排名和类成员的测试向量。一个特别令人不安的观察是,很少向量排名在前20对排名在前20位对吗。此外,表4表明,大量的测试向量的类成员改变时采用一套另类的目标向量。数据还表明,最大的α螺旋序列的类成员发生变化;因此暗示有实质性的分歧这个二级结构的建模元素的反向传播网络由于目标向量的简单变换。
5。分析
结果部分4的模式识别的结果清楚地表明,尽管线性网络保持不变下改变目标向量,这些反向传播网络。在本节中,我们目前的分析结果以清楚地解释和理解为什么这两种技巧导致不同的结论。
5.1。不变性配方
让我们首先考虑两个定义。
定义1。鉴于两组目标向量和,类成员目标向量的变换下是不变的,如果对任何输入向量, 在哪里与目标分类器的输出向量。
定义2。鉴于两组目标向量和,排名对一个特定的类目标向量的变换下是不变的,如果对任何输入向量和,
建立了基于这些定义,以下(32]。
命题3。鉴于两组目标向量和,如果排名是不变的,那么加入一个任意的输入向量将保持不变。
在战略分析,描述神经网络的性能取决于前一节的数据。对于线性网络,因为排名和分类观察保持不变,这是更明智的”来形容这个网络使用定义的不变性2。然后,基于命题3自然,类成员不变性。另一方面,解释两类成员和排名中观察到的noninvariance反向传播网络,分析了考虑定义1。从命题noninvariance排名那么自然而然地发生3。
5.1.1。不变性分析线性网络
当目标向量是受到中定义的转换(2),网络的输出可以表示为 在哪里来自这样翻译向量与适当地符合正确的目标向量在矩阵。换句话说,当输出数据矩阵(7)的形式 然后 在哪里为。鉴于这种网络,适用以下结果(32]。
命题4。如果(我)训练观察的数量超过了向量维度;(2)矩阵的行是线性无关;(3)
和根据相关(2);(iv)对于一些,对所有在(2);
排名和,因此,类加入线性网络将保持不变。
换句话说,如果矩阵的列在(25)都是平等的,那么使用(15)和(25)将导致(23)满意。上面的结果适用于数值数据和;因此,排名和类成员不变性了的数据表1和2。
5.1.2中。不变性分析反向传播网络
在本节中,我们试图描述noninvariance观察在类成员使用反向传播网络。如果类成员由于不同目标向量的变化,那么这种变化应该量化描述边界分离两个各自的类。类之间的决策边界和类被定义为点这样 在哪里,和是分类器的输出。在这种情况下,如果一个规范应用于(21), 这个方程的解集包含所有这样从距离相等和本节的目的,被定义为(16)。方程两边扩展条款导致的条件 如果类的成员代表向量保持不变下改变目标向量,同样也必须满足的点的集合 假设两个网络已经使用两个不同的目标向量训练和权重的设置和决定了网络输出(16)。不失一般性,我们考虑的情况所有目标向量归一化值的其中一个和为。在这种情况下,条件(30.)和(31日)成为
我们首先考虑一个特殊的情况下,目标向量根据有关与在(2)。在这种情况下,如果选择 ,它应该清楚,因为和, 最小化的状态么。看到这另一种方式是观察到(19),(20.)保持不变的目标向量的选择和网络权重。因此,我们有以下。
命题5。为一个特定的选择和,如果在(2), 反向传播网络的类成员将保持不变。
证明。简单地考虑(32)和(33),选择任何令人满意的 然后立即跟随 因此,如果满足(32),然后它还满足(33),因此,是一个点决定网络的边界。
凭直觉,缩放,刚性目标向量的旋转应该不会影响决策边界。然而,当更一般的转换(2)应用我们现在证明,由于非线性的在(16),不存在简单的关系,(32)和(33)可以同时满足相同的点。我们第一次调查的可能性,建立一个分析权重的设置之间的关系和两个网络。换句话说,我们寻求理想的可逆的,函数,,。 这样一组可以转换成。如果可以做到这一点,那么一个分析过程相似的命题的证明5可以建立联系(32)(33一般情况下)。自(19),(20.)定义一组改述这些方程,它是合理的目标函数: 在哪里和这样是翻译向量与目标相关的向量被。从这些方程,它应该明确,不存在简单的解析关系,将变换成。梯度下降法等数值算法,假设存在一个局部最小值实际上,到达一些解决方案和。因此,我们必须满足的假定存在一些函数定义为(39)。再一次,让我们考虑任何点边界,这样的决定 这样的一个点也必须同时满足 乍一看,选择等和为(如命题4)似乎使我们接近一个解决方案。然而,涉及这个词是有问题的。尽管选择等和将产生的解决方案(42),它应该清楚,这些值不会满足(40)。
分析这个问题的另一种方法是首先设置为。然后,对任何的决策边界,(41)和(42),条款等同起来 在哪里是一个常数,,,满足(40)。给定任意训练集定义为(1),这是极不可能的约束可以满足。一个偏远的场景可能是条件和总是小的。在这种情况下,给定一个s形函数附近是线性的线性化的版本(43(描述)可以得到解决,使用技术32]。然而,这又是一个不太可能的事件给出任意训练集。因此,鉴于的变换(2),我们只能得出这样的结论:类会员不变性,因此,排名不变性,在一般情况下,不使用反向传播神经网络可以实现的。
5.2。讨论
直观地给出一个合理的目标编码方案,将欲望属性相关的蛋白质二级结构是独立的目标向量的选择。然而,我们提出了数值数据和理论依据证明二级结构分类和信心的措施可以随类型的神经网络结构和目标向量编码方案。具体来说,线性网络分类已经证明保持不变下改变在目标结构编码方案,而反向传播网络。作为方法应用的增加,这项工作,识别与文献中报道的利率保持一致;然而,我们发现,增加训练数据并不能提高反向传播网络的分类措施的不变性。这个结论是由上面的分析制定了证实。
6。结论
在介绍,指出神经网络的一个主要目的是创建一个稳定、可靠的模型,输入训练数据映射到一个输出分类希望提取的参数。当方法类似文献中应用(7,12- - - - - -14),我们已经表明,分类器性能的措施可能会有很大差别。在这种情况下,来自训练网络参数分析描述蛋白质二级结构可能不包含一套可靠的基于模型的方法。此外,分类器差异性可能意味着一个稳定的参数模型没有。在某种意义上是自相矛盾的,神经网络已经申请分类和结构,然而,没有申请相关的参数描述蛋白质二级结构。神经网络方法推导的解蛋白质二级结构预测问题因此需要更深层次的探索。
确认
这个刊物是通过授予G12RR017581从国家研究资源中心(NCRR)的一个组成部分,国家卫生研究院(NIH)。作者还要感谢评论者对他们有用的评论。