文摘
微阵列数据的多类分类问题,一个名为多项式回归的新优化模型的弹性网提出了处罚。通过结合多项likeliyhood损失和多级弹性净损失,建立了优化模型,证明了鼓励多类分类的基因选择的分组效果。
1。介绍
支持向量机(1],套索[2),他们的扩张,如混合huberized支持向量机(3),双重正规化的支持向量机(4),1-norm支持向量机(5),稀疏的逻辑回归(6),弹性网(7),和改进的弹性网8),已经成功地应用于微阵列数据的二元分类问题。然而,上述二元分类方法不能应用于多类分类。因此,微阵列的多类分类问题是困难问题分类(9- - - - - -11]。
除了提高准确性,微阵列数据的多类分类问题的另一个挑战是如何选择关键基因(9- - - - - -15]。通过求解一个优化公式,提出了一种新的multicategory支持向量机(9]。它可以被成功地用于微阵列分类(9]。然而,这种优化模型需要使用额外的方法选择基因。自动选择基因在执行多级分类,新的优化模型(12- - - - - -14),等规范多类支持向量机(12),一口标准正规化的multicategory支持向量机(13],huberized多类支持向量机(14),开发。
注意,物流损失函数不仅具有良好的统计学意义,也是二阶可微的。因此,正规化的逻辑回归优化模型已成功应用于二元分类问题(15- - - - - -19]。可获得多项回归应用逻辑回归时多类分类问题。稀疏多项式回归的出现提供了一个合理应用微阵列数据的多类分类,识别重要的基因(20.- - - - - -22]。通过使用贝叶斯正规化,稀疏多项式回归模型,提出了在20.]。采用高斯潜变量数据增强策略,变分贝叶斯多项probit模型可以减少预测误差,提出了在21]。通过使用弹性净损失,正规化多项式回归模型是在[开发22]。它可以应用到多个相关的蛋白质序列比对突变。虽然上面稀疏多项式模型取得了良好的预测结果的真实数据,他们未能选择基因(或变量)。
多级分类的微阵列数据,本文结合了多项功能损失可能性有明确的概率意义(23)与多级弹性净损失选择基因在组织(14),与弹性净损失提出了多项式回归,证明了该模型可以鼓励分组效应基因的选择同时分类。
2。问题制定和初步
给定一个训练数据集海尔集团分类问题,在那里代表的输入向量th样本对应的类标签。的微阵列数据,和代表的数量实验和基因的数量,分别。限制实验成本高,只有少数(小于一百)与成千上万的基因样本可以获得样品。让和,在那里,。不失一般性,它假定
对于二元分类问题,被认为属于类标签。逻辑回归模型表示以下class-conditional概率;也就是说, 然后 根据常见的线性回归模型,可以预测 在哪里代表偏见和代表的参数向量。
在本文中,我们关注的多类分类问题,这暗示。让的决策函数,。多级分类器可以表示为 让和 为了方便起见,我们进一步和代表了行向量,参数矩阵的列向量。然后扩展class-conditional逻辑回归模型的概率-logits,我们有以下公式: 在哪里代表一对对应样品的参数,,。同样,我们可以构造th, 当且仅当。它可以很容易地获得 也就是说, 应该注意的是,如果。因此,class-conditional概率可以表示成多类分类问题
3所示。主要结果
3.1。多项式回归的多级弹性净损失
稀疏多项式回归的基本思想(20.- - - - - -22),我们符合上述class-conditional正规化多项概率模型的可能性。让。它很容易获得 因此, 让 然后(13)可以写成 请注意, 因此,多项式函数可以定义为损失可能性
为了提高基因选择的性能,以下弹性净损失的多类分类问题,提出了14] 通过梳理多级弹性净损失(18与多项损失函数(可能性)17),我们提出以下多项式回归模型的弹性网处罚: 在哪里代表了正则化参数。请注意,。因此,优化问题(19)可以简化为
3.2。分组的效果
微阵列的分类,它是非常重要的识别相关的基因。在一节中,我们将证明,多项式回归与弹性净点球可以鼓励在基因选择分组的影响。为此,我们必须首先证明不等式定理所示1。
定理1。让优化问题的解决方案(19)或(20.)。对于任何新的参数选为双,下面的不平等 持有,和代表第一个行向量和和和代表第一个矩阵的行和。
证明。注意,不平等适用于任意实数和。因此,下面的不平等
适用于任何对,。从(22),它可以很容易地获得
也就是说,
请注意,
因此,从(24)和(25),我们可以得到
在哪里
方程(26)相当于下列不等式:
因此,不平等(21)持有。这就完成了证明。
在定理使用结果1与弹性,我们证明了多项式回归净损失(19)可以鼓励一个分组的效果。
定理2。训练数据集和假设矩阵和向量满足(1)。如果对()是最优解的多项式回归弹性净损失(19),然后下面的不平等 持有,,是参数矩阵的列,是参数矩阵的列。
证明。首先,我们构造新的参数对,在那里 让 由于双()是最优解的多项式回归弹性净损失(19),它可以很容易地获得 注意,这个函数李普希茨是连续的。因此,我们有 从(33)和(21)和参数的定义,我们有 类比推理,我们有 用(34)和(35)(32)给 也就是说, 从(37),它可以很容易地获得 在哪里。这就完成了证明。
根据不等式定理所示2,弹性的多项式回归净点球可以分配相同的参数向量(即,)来预测高相关(例如,)。这意味着多项式回归与弹性净点球可以选择基因组织根据其相关性。根据技术术语(14),这种性能称为分组效应基因选择多类分类。特别是,二进制分类,不平等(29日)成为 这符合的结果7]。
3.3。求解算法
微阵列是典型的小,大问题。因为基因微阵列数据的数量是非常大的,它会导致的诅咒维度解决提出了多项式回归。提高求解速度,弗里德曼等人提出了成对协调像样的算法,利用稀疏特性的特点。因此,我们选择成对体面的解决多项式回归算法配合弹性净损失。为此,我们将(19成下面的形式: 方程(40)可以很容易地解决了通过使用R包“glmnet”公开。
4所示。结论
结合多项功能损失可能性有明确的概率意义的多级弹性净损失选择基因在组织、多项式回归与弹性净损失提出了微阵列数据的多类分类问题。证明了提出的多项回归鼓励基因选择的分组效果。在接下来的工作中,我们将应用此优化模型真正的微阵列数据和验证特定的生物学意义。
利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是由中国自然科学基金会(61203293,61203293),河南省重点科技项目(122102210131,122102210131),项目为河南省高校科技创新人才(13 hastit040),河南省基础和先进的技术研究项目(132300410389,132300410389,132300410389,132300410432),河南省基础教育委员会(13 a120524),和河南高等学校为青年教师资助计划(2012 ggjs - 063)。