文摘

高维生物信息学数据集提供一个优秀的和具有挑战性的研究问题在机器学习领域。特别是,生成DNA微阵列基因表达数据高维度显著水平的噪音。监督学习内核的支持向量机分类器已成功应用于生物医学诊断等识别不同种类的肿瘤组织。相关内核最近应用于支持向量机(svm)分类问题。在本文中,我们开发一种新颖简洁的半正定的内核。实验显示了提出内核具有更好的性能,相比通常的相关内核。此外,我们提出一种新的基于相关矩阵将内核技术处理不确定的内核。生成的内核显示半正定和展品性能优越,上面提到的两个内核。然后,我们将该方法应用到一些癌症数据在识别不同的肿瘤组织,为疾病的诊断提供信息。数值实验表明,我们的方法优于现有的方法,如决策树方法和资讯的方法。

1。介绍

在当前的角度来看,支持向量机(svm)证明标准文本分类等各种学科和时间序列预测,他们已经逐渐成为最受欢迎的DNA微阵列数据分析的工具(1]。支持向量机首次用于基因功能预测问题,后来他们也应用于癌症诊断基于组织样本(2]。支持向量机的有效性取决于内核的选择。最近相关的内核与支持向量机已经成功应用在分类。之间的相关矩阵给出了相关系数的所有列在一个给定的矩阵。准确地说,在一个相关矩阵, 入境措施之间的关系 th列和 一个给定的矩阵的列。相关矩阵的对角元素都等于1,因为他们计算出相关的所有列。此外,相关矩阵是对称的,因为之间的相关性 th列和 列之间的关系是一样的 th列和 列的矩阵。有几种可能的相关系数,最受欢迎的一个是皮尔逊相关系数,例如[看到3]。在一个完美的正线性相关,皮尔森相关系数 。而 表明一个完美- anticorrelation。通常躺在间隔的关联系数 ,表明变量之间的线性相关程度在一个给定的矩阵。相关矩阵的一个重要属性是它总是半正定。

相关的内核与支持向量机是最近在生物研究中的应用。它可以有效地用于嘈杂的拉曼光谱的分类,例如(见4,5]。内核相关的建设涉及到使用特定的距离度量问题但这是不太常见的内核的方法。相关内核self-normalizing也是适合的分类预处理最小的拉曼光谱。相似性度量定义在内核中描述了两个数据实例之间的相似之处。通常的半正定性质相关的内核是保证如果相关矩阵本身是半正定的。

内核矩阵带来许多实际应用不定,因此不适合学习内核。这个问题已经解决了由不同的人员,例如[6- - - - - -9]。一个流行和简单的方法是将无限期内核为了产生的光谱半正定的。代表等去噪方法将负特征值视为无效(10]。的翻转方法翻转负特征值在内核的符号矩阵(11]。的扩散方法将特征值转换他们的指数形式12)和转移方法应用积极转变特征值(13]。

考虑相关矩阵是半正定,因此,我们可以构造一个吝啬的内核矩阵,这样积极的semidefiniteness自动满足。这部小说的内核是迄今为止到目前为止第一个应用程序分类问题。除此之外,我们也提出一个内核与通常的相关内核分享相似的表达。然而,去噪方法应用相应的内核构建一种新颖的半正定矩阵。我们选择的原因去噪方法是,技术已成功地应用于蛋白质分类问题(14]。这表明,它可能有一个重要的角色在分类为其他生物数据集。

本文的其余部分的结构如下。节2介绍一般的建设相关的内核。我们提出了吝啬的半正定内核以及小说的内核去噪与通常的内核有相似属性相关的内核。理论证明在半正定吝啬的内核提供的属性。我们也给解释特定属性相关的内核。节3利用公开的数据集,检验该方法的性能和比较先进的方法,如资讯法和决策树法。讨论的结果是部分4。最后给出结论部分5

2。拟议的吝啬的积极半明确的内核方法

在本节中,我们首先介绍常用的相关内核。根据通常的半正定性质相关的内核,然后,我们提出一个吝啬的半正定的内核。除此之外,我们的小说的内核,即DCB内核将(基于去噪的相关性)。

2.1。通常的相关内核

在本节中,我们假设 数据实例的数据集。功能用于描述一个数据实例的数量 。数据矩阵可以表示为一个 我们表示矩阵如下:

它是容易获得的相关矩阵 。在这里,我们假设关联矩阵 。然后我们有 在哪里 数据的样本均值矩阵吗

相关性是一个mean-centered距离度量,不常见的内核结构。然而,它是一个重要的指标和具体问题。通常的相关内核是基于上面定义的相关矩阵的构造。和内核之间的价值

这种内核定义适当的描述两个数据实例之间的相似性。是直接内核矩阵的对称性质。更好地了解内核的矩阵,我们可以描述如下: 在哪里 , 。下列命题提出了关系

命题1。通常的相关内核是半正定 是半正定。

证明。内核是对称的,我们有相关性 , 。如果我们表示 , , 然后我们有以下的描述内核矩阵: 因为 ,我们有 更重要的是, 有相同的明确的财产 使用内核方法在机器学习领域,我们可以看到,如果 是半正定的,那么平时相关内核也是半正定。

2.2。一个吝啬的相关内核

处理一个内核的半正定要求矩阵,在本节中,我们提出一个吝啬的内核就是相关矩阵 。下面的命题表明提出的内核是半正定。

命题2。矩阵 是一种半正定矩阵。

证明。从(3),我们知道 th的条目 是由
或者,我们可以写
如果我们表示 从内核的可分性矩阵,我们可以重写 。然后对任何 我们有
如果我们进一步假设 然后
这表明 本身是一个吝啬的内核自动满足半正定矩阵属性。

因此, 可以使用作为一个内核矩阵训练分类器机器学习框架。这进一步证明了平时的积极semidefiniteness correaltion矩阵。

2.3。去噪Correlation-Based内核

通常的相关成功经验的内核在拉曼光谱分类,我们构造一个新的内核利用通常的内核相关的优势。去噪correlation-based内核结构包括两个步骤。首先,我们制定一个内核的矩阵分享相似的属性通常相关的内核。第二,去噪应用技术来构建内核半正定矩阵。上述观点可以归纳为以下两个步骤。

一步1(一个新内核)
在这里,我们提出一个新的内核与通常的等价属性相关的内核。这是定义如下:
我们可以用另一种方式如下: 在哪里 也有类似的表达,通常相关的内核。

一步2(去噪策略)
为了避免问题的负的semidefiniteness内核的矩阵,我们结合去噪在内核中建设策略。因为 ,在那里 是矩阵的特征向量组成的矩阵呢 是一个对角矩阵,对角矩阵的特征值是条目 然后我们表示它
去噪策略是对角矩阵变换 到另一个对角矩阵 , 在哪里
最后, 是一个内核半正定矩阵。

2.4。材料

我们准备了三个公开数据集从libsvm15)与三种类型的癌症有关。

第一个数据集是与结肠癌有关。数据集,有22个正常和40结肠肿瘤组织。每个组织的特点是强度最高的2000个基因最小强度通过样品16]。预处理过程是通过instance-wise规范化标准正态分布。然后执行feature-wise规范化标准正态分布。总共有62与2000年数据实例的特性。有40个积极的数据,这意味着40展示结肠癌,而22是正常的。

第二个数据集是与乳腺癌有关。类似于第一个数据集,同样的预处理技术应用于数据规范化。最初,有49个肿瘤样本。他们是来自公爵乳腺癌孢子组织资源。他们被分为两组:雌激素受体阳性和雌激素受体阴性,通过免疫组织化学(17]。然而,分类结果使用免疫组织化学和蛋白质免疫印迹分析矛盾,5人然后删除。因此,总共有44数据实例,21是消极的和23个是积极的。基因用于描述肿瘤样本的数量是7129。

第三个数据集是与白血病癌症有关。数据集预处理是一模一样的前两个数据集。数据集是由38骨髓样本,27人急性髓系白血病,其余11人急性淋巴细胞白血病(18]。7129个基因的表达水平是用来测量每个数据。

3所示。数值实验

我们提出的方法比较以下三个最先进的方法。

(我)决策树
决策树学习是一个常用的数据挖掘方法。它采用决策树是一个预测模型对一个项目映射到结论项的目标价值。在这些树结构,树叶代表分类和树枝代表连词的功能,导致这些分类。

(2)再社区(资讯)
最近邻居算法是最简单的方法在所有机器学习算法。对象分类多数票的邻国,与被分配的对象类中最常见的 最近的邻居( 是一个正整数,典型的小)。如果 ,然后分配给类的对象仅仅是其最近的邻居。

(3)支持向量机(svm)
支持向量机结构的超平面超平面或一组高,或者无限维度空间,可用于分类。好是通过分离超平面,最大的功能优势,是距离最近的训练数据点的任何类。

在这项研究中,我们使用资讯的方法 和决策树算法进行比较与我们提出的内核和吝啬的相关性去噪与SVM correlation-based内核。目的是展示我们的优势提出内核通常相关的内核。

1,2,3不同算法的预测精度比较。在这里,我们介绍一些最先进的模型比较的目的,他们是决策树方法和资讯的算法。在这项研究中我们采用5倍交叉验证设置。得到一个相对稳定的结果,10次5倍交叉验证和执行精度测量的平均精度在10分。最好的性能以粗体标记尺寸表。

结肠癌的数据集,决策树展览资讯算法相比性能低劣。然而,决策树和资讯算法不能比通常的相关内核时做得更好 。为不同的值 ,通常相关内核的性能广泛不同。时达到最佳的性能 采用。但是,当 ,只有在 精度。

对于乳腺癌数据,决策树算法表现好于资讯。决策树的准确性 然而,算法,但是,最好的结果是 这是明显低于 。但他们仍然不能赶上内核时,通常的相关性 这是 。类似于结肠癌数据集,当 ,内核通常的相关性差,精度只有 ,分别。作为结论,总体上吝啬的相关内核和去噪correlation-based内核是最好的两个。

最后对白血病数据集,决策树方法和资讯算法的精度高于一般相关内核。他们都是在 而通常的最佳性能相关的内核 ,不到 。然而,吝啬的内核和相关性去噪correlation-based内核可以达到超过0.9000精度。

我们可以得出结论,通常相关的内核, 确保最佳的性能。因此我们选择 在接下来的研究。数据1,2,3显示性能的10分3 10倍5倍交叉验证的数据集。价值 标签是指 运行。和 标签是指平均每个10倍5倍交叉验证的准确性。我们比较决策树方法,然而算法,通常相关内核和2提出了半正定内核:内核和吝啬的相关性去噪correlation-based内核。数据清楚地表明我们的优越性2提出内核(就像在主演绿色和黄色钻石数据)在所有其他算法相比。

4介绍了PC的主导特征值内核和DCB内核。我们观察到的主导特征值为内核和DCB PC内核彼此非常接近,差距只有0.0168。这解释为什么两个算法表现出相似的性能。结肠癌数据集,不同的主导特征值是0.1421。而对于白血病数据集,最大的区别是:0.3048。一个可以看到性能差异也最大,DCB内核在PC内核的优越性是最明显的。的主导特征值的差异是一致的在分类性能的差异。不同特征值越大,差异越大的分类性能。

4所示。讨论

从表中,可以看到一致的优势去噪correlation-based内核的分类。都可以达到最好的3测试数据集。和半正定吝啬的内核是第二个最好的在所有的算法比较。此外,我们观察到没有占主导地位的优势为决策树或其他资讯算法。

从通常的角度相关的内核,在结肠癌数据,最好是与决策树和资讯算法相比,平均精度坐落 而决策树和资讯算法不能超过 一般来说。在乳腺癌的数据中,可以得出类似的结论通常相关的内核。第二对我们提出了PC内核和DCB内核,它排名3所有的调查方法。但在白血病数据集,加州大学内核是最低的准确性。它不能与所有其他的方法。这个结论也没有占主导地位的优势UC内核在决策树方法和资讯的算法。

如果我们专注于2的比较提出了半正定内核:PC内核和DCB内核,我们还可以得出一些结论。乳腺癌的数据,这两个显示类似的性能。但对于结肠癌数据和白血病数据,DCB内核中展示了其优越性。优势的原因是白血病数据集更清晰。解释的差异可能可以主导特征值理论。在金融领域,最大的特征值提供了一个粗略的最大可能的风险投资市场19]。的主导特征值是一个提供最有价值的信息的动态矩阵来自[20.]。

5。结论

在这项研究中,两个半正定内核我们称之为吝啬的相关性提出了内核和去噪correlation-based内核在识别不同的肿瘤组织,提供诊断建议。我们提供了理论插图的半正定性质通常相关的内核。考虑的积极semidefiniteness相关矩阵,提出2半正定内核。2提出了内核的可靠性结合支持向量机演示了通过3公开数据集相关癌症肿瘤的歧视。比较先进的方法和决策树方法和资讯的算法。调查2提出了半正定内核的性能分析与特征值进行了理论支持。该内核强调积极semidefiniteness内核结构的重要性。作为内核的小说内核使用距离指标建设不常见的机器学习框架,该内核希望被应用在更广泛的领域。

确认

作者要感谢匿名裁判对他们有益的意见和建议。研究支持部分平格兰特和港大CERG资助,中国国家自然科学基金批准号10971075。