文摘

微阵列基因表达数据提供一种潜在的方式来诊断疾病和癌症进行分类。然而,在生物信息学、基因选择问题,即。,how to select the most informative genes from thousands of genes, remains challenging. This problem is a specific feature selection problem with high-dimensional features and small sample sizes. In this paper, a two-stage method combining a filter feature selection method and a wrapper feature selection method is proposed to solve the gene selection problem. In contrast to common methods, the proposed method models the gene selection problem as a multiobjective optimization problem. Both stages employ the same multiobjective differential evolution (MODE) as the search strategy but incorporate different objective functions. The three objective functions of the filter method are mainly based on mutual information. The two objective functions of the wrapper method are the number of selected features and the classification error of a naive Bayes (NB) classifier. Finally, the performance of the proposed method is tested and analyzed on six benchmark gene expression datasets. The experimental results verified that this paper provides a novel and effective way to solve the gene selection problem by applying a multiobjective optimization algorithm.

1。介绍

在生物信息学(基因选择是一个重要的问题1]。基因是遗传的基本功能单位。基因表达过程中所使用的指令编码在基因合成基因产物(2蛋白质等)。然后,基因产物决定细胞功能。因此,基因表达异常通常与不同类型的疾病,比如癌症(3]。通常,许多疾病与独特的基因表达谱,可以揭示了DNA微阵列技术(4]。通常,微阵列数据对应于一个特定的疾病由一组生物样本。从每个样本,成千上万的基因的表达在每个位置可以测量。因此,微阵列数据通常是一个矩阵的形式。然而,这不是一项容易的任务人员检查哪些基因负责特定疾病由于高维度的微阵列数据。因此,确定如何有效地选择最重要的基因为进一步分析变得迫切和重要。

基因选择问题本质上是一个高维的特征选择问题的特性和小样本大小。由于基因表达数据可以标记(是否样品恶性),部分标记,或无标号,三个类别的方法应用于解决基因选择问题在文献[5]:监督、semisupervised和非监督特征选择方法。因为标签的数据是最常见的类型的数据在现实中,监督特征选择方法是使用最广泛和最实用的基因选择方法的问题。我们将功能(基因)选择方法监督功能(基因)选择方法在接下来的上下文。

在机器学习领域,特征选择,也称属性选择,被定义为相关特性的最佳子集的过程选择从大量的特性6),分类器的性能确实提高了最优特征子集相比,利用所有功能。然而,很难执行特征选择通过保留相关特性和去除不相关和冗余功能。在特征选择有两个主要的障碍。首先,搜索空间的大小是相当大的。给定一个数据集和 功能,有 子集(解决方案)7]。具体地说,大数据持续增长(8), 变得越来越大。因此,在大多数情况下,一个详尽的搜索特征选择是不可能的。第二,使特征选择复杂特征交互问题。例如,作为一个单一的实体与目标无关,但是当加上另一个特点,它可能变得显著相关。事实上,有许多功能之间的交互模式。因此,“ 最好的特性不是最好的 功能”(9]。因此,特征选择方法的性能取决于两个关键因素:(1)有效的质量评估标准来衡量特征子集和(2)一个有效的搜索策略,探索大型搜索空间(10]。

关于评估标准、特征选择方法大致可以分为两类:过滤方法和包装器方法(10]。它们之间的主要区别是,包装方法使用分类器来评估一个特征子集,而过滤方法不。过滤方法是独立于任何分类器和关注的内在特征的数据集。过滤方法中使用的常见指标相关性(11和互信息12]。具体来说,单独检查每个特性的滤波器方法被认为是单变量。他们忽略特征交互问题,导致冗余的特征子集。因此,多元过滤方法,如最小redundancy-maximum相关性(mRMR) [13)被认为是更好的选择。包装方法选择提高分类的性能区别的特征子集。最受欢迎的分类器可以被纳入包装器方法,例如,天真的贝叶斯(NB),再邻居、支持向量机和神经网络14]。普遍认为,过滤方法通常被认为是快,但其精度相对较低。包装方法是相反的过滤方法,因为它们需要考虑分类器的计算成本。因此,结合它们作为混合法的另一种有前途的方法是特征选择问题,特别是对于基因选择问题15]。

有两个主要类别的搜索策略应用于特征选择。第一类是顺序搜索。顺序向前选择和顺序向后选择(16)被认为是传统的方法,但遭受“筑巢效应”(17因为只有一个功能是添加或删除。第二类是一个随机搜索策略,首先随机选择一些特性,然后执行一个启发式搜索。它已证明这些方法基于随机搜索的方法比基于顺序搜索,因为他们可以逃避当地最适条件更容易(10]。具体来说,应用进化计算(EC)技术,如遗传算法(气)(18),粒子群优化(PSO) (19,20.)和差分进化(DE) [21,22)特征选择近年来引起了研究人员的注意。

关于基因选择问题,提出了许多方法基于电子商务技术在文献[5]。这些相关的实验表明,电子商务技术可以实现性能与传统方法相比很有竞争力。例如,穆罕默德等人提出了一种改进的二进制PSO包装器方法,获得积极的结果(23]。Shreem等人提出了一个马尔可夫blanket-embedded和声搜索算法作为包装器方法解决基因选择问题(24],Elyasigomari等人提出了一个基于布谷鸟的过滤方法优化算法和洗牌25),聚类技术的参与。此外,修改人工蜂群算法应用于解决基因选择问题工作的Alshamlan et al。26),搜索方法是增强通过结合两个EC算法。注意,最新的方法基于电子商务技术治疗基因选择问题作为一个简略的优化问题。另一方面,最近的工作(22,27)表明,多目标优化技术方法解决基因选择问题。这是由于单目标多目标转换会导致搜索策略的改进和评估标准;因此,可以获得更有竞争力的结果。然而,最好的作者的知识,采用一种有效的多目标微分进化(模式)的方法来解决基因选择问题尚未很好地开发。

因此,在这项研究中,提出了一种基于多目标优化的两阶段方法。第一阶段包括多元过滤方法,三个目标函数指的互信息结合起来。第二阶段包括传统的包装方法涉及NB的分类器。选定的特征和分类错误的数量合并的两个目标函数在这个阶段。此外,这两个阶段采用相同的搜索策略:一个设计良好的模式。最后,六个基准数据集是用来测试并分析了该方法的性能。实验结果在统计上相比五个常用的特征选择方法。

本文的其余部分组织如下。部分2介绍了三个重要的概念:多目标优化,微分进化和互信息。部分3描述了该方法。部分4提供了实验结果和分析。最后,部分5本文的结论。

2。材料

2.1。多目标优化问题

许多现实世界的问题同时涉及多个相互冲突的目标,应该优化(28]。MOOP是一个多目标的最小化问题,涉及多个目标函数进行优化,并且它可以数学表示如下: 在哪里 - - - - - -维决策向量和 是决定空间。 实值目标函数 在正常情况下,没有解决方案,它可以优化的目标函数,因为这些目标之间的冲突。四个重要定义指MOOPs给出如下。

定义1。(帕累托主导地位)。让 是两个向量。 据说主导 ,表示为 ,如果

定义2。(帕累托最优解)。对于给定的MOOP,一个向量 被称为帕累托最优解如果

定义3。(帕累托最优设置)。所有的帕累托最优解组成的帕累托最优 ,可描述如下:

定义4。(帕累托面前)。帕累托最优设置的形象被称为帕累托 ,这是由目标向量,定义如下: 现实世界的MOOP,帕累托最优 通常是遥不可及的,无限的。因此,优化方法的目标(29日- - - - - -31日是得到一个近似的 ,收敛和多样化的目标尽可能多的空间。此外,一个很好的近似 至关重要的决策者选择最终的解决方案。

2.2。标准微分进化

德是一个简单但功能强大的随机优化算法,首次提出了Storn和价格在1990年代(32]。最近的研究对于解决很多现实问题(增加了效率33- - - - - -35]。德的特点是使用两个候选解决方案之间的差异来生成一个新的候选解决方案。该算法是基于人口和工作通过一个周期的计算步骤,类似于用于共同进化算法的步骤。标准的流程图如图1,它可以分为以下四个阶段:初始化、变异、交叉和选择。

DE优化问题,通过维护一个候选解决方案和人口发展搜索空间中的特定公式。一个个体,也称为基因组,表示为向量形成一个候选人为一个特定问题的解决方案如下: 在哪里 搜索空间的维数和吗 代表了 th的个人 - - - - - -大小的人口在一代

最初,所有的个人 ,也叫目标向量,是随机初始化通过限制问题特定的范围。然后,标准德开始其主循环。在以下步骤每个个体的发展。首先,为每个单独的 ,微分变异算子和生成一个捐赠者向量 如下: 在哪里 是突变的比例因子和控制比例的区别吗 , , 是三个不同的整数,随机选择的范围 注意,这三个整数必须不同于当前索引

接下来,试验向量 是由交叉目标向量 和捐赠向量 一个典型的交叉变异操作采用标准DE由之间交换组件实现 如下: 在哪里 th元素 一个均匀分布随机实数在吗 是控制的交叉率的概率有多少元素 是继承自 ,这可以确保 获得至少一个元素 ,一个随机整数在吗

然后,选择过程更新所有个人执行如下: 在哪里 是德的单目标函数。

最后,DE终止时停止标准是满足。

2.3。互信息

在信息理论36],两个变量的互信息量化它们之间的相互依赖。这个指标措施有力地两个变量之间的相关性和抽样的噪声不敏感37]。给定两个连续变量 ,他们的互信息可以定义如下: 在哪里 的概率密度函数是 ,分别为, 联合概率密度函数。因此,如果两个变量是严格意义上的独立,他们互信息= 0。类似地,两个离散变量 ,互信息具有以下形式:

给定两个变量 ,互信息的范围 他们之间 ,在哪里 是一个变量的函数来计算熵。

尽管互信息已经被认为是一个很好的指标来量化两个变量之间的独立性,其计算是不容易的,因为估计概率密度函数是一项复杂的任务。如果两个变量是离散的,互信息的计算很简单通过计算样品在困难的类别,使关节和边际概率表。然而,如果至少有一个两个变量是连续的计算变得困难。在这项工作中,我们使用熵估计再基于距离(38)来计算互信息。

3所示。方法

在本节中,提出的基于模式的两阶段方法。图2说明了该方法的流程图,它由两个阶段组成:过滤阶段和包装阶段。在后面的阶段,提出了一种新颖的基于模式的包装方法。此外,两个简略包装方法提出了基于德在这个阶段。这两个简略的方法作为基线测试MODE-based包装器方法的性能和帮助我们调查如下:(1)是否有必要考虑选择特征的数量包装器方法,(2)是否基于多目标优化的方法优于基于简略优化的方法。

3.1。多目标差分演化

由于德解决简略优化问题的有效性,延长DE解决MOOPs吸引了研究人员的兴趣在文献[34]。DE延伸到模式的两个重要问题需要克服。第一个问题是如何订购两个候选解决方案。订单当一个解决方案的解决方案直接支配着其他的解决方案。然而,如果两个候选解决方案并不占主导,一个额外的策略分配必须提供完整的订单。第二,一个有效的计划维护一组nondominated解决方案在优化过程中是必要的。与简略优化问题,只有一个生成全局最优解,MOOPs的目标是获得一组nondominated解决方案。因此,集的收敛性和多样性nondominated应该保障的解决方案。一种广泛使用的方法是采用外部存档夫妇与当前人口(30.]。

拟议的框架模式遵循的标准,在图所示1。外部档案存储nondominated与当前人口的解决方案。此外,变异算子和选择算子,它不同于标准的DE算法,修改。关键部件的模式如下所述。

3.1.1。外部存档
输入:一个目标向量 及其试验向量
结果: 和更新
开始
如果 然后
;
其他的如果 然后
;
添加 如果标准是满足;
其他的
其他的
/∗ nondominating彼此。
检查 是由一个解决方案
如果 然后
其他的如果 然后
;
添加 如果标准是满足;
其他的
/∗Nondominated。
计算的拥挤距离 , ,指的是
如果 在一个拥挤的地区比吗 然后
;
添加 如果标准是满足;
其他的
;
添加 如果标准是满足;

采用外部档案存储nondominated解决方案是一种常见的和有效的方法在许多多目标进化算法(39,40]。同样,存档 有限的规模 维护优化过程中提出的模式。一个解决方案 将被添加到 如果满足下列标准之一。(1) 是空的。(2) 不是完整的, nondominated是什么解决方案吗 (3) 在至少有一个解决方案 请注意,在这种情况下,由这些解决方案 将被删除从 (4) 是完整的, 与任何一个解决方案nondominated在吗 在这种极端的情况下, 首先是添加到 ,和密度估计操作执行分配每个解决方案一个拥挤距离值(见部分3.1。2)。然后,解决方案在最拥挤的地区将被删除

存档 与当前的人口在两个方面。首先,方程生成一个捐赠者向量 (见方程(7修改)) 在哪里 是一个解决方案,随机选择从外部存档吗 而不是目前的人口。这种处理方法的灵感来源于标准的突变策略DE /最好/ 1 (41]。 可以被认为是一个最好的解决方案,存储在存档吗 第二,选择操作符(见方程(9))的模式修改,见算法1,当前人口之间的交互和存档 将会增强。因为档案的更新方案 是基于拥挤信息,存档 将及时更新在每个迭代中,和这些nondominated的收敛性和多样性的解决方案 可以保证。

3.1.2。密度估计
输入:一个解决方案 和外部存档
结果:计算拥挤距离
开始
0
如果 然后
0
返回;
如果 然后
附加 暂时的;
/∗删除 后计算。
的长度
每一个客观的
所有的解决方案在升序排序 根据 ;
得到新索引
如果 然后
其他的
;

许多密度估计方法提出了在文献[29日,30.]。在我们的方法中,parameter-independent称为拥挤距离的方法是用来协助帕累托优势分配完整的秩序。的基本思想是解决在目标空间的拥挤程度量化的邻国之间的距离。对于一个给定的解决方案 和存档 ,的拥挤距离 可以通过算法计算2。这种方法类似于方法用于nondominated排序遗传algorithm-II (NSGA-II) [29日,解决方案的拥挤距离是长方体的周边邻国形成的。

3.1.3。参数控制

突变的比例因子 (见方程(7))和交叉率 (见方程(8)是德的两个主要控制参数的调优的设置 对德(的性能是至关重要的41]。然而,决定如何设置合适的值 是问题特定的。选择合适的参数 ,我们遵循的自适应差分进化(萨德)[42),使用一个自适应的策略来控制模式中的两个参数。

使用参数控制策略描述如下。在每个迭代中,一组 价值观是再生从正态分布的均值 和一个标准差 然后,这些 值有序应用于方程(12)生成捐赠者向量。通过这种方式,开发(小 值)和探索(大 在进化过程中保证值)。此外,交叉率 逐渐在进化过程中根据经验调整。具体地说, 假定服从正态分布的意思吗 和一个标准差 但仅限于 最初,创建一个空池, 设置为0.5。在每个迭代中,一组 价值观是再生和应用生成试验向量,如方程所示(8)。如果某个试验向量成功取代其目标向量在选择过程中,相应的 值将进入游泳池。在每个迭代结束时,新的 复位的中位数池,池清空。

3.2。特征选择的实现模式
输入: ,特性集 ,和阈值
结果:特征子集
开始
整数
如果 然后
;

该模式是一种优化方法在连续空间。然而,特征选择问题是离散的景观。实现模式特征选择,二进制策略纳入拟议的方法。对于一个给定的数据集 特性 ,模式表示为候选解决方案 在哪里 维度的数量吗 ,它等于数据点的维数。因此,一个功能子集 是由 和一个预设阈值参数 ,所示算法3。这种策略也是基于DE受雇于两个简略的方法。

3.3。三个目标的筛选阶段

的第一阶段,该方法被认为是一个多变量筛选方法的内在特征被认为是原始数据。三个目标函数最小化在过滤阶段评估中定义一个功能子集。第一个目标函数的数量选择的特性,它被认为是一个特征选择的主要动机。以前的作品(27)证明,将选中的数量特征作为特征选择的目标是必要的。对于一个给定的特征子集 ,第一个目标函数被定义为

第二目标函数努力选择最高的特征与目标类变量(贴上恶性与否)。这一目标旨在最大化之间的相关性特性和目标类。独立的选择特征的数量 ,它可以定义如下: 在哪里 目标类变量和吗 之间的互信息特性 和目标类

此外,每一对所选特征之间的冗余应该缩小因为冗余信息,提高分类器的精度(43]。第三个目标函数的目的是最小化冗余的特征子集,并定义如下:

3.4。两个目标的包装阶段

第二阶段的方法包括一个包装器方法,应考虑使用分类器。如图2后,一组nondominated生成解决方案筛选阶段。虽然每一个解决方案可以接受第二阶段的起点,似乎更合理选择其中一些典型的解决方案根据计算成本。由于过滤阶段的目的是选择少量的信息特征,我们选择解决方案的最小的数特征作为输入的包装阶段。最小化分类器的分类错误率的主要目标是包装阶段。在这项研究中,著名的和有效的高斯NB (44应用分类器。NB分类器是一种监督学习方法的分类、基于贝叶斯定理,并假设每一对特性无关。NB的高斯NB分类器是最先进的类型分类器来处理连续数据的连续值的一个特殊特性是符合高斯分布假设。在选择一个合适的分类器,包装阶段的两个目标函数可以定义如下:

根据雪的指导等。27),第一个目标函数最小化的定义是选定的数量特征。在以下内容中,我们调查是否有必要可以选择特性作为目标的数量在包装阶段。此外,所选特征子集的平均分类错误率的定义是第二目标函数,由5倍交叉验证评估训练数据。更详细的描述如何执行5倍交叉验证对训练数据(45]。

3.5。两个简略的特征选择方法

两个简略特征选择方法基于德也提出了比较在包装阶段。这两种方法之间的主要区别是健身功能的选择。适应度函数的方法(DE1)是一样的模式的第二目标函数在包装阶段,定义如下:

DE1的目的是在训练过程中分类错误率降到最低。然而,另一种方法(德)认为选择特征的数量。德的适应度函数定义如下: 在哪里 是一个尺度参数的相对重要性决定两个条款和 是5倍交叉验证的平均分类错误率在训练数据。

有效地制定一个公平的比较,提出模式中,选择两个DE-based方法的过程是类似上面提到的模式。MODE-based方法之间的差异和DE-based方法的选择过程和更新策略是外部存档。两个DE-based方法的选择过程是一样的标准,如方程所示(9)。的更新策略的外部存档两个DE-based方法是基于有限的比赛规模

4所示。实验研究

本研究中的所有算法实现在C和Python语言。执行程序在Linux 64位系统3.4 GHz酷睿i5处理器和8 GB RAM。此外,模式中使用的参数表列出两个阶段1,上面所讨论的。评估的性能提出了两阶段的特征选择方法,选择六个常用的微阵列数据集标准在我们的实验。这些数据集进行了总结在表的细节2。注意,所有的数据集都是二进制。的原因不包括多级数据集是二进制领域的更常见基因微阵列数据集选择(46]。

因为样品的数量在微阵列数据集相对较小,5倍交叉验证应用于每个数据集评估的有效性特征选择(46]。具体来说,每个数据集的样本是随机划分为五个次级样本。四个次级样本作为训练数据,其余的子样品作为测试数据。然后,先后五次重复交叉验证过程。5倍交叉验证实验的流程图如图3。使用训练数据的特征选择方法选择特征子集。然后,所选特征子集用于减少训练数据和测试数据的尺寸。最后,所选特征子集的美好是评估通过使用测试数据。

4.1。过滤阶段的结果

该模式在这些基准数据集是第一个在过滤阶段实现。阈值 为每个数据集问题特定的和设置正确。自从模式获得一组nondominated解决方案在每个独立运行,五个独立集nondominated解决方案的三个目标是生成的。我们收集五套nondominated解决方案为工会组和报告统计数据表3。很明显,取得了卓有成效的解决方案,因为这三个目标的价值大幅波动。此外,小的值 表明,一些功能选择,过滤阶段的有效性。

4显示了nondominated结肠数据集的解决方案在一个实验中。这些解决方案被映射到 空间。类似的结果也可以获得剩余的数据集。图4显示, 强烈冲突沿着曲线。这加强了分解的合理性作为优化的两个目标。此外,常见的统治模式可以在图中找到4。例如,解决方案 nondominated, , 很容易得出结论 这个发现支持我们前提是简单地减少功能的一个子集的数量可能会减少其密实度。因此,有必要使用不同的标准来衡量质量的一个功能子集。

第一个目标 用于直接搜索过程和减少选择的数量特征。观察第一个目标的变化在进化过程中,人物5显示的收敛曲线的平均值 归档文件中存储的解决方案 为每个数据集。我们发现选择特性的平均数量迅速收敛,最后稳定在某一值。这意味着过滤结果不敏感的迭代的最大迭代数 已经设置足够大。此外,收敛速度和稳定数量的选择特性依赖于每个数据集的内在特征。例如,白血病和前列腺癌也有类似的尺度,但收敛于不同的值。前列腺癌有最多的功能,但其收敛速度是最快的。

4.2。结果包装阶段

接下来,该模式是采用包装阶段。受近期作品(22,47),阈值 所有数据集设置为0.5。最后,五个独立组nondominated生成解决方案有两个目标。此外,提出多目标性能的方法,分析上述两种简略的方法执行相同的设置。他们还为每个数据集生成五个独立的解决方案。注意,对于德,分类性能更重要;因此, 将方程(0.219)。

因为每个方法生成的五套nondominated解决方案,这将是很难比较这些方法的性能。我们使用以前作品中采用的比较方法22,27]。值得注意的是,相比,分类性能评估和测试数据,而不是训练数据。具体地说,五套nondominated解决方案,通过该模式在5倍交叉验证首先被收集成一个联盟集。然后,计算每个解决方案的测试分类错误,测试分类错误的解决方案,具有相同数量的特性是平均的。此外,“平均”解决方案的集合定义为“一般”。nondominated集解决方案和目标 和工会的测试分类错误的定义是“最好”的前面。两个简略的方法,此外,我们还收集这些解决方案为工会组,和相同的处理方法应用于联盟集。最后,三种方法的性能可以比较这三个联盟集。

三种方法的实验结果在基准数据集数据所示包装阶段67。水平轴代表的数量的选择特性的解决方案,和纵轴代表了测试分类错误率。虚线穿越每个图表代表平均分类错误率的5倍交叉验证使用所有功能。此外,在每一个图表,传说“avg”的标签是指平均每个方法获得的面前,和标签“最好的”是指最好的面前。

数据显示67的平均方面下的三种方法是在大多数情况下虚线。这表明所有的方法有效地工作,因为他们的解决方案实现测试分类错误率较低,选择更少的特征。此外,平均波动曲线方面意味着解决方案与同样数量的特性可以有不同的测试分类错误率。这意味着搜索空间是相对复杂的特征子集。

当我们与其他两种方法比较DE1,很明显,DE1的分类性能类似于其他两种方法在大多数数据集,但是选择的数量特征DE1相当大的比其他两种方法。这是因为没有任期的适应度函数DE1(方程(18)考虑选择特征的数量。实验结果强烈建议的必要性考虑分类器的分类精度和功能特征选择的数量。

模式和德考虑特性健身功能的数量。然而,前者方法使用多目标技术,而后者方法使用一个简略的技术。如左边所示图表的数据67,这两种方法成功地实现分类错误率低,选择更少的特点。当我们比较这两个方法,它可以观察到模式优于德。模式实现测试分类错误率明显降低在大多数数据集除了白血病的“平均”方面。此外,模式获得更少的特征。的“最好”的领域,模式的性能也优于德因为更少的特性和较低的测试模式获得的分类错误率。尽管一个微调参数 在方程(19)可以提高德的性能,它需要先验知识和正确应该是预定义的。结果证明该模式的优势在包装阶段。

4.3。与其他方法相比

进一步评估的性能提出了基于模式的两阶段方法,我们比较了七个常用的特征选择方法。GainRatio [48]和ReliefF [49)是两个单变量的特征选择方法。这些方法提供每个特性订单排名根据特性之间的相关性和目标类。我们保留了前10名,前20名,前40名特性来评价这两种方法的性能。mRMR [13)是一个经典的基于互信息的特征方法,它返回与一个预定义的功能的一个子集的大小。我们返回的数量设置功能10,20,40岁。Correlation-based特征选择(CFS) (50)也是一个经典的多元特征选择方法并返回功能的一个子集。WrapperNB [45)是一个包装器方法加上NB分类器。该方法的搜索策略是贪婪的希尔攀登增强回溯设施。此外,两种包装方法基于遗传算法和粒子群算法进行了比较。基于文献[的参数设置51,52),人口规模 和最大迭代 这两种方法将50和100年,分别。遗传算法的关键参数设置如下:交叉率 ,变异率 ,和精英 算法的关键参数设置如下:惯性权重 和加速度常数

我们用5倍交叉验证和遵循工作流图3执行实验。最终的分类器是NB面前。提供一个公平的比较,该方法,我们选择的解决方案在培训前的帕累托联盟由于测试数据不可见,直到最终的绩效评估。专门培训前的帕累托联盟设置根据训练分类性能和构造特征的数量。在测试数据上执行比较,表中列出的结果4 代表平均分类精度测试, 代表的数量选择基因(特性)。如表中所示4,该方法获得最佳的分类性能三(6)问题。此外,它可以选择少量的基因选择的特性和实现这个目标。

我们进一步进行Wilcoxon符号秩检验来确定之间的显著差异提出的方法和其他方法。显著性水平设置为0.05, 列在表格4。很明显,该方法明显优于8(14)的方法,因为 值小于0.05。此外,对于剩下的六个方法, 值大于0.05。这表明该方法不是更好,但仍获得竞争的结果。因此,我们可以得出结论,该方法可以被认为是一个竞争非常激烈的方法相对于经典方法。比较结果表明,提出的基于模式的两阶段方法是一种很有前途的方法来解决基因选择问题。

5。结论

基因选择问题是一个特定的特征选择问题,在生物信息学仍然是具有挑战性的。本文提出了一种两阶段的特征选择方法来解决基因选择问题。包括多元过滤方法,第一阶段和第二阶段包括包装方法。这两个阶段是基于相同的模式,但具有不同的目标函数。的目标函数过滤阶段主要是基于互信息。NB分类器的分类误差和选择的数量特征被合并为两个目标函数在包装阶段。在我们的实验中,六个常见的基准数据集被用来测试并分析了该方法的性能。此外,该方法的有效性,解决基因选择问题验证了通过比较它与五个经典的方法。因为两个阶段之间的主要区别(过滤器和包装)是目标函数,该方法被认为是一个容易理解的实现。

本研究提供一个新的视角为解决基因选择问题,利用多目标优化,因为解决方案的想法非常不同于基于简略优化的方法。在未来,我们计划将该方法应用到更多的基因表达数据集来验证其有效性。改善性能的方法,搜索策略和评估标准也将受到持续关注。

数据可用性

使用的数据来支持本研究的结果都包含在这篇文章中,可以获得相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究得到了常州大学的有才华的学者研究基金会(批准号ZMF20020459)和jsp KAKENHI(批准号19 k12136)。