文摘

本文提出一种方法来选择一组来自大量的基因的基因分类类型的疾病的能力。拟议的基因选择方法设计根据相关分析和95%参考值范围的概念。方法非常简单,使用所有基因的信息。我们使用的方法在白血病患者,取得了良好的分类效果。

1。介绍

在癌症的临床治疗中,相应的处理方法和措施是基于肿瘤的正确分类。传统的分类方法是基于肿瘤细胞形态、但有时相同的肿瘤组织病理学类型有不同的对治疗的反应。所以它成为当前的研究热点分类肿瘤类型使用基因组学(1,2]。

基因芯片实验技术提供了强大的技术平台,在基因组学肿瘤分类。歧视分析的基因表达水平在不同类型的疾病,患者的歧视函数建立了可用于协助临床病例分类(3,4]。

随着基因芯片有大量的基因,并不是所有的这些基因将提供信息的分类类型。当基因的表达水平在不同类型的组织样本不改变,这些基因有统计上没有或只有小歧视能力。这些基因是多余的。

不包括这些基因没有分类能力将有助于优化基因歧视功能方便实用。因此,有必要从大量选择具有分类功能的基因的基因(5]。

逐步判别分析是一种常用的统计方法为变量的选择。然而,对于包含成千上万的基因的组织样本,逐步歧视分析模块在常用统计软件SAS和SPSS等不能正常工作。

摘要基因筛查方法,可以分析基因的分类功能从成千上万的基因和选择基因对基因分类。目前的新方法在实践中取得了良好的效果。

在下面几个部分中,我们描述我们的研究基因的统计方法筛选与肿瘤分类识别能力。

在方法描述我们的基因筛选的新方法。

结果我们提供一个应用程序的方法在白血病患者的分类研究。

一些结论提出了讨论。

2。方法

让一种疾病有两个亚型 。总共有 疾病的病例。其中, 案件类型 案件类型 。一个肿瘤组织样本获得从每个病人。的表达水平 基因 每个组织样本被检测到的基因芯片。

2.1。每个基因的相关系数计算和分类向量

如果我们列表 类型的情况下 第一次和 类型的情况下 的尾巴,然后将相应的分类向量 ,在那里 对应的情况 。如果这个案子 的类型是 ,然后 ,否则 , 。因此,分类向量的形式

让分数的平均值和标准偏差的基因 组织样本的类型 ,分别。同样,得分的平均值和标准偏差的基因 组织样本的类型

基因的相关系数 和分类向量 被定义为

的绝对值越大 ,基因的相关性越强 和分类向量 。换句话说,基因 有能力区分类型 和类型

从公式(1我们可以计算 基因

2.2。确定关键基因筛查的价值

随机排列分类向量的向量

我们现在执行以下三个步骤为每个随机排列向量的计算 , (1)收集第一 病例 表示为一组 其余病例 表示为一组 (2) ,计算 对应于 对应于 ,分别。(3) ,计算

从上面的计算,我们得到的相关系数 和基因表达水平 随机排列向量 , 如下:

对于一个给定的值 和向量 ,表示的基因数量相关系数不小于 作为 和基因的数量相关系数不大于 作为

对所有 , ,我们可以定义以下公式: 在哪里 是基因的数量与向量相关系数 不少于 是基因的数量与向量相关系数 不大于 ,

正确的5%分位数的 项目 表示为 和正确的5%分位数的 项目 表示为

通过增加的价值 渐渐的我们可以得到

如果我们画两条曲线 在飞机上,我们可以看到一个十字路口。十字路口的横坐标表示 (见图1)。

同样的,对于每一个 我们也有

如果我们画两条曲线 在飞机上,我们可以看到一个十字路口。十字路口的横坐标表示 (见图2)。

。如果 ,那么基因 被认为有能力区分类型 和类型 。因此,它可以作为歧视的指数函数 ,

3所示。结果

我们有我们的方法应用于白血病患者的分类研究。我们获得了 数据矩阵通过组织样本的38例临床诊断白血病病人和7129个基因表达水平被发现每个案例的组织样本。38例,27例被诊断为急性淋巴细胞白血病(ALL)和11例急性髓系白血病(AML)。前两种类型的歧视分析,7129个基因筛选首先使用本文中的方法。

有38个组件分类向量 ,whichrepresentsthe原始classificationvector。第一个27的组件 1最后11的组件吗 都是0。每个基因的表达水平的相关系数和分类向量 计算公式(1)。表1频率分布表7129相关系数的绝对值。

我们生成500个随机排列向量 500倍的随机排列的向量 。的相关系数 每个基因的表达水平和分类向量 计算公式(1)( , )。

为6的值 之间的 和所有 ( ),我们计算 由公式(5),那么他们的5%分位数 。计算结果如表所示23

从数据的表23,我们可以画出相应的曲线如图34

从数据34我们可以阅读

因此,

总共有893个基因满意

通过两种歧视分析组织样本的38个白血病患者使用893个基因表达水平的变量,我们可以构建一个歧视的功能。38例被识别和分类使用歧视函数(函数回顾性评估)的歧视。误判是0。

我们已经建立了一个前瞻性评估函数的歧视。

数据来自麻省理工的网站(6]。有34例白血病患者(其中20例,14例AML)。893基因被替换到歧视功能和分类的数据类型。误判为0.02。

基于上述的评估,我们认为歧视函数建立了从7129个基因选择893个基因具有区分能力的使用我们的方法可以是一个不错的歧视函数分类白血病患者和它将提供一个好的参考有效的治疗方法。

4所示。讨论

统计方法的分类,逐步歧视分析主要用于变量选择。基因微阵列数据的数量非常大,逐步歧视分析模块在常用统计软件SAS和SPSS等不会正常工作。我们试图筛选基因分类能力对整个样本的7129个基因的27例淋巴细胞白血病和11例急性髓系白血病(aml)。电脑程序崩溃时判别分析、主成分分析方法应用的基因数量太大。因此,我们不能进行判别分析和主成分分析的数据集在个人电脑。

因此,在这样一个筛选大量的基因芯片数据,利用逐步判别分析筛选基因与分类能力的个人电脑是不可行的。

共同解决这个问题就是将大量的基因数据分成几个组的基因。选择每组的基因分类能力的逐步判别分析在每一组基因表达水平。最后,这些歧视每组的功能组合在一起,形成一个功能为整个基因歧视。

然而,这种方法也是不够的,因为基因分离之间的联系人为基因群。多基因联合效应与肿瘤疾病、分离基因之间的联系将减少最终选择基因的分类能力。这将反过来影响分类精度的新样本的后续分析,结果也不容易解释7]。

此外,有多少组基因分为也是主观的,这将直接影响到最终结果的筛选基因。

背后的原理思想随机排列向量方法非常类似于一个统计方法,称为随机试验(8),广泛应用于许多应用程序。方法的应用程序意味着我们必须枚举所有可能的组合元素的向量 这通常是一个非常艰巨的任务。在本文的情况下,有 不同的组合,如果我们把38例白血病患者分成两组27日和11例,分别。这大量的组合是一个限制我们将随机化试验方法应用于案例。因此,我们使用蒙特卡罗抽样方法进一步的向量 生成500个随机组合。这500个组合500个随机样本向量的元素的所有可能的组合 。尽管500个样本的结果不产生一个精确的答案,它可以接近准确的答案(9]。为了使结果更接近准确的答案,我们可以增加随机样本的数量。例如,我们可能会随机抽样的数量增加到1000或更多的在我们的病例。

我们的方法适用于选择与分类的能力类型的疾病基因从大量的基因。的逐步歧视分析组相比,新方法具有明显的优势的充分使用所有基因的信息。

新方法具有较低的计算复杂度,在实践中是非常实用的。的主要成本计算的相关系数计算时我们需要一个随机排列向量的向量 这不是一个困难的任务为常见的个人电脑。

在现实分析情况,如果有太多的绝对值大于基因 ,然后的价值 可以调整 。的价值 可以根据实际情况调整。的调整值的可行性 可以通过回顾检查评估函数建立在选定的基因歧视。

利益冲突

作者宣称没有利益冲突的存在。

确认

作者要感谢匿名裁判的许多建设性的意见和建议,提高论文的质量。下的工作可用Creative Commons CC0公共领域奉献。这项工作是由该基金会提供部分资助下Fengze科技拨款2009 fz24和2010号下的福建fz02和Haixi项目批准号A099。