文摘
癌症开始时身体的一部分细胞开始生长失控。事实上,因为DNA损伤细胞变成癌细胞。一个基因组的DNA走代表着每个核苷酸的频率在本地一对配对核苷酸的变化。本研究为了研究癌症基因,肺癌患者的基因组DNA走块生成使用MATLAB语言编写的一个程序。所以获得检查分形性质的数据计算分形维数使用MATLAB编写的一个程序。同时,破坏DNA的相关性进行了研究使用赫斯特指数测量。我们发现受损的DNA序列表现出更高程度的呈不规则碎片形和相关性比正常的DNA序列。我们确认这个方法可以用于早期发现肺癌。方法介绍了研究不仅对于肺癌的诊断非常有用,也可以申请检测和增长分析不同类型的癌症。
1。介绍
癌症是由不可控的细胞生长不死亡。正常细胞在体内生长,分化,最后死亡(凋亡)的有序的道路。当细胞死亡过程的分解,癌症就开始了。在癌症的情况下,细胞继续生长和分裂而不是程序性死亡导致一群不正常的细胞生长失控。
肺是海绵状的胸部器官的氧气并释放碳当人类吸入和呼出,分别。肺癌肺开始。肺癌是一种主要的癌症,每年很多人死亡相比其他类型的癌症。
当细胞的基因不能正确的DNA损伤,肺癌出现。吸入致癌物质是肺癌的主要原因。
多年来一直在研究一些方法来诊断肺癌。大部分的这些方法都是基于医学理论。在这些方法中,使用计算机断层扫描(CT)图像分析更占主导地位。胸部计算机断层扫描的大都会等人肺癌的推导和验证模型研究冠状动脉和主动脉钙卷在肺1]。韦罗内西等人分析了计算机断层扫描图像的肺的吸烟者和吸烟者为了检测肺癌(2]。在另一个工作Jimenez-Bonilla等人在复发的诊断和评估的postrecurrence额外颅非小细胞肺癌患者的生存期使用18 f-fdg PET / CT (3]。参见[4- - - - - -6]。另一方面,一些研究人员在分析诊断肺癌的病人的DNA。一个等人发现肿瘤相关的异常的超甲基化p16从血浆中提取基因DNA。使用修改后的seminested methylation-specific PCR,他们做实验105非小细胞肺癌患者和92匹配肿瘤DNA样本(7]。在最近的研究中,Jelovac等人发现PIK3CA基因突变在乳腺癌和肺癌患者血浆(8]。在另一个广泛的工作,Diehn等人采用深度测序检测循环肿瘤DNA在非小细胞肺癌9]。
旁边一些工作做了预测和分析肺癌从生物的角度来看,很少有研究报告使用数学模型对肺癌的诊断。麦克洛克等人的数学模型用于开发一个基于模型的CAD算法捕捉扫描仪物理和解剖信息。他们的模型使用多个分割算法来提取结构在肺部。同时,他们提出了一个框架,选择是基于贝叶斯统计模型以确定整个肺(不同解剖事件的概率10]。康等人建造了一个肺癌的诊断和预后的数学模型。事实上这个模型集成let-7和miR-9表达成一个信号通路为了生成一个计算机模型(EMT)上皮间充质转变的过程。他们使用这个模型在肺癌的诊断和预后的生物标记(11]。在最近的一次工作,Hndoosh提出一个模糊数学模型检测肺癌使用multi-NFclass混乱模糊矩阵的准确性(12]。
分形尺度不变的几何对象。一个可以自相似性或自仿的尺度不变的对象。自相似的对象是一个联盟的新副本本身就是各向同性或统一的四面八方。但自仿的对象,机制是各向异性或依赖于方向。常规的分形自相似性较高,但随机分形有较弱的自相似性。
定期分形的类包含许多熟悉的简单对象,如线的间隔,实心方块,和坚实的多维数据集,也许多不规则的对象。扩展规则的特点是“标度指数”(维度)。“简单”规律的分形有整数扩展维度。复杂的自相似对象noninteger维度。因此,这是完全不正确的分形定义为几何对象有“分数”(noninteger)维度。分形几何的对象可以定义为标度指数(维度)满足Szpilrajn不等式: 在哪里的标度指数(维度)对象和是它的拓扑维数,欧几里得的尺寸单位是建立分形对象。例如,对于布朗运动:粒子的路径,一行维度,旅行很长一段时间在一个平面区域,最终覆盖整个平面上,一个实体维度两个(13]。
多重分形系统的单一分形维数不能描述其动力学。在这种情况下,需要连续光谱指数(14]。
我们处理许多多重分形系统在本质上完全发展湍流和心跳等动力学。在使用分形检测肺癌,有限的工作报告是基于分析肿瘤的形状用分形维数。Miwa等人发现氟- 18 -去氧葡萄糖摄取的瘤内异质性d-FD可以帮助不同诊断恶性和良性肺结节。SUVmax和d-FD获得摄影图片提供不同类型的信息,同样有助于鉴别诊断(15]。李等人报道,癌上皮结构的分形维数可以协助分化腺癌(ADC)从肺鳞状细胞癌(SCC) (16]。
尽管所有这些工作,没有工作报告分析的复杂性和相关受损的DNA。在本文中,我们使用分形维数的概念和赫斯特指数来分析DNA序列。为了完成这个任务我们首先说明DNA作为随机漫步行走,然后通过引入分形维数和赫斯特指数的光谱,我们计算这些参数走从DNA序列中提取DNA的肺癌患者。病人的DNA的分形和关联走进行了较为详细的试验研究。
2。DNA和随机运动
细胞核的染色体DNA序列是一个四个字母的组合。这些信件,A、C、G和T,基地腺嘌呤,胞嘧啶,鸟嘌呤和胸腺嘧啶。例如,一个DNA序列…GTCAGAGCCTATCGTTACG…这个字符串可以用数字的形式分配1 T, 2、3 C,和4 G4132424331213411234……事实上,DNA序列的根是开发一个完整的有机体。
多年来已研制出许多数学方法来研究DNA序列的性质。
DNA走策划是一个流行的方法生成一个平面轨迹的DNA序列。在这个方法中第一个DNA文本转换为二进制序列,然后定义的DNA走情节累积变量(17]。通过这种考虑,DNA走可以被视为一个随机游走(布朗运动),每个点的情节可以在核苷酸距离向上或向下转移。
DNA序列可以被定义为两个嘌呤的六个可能的组合(+ G),嘧啶(C + T),亚氨基的(A + C),酮(G + T),弱(A + T)和强(G + C)。结合与嘌呤嘧啶束束长出名的是分析的DNA (18]。在本研究,我们选择了这个组合,因为它有助于更好的长期依赖属性的检测DNA序列(见[17,19])。
图1显示了一维DNA走阴谋使用purine-pyrimidine二进制规则。这条规则变化嘌呤(A / G)−1和嘧啶(C / T) + 1。
在下一节中通过引入我们讨论的赫斯特指数相关随机漫步和在特殊情况下,DNA走。
3所示。赫斯特指数和运动类型
为了分析DNA的行为走,波动的方向(挠度)从一个点到另一个点(20.),在一个更大的视图应该考虑走(图的相关性2)。这种行为可以通过计算研究的赫斯特指数。赫斯特指数是一个指标的长期记忆的过程。事实上,它是测量DNA走的可预测性。
赫斯特指数的值在0和1之间,在每一时刻的价值收益决定了未来的行为偏差的随机游走。
DNA中的每个点走可以基于二进制映射向上或向下转移的DNA序列。没有关联的点走,布朗运动占主导地位。否则,长期记忆和相应的分数布朗运动定义走。这两个条件可以表现为不同的值的赫斯特指数。当,这个过程是布朗运动 分数布朗运动的过程。在布朗运动的情况下,,这一过程被认为是真正随机的(例如,布朗运动)。这意味着绝对没有任何值之间的相关性的过程,很难预测未来的过程。赫斯特指数的分析可以分成两种分数布朗运动范围。首先,如果赫斯特指数的值介于0和0.5,这意味着这个过程是antipersistent;流程的趋势,在下一个瞬间将相反的趋势前面的瞬间。其次,一个值0.5到1意味着过程是持续的;,在下一个瞬间过程的趋势将是一样的趋势在前面的瞬间。
在这个研究中,我们计算的赫斯特指数的价值受损的DNA步行和比较其价值观和正常的DNA。这种比较有助于我们了解DNA受损的相关性和可预测性和正常行走。
有不同的方法已被开发来估计的价值。新范围分析()和DFA是两个主要的方法估计的赫斯特指数。赫斯特指数的DNA计算的初步分析我们发现即使散步比DFA方法显示了较高的赫斯特指数的值,标准差的值较低,然后置信区间窄。因此在我们的案例中方法更精确。值得注意的是这两种方法结果更随着DNA序列变得更长。
所以在本研究,我们采用分析方法计算在下一节中描述的赫斯特指数是使用一个示例。
4所示。新范围的DNA序列分析
分析在许多文献描述为一个著名的赫斯特指数的计算时间序列的方法。因此,采用这种方法,赫斯特指数的值可以计算DNA行走。使用相同的方法在时间序列的情况下可以应用于DNA序列。通过一个示例计算在这里解释。考虑 在(1),是一个字母的顺序吗信长, 在一个应用程序示例表1,运动的总和计算 所以, 因此, 我们定义转换的足够的信 从(6), 从图1, 从(5)和(8) 所以 因此, 根据上次讨论的价值表明存在良好的持久性DNA走0.5和1之间。
一些出版的值对DNA序列表2。
表中可以看到2在所有情况下都有很好的相关性,正常的DNA。
在这个研究值计算,,,。然后,为每个部门的平均值再次计算。赫斯特指数的值通过计算线性回归直线的污水与情节。在本研究,我们计算DNA的赫斯特指数在不同的段走并报告signal-shaped情节不仅平均价值。使用这种方法我们能够谈论内存和可预测性的DNA。
5。光谱的分形维数
在本节中,我们用分形维数的概念来计算的复杂性DNA走路。为了使用这种方法我们考虑所做的功的方程Kulish et al。21)通过将步行而不是时间序列的DNA。
如果DNA走路和,除以总范围本, 的概率值落入th本的大小是计算 在哪里=物品的数量值落入本。对于DNA走路, 在哪里信在本在整个序列的长度。
Renyi熵的概率的字母顺序是 请注意,对于 分形维的DNA被定义为行走 在哪里。对于自相似系列以同样的概率,整个系列是相同的。在这种情况下,(19)的收益率所有的值。
对于一个给定的DNA走,分形维数(从(),计算19)代表走的概率分布。更大的价值对应于更复杂的(难以预测)DNA走牛头刨床的波动。另外,当分形维数变化的范围是广泛的,DNA走分形。很明显,0代表自相似分形。
考虑到出乎意外,DNA走路陡谱有更多意想不到的价值。另一方面,平坦光谱代表少出乎意外(13]。
6。结果和讨论
在本节中,我们计算DNA走的赫斯特指数和分形维数不同的主题和皮肤癌症的诊断结果进行比较。
6.1。数据收集
科学家们发现,肿瘤剥离核酸(DNA或RNA)进入血液。因此,等离子体可以作为肿瘤DNA的来源(22]。科学家认为,等离子体DNA是肿瘤的起源的基因改变类似于相应的主要肿瘤(23]。
在这个研究中,血浆采集样本进行基因测试从50组织学证实肺癌患者(组1)(非小细胞癌)和50名健康对照组(2组),每组25个学科是男性和25个科目是女性和32岁。值得注意的是,所有患者吸烟。患者未接受化疗或放疗前招聘。健康个体,没有之前的历史癌症是从我们机构的人员招募。吸烟习惯的信息收集通过自我报告。
在本研究,我们采用类似的方法采用韦伯et al。24]DNA样本的集合。在这个研究我们使用2毫升的等离子体。我们准备好的蛋白酶K两个洗缓冲区(WBI) DNA样品制备设备。然后,我们与260年混合等离子体μL蛋白酶K和2.1毫升DNA从(绑定缓冲)和孵化它在室温25分钟。我们混合后500年μL异丙醇溶解产物,然后转移到高纯Extender组装。然后,这些组件在4000×g离心1分钟。DNA在100年被筛选了μL DNA EB(洗脱缓冲)。提取收益率高质量DNA适合进一步的分析。
所有程序都是大学内部审查委员会的批准,批准涉及人类受试者的实验是由沙捞越综合医院和大学。值得注意的是所有科目的身份仍然保密。
6.2。数据分析
为了做分析,首先对数据进行预处理,使均匀数据集。一个程序是用MATLAB生成序列的DNA走。这个程序将DNA序列映射到DNA使用部分中讨论的方法走2。这是建立之后,DNA分析通过计算行走的赫斯特指数和分形维数的方法带来的部分4和5。这些分析都是用MATLAB编写的一个程序。
在这里,我们把一些情节生成的赫斯特指数和分形维数谱健康受试者和肺癌患者。图3显示了DNA的赫斯特指数情节走在健康受试者的情况下。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
因为它情节中可以看到(a) (h)(图3)的整体行为的赫斯特指数的变化和其价值往往减少的行为。这种行为代表记忆的DNA基因组中走在减少。向上的小变形量的情节代表小基因组中增加的内存。很明显,通过减少的价值(接近0.5)和相应的记忆基因组DNA的可预测性走正在减少。有价值的在所有情节的范围代表这一事实DNA走有很好的相关性。的赫斯特指数的平均价值50主题被计算为0.726。
在肺癌患者的情况下,生成的赫斯特指数的一些阴谋破坏DNA走如图4。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
阴谋破坏DNA的分析几乎走了的赫斯特指数的情节相似的行为正常DNA走。因为它情节中可以看到(a) (h)(图4)整体倾向于赫斯特指数变化。但很明显,在DNA受损的情况下,变化的赫斯特指数显示陡峭的行为比正常情况下属于DNA走在图3。像块图3向上,小变位的情节代表小基因组中增加的内存。很明显,通过减少的价值(接近0.5)和相应的记忆基因组DNA的可预测性走正在减少。但在这些情况下,内存和可预测性的DNA走下降速度比正常DNA走,即受损的DNA是能够存储信息和增加它的内存更少。数据的另一个情节之间的区别3和4可以看到在赫斯特指数的值,平均的赫斯特指数较小的值接近吗受损的DNA比较正常DNA,这代表这一事实中有更少的相关受损DNA步行比正常的DNA。的赫斯特指数变化的平均价值50主题被计算为0.537,小于健康受试者的计算值。
为了做一个清晰的比较,赫斯特指数的大平均50名健康受试者的情节而大平均50主题的肺癌如图5。
大平均为赫斯特指数情节的分析正常和受损的DNA走了结果不偏离已观察到什么数据3和4。是很明显的受损DNA行走,赫斯特指数显示陡行为的变化比DNA,属于正常走路。另一方面,赫斯特指数较小的值接近DNA受损的DNA比较正常。
也为了比较赫斯特指数的平均值值在每个样本的情况下计算95%置信区间的健康受试者与肺癌和主题,然后确定区间重叠。众所周知,当95%的置信区间的两个独立的人群不重叠,的确会有显著统计学差异意味着(在0.05水平的意义)。图6显示了计算置信区间。
很明显,如图6,置信区间的健康受试者(红色栏)的变化和主题与肺癌(绿色栏)变异不重叠,这意味着他们必然是明显不同的。所以这个结果代表赫斯特指数之间的显著差异值在两组受试者的情况下。
为了分析DNA的正常行走的复杂性和受损DNA DNA的分形维数谱走了走。图7显示了DNA的分形维数谱情节走在健康受试者的情况下。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
显然在所有情节,分形维数变化的整体行为增加的行为。这种行为代表的基因组中DNA走正在增加的复杂性。小向下变位的情节代表DNA的小降低复杂性,因为小基因组中增加的内存。通过增加分形维数的值,DNA走的可预测性是减少DNA是变得越来越复杂。分形维数变化的平均价值50主题被计算为1.263。
肺癌患者的一些分形维数谱的阴谋破坏DNA走如图8。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
阴谋破坏DNA的分析几乎走了类似行为的分形维数块正常DNA走。因为它情节中可以看到(a) (h)(图8),总体来说,分形维数的变化显示增加的行为。但很明显,在DNA受损的情况下,分形维数的变化显示陡峭的行为比正常情况下属于DNA走在图7。像块图7向下,小变位的情节代表小基因组中增加的内存。很明显,通过增加价值的分形维数的可预测性DNA走正在减少。但是在这些情况下的可预测性DNA散步散步是下降的速度比正常的DNA。数据的另一个情节之间的区别7和8分形维数的值中可以看到,在情况下受损DNA的分形维数有较大的值比正常的DNA,这代表这一事实受损DNA走正常DNA走相比更为复杂。的分形维数变化的平均价值50主题被计算为1.442,大于健康受试者的计算值。
为了做一个清晰的比较,大的平均光谱分形维数的情节的50名健康受试者和大的平均50主题与肺癌如图9。
大平均为分形维数的情节的分析正常和受损的DNA走了结果不偏离已观察到什么数据7和8。是很明显的受损DNA走,分形维数的变化显示陡峭的行为比这属于正常DNA走。另一方面,分形维数更大价值的DNA受损的DNA比较正常。
也为了比较平均的分形维值在每个样本的情况下,我们计算95%置信区间的健康受试者与肺癌和主题,然后确定区间重叠。众所周知,当95%的置信区间的两个独立的人群不重叠,的确会有显著统计学差异意味着(在0.05水平的意义)。图10显示了计算置信区间。
很明显,如图10,置信区间的健康受试者(红色栏)的变化和主题与肺癌(绿色栏)变异不重叠,这意味着他们必然是明显不同的。所以这个结果代表分形维值之间的显著差异的两组受试者。
所有已经完成的分析研究表明,通过计算赫斯特指数和分形维数的值我们可以诊断受损DNA的时显示更多的复杂性和更少的可预测性与正常的DNA。
7所示。结论
在本文中,我们在肺癌的诊断分析受损的DNA。通过定义的赫斯特指数和分形维数我们讨论可预见性和受损DNA的复杂性。赫斯特指数和分形维度情节的分析表明,DNA走小值的赫斯特指数的分形维数和更大的价值受损的DNA比较正常DNA。同时,赫斯特指数和分形维数的情节比正常DNA受损的DNA显示陡行为情节。这些结果支持这一事实受损DNA是更少的可预见的和更复杂的比正常的DNA。本研究中使用的方法可以应用分析和诊断的其他类型的癌症。分析DNA走过这个方法可以指导我们利用分形模型建模和预测DNA的走。
利益冲突
作者宣称没有利益冲突有关的出版。
承认
作者要感谢大卫博士Kuan收集DNA样本中对他的帮助主题。