计算和数学方法在医学

PDF
计算和数学方法在医学/2020年/文章

研究文章|开放获取

体积 2020年 |文章的ID 8819942 | https://doi.org/10.1155/2020/8819942

ray ming陈, 核苷酸序列的随机性SARS-CoV-2及其相关的亚科”,计算和数学方法在医学, 卷。2020年, 文章的ID8819942, 8 页面, 2020年 https://doi.org/10.1155/2020/8819942

核苷酸序列的随机性SARS-CoV-2及其相关的亚科

学术编辑器:马尔蒂Juhola
收到了 2020年8月31日
修改后的 2020年10月23日
接受 2020年11月05
发表 2020年11月16日

文摘

的起源和演化,在解决COVID-19 SARS-CoV-2一直是一个重要问题。研究该病毒的这些主题将增强我们的知识,帮助我们开发疫苗或预测的路径突变。有许多理论和临床研究在这个领域。在本文中,我们设计出一个结构度量指标,直接测量任意两个核苷酸序列之间的结构差异。为了探索机制的进化是如何工作的,我们将SARS-CoV-2及其相关家庭的核苷酸序列与程度的随机性。因为这种随机生成的核苷酸序列之间的距离非常集中在较低的平均方差,他们有资格作为基本参考优秀的候选人。这样的引用可以应用于测量其他Coronaviridae序列的随机性。我们的研究结果表明,相对随机性比率非常一致和集中。这个结果表明他们的随机性非常稳定和可预测的。研究结果也显示出Coronaviridae及其亚科之间的演化行为。

1。介绍

COVID-19有巨大的影响对所有生命的工作。发展稳定的和可信赖的疫苗(1,2),需要跟踪和分析SARS-CoV-2的属性,与MERS-CoV夫妇(3)和冠betacoronavirus的亚科。除此之外,它还需要比较的属性相关的家庭:alphacoronavirus, deltacoronavirus, gammacoronavirus [4]。在Coronaviridae betacoronavirus是最致命的亚科。类别,冠、MERS-CoV SARS-CoV-2出现在2003年,2012年和2019年,分别。评估和分析它们的属性,有许多基因,临床、统计和分析工具。在所有的理论或临床研究,遗传的分析提供了一个直接的方法来深入研究Coronaviridae[的结构5,6]。有一些研究者关注地理,人口,病毒的基因组分析提取一些模式(7,8]。虽然这些病毒的起源和演化曾为例,研究了MERS-CoV [9和“非典”10,11)——仍然是一个长的路要绘制出这些病毒之间的交互。目前,有许多理论和证据的进化和突变的调节机制SARS-CoV-2 [12- - - - - -14]。尽管如此,果断解决揭示这样的机制仍然依赖于进一步的研究和发现。在本文中,我们分析其属性的随机性,即。,核苷酸序列的随机性的程度。我们设计一个结构指标表,并将其应用于测量各种之间的距离Coronaviridae核苷酸序列和随机生成的核苷酸序列。这些距离可以显示多远Coronaviridae是关于随机核苷酸序列。

我们利用冠状病毒基因组的数据从NCBI数据集15]。然后,我们测量距离为每个单独的Coronaviridae的亚科。我们的结果显示这种结构性指标揭示了属性的随机性挺合适的。因此,随机序列之间的相对距离相当稳定,concentrated-this特性使得随机性可行的概念。从这些设置,我们就可以计算它们的相对随机性比率(存款准备金率)和从存款准备金率提取我们的发现和结果。的方法实现这一概念的特点是部分3,实现部分中列出的结果4和达成的结论部分5

2。理论设置

为了明确测量结构之间的距离,我们设计出一个结构指标在这以前将应用于后者的部分。

对于任何一个向量 ,我们使用 表示其 th元素和 表示它的长度。我们也使用 欧几里得范数来表示。

2.1。常见的有限区间(CFI)

表示所有升有限序列的集合。让 , 是任意的。定义最大下界 定义最小上界 表示的子序列 元素的隔 表示所有的元素的集合 让有限的 是任意的。让 表示排序向量的所有元素 定义一个差分算子 在有限的向量 ,在哪里

定义1。对于任何 ,任何 ,定义 通过

定义2。(公共子序列)。
如果 , ,我们定义 通过

这是常见的两种结构之间的结构。

定义3。(提升有限序列)。
表示所有真正提升向量的集合的第一个元素 和最后一个元素 是工会的一组 ,也就是说,

定义4。(结构度量)。
定义一个距离函数 通过

要求5。 是一个规

证明。它可以证明,根据定义4,通过所有可能的情况下对间隔的关系考虑在内。

要求6。如果 在一组是一组指标 ,然后 也是一个指标

定义7。它紧跟着一个度量的定义。

例1。假设核苷酸序列 , 上面给出了。

表示含氮碱基的位置 序列中的 表示公共子序列的位置f 然后,这项研究的结果发表在表1。让 现在我们定义 去年平等直接来自定义在哪里4。自 因此,


的名字 位置(指数) 不同向量 规范


权重都是预定的 每个含氮碱基。这些值也可以调整根据专业判断。例如,可以决定权重的相对频率基地。例子1后者的算术计算奠定了基础。

3所示。方法

有几个步骤计算相对随机性比率(存款准备金率)。(我)生成一组1000个随机核苷酸序列的长度都是固定在30000年。生成的随机序列展示在表(核苷酸)2(2)每个序列被认为是一个节点。然后我们计算这些节点的距离矩阵。这4个指标组成的指标是一个加权度量衡量结构距离对每个含氮碱基。具体计算例子所示1(3)创建一些有图案的核苷酸序列和随机序列的距离计算。这些序列是不必要的。他们只生成用于比较。创建的(其次是规则)核苷酸序列及其距离展示在表3(iv)结构之间的距离SARS-CoV-2核苷酸序列和随机的计算。这项研究的结果发表在表4(v)结构之间的距离MERS-CoV核苷酸序列和随机的计算。这项研究的结果发表在表5(vi)非典核苷酸序列和随机结构之间的距离的计算。这项研究的结果发表在表6(七)结构之间的距离alphacoronavirus核苷酸序列和随机的计算。这项研究的结果发表在表7(八)结构之间的距离deltacoronavirus核苷酸序列和随机的计算。这项研究的结果发表在表8(第九)gammacoronavirus核苷酸序列和随机结构距离的计算。这项研究的结果发表在表9(x)存款准备金率对每个亚科是计算的方法来计算部分中解释4所示。2


样品 随机序列 长度

30000年
30000年
30000年
30000年


最小值 马克斯 的意思是 Sd。

105.6 109.6 107.4 0.62
112.8 116.4 114.7 0.58
108.9 113.1 110.7 0.62


序列 长度 最小值 马克斯 的意思是 Sd。 意思是兰德 存款准备金率

1 1589年 29903年 133.78 138.00 135.92 0.72 130.66 1.04
2 1772年 29671年 133.50 138.03 135.71 0.71 130.52 1.04
3 3834年 29903年 133.73 137.95 135.88 0.72 130.60 1.04
4 483年 29798年 133.73 137.92 135.85 0.72 130.58 1.04
5 1333年 29869年 133.94 137.92 135.84 0.72 130.63 1.04
6 4515年 29862年 133.94 137.92 135.84 0.72 130.67 1.04
7 4100年 29846年 133.72 137.94 135.85 0.72 130.66 1.04
8 1005年 29855年 133.68 137.91 135.82 0.72 130.70 1.04
9 1132年 29743年 133.70 137.92 135.85 0.72 130.62 1.04
10 4218年 29857年 133.35 137.93 135.68 0.72 130.50 1.04
11 3391年 29835年 133.73 137.96 135.88 0.72 130.65 1.04
12 2187年 29816年 133.41 137.89 135.74 0.70 130.62 1.04
13 2802年 29782年 133.48 137.64 135.73 0.69 130.61 1.04
14 1125年 29726年 133.39 137.81 135.76 0.70 130.55 1.04
15 1681年 29903年 133.72 137.92 135.85 0.72 130.59 1.04
16 3388年 29834年 133.72 138.00 135.91 0.72 130.57 1.04
17 3407年 29834年 133.41 138.10 135.70 0.70 130.50 1.04
18 2030年 29835年 133.77 137.99 135.91 0.72 130.53 1.04
19 1800年 29827年 133.75 137.94 135.88 0.72 130.75 1.04
20. 2023年 29808年 133.77 137.99 135.91 0.72 130.65 1.04


序列 长度 最小值 马克斯 的意思是 Sd。 意思是兰德 存款准备金率

1 394年 30123年 131.29 135.49 133.26 0.71 130.88 1.02
2 315年 30123年 131.16 135.40 133.22 0.73 130.90 1.02
3 324年 30123年 131.12 135.37 133.22 0.71 130.50 1.02
4 381年 30123年 130.59 135.05 132.91 0.69 131.07 1.01
5 46 30094年 131.77 136.29 133.88 0.74 131.09 1.02
6 392年 30123年 130.34 135.47 133.06 0.69 130.93 1.02
7 282年 30123年 130.75 135.36 133.00 0.70 130.77 1.02
8 6 30081年 131.26 135.40 133.24 0.71 131.10 1.02
9 210年 30096年 131.27 135.52 133.26 0.71 130.97 1.02
10 386年 30123年 131.28 135.30 133.23 0.71 130.88 1.02
11 484年 30096年 130.75 135.06 133.03 0.71 130.32 1.02
12 506年 30118年 130.84 135.24 133.03 0.71 131.07 1.01
13 241年 30123年 130.69 135.23 133.02 0.70 130.81 1.02
14 359年 30123年 130.87 135.24 133.05 0.71 130.88 1.02
15 209年 30096年 131.22 135.47 133.23 0.71 130.85 1.02
16 469年 29455年 130.35 135.42 133.07 0.69 130.82 1.02
17 59 29919年 130.70 135.90 133.22 0.74 130.80 1.02
18 366年 30123年 130.77 134.99 133.00 0.70 130.93 1.02
19 354年 30123年 130.88 135.26 133.05 0.71 130.41 1.02
20. 128年 30118年 130.79 135.39 133.03 0.70 130.78 1.02


序列 长度 最小值 马克斯 的意思是 Sd。 意思是兰德 存款准备金率

1 10218年 29849年 130.21 134.75 132.30 0.71 130.22 1.02
2 7750年 29782年 130.20 134.79 132.30 0.71 130.12 1.02
3 6483年 29782年 129.81 134.56 132.22 0.73 130.15 1.02
4 805年 29882年 129.98 134.51 132.27 0.72 130.18 1.02
5 2660年 29900年 129.50 134.75 132.26 0.71 130.29 1.02
6 1856年 29865年 130.17 134.74 132.31 0.70 130.68 1.01
7 7126年 29835年 130.25 134.57 132.31 0.73 130.43 1.01
8 87年 29767年 130.14 134.69 132.23 0.71 130.61 1.01
9 3289年 29882年 130.32 134.66 132.31 0.72 130.43 1.01
10 5307年 29868年 130.22 134.54 132.29 0.73 130.18 1.02
11 9593年 29858年 130.17 134.55 132.21 0.72 130.43 1.01
12 8925年 29867年 130.02 134.50 132.19 0.72 130.03 1.02
13 6020年 29836年 130.17 134.55 132.21 0.72 130.29 1.01
14 7029年 29769年 130.03 134.48 132.20 0.72 130.07 1.02
15 4783年 29860年 130.18 134.55 132.21 0.72 130.27 1.01
16 1804年 29902年 130.15 134.71 132.24 0.71 130.12 1.02
17 6852年 29842年 130.13 134.70 132.24 0.71 130.43 1.01
18 2415年 29812年 130.01 134.30 132.18 0.72 130.07 1.02
19 681年 29890年 130.12 134.46 132.25 0.72 130.52 1.01
20. 3075年 29808年 130.11 134.46 132.23 0.73 130.41 1.01


序列 长度 最小值 马克斯 的意思是 Sd。 意思是兰德 存款准备金率

1 328年 27993年 126.25 131.20 128.95 0.71 126.58 1.02
2 205年 27998年 133.48 138.02 136.05 0.69 125.78 1.08
3 881年 28029年 133.65 138.18 135.79 0.74 125.28 1.08
4 137年 27410年 130.80 135.79 133.18 0.73 129.76 1.03
5 4 29355年 130.70 135.07 132.75 0.69 128.91 1.03
6 877年 27516年 130.02 134.36 131.92 0.72 127.54 1.03
7 739年 28009年 129.30 133.56 131.45 0.70 128.01 1.03
8 723年 28029年 129.84 134.29 131.87 0.72 127.80 1.03
9 615年 27489年 133.74 138.24 135.92 0.73 126.11 1.08
10 140年 27413年 133.70 138.41 135.99 0.70 125.35 1.08
11 529年 28595年 129.90 134.35 131.89 0.71 127.58 1.03
12 764年 28173年 128.37 132.50 130.34 0.71 126.47 1.03
13 36 29295年 127.71 132.27 129.86 0.70 125.47 1.03
14 118年 29357年 129.94 134.27 131.98 0.69 127.77 1.03
15 917年 27165年 129.79 133.95 131.95 0.72 127.72 1.03
16 686年 28038年 132.14 136.16 134.10 0.69 129.04 1.04
17 547年 28521年 126.37 131.24 129.01 0.71 126.92 1.02
18 820年 28038年 125.67 130.34 127.76 0.71 124.56 1.03
19 393年 27993年 125.36 130.07 127.45 0.70 124.85 1.02
20. 238年 27998年 125.45 130.13 127.55 0.70 124.63 1.02


序列 长度 最小值 马克斯 的意思是 Sd。 意思是兰德 存款准备金率

16 25422年 125.14 129.84 127.57 0.70 122.91 1.04
2 117年 25393年 125.22 129.71 127.22 0.71 122.84 1.04
3 91年 25399年 127.27 131.43 129.42 0.73 123.05 1.05
4 33 25422年 123.34 128.16 125.41 0.71 123.02 1.02
5 116年 25414年 119.74 124.91 122.56 0.69 120.45 1.02
6 87年 25413年 119.90 124.63 122.44 0.70 120.41 1.02
7 63年 25420年 122.77 127.27 124.98 0.70 122.04 1.02
8 73年 25406年 121.12 125.58 123.49 0.71 121.71 1.01
9 65年 25420年 123.14 128.15 125.31 0.72 123.23 1.02
10 138年 26227年 123.57 128.48 125.89 0.72 122.02 1.03
11 120年 25403年 124.56 129.30 126.97 0.72 122.48 1.04
12 129年 25424年 127.75 132.35 129.91 0.72 122.31 1.06
13 90年 25414年 120.35 124.48 122.43 0.71 120.53 1.02
14 107年 25422年 120.46 124.58 122.35 0.70 120.46 1.02
15 22 25408年 120.41 124.54 122.48 0.71 120.22 1.02
16 4 26552年 120.23 124.43 122.38 0.71 120.48 1.02
17 29日 25422年 120.33 124.48 122.45 0.71 120.46 1.02
18 119年 25413年 120.32 124.48 122.43 0.71 120.22 1.02
19 34 25438年 120.33 124.50 122.44 0.71 120.41 1.02
20. 131年 26487年 120.39 124.53 122.48 0.71 120.55 1.02


序列 长度 最小值 马克斯 的意思是 Sd。 意思是兰德 存款准备金率

1 134年 27676年 131.36 135.84 133.55 0.72 125.93 1.06
2 339年 27603年 130.72 135.93 133.04 0.71 125.69 1.06
3 385年 27733年 130.77 135.76 133.14 0.74 125.04 1.06
4 384年 27755年 130.64 135.54 132.79 0.74 124.90 1.06
5 87年 27691年 131.14 135.36 133.28 0.72 125.41 1.06
6 267年 27675年 130.46 135.08 132.82 0.74 125.49 1.06
7 151年 27388年 130.27 134.91 132.76 0.72 125.59 1.06
8 37 27690年 130.98 135.48 133.13 0.70 125.50 1.06
9 47 27616年 131.93 136.30 133.94 0.72 125.73 1.07
10 137年 27618年 130.94 135.36 133.25 0.72 125.39 1.06
11 88年 27630年 130.89 135.31 133.09 0.71 125.63 1.06
12 42 27620年 131.08 135.88 133.47 0.71 125.95 1.06
13 238年 27685年 131.33 135.72 133.46 0.73 125.47 1.06
14 317年 27590年 142.40 147.90 145.41 0.73 130.85 1.11
15 133年 27617年 130.66 135.16 132.98 0.71 125.82 1.06
16 278年 27686年 130.74 135.31 133.08 0.71 125.44 1.06
17 144年 27682年 132.28 136.87 134.46 0.72 125.82 1.07
18 241年 27685年 131.28 135.79 133.44 0.71 125.37 1.06
19 334年 27474年 130.71 135.07 132.67 0.71 125.63 1.06
20. 378年 27642年 129.80 135.01 132.44 0.70 125.72 1.05

4所示。结果

我们用R程序4.0.2(版本),特别是涉及一个包“Biostrings”来帮助我们实现的理论背景。的程序中提到的部分3在本节中,我们目前的结果。我们将随机含氮碱基的长度是30000,这是几乎长度对冠状病毒的家庭。我们也使用R为我们的实验样本1000个样本(序列)(由于电脑的能力)。

4.1。实验:核苷酸序列的随机性

通过定义4和示例1,我们的距离矩阵如下:

消除对角线后,我们计算一些描述性的值 元素:最小、最大、意思和标准的整个距离矩阵的推导过程。最大最小值是127.1和134.7。均值为130.88,标准差是0.83。自标准推导很小,结构之间的距离任何一对随机核苷酸序列高度集中在是说这是一个很好的参考属性为我们进一步分析。现在,让我们展示一些图案序列随机序列之间的距离。

例2。假设 捆绑和重复7500次 ;此外, 捆绑和重复3750次 ;最后, (一个斐波那契序列模式 与国防部操作,或 国防部4,1、2、3和4被等同于“A”,“C”,“G”,和“T”分别捆绑和重复5000次 如下面所示:(我) (2) (3)

之间的距离 和随机序列表中列出3

结构图案之间的距离序列和随机的明显不同的结果相比,随机序列。

4.2。核苷酸序列的距离

我们进口SARS-CoV-2基因组编码和拯救他们S4DSC2 [15]。自从S4DSC2规模太大(4617),或 ,不能由我们的电脑,我们样品只有20人。这项研究的结果发表在表4“序列”,列的顺序采样序列数据集;“最小值”和“Max”是最小和最大距离给定序列的随机序列,分别;“的意思是”之间的平均距离是给定的序列和随机序列;“Sd”这样的标准推导的距离;“兰德”是距离的平均距离矩阵的随机序列;“存款准备金率”是相对随机配给,也就是“的意思是“结束”的意思是兰德。”,后者表、列的含义是相同的;我们将跳过措辞。MERS-CoV,数据下载的大小是530。我们样品20随机。这项研究的结果发表在表5。冠,数据下载的大小是10647。我们样品20随机。这项研究的结果发表在表6。alphacoronavirus,数据下载和过滤的大小是1002。我们样品20随机。这项研究的结果发表在表7。deltacoronavirus,数据下载和过滤的大小是149。我们样品20随机。这项研究的结果发表在表8。gammacoronavirus,数据下载和过滤的大小是427。我们样品20随机。这项研究的结果发表在表9

5。结论

通过观察所有表中给出的结果,我们可以达到以下语句:(我)随机结构之间的距离(核苷酸)较低的序列是高度集中的标准推导。这个特性证明结构度量下的参照作用(2)有图案的核苷酸序列有较低的手段和较低的标准推导距离随机序列(3)相对随机性Coronaviridae比率(存款准备金率),躺在1.01和1.08之间,更接近完整的随机性比率(或1)相比,那些图案的核苷酸序列,到处都是0.84在我们的例子(iv)总的来说,随机性betacoronavirus高于alphacoronavirus或deltacoronavirus,进而高于结构之间的距离SARS-CoV-2和随机序列。这也许可以解释为什么betacoronavirus高于其他亚科的突变(v)betacoronavirus, SARS-CoV-2几乎是固定的存款准备金率为1.04。这表明SARS-CoV-2的突变是稳定在这一刻

这些发现提供了一些深刻的知识结构随机性的程度SARS-CoV-2及其相关的家庭。这些知识与其他研究成果和发现会帮助我们在地图上标出这些病毒的动态结构和演进。

数据可用性

作者以合理的数据请求(https://www.ncbi.nlm.nih.gov/sars-cov-2/;https://www.ncbi.nlm.nih.gov/datasets/coronavirus/genomes/)。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的教育部人文社会科学基金(批准号20 xja-gat001)。

引用

  1. d·e·戈登·g·m·张成泽m . Bouhaddou et al .,“SARS-CoV-2蛋白质交互地图显示药物再利用的目标,“自然,卷583,不。7816年,第468 - 459页,2020年。视图:出版商的网站|谷歌学术搜索
  2. j . v .拉撒路,s . c . Ratzan A Palayew et al .,“全球调查的潜在接受COVID-19疫苗,”自然医学,2020年。视图:出版商的网站|谷歌学术搜索
  3. Y.-S。钟,j·m·金·h·金等人。,“中东呼吸系统综合症冠状病毒的遗传特性,韩国,2018年,“新发传染病,25卷,不。5,958 - 962年,2019页。视图:出版商的网站|谷歌学术搜索
  4. 美国佩恩,“家庭Coronaviridae”病毒,149卷,2017年。视图:谷歌学术搜索
  5. m·f·博尼p . Lemey x江et al .,“进化起源的SARS-CoV-2 sarbecovirus血统负责COVID-19大流行,”微生物学性质,5卷,不。11日,第1417 - 1408页,2020年。视图:出版商的网站|谷歌学术搜索
  6. k·g·安德森,a·兰姆伯特利普金i, e·c·霍姆斯和r·f·加里”近端SARS-CoV-2起源”,自然医学,26卷,不。4、450 - 452年,2020页。视图:出版商的网站|谷歌学术搜索
  7. d . Mercatelli和f . m . Giorgi地理分布和基因组SARS-CoV-2突变,2020年。
  8. j·b·多德l . Andriano d . m . Brazel et al .,“人口科学帮助理解COVID-19的传播和死亡率,”美国国家科学院院刊》上,卷117,不。18日,第9698 - 9696页,2020年。视图:出版商的网站|谷歌学术搜索
  9. s . Milne-Price k . l . Miazgowicz诉j·明斯特,“中东呼吸系统综合症冠状病毒的出现,“病原体和疾病,卷71,不。2、121 - 136年,2014页。视图:出版商的网站|谷歌学术搜索
  10. j·崔、f·李和z l .施“致病性冠状病毒的起源和演化,”自然评论微生物学,17卷,不。3、181 - 192年,2019页。视图:出版商的网站|谷歌学术搜索
  11. e·c·霍姆斯和a·兰姆伯特“病毒进化和SARS冠状病毒的出现,“英国伦敦皇家学会哲学学报。系列B,生物科学,卷359,不。1447年,第1065 - 1059页,2004年。视图:出版商的网站|谷歌学术搜索
  12. m . Kandpal和r . v . Davuluri识别特定地理SARS-Cov-2突变的随机森林分类和变量选择方法,”统计数据和应用程序,18卷,不。1,2020。视图:谷歌学术搜索
  13. a . Danchin后k .蒂米斯,“粒度SARS-CoV-2变体:相关性症状、流行病学、免疫力(群、疫苗),病毒起源和遏制?”环境微生物学,22卷,不。6,2001 - 2006年,2020页。视图:出版商的网站|谷歌学术搜索
  14. t .表象,“SARS-CoV-2遗传多样性与进化”,感染、遗传与进化,第81卷,第104260页,2020年。视图:出版商的网站|谷歌学术搜索
  15. 国家医学图书馆”,冠状病毒基因组NCBI的数据集,”https://www.ncbi.nlm.nih.gov/datasets/coronavirus/genomes/视图:谷歌学术搜索

版权©2020 ray ming陈。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点375年
下载356年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读