假设有两个等位基因<我nline-formula>
一个
和<我nline-formula>
B
标记位点的等位基因<我nline-formula>
一个
是特别感兴趣的。让<我nline-formula>
n
一个
我
表示的数量影响孩子,让<我nline-formula>
n
u
我
表示正常孩子的数量,让<我nline-formula>
n
c
我
=
n
一个
我
+
n
u
我
表示的大小家族的血亲关系<我nline-formula>
我
。在每个家庭中,所有儿童类型标记位点,但体可能是也可能不是可用的。让<我nline-formula>
N
一个
我
g
(
N
u
我
g
)
是随机变量,表示数量的影响(或影响)基因型的孩子<我nline-formula>
g
在家庭<我nline-formula>
我
。小写字母(例如,<我nline-formula>
n
一个
我
g
和<我nline-formula>
n
u
我
g
)的观测值用来表示<我nline-formula>
N
一个
我
g
和<我nline-formula>
N
u
我
g
。此外,让<我nline-formula>
N
我
g
=
N
一个
我
g
+
N
u
我
g
和<我nline-formula>
n
我
g
=
n
一个
我
g
+
n
u
我
g
表示随机变量和观测与基因型的儿童数量<我nline-formula>
g
在家庭<我nline-formula>
我
,分别。<我nline-formula>
T
我
表示数量的<我nline-formula>
一个
等位基因在受影响的孩子(即<我nline-formula>
T
我
=
2
N
一个
我
一个
一个
+
N
一个
我
一个
B
)。这里介绍的符号符合克纳普(
10,
11gydF4y2Ba和汉
16]gydF4y2Ba。
年代ec><年代ec id="sec2.2">
2.2。TDH测试完成体
出于完整性的考虑,我们首先考虑体时,观察到随着孩子的标记基因型。让<我nline-formula>
x
我
等位基因的数量<我nline-formula>
一个
传播的<我nline-formula>
我
标记杂合的父母影响孩子。当确切数字<我nline-formula>
x
我
的标记等位基因<我nline-formula>
一个
传播影响孩子不能确定可能发生在两个杂合的父母,家庭<我nline-formula>
T
我
可以用来代替吗<我nline-formula>
x
我
。使用<我nline-formula>
T
我
在家庭模棱两可的传输,可以写成TDT的统计<我nline-formula>
T
D
=
T
d
2
在哪里
(2.1)
T
d
=
∑
我
T
我
- - - - - -
E
T
我
∑
我
Var
(
T
我
)
。
传输异质性测试(阻)统计来标示<我nline-formula>
T
H
=
T
h
2
在哪里
(2.2)
T
h
=
马克斯
{
∑
我
(
(
T
我
- - - - - -
E
T
我
)
2
- - - - - -
Var
(
T
我
)
]
,
0
}
∑
我
Var
(
(
T
我
- - - - - -
E
T
我
)
2
]
,
的时刻<我nline-formula>
T
我
下<我nline-formula>
H
0
考虑到父母的标记基因型(体)在表中做了总结
1gydF4y2Ba。
gydF4y2Ba生成基于家庭的数据,如早期的作品(
5),gydF4y2Ba我们认为两个biallelic位点:一个疾病位点等位基因与疾病<我nline-formula>
D
和正常等位基因<我nline-formula>
d
)和一个标记位点(等位基因<我nline-formula>
一个
和<我nline-formula>
B
)。疾病等位基因频率<我nline-formula>
D
是<我nline-formula>
p
D
和标记等位基因<我nline-formula>
一个
是<我nline-formula>
p
一个
。连锁不平衡是频率的偏差<我nline-formula>
D
一个
单体型从其平衡值(所期望的机会)。定义<我nline-formula>
l
D
参数,
(4.1)
Δ
=
p
D
一个
- - - - - -
p
D
·
p
一个
最小值
(
p
D
·
p
B
,
p
d
·
p
一个
)
。
在我们的模拟中,我们假设<我nline-formula>
一个
等位基因的<我nline-formula>
l
D
与<我nline-formula>
D
。因此,的范围<我nline-formula>
l
D
参数<我nline-formula>
Δ
是在<我nline-formula>
(
0 1
]
,0表示连锁平衡。有三个外显率参数,<我nline-formula>
f
D
D
,<我nline-formula>
f
D
d
,<我nline-formula>
f
d
d
,对应于三种可能的疾病基因型。
gydF4y2Ba仿真研究1密切关注Boehnke和Langefeld所使用的方法
15]gydF4y2Ba。对于每个模型中,患病率<我nline-formula>
K
p
5%的认为。这种疾病等位基因频率<我nline-formula>
p
从每个疾病导致模型可以计算<我nline-formula>
K
p
=
p
2
f
D
D
+
2
p
(
1
- - - - - -
p
)
f
D
d
+
(
1
- - - - - -
p
)
2
f
d
d
。总结本仿真研究中使用的参数表
4gydF4y2Ba。
表4
在仿真研究1中使用的参数。
场景
模式
p
D
p
一个
f
D
D
f
d
d
f
D
d
1
占主导地位的
0.013
0.4
1.0
0.025
1.000
2
0.016
0.4
0.8
0.025
0.800
3
0.027
0.4
0.5
0.025
0.500
4
0.074
0.4
0.2
0.025
0.200
5
添加剂
0.026
0.4
1.0
0.025
0.513
6
0.032
0.4
0.8
0.025
0.413
7
0.053
0.4
0.5
0.025
0.263
8
0.143
0.4
0.2
0.025
0.113
9
隐性
0.160
0.4
1.0
0.025
0.025
10
0.180
0.4
0.8
0.025
0.025
11
0.229
0.4
0.5
0.025
0.025
12
0.378
0.4
0.2
0.025
0.025
总结仿真研究2中使用的参数表
5gydF4y2Ba。四种常用的疾病模型:使用占主导地位(<我nline-formula>
f
D
d
=
f
D
D
)、添加剂(<我nline-formula>
f
D
d
=
(
f
D
D
+
f
d
d
)
/
2
)
乘法(<我nline-formula>
f
D
d
=
f
D
D
·
f
d
d
)和隐性(<我nline-formula>
f
D
d
=
f
d
d
)模型。
注意:确定主要模型的基础上<我nline-formula>
f
D
D
=
0.2
(场景4表
4)gydF4y2Ba。
表7
模拟真实的I型RC-TDT和RC-TDH的错误率。
兄弟姊妹的大小
α
=
0.05
α
=
0.01
α
=
0.001
RC-TDT
RC-TDH
RC-TDT
RC-TDH
RC-TDT
RC-TDH
3
0.0490
0.0502
0.0094
0.0100
0.0008
0.0010
4
0.0485
0.0499
0.0097
0.0099
0.0010
0.0010
6
0.0503
0.0497
0.0101
0.0100
0.0008
0.0010
的基础上确定的主导模式<我nline-formula>
f
D
D
=
0.2
(场景4表
4)gydF4y2Ba。
仿真研究的结果见表1
8gydF4y2Ba。疾病模型是用”<我nline-formula>
D
”、“<我nline-formula>
一个
”和“<我nline-formula>
R
”(即遗传模式的。,dominant, additive, and recessive); “1” and “2” for the value of<我nline-formula>
f
D
D
(即。,1.0和0.5)。呈现的结果来自于模拟4兄弟姐妹在每个家庭,也有相同的趋势,因为那些有2到6兄弟姐妹在每个家庭。在实例,没有父母的基因型信息,应用RC-TDH代替RC-TDT结果一致的获得的权力,特别是连锁不平衡是虚弱的。
表8
RC-TDT和RC-TDH模拟研究1。
模型
Δ
=
0.1
Δ
=
0.5
Δ
=
0.9
RC-TDT
RC-TDH
RC-TDT
RC-TDH
RC-TDT
RC-TDH
D
1
0.13
0.87
0.68
0.97
0.99
1.00
D
2
0.08
0.41
0.61
0.73
0.97
0.98
一个
1
0.10
0.43
0.65
0.77
0.97
0.97
一个
2
0.09
0.16
0.56
0.59
0.98
0.96
R
1
0.21
0.86
0.99
1.00
1.00
1.00
R
2
0.15
0.40
0.98
0.99
1.00
1.00
D
(主导),<我nline-formula>
R
(隐性),<我nline-formula>
一个
(添加剂);<我nline-formula>
f
D
D
:1 (1.0),2 (0.5);基于500个独立的复制与i型错误率. 05 150核心家庭。<我nline-formula>
Δ
是连锁不平衡的测量。当<我nline-formula>
Δ
=
0
,不存在连锁不平衡。在这个仿真研究中,所有的父母的标记基因型人失踪。
我们进行了模拟研究2比较的权力提出RC-TDH测试与RC-TDT根据连锁不平衡在不同的场景中基于表
5,gydF4y2Ba比如和弱联系的紧密联系,完整的外显率与不完全外显率。每个模拟样本由有相同数量的兄弟姐妹的家庭(<我nline-formula>
n
c
在每个家庭()<我nline-formula>
n
c
=
3
),这是确定的基础上一个影响孩子的存在。每个样本包含共有600名儿童。一半的200个家庭有完整的PGM,家庭没有的PGM的一半。评估的力量测试,生成500复制样品,在不同的模拟场景。对于每一个复制样品,获得的数据与拟议中的RC-TDH和RC-TDT计算。
gydF4y2Ba比较的力量RC-TDH与RC-TDT不同<我nline-formula>
l
D
水平,我们设置的范围<我nline-formula>
l
D
在0和1之间,复合分数为0.01,等位基因的频率<我nline-formula>
D
在0.1中,等位基因的频率<我nline-formula>
一个
为0.5,外显率的基因型<我nline-formula>
D
D
全外显率1,基因型的外显率<我nline-formula>
d
d
在0.01,然后基因型的外显率<我nline-formula>
D
d
可以通过继承的方式确定。结果在表
9gydF4y2Ba和图
1gydF4y2Ba表明,增加的力量<我nline-formula>
l
D
,提出RC-TDH比RC-TDT更强大的,特别是当<我nline-formula>
l
D
较弱的场景1的表
4gydF4y2Ba。
表9
RC-TDT的权力和RC-TDH模拟研究2。
场景
Δ
占主导地位的
隐性
添加剂
乘法
RC-TDT
RC-TDH
RC-TDT
RC-TDH
RC-TDT
RC-TDH
RC-TDT
RC-TDH
0.0
0.00
0.65
0.00
0.37
0.00
0.19
0.00
0.13
0.2
0.10
0.82
0.02
0.53
0.03
0.35
0.01
0.25
S1
0.4
0.57
0.96
0.37
0.85
0.33
0.72
0.25
0.63
0.6
0.98
1.00
0.86
1.00
0.87
0.98
0.78
0.94
0.8
1.00
1.00
1.00
1.00
1.00
1.00
0.99
1.00
1.0
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
S5
0.0
0.00
0.17
0.00
0.04
0.00
0.01
0.00
0.01
0.2
0.02
0.27
0.00
0.09
0.01
0.10
0.00
0.06
0.4
0.25
0.62
0.04
0.29
0.16
0.43
0.06
0.24
0.6
0.79
0.93
0.22
0.53
0.65
0.81
0.40
0.62
0.8
0.99
1.00
0.61
0.89
0.96
0.99
0.81
0.94
1.0
1.00
1.00
0.89
0.99
1.00
1.00
0.97
0.99
在这个模拟中,我们使用50%家庭父母的标记基因型和50%的家庭没有父母的标记基因型。
图1
的力量RC-TDH(固体)和RC-TDT(虚线)表
5(gydF4y2Ba场景1)。这个数字是基于场景1:<我nline-formula>
θ
=
0.01
,<我nline-formula>
p
D
=
0.1
,<我nline-formula>
p
一个
=
0.5
,<我nline-formula>
f
D
D
=
1
和<我nline-formula>
f
d
d
=
0.01
。0.001我错误率的类型是基于500个独立复制200核心家庭,50%的没有父母的信息。每个家庭都包含3个兄弟姐妹和至少一个影响。<我nline-formula>
l
D
是连锁不平衡的测量所定义的<我nline-formula>
Δ
节
4.1gydF4y2Ba。当<我nline-formula>
l
D
= 0,不存在连锁不平衡。
外显率的条件概率是观察表型指定疾病基因型。在场景1中,我们设置<我nline-formula>
f
D
D
(外显率为主题的标记基因型<我nline-formula>
D
D
),这是一个理想主义的外显率。比较的权力提出RC-TDH与它的竞争对手在不同外显率,<我nline-formula>
f
D
D
从完整的外显率变化不完全外显率0.5,这是更为现实。结果在表
9gydF4y2Ba和图
2gydF4y2Ba表明,该RC-TDH具有更好的能量比RC-TDT基因型的外显率的一半<我nline-formula>
D
D
场景5个人的桌子
5gydF4y2Ba。
图2
的力量RC-TDH(固体)和RC-TDT(虚线)表
5(gydF4y2Ba场景5)。这个数字是基于场景5:<我nline-formula>
θ
=
0.01
,<我nline-formula>
p
D
=
0.1
,<我nline-formula>
p
一个
=
0.5
,<我nline-formula>
f
D
D
=
0.5
和<我nline-formula>
f
d
d
=
0.01
。0.001我错误率的类型是基于500个独立复制200核心家庭,50%的没有父母的信息。每个家庭都包含3个兄弟姐妹和至少一个影响。<我nline-formula>
l
D
是连锁不平衡的测量所定义的<我nline-formula>
Δ
节
4.1gydF4y2Ba。当<我nline-formula>
l
D
= 0,不存在连锁不平衡。
总之,我们的仿真结果表明,该RC-TDH通常是更强大的比RC-TDT广泛的<我nline-formula>
l
D
紧密的联系,在疾病模型。
年代ec>年代ec>
5。讨论
映射复杂疾病,是常见的传输概率标记等位基因感兴趣的不同杂合的父母,由于轨迹异质性,病因的异质性,以及许多其他的复杂性和/或组合他们(
3,
4]gydF4y2Ba。在这种异质性传播,传播可能性通常与许多参数混合模型的形式,和有效分数测试有两个部分的形式TDH测试(
4]gydF4y2Ba。本文研究TDH测试允许重建父母的标记基因型数据的包含和扩展了RC-TDT克纳普(
10,
11]gydF4y2Ba。拟议中的新方法验证了仿真研究和GAW14数据集,结果表明,新方法可以提高家庭的力量为范围广泛的连锁分析<我nline-formula>
l
D
。此外,仿真研究也表明,RC-TDH测试的系统的权力优势在RC-TDT持有无论潜在的遗传模型(如隐性、显性、加法、乘法)。
gydF4y2Ba许多其他连锁分析测试等测试由Genehunter有相对较低的权力实现对TDT)或TDH当<我nline-formula>
l
D
是礼物。事实上,某种程度的<我nline-formula>
l
D
经常存在特别当我们使用高密度的遗传标记(例如,单核苷酸多态性)基因组,因为他们可以在越来越便宜的成本,和这些密集的标记已经非常便宜。与大量的高密度的遗传标记,一些标记可能会落入<我nline-formula>
l
D
块的因果变异。当使用这些负担得起的密集的标记在基因组或候选基因区域,我们相信RC-TDH将有更好的成功机会比古典IBD-based链接方法在检测沿着基因组连锁信号。
gydF4y2Ba作为高密度SNP阵列研究人员变得越来越便宜,越来越常见的全基因组关联研究。TDH测试有简单的闭型测试统计数据计算简单除了良好的整体跨广泛的权力<我nline-formula>
l
D
。因此该方法对于全基因组关联分析可能会有用。相比之下,似然比检测混合物通常是计算密集型(可能性
5,
17]gydF4y2Ba。许多现有连接测试和算法如讨论的似然比检验Lo et al。
5gydF4y2Ba太全基因组研究计算密集型或当基因标记的数量很大。
在没有父母已经输入,条件概率已经推导出方程(要求寄出)克纳普(
10]gydF4y2Ba。当只有一个父类型<我nline-formula>
一个
B
重建适用,同样的约束,因此要求寄出的克纳普(
10gydF4y2Ba同样适用。接下来,我们推导出时的条件概率只有一个父类型<我nline-formula>
一个
一个
。当只有一个父类型的情况下<我nline-formula>
B
B
明显是由于对称吗<我nline-formula>
一个
和<我nline-formula>
B
。
<年代ec我d="secA.1">
. 1。一个父母的基因型被类型为< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M210 " > < mml: mi > < / mml: mi > < mml: mi > < / mml: mi > < / mml:数学> < / inline-formula >
注意家庭指数<我nline-formula>
我
已经下降在接下来的公式。
gydF4y2Ba只有一个父母的基因类型,这是<我nline-formula>
一个
一个
的基因型,但缺少父母可以重建<我nline-formula>
一个
B
与基因型,如果至少有一个孩子<我nline-formula>
一个
B
与基因型和至少一个孩子<我nline-formula>
一个
一个
。在这里,条件<我nline-formula>
R
是<我nline-formula>
N
一个
B
>
0
和<我nline-formula>
N
一个
一个
>
0
。计算的条件分布<我nline-formula>
T
,我们首先计算的概率满足约束重建,<我nline-formula>
R
:
(.)
P
H
0
(
R
)
=
P
H
0
(
N
一个
一个
>
0
和
N
一个
B
>
0
)
=
1
- - - - - -
P
H
0
(
N
一个
一个
=
0
)
- - - - - -
P
H
0
(
N
一个
B
=
0
)
+
P
H
0
(
N
一个
一个
=
0
和
N
一个
B
=
0
)
=
1
- - - - - -
2
(
1
2
)
n
c
。
然后我们计算的联合概率<我nline-formula>
T
和<我nline-formula>
R
:
(a)
P
H
0
(
{
T
=
c
}
∩
R
)
=
P
H
0
(
T
=
c
∩
N
一个
一个
>
0
∩
N
一个
B
>
0
)
=
P
H
0
(
T
=
c
)
- - - - - -
P
H
0
(
T
=
c
∩
(
N
一个
一个
=
0
∪
N
一个
B
=
0
)
)
=
P
H
0
(
T
=
c
)
- - - - - -
P
H
0
(
T
=
c
∩
N
一个
一个
=
0
)
- - - - - -
P
H
0
(
T
=
c
∩
N
一个
B
=
0
)
+
0
=
(
n
一个
c
- - - - - -
n
一个
)
(
1
2
)
n
一个
- - - - - -
P
H
0
(
T
=
c
∩
N
一个
一个
=
0
)
- - - - - -
P
H
0
(
T
=
c
∩
N
一个
B
=
0
)
。
有三种情况下的计算:
案例1:<我nline-formula>
c
=
n
一个
,<我nline-formula>
P
H
0
(
{
T
=
c
}
∩
R
)
=
(
n
一个
c
- - - - - -
n
一个
)
(
1
/
2
)
n
一个
- - - - - -
(
1
/
2
)
n
c
,
案例2:<我nline-formula>
n
一个
<
c
<
2
n
一个
,<我nline-formula>
P
H
0
(
{
T
=
c
}
∩
R
)
=
(
n
一个
c
- - - - - -
n
一个
)
(
1
/
2
)
n
一个
,
案例3:<我nline-formula>
c
=
2
n
一个
,<我nline-formula>
P
H
0
(
{
T
=
c
}
∩
R
)
=
(
n
一个
c
- - - - - -
n
一个
)
(
1
/
2
)
n
一个
- - - - - -
(
1
/
2
)
n
c
。
因此的分布<我nline-formula>
T
条件在<我nline-formula>
R
是
(a)
P
H
0
(
T
=
c
∣
R
)
=
{
(
n
一个
c
- - - - - -
n
一个
)
(
1
/
2
)
n
一个
- - - - - -
(
1
/
2
)
n
c
1
- - - - - -
2
(
1
/
2
)
n
c
,
c
=
n
一个
,
(
n
一个
c
- - - - - -
n
一个
)
(
1
/
2
)
n
一个
1
- - - - - -
2
(
1
/
2
)
n
c
,
n
一个
<
c
<
2
n
一个
,
(
n
一个
c
- - - - - -
n
一个
)
(
1
/
2
)
n
一个
- - - - - -
(
1
/
2
)
n
c
1
- - - - - -
2
(
1
/
2
)
n
c
,
c
=
2
n
一个
。
由信用证。至少有一个父母的基因缺失和无法重建,但S-TDT满意的条件
在兄弟姊妹<我nline-formula>
一个
受到影响,<我nline-formula>
u
不受影响的妹妹,妹妹的总数<我nline-formula>
t
=
一个
+
u
。假设在这个兄弟姊妹兄弟姐妹的数量的基因型<我nline-formula>
一个
一个
是<我nline-formula>
r
和兄弟姐妹的数量的基因型<我nline-formula>
一个
B
是<我nline-formula>
年代
。让<我nline-formula>
x
的数量是<我nline-formula>
一个
一个
兄弟姐妹,让<我nline-formula>
y
的数量是<我nline-formula>
一个
B
兄弟姐妹的人被列为影响。如前所述在Spielman和埃文
9),gydF4y2Ba考虑到总数<我nline-formula>
r
,<我nline-formula>
年代
,<我nline-formula>
一个
,<我nline-formula>
u
,<我nline-formula>
t
,数字<我nline-formula>
x
,<我nline-formula>
y
可以被看作是两个条目吗<我nline-formula>
2
×
3
列联表与边际总数<我nline-formula>
一个
,<我nline-formula>
u
,<我nline-formula>
r
,<我nline-formula>
年代
,<我nline-formula>
t
- - - - - -
r
- - - - - -
年代
。因此,的分布<我nline-formula>
T
=
2
x
+
y
可以通过广义超几何分布
1847gydF4y2Ba页)。更具体地说,我们有
(各)
P
(
T
=
c
)
=
∑
我
=
马克斯
(
c
- - - - - -
2
一个
,
c
- - - - - -
2
r
,
0
)
最小值
(
年代
,
一个
,
c
)
(
r
(
c
- - - - - -
我
)
/
2
)
·
(
年代
我
)
·
(
t
- - - - - -
r
- - - - - -
年代
一个
- - - - - -
(
(
c
+
我
)
/
2
)
)
(
t
一个
)
,
1
≤
c
≤
最小值
(
2
r
+
年代
,
2
一个
)
。
重建概率公式的父母的标记基因型在不同缺失基因型和约束类型,以及这些公式的详细推导,可以发现在汉
16]gydF4y2Ba。
年代ec>年代ec>
确认
这项研究部分石质Wold-Herbert基金会的支持下,在MPD格兰特研究财团项目(1 p01 CA108671),和纽约大学癌症中心支持格兰特(2 e CA16087)和纽约大学NIEHS中心格兰特(5 e ES00260)。JH进行的研究的一部分,她的博士论文在纽约大学工作。