研究文章| 马Pinchao Xuhua夏 一个基因的蛋白质需要大规模生产不仅需要转录率高,而且拥有特性允许它拼接有效和准确的。因此,剪接是一个主要组件的mRNA生产质量控制流程的真核生物(<一个href="#B22">22一个>]。高表达基因进化应该有效的5′ss和3′党卫军,避免异常剪接不仅浪费而且还可以产生错误的蛋白质,扰乱正常的细胞过程。相比之下,粘接强度高的选择应该是相对较弱的低表达基因的党卫军可能漂移通过突变来拼接效率低。这有两个关于粘接强度的影响。首先,粘接强度高转录基因应该是高于平均低转录的基因。第二,粘接强度的方差应该大的转录基因(其接合强度可能很高,但也可能漂移值低通过突变)比高转录基因(其接合强度应该高)。摘要首先系统分析之间的关系连接强度和基因表达的水平。
全面评估内含子剪接的力量和基因表达之间的关系需要准确描述的内含子和可靠的大规模测量基因表达。酵母(<我>酿酒酵母我>)是第一个物种的准确表征在信使rna和蛋白质内含子和基因表达水平。目前已经开发出了两个强大的方法描述酵母基因内区。首先是使用高密度酵母花砖数组与退化的酵母突变体缺陷处理基因内区套索(<一个href="#B23">23一个>]。套索在RNA的积累池是高密度花砖阵列不仅可以检测到的基因内区验证还发现新的基因内区。第二种方法涉及到设计微阵列探针具体exon-intron连接和exon-exon连接定量描述unspliced和拼接mRNA (<一个href="#B24">24一个>- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - - 除了高质量的分子数据的可用性,在使用有额外的优势<我>酿酒酵母我>对于这样一个研究。首先,酵母细胞需要迅速复制和自然选择应该强烈反对酵母高度表达的基因拼接内含子与不佳。第二,酵母基因组中几乎没有内含子,他们中的大多数已经正确的注释(<一个href="#B23">23一个>, 很难直接测量连接强度,和以前的出版物使用的位置权重矩阵(PWM, [<一个href="#B37">37一个>, 有24个基因的内含子5′utr(表<一个href="//www.newsama.com/journals/ijg/2011/212146/tab1/" target="_blank">1一个>)。我们最初认为他们可能较弱的学生比那些位于编码序列,因为未能拼接等内含子似乎小功能结果只要翻译机器可以找到合适的翻译起始位点。然而,没有检测到两者之间的区别。排除或包括这些24酵母协调小组并没有改变的结论。
对于每个基因内区,我们最初提取10基地从外显子和12基地从基因内区采用DAMBE [<一个href="#B41">41一个>, 一些研究人员(例如,<一个href="#B39">39一个>, 一些酵母内含子可能是标注错误。带注释的基因内区<我>YJR112W-A我>在酵母基因是最短的基因内区(49 bp)和AG)并未结束。基因内区实际上是不再可能与真正的3′ss下游。根据SGD注释(<一个href="#B44">44一个>), 整个记录的核苷酸频率(即。,我ncluding both exons and introns) were used as background frequencies for computing PWM, with A0.3279,C 几项研究[<一个href="#B43">43一个>, 图形化显示特定核苷酸模式的另一个常用的方法是序列标识已被用来描述基因内区ss (<一个href="#B19">19一个>]。原来的方法(<一个href="#B46">46一个>)不考虑背景核苷酸的偏见,以及由此产生的序列标识相当于一个PWM假设核苷酸频率相等。例如,有偏背景频率酵母暗示标志序列将显示比C和G和T更加突出甚至当感兴趣的序列不包含特定站点的信息。然而,这个问题已经被最近的改进(<一个href="#B47">47一个>),允许一个指定背景(之前)就像在PWM频率。摘要语标序列生成的RNA结构标识网站<一个href="http://www.cbs.dtu.dk/~gorodkin/appl/slogo.html" target="_blank">http://www.cbs.dtu.dk/ gorodkin /: / slogo.html一个>。
第二个衡量基因表达的是酵母基因的mRNA相对丰度从两个先前的研究,描述在酵母全基因组RNA丰度(<一个href="#B27">27一个>, 第三测量基因表达的蛋白质生产的酵母基因特征在两个先前的研究。蛋白质丰度数据<一个href="#B29">29日一个>)下载<一个href="http://www.nature.com/nature/journal/v425/n6959/extref/nature02046-s2.xls" target="_blank">http://www.nature.com/nature/journal/v425/n6959/extref/nature02046-s2.xls”> nature02046-s2.xls一个>。预测蛋白质合成率在两个实验条件(交配信息素的治疗和控制)可靠地测量了3916个基因(补充表二世(<一个href="#B30">30.一个>]),我们使用两个实验的平均值。
信使rna和蛋白质的表征,YAR044W同义YAR042W基因库的文件,所以YDR474C YDR475C, YJL018W YJL019W, YJL021C YJL020C, YPR090W YPR089W, YFR024C YFR024C-A。一些基因(YEL068C YER084W、YHR173C YIL054W, YJR146W, YLR358C, YNL140C, YNL143C, YNL184C,和YOR105W)在SGD注释“可疑的开放阅读框可能编码一种蛋白质”,并没有注释的<我>酿酒酵母我>在NCBI基因组。然而,他们被发现在mRNA表达(<一个href="#B27">27一个>和蛋白质含量<一个href="#B29">29日一个>),因此在我们的分析中。YFL006W和YFL007W并入YFL007W, YJL017W YJL016W成YJL016W, YOR087W和YOR088W YOR087W在最近的酵母基因组注释。
两个数据文件编译连接作为补充材料。一个(PWM-All.xls)包括所有内含子、mRNA丰富从GATC-PCR方法<一个href="#B28">28一个>),基于核糖体加载和信使rna和蛋白质合成率(<一个href="#B30">30.一个>]。其他(PWM-No5UTRintrno.xls)不包括5′UTR内含子,包括mRNA丰富从微阵列<一个href="#B27">27一个>)和蛋白质丰度数据(<一个href="#B29">29日一个>]。
影响酵母基因拼接强度的因素
文摘
1。介绍
2。材料和方法
系统。的名字
性病的名字
空空的
位置
基因组的位置
链
YBL072C
RPS8A
2
89440 . . 89133
C
YBL092W
RPL32
2
45645 . . 45977
W
YBR089C-A
NHP6B
2
426873 . . 426517
C
YDL061C
RPS29B
4
341219 . . 340811
C
YDL137W
ARF2
4
216158 . . 216489
W
YDL189W
RBS1
4
122078 . . 122176
W
YDR099W
BMH2
4
652781 . . 653523
W
YER102W
RPS8B
5
362733 . . 363092
W
YER131W
RPS26B
5
423591 . . 423951
W
YFR032C-A
RPL29
6
223771 . . 223441
C
YGL031C
RPL24A
7
438397 . . 437942
C
YGL187C
COX4
7
150525 . . 150184
C
YGL189C
RPS26A
7
148966 . . 148599
C
YGR027C
RPS25A
7
534785 . . 534474
C
YGR148C
RPL24B
7
788178 . . 787787
C
YIL123W
SIM1
9
127662 . . 128148
W
YJL130C
URA2
10
172752 . . 172433
C
YKL150W
MCR1
11
166400 . . 166487
W
YKL186C
MTR2
11
93465 . . 93312
C
YLR333C
RPS25B
12
796335 . . 795913
C
YLR367W
RPS22B
12
855878 . . 856434
W
YLR388W
RPS29A
12
898158 . . 898645
W
YNL066W
SUN4
14
501157 . . 501502
W
YPL230W
USV1
16
115219 . . 115293
W
(1)系统的名称。
基因
PWM *
第一外显子兰
序列
BET4
4.2977
3
8月
BOS1
3.5760
3
8月
DCN1
6.5363
3
8月
MND1
8.1685
3
8月
MPT5
8.5055
3
8月
PSP2
8.4546
4
AUGG
QCR9
5.7592
3
8月
RPL13A
6.9991
4
AUGG
RPL13B
8.6752
4
AUGG
RPL19A
6.9298
2
非盟
RPL19B
11.7762
2
非盟
RPL20A
9.7145
1
一个
RPL20B
8.0214
1
一个
RPL2A
12.0769
4
AUGG
RPL2B
9.7326
4
AUGG
RPL30
8.1799
3
8月
RPL35A
7.3834
3
8月
RPL35B
7.8326
3
8月
RPL42A
9.2392
4
AUGG
RPL42B
7.0558
4
AUGG
RPL43A
9.9976
2
非盟
RPL43B
12.0547
2
非盟
RPS17A
9.1269
3
8月
RPS17B
10.1283
3
8月
RPS24A
9.4227
3
8月
RPS24B
11.3548
3
8月
RPS27A
6.3612
3
8月
RPS27B
10.3823
3
8月
RPS30A
10.8845
3
8月
RPS30B
6.2290
3
8月
UBC12
8.4505
3
8月
VMA10
8.2722
3
8月
YSF3
7.1596
3
8月
*位置权重矩阵得分在3′党卫军。
2.2。描述拼接的效率网站(ss)位置权重矩阵(麻省)和序列标识
2.3。基因表达
3所示。结果与讨论
网站
一个
C
G
U
χ我>2
一个
C
G
U
−5
94年
32
57
92年
11.798
0.0081088
0.0641
−0.7117
0.0245
0.2792
−4
119年
47
48
61年
14.117
0.0027505
0.4032
−0.1599
−0.2225
−0.3115
−3
139年
38
43
55
39.672
0.0000001
0.6268我>
−0.4651
−0.3805
−0.4601
−2
138年
40
36
61年
38.899
0.0000001
0.6164我>
−0.3915
−0.6355
−0.3115
−1
91年
45
88年
51
27.270
0.0000052
0.0174
−0.2223
0.6492我>
−0.5685
1
0
1
274年
0
1060.426
0.0000004
−8.1042
−5.4675
2.2855我>
−8.1044
2
0
9
0
266年
658.096
0.0000003
−8.1042
−2.5200
−8.1048
1.8081我>
3
268年
1
2
4
522.754
0.0000003
1.5723我>
−5.4675
−4.6732
−4.1523
4
17
29日
1
228年
428.607
0.0000002
−2.3805
−0.8528
−5.5454
1.5859我>
5
2
0
272年
1
1041.047
0.0000004
−5.2765
−8.1049
2.2750我>
−5.8967
6
10
8
2
255年
583.545
0.0000003
−3.1271
−2.6862
−4.6732
1.7472我>
7
97年
18
39
121年
55.570
0.0000001
0.1092
−1.5351
−0.5206
0.6734我>
8
95年
54
35
91年
11.363
0.0099180
0.0793
0.0397
−0.6759
0.2635
9
123年
45
34
73年
22.172
0.0000601
0.4508
−0.2223
−0.7175
−0.0534
10
118年
41
38
78年
17.334
0.0006034
0.3911
−0.3560
−0.5579
0.0418
11
105年
33
43
94年
17.367
0.0005940
0.2232
−0.6676
−0.3805
0.3101
12
90年
44
42
99年
12.109
0.0070180
0.0015
−0.2546
−0.4142
0.3847
网站
一个
C
G
U
χ我>2
一个
C
G
U
−12
70年
58
37
136年
51.729
0.0000001
−0.4898
0.0122
−0.7264
0.7114我>
−11
79年
51
23
148年
79.511
0.0000001
−0.3161
−0.1727
−1.4074
0.8332我>
−10
86年
45
14
156年
105.131
0.0000001
−0.1941
−0.3525
−2.1155
0.9090我>
−9
43
33
23
202年
236.063
0.0000001
−1.1886
−0.7978
−1.4074
1.2812我>
−8
56
43
31日
171年
130.216
0.0000001
−0.8100
−0.4178
−0.9801
1.0412我>
−7
102年
35
31日
133年
54.256
0.0000001
0.0512
−0.7134
−0.9801
0.6793我>
−6
103年
46
38
114年
23.130
0.0000380
0.0653
−0.3210
−0.6881
0.4574我>
−5
One hundred.
36
25
140年
68.925
0.0000000
0.0228
−0.6729
−1.2882
0.7532我>
−4
145年
27
41
88年
45.473
0.0000001
0.5574我>
−1.0854
−0.5790
0.0850
−3
15
127年
0
159年
284.824
0.0000002
−2.6877
1.1404我>
−8.2350
0.9364我>
−2
299年
1
1
0
605.789
0.0000003
1.5998我>
−5.5977
−5.6756
−8.2346
−1
0
0
301年
0
1171.443
0.0000004
−8.2345
−8.2351
2.2908我>
−8.2346
1
109年
39
74年
79年
9.936
0.0191208
0.1467
−0.5580
0.2697
−0.0701
2
84年
66年
55
96年
6.036
0.1098600
−0.2279
0.1981
−0.1571
0.2102
3
103年
58
50
90年
2.969
0.3964877
0.0653
0.0122
−0.2940
0.1173
4
96年
45
56
104年
8.655
0.0342400
−0.0359
−0.3525
−0.1312
0.3253
5
One hundred.
69年
39
93年
11.698
0.0084938
0.0228
0.2620
−0.6508
0.1645
(一)
(b)

(一)
(b)
体积
2011年
|文章的ID
212146年
|
https://doi.org/10.1155/2011/212146一个>
学术编辑器:约翰·帕金森
收到了
2011年7月30日
接受
06年9月2011年
发表
2011年11月20日