文摘

复杂系统的设计过程在所有领域的工程需要一组定量描述组件和一个方法来预测系统的输出由这些元素。这种策略依赖于使用的模块化组件或预测的上下文相关的行为,当部分功能取决于特定的上下文。通常数学模型支持整个过程指导零件的选择和预测互连系统的输出。这种自下而上的设计过程不可能平凡地采用生物系统工程,由于零部件功能很难预测何时在不同的上下文中重用。这个问题和生活的内在复杂性系统限制合成生物学家的能力来预测生物系统的定量行为。合成生物学的高潜力很大程度上取决于掌握这个问题的能力。本文讨论了基本的生物部件的可预测性问题(启动子、核糖体结合位点、编码序列,转录终止剂,和质粒)使用时工程师简单的和复杂的基因表达系统大肠杆菌。比较自底向上和试错的方法执行的所有元素和讨论数学模型支持部分行为的预测。

1。背景

为了处理复杂性的设计定制系统,工程师通常依赖于一个自底向上的方法:组件是一个相互关联的定量特征和输出系统预计从各个部分函数的知识1]。这个过程是应用于所有领域的工程和有用的隐藏单个组件功能的复杂性,因此使用它们作为输入输出模块(2]。

这种策略成功只在一个模块化的框架,在部分行为不会改变在联系,一般来说,当相同的部分在不同的上下文中重用(3,4]。即使这个属性不存在,自底向上的方法也是可行的,当工程师们能够预测部分的行为变化是环境变化的函数或互联5]。在电子技术中,后一种情况的例子有电阻:他们的特点是一个电阻,这并没有改变在不同的电路连接。然而,它已是不争,电阻变化作为温度的函数,因此,电气组件的数据报告耐热性的特点,使复杂电路的输出预测在不同的环境中使用时。另一个例子是与一个非零阻抗电路;它可以表现出一个不同的输入输出行为当互连不同的负载。然而,仍有可能预测的输出这种互连系统,因为电路的数学模型能够描述整个网络的电压和电流。

数学模型广泛应用于许多领域的工程支持系统的早期设计步骤,指导调试过程,测量nonobservable参数,最后预测系统的定量行为由precharacterized部分。同样,模型中也发挥着重要的作用在一个生物系统框架;事实上,他们常常被用于研究复杂的代谢作用,像那些发生在疾病条件理解底层的过程和/或预测药物的效果(25]。一些生物/生理系统的数学模型也已通过美国食品和药物管理局(FDA)用于模拟临床试验,从而使研究人员,例如,支持甚至跳过昂贵在活的有机体内试验(26]。

合成生物学旨在实现小说复杂的生物功能相同的原则工程学科奠定基础:模块化、抽象,和可预测性2,27,28]。结果,合成生物学家目前主要集中在生物部件和抽象的定义和标准化,以处理与特定的函数定义的组件(29日]。这一过程带来了生物部件的创建存储库包括DNA部分由科学界可以共享,像麻省理工学院生物标准件登记处的30.- - - - - -32],标准化和容易自动化DNA组装策略[33- - - - - -35),和标准测量方法分享表征的结果部分,像推动者36,37]。研究人员还关注engineering-inspired函数学习的实现复杂度,可以达到在生物环境中。朝着这个目标,研究人员建立了设备,实现逻辑门和函数(19,38- - - - - -41,记忆42),振子(43- - - - - -45),其他波形发生器(46,47),信号处理设备(48- - - - - -50),等等。他们中的许多人依靠数学模型来支持早期的设计步骤和捕捉设计电路的行为。例如,合成生物学的两个里程碑是一个遗传拨动开关(42)和一个振荡器(repressilator)[43实现)大肠杆菌通过遗传网络连接的正确转录监管机构。半定量的调查所需的功能进行正确的电路行为通过数学模型,利用无量纲方程或合理的参数值。由于模型分析,作者可以学习有用的指导方针的正确设计电路表现出所需的功能,例如,快速降解率的阻遏蛋白编码振荡网络(43]。

复杂功能的实现带来了一些生物系统的影响。的改造途径实施重组酵母产生抗疟药物青蒿素前体(51];biosensor-encoding遗传装置中实现微生物检测饮用水中砷和提供一个颜色变化的生长介质作为视觉输出(52,53];最近工程微生物从藻类生物质生产生物乙醇54从不同的基质[]或先进的燃料55]。

然而,尽管很多复杂的例子engineering-inspired功能实现和工业相关解决方案的全球健康,环境和能源问题,严格的自底向上的设计过程并不是目前采用因为可预测性边界仍然必须明确定义(3,56,57]。合成生物学的高潜力很大程度上取决于任务的成就(58]。代表另一种试错的方法:如果合成生物学家不能由下而上设计一个系统,他们可以依靠随机方法,例如,电路元件突变和选择最佳人选实现利益的功能(38,59,60]。根据预测的可靠性数学模型,这一过程可能是完全随机的或部分引导。一般来说,试错方法耗时、耗资源,以较低的效率。然而,最近的生物系统的建设的进步,例如,DNA和/或应变通过自动化生产过程,提供了一个很好的选择理性的自底向上的方法,特别是当准确,自动化,并可能低成本快速筛选方法可用于评价构建的输出电路(60]。

本文讨论了基本的生物部件的可预测性问题(启动子、核糖体结合sites-RBSs、编码序列,转录终止剂,和质粒)当用于设计所需的生物功能的形式简单的或复杂的基因表达系统。尽管合成生物系统可能在一些生物(甚至实现在体外(61年]),可能有不同的体系结构和管理机制62年,63年),审查重点部分的可预测性在活的有机体内大肠杆菌细菌,根据生物信息流中描述分子生物学的中心法则64年:蛋白质编码DNA序列(此处称为基因)转录成信使rna分子,转化成蛋白质的核糖体,,最后,在活细胞的DNA序列可以被复制传播后代编码功能。因此,在考虑框架中,可能的基本架构框所示1:启动子可以触发单个基因的表达(monocistronic架构)或一组基因(多顺反子或操纵子架构),每个基因转录与苏格兰皇家银行停止转录上游最后结束符。核糖体翻译完成流程的信使rna分子的蛋白质的兴趣,从密码子(通常8月)开始到终止密码子(一般UAA)。复杂的基因电路可以实现等一系列基因表达单元,实现感兴趣的互动和提供所需的产品作为输出。基因电路可以放在一个质粒向量或者他们可以集成到一个目标细菌染色体的位置。

即使其他类的零件可以用来构造复杂的遗传系统和其他元素也会影响电路的行为,我们将只关注上述基因部分和体系结构,给定一个特定的应变和环境。其他重要的上下文,如主机(部分行为的相互变化和宿主代谢整合电路时),环境(部分行为和环境的相互变化参数),生态(合成电路和周围社区的变化参数,以及菌株健身),和进化(DNA的变化成分)上下文他处(57]。其他评论补充目前的工作,描述软件工具零件/通路识别(65年)和细胞行为模型在不同尺度65年- - - - - -67年]。

每个生物部件和体系结构描述的盒子1将被考虑。我们将讨论到什么程度可以预测,然后比较它们的功能将进行自底向上和试错的方法。和架构,每个部分的贡献数学模型支持电路行为的预测将被突出显示。尽管许多计算机辅助设计(CAD)工具可用于合成电路(68年),只有数学分析工具(也包括从系统生物学领域的工具)和预测模型的部分功能将被认为是,虽然没有软件工具对数据库访问/开发或装配过程的支持(65年)将被考虑。特别是,考虑工具可以常微分方程(ODE)模型(或派生的稳态方程模型)基于经验或机械的功能,或预测模型能够推断出部分行为特定DNA序列和/或他们的背景。

2。研究和工具来支持自底向上的设计

部分的装备,体系结构和上下文可以将讨论合成生物学家。然后,互连问题将被考虑。总结部分可用的选择的方法和工具/设备定量预测报告在表1

2.1。启动子

启动子是本质上的上下文相关的部分,因为众所周知,他们的上游和下游的元素可能影响转录活动(69年- - - - - -73年]。启动子的可预测性的研究都集中在他们的上下文相关的可变性和活动考虑到他们的核苷酸序列预测。上下文相关的可变性研究旨在评估发起人是否显示相同的活动在不同的上下文中,例如,当上游启动子有不同的序列,当/ mrna表达不同的基因,或者当其他独立基因表达磁带出现在相同的电路。一般来说,一组的活动发起人可以通过记者间接测量蛋白质,如果下游序列(即相同。,identical RBSs, reporter genes, terminators, and similar transcription start sites—TSSs) so that mRNA primary and secondary structures do not significantly vary among the promoter measurement systems [37]。使用相同的架构,活动可以通过qPCR评估,通过直接测量mRNA水平(74年]。戴维斯et al。73年量化一组的组成型启动子,发现当一个特定的活动影响了4倍上游()序列放置在启动子之前,尽管在某些情况下活动不受影响。其他的研究表明,上游顺序相依活动改变可能高达300倍,可以影响等不同的转录活动的共识序列被确定(72年,75年,76年];这种效应观察当使用rrnB P1启动子,但活动改变lac启动子也被观察到。另一方面,特定的“反”序列的下游启动子可以限制RNA聚合酶逃生过程,从而影响推广活动(77年];这些元素被发现sigma70和sigma32子活动减少到10倍(69年]。戴维斯等人还测试了不同序列侧翼启动子下游的影响,包括一个“反”序列或不同的报告基因(GFP,安全域,和双子座)相同的苏格兰皇家银行,产生一个活动改变了2倍(73年]。类似的褶皱变化是在类似的实验中,观察到在马丁et al。78年测试了GFP, lacZ-alpha,作为报告基因和双子座。然而,在他们的工作,持续的患病率差异最强的启动子,可能受到过度的lacZ-alpha片段比ω片段互补所需。我们组的研究(20.)取得了较低的活动变化估计一组5广泛使用的启动子表达绿色荧光蛋白(GFP) BBa_B0032苏格兰皇家银行或红色荧光蛋白(RFP) BBa_B0032或BBa_B0034苏格兰皇家银行:只有一个测试启动子显示重要的活动变化三个条件,用变异系数(CV)的22%。上述研究在RPUs表达启动子活动,为了提供类似的测量中所使用的不同的记者。最近的进步DNA合成、组装和高通量表征技术使得量化单基因表达的非常大的图书馆磁带由不同的启动子,苏格兰皇家银行,和目标基因,通过测量荧光报告基因,以及通过qPCR mRNA水平或下一代测序。特别是Kosuri等人进行了迄今为止规模最大的实验研究中,在114年启动子和111苏格兰皇家银行联合上游的GFP基因(60]。启动子被发现引发一致的RNA水平的下游不同RBS-gene组合之间的记录。通过使用一个方差分析模型进行数据解释,发现启动子序列约占总变异的92%的mRNA水平,证明发起人的主要影响因素是mRNA水平,尽管他们表示不同的mRNA。苏格兰皇家银行(rbs)占总变异的4%,这可能是由于下游序列转录速率调制的不涉及转录启动子或其他现象,如RBS-dependent信使rna降解或封存(见讨论部分2。2)。

大多数的侧翼顺序相依启动子的研究相对于下游的序列,而上游序列是研究较少。即使高度刺激或抑制效应可能是通过“反”序列,获得启动子被发现改变他们的活动在一个相当低的叠化时在这样困难的元素。

虽然这些数据作了重大贡献对启动子可重用性的理解,由独立的基因表达系统表达磁带没有类似的研究和可能产生不可预知的影响。Hajimorad et al。79年]研究了mRNA水平由不同的基因表达磁带测试效果的叠加合成生物系统在不同拷贝数水平;他们发现情况甚至三磁带可以提供可预测的mRNA水平,同时,在其他配置,磁带不能被认为是模块化系统。同样,我们组(20.)使用两个cassette-systems表达GFP和RFP一组启动子的控制下,检测荧光作为输出。暗盒位置也进行了研究。上下文相关的变异高于个人盒式表达不同的记者(最大的简历分别为33%和22%)。的一部分,这种变化可以解释为不同的上游序列;即启动子可以在上游的转录终止子盒或克隆的质粒序列上游站点。

活动的预测研究启动子的核苷酸序列尚未产生精确的工具,广泛应用sigma70推动者。启动子强度可以受到许多序列特性的影响,还没有完全理解,包括35 / 10−−序列,讨论它们之间的间隔和上面的侧翼序列。最近努力预测包括Rhodius等人的作品。6,80年重量),谁开发的位置依赖于模型预测的活动sigmaE启动子的一个函数序列,以及他们的侧翼序列(元素),具有良好的预测性能( 后交叉验证)6]。然而,同样的方法不可能适合sigma70推动者由于其复杂的结构(80年]。De最大经济产量等人使用偏最小二乘(PLS)回归分类启动子强度作为核苷酸序列的函数(7];这种方法准确地预测6 7启动子的活性作为测试集。孟等人开发了一个人工神经网络(ANN)预测的力量监管元素由一个启动子和一个苏格兰皇家银行(8];这种方法带来的精确预测初始测试组10 promoter-RBS双( )和良好的性能也得到了16个新建的第二组对。描述的工具提供了有前景的结果,但需要额外的工作来独立验证这些方法在其他数据集和完全理解启动子序列特性。

总之,可再生的上下文相关的可变性的研究应该进行充分了解个人表达的启动子活性影响因素在多个盒式磁带和系统。大图书馆的部分现在负担得起的,因为这个原因,分析这些因素将推动,以及活动预测启动子序列。标准(37和多方面的74年)提出了表征方法提供可靠的测量,可以在许多实验室共享和复制。

2.2。苏格兰皇家银行

苏格兰皇家银行强烈上下文相关的元素,因为他们周围的序列可以影响核糖体绑定和,因此,翻译起始速度/成绩单。特别是,甚至一些核苷酸的变化在苏格兰皇家银行或周围的序列可以显著影响翻译(10),使用不同的基因下游的苏格兰皇家银行可以提供完全不同的转化效率(81年]。鉴于基因的序列及其5′UTR生物物理模型被用来预测翻译起始利率模型局部和全局折叠,以及苏格兰皇家银行和16 s rrna之间的互动。计算工具,如苏格兰皇家银行设计师(独立的应用程序,10))、苏格兰皇家银行(RBS)计算器(基于web的应用程序,9])和UTR设计师(基于web的应用程序,11])可用来执行这样的任务。他们考虑到5′UTR序列,以及编码序列预测的第一部分翻译起始利率水平。苏格兰皇家银行计算器和UTR设计师使用类似的生物物理thermodynamics-based模型,而苏格兰皇家银行设计师使用稳态stepwise-occurring反应的动力学模型82年,83年]。这些工具显示出类似的和相当好的预测性能( ),也可以使用正向工程小说苏格兰皇家银行所需的强度(83年]。他们区分不同的外部工具的使用对能源计算(83年),对一些特定的特性;例如,苏格兰皇家银行计算器提供信心的迹象,频繁更新(84年)、苏格兰皇家银行(RBS)设计师认为远程交互在RNA和可以预测mrna的翻译效率可能折叠成多个结构,而UTR设计师使密码子编辑最小化二级结构(83年]。其他努力苏格兰皇家银行预测包括人工神经网络,上面已经提到,评估的力量promoter-RBS双(8]。

苏格兰皇家银行的计算器是最常用的工具之一,在合成生物学社区:它被用于基础研究的研究来优化合成的反应和门9),生成一套苏格兰皇家银行分级的优势评价转录/翻译过程(85年DNA测试,组装平台(33,35),以及应用研究优化生物合成途径(86年,87年]。虽然是被证明是有用的指导的选择适当的苏格兰皇家银行(RBS)序列给定一个下游基因,其准确性是有限的和额外的工具应制定改善苏格兰皇家银行的可预测性(57,81年]。

苏格兰皇家银行也可能影响的mRNA衰变率导致不同的二级结构16]。此外,Kosuri等人也观察到一个转录和翻译之间的相互交互:事实上,翻译效率会影响mRNA水平,可能是因为大多数翻译mRNA分子免受退化,相比至少翻译mRNA (60]。

总之,在启动子的情况下,大型数据集已经有用的贡献不同的上下文相关的因素。由于苏格兰皇家银行的强大的上下文相关的性质,实验研究主要集中在侧翼序列,而苏格兰皇家银行在复杂电路模块化的评价仍然需要研究。

2.3。基因

给定一个靶蛋白,其编码序列可以影响转录和翻译过程(15,88年]。如上所述,信使rna二级结构会影响信使rna降解和苏格兰皇家银行的可访问性限制在核糖体,此外,at富集序列可能导致过早转录终止(89年]。密码子的使用已被报道,影响翻译过程(90年]。在这个框架中,大多数的努力预测基因序列转录/翻译过程的贡献主要集中在基因优化算法的发展。来定义他们,几个序列需要构建覆盖足够数量的假设;尽管合成基因的成本大大降低,基因合成仍带来昂贵的研究(88年]。出于这个原因,序列优化的过程并不完全理解,没有共识的规则已经发现了基因优化。一些研究认为强大的二级结构是蛋白质合成的主要限制因素(91年),而其他的研究没有发现预测二级结构和表达水平之间的相关性92年]。另一方面,在一些研究中表达水平被发现与密码子适应指数(CAI) [93年,94年),通常用来表达基因的密码子偏好对常见的密码子(95年),而在其他的研究中这种相关性是零88年,91年]。密码子的随机化方法、密码子在哪里提取密码子使用频率表,发现优于“一个氨基acid-one密码子”策略,CAI的最大化(15,92年]。最后,密码子上下文,密码子对使用的影响,发现影响蛋白表达,尽管没有现成的软件工具可以执行一个优化过程基于这些特征(90年]。

上面描述的所有特性可能是基因和变异相关的88年),由于这个原因,一些研究应该进行识别正确的特性影响转录的基因序列,翻译,和其他流程。特别是,信使rna和蛋白质水平的同步测量可以提供详尽的数据解耦基因序列变化对细胞过程的影响。在大规模的一项研究中,由古德曼et al .,构建图书馆> 14000表达系统,测试的贡献氨基密码子在基因表达96年];他们测量DNA, RNA,蛋白质含量和证实,信使RNA二级结构是一个关键因素,可以调整基因表达~ 14倍。

到目前为止的研究工作开展带来了不同的基因优化工具,目前所使用的合成生物学家和基因合成公司优化蛋白表达,根据密码子使用频率表、全球GC含量,最小化发夹结构的基因和/或二级结构的n端基码(97年,98年]。免费的软件工具提出了文学包括,例如,宝石(基于web的应用程序,12]),优化器(基于web的应用程序,13]),合成基因设计师(基于web的应用程序,14])和基因设计师(独立的应用程序,15])。所有可用的工具主要是区分选择设计的基因(例如,避免不必要的限制性位点和反向重复,设计框架基因合成的寡核苷酸)和密码子优化策略(例如,“一个氨基acid-one密码子”的方法,概率方法,或混合解决方案,基于来自不同来源的密码子频率表)考虑密码子的使用和限制。因为许多可用的工具是专有的基因合成的公司,一个准确的比较实现的方法是不可行的,此外,他们的表演仍需通过实验评估在不同的基因集。

总之,虽然提出了预测工具,没有被广泛接受的算法可用来预测转录基因序列的影响,翻译或信使rna降解。

2.4。结束符

这里被认为是Rho-independent结束符。虽然非常有效的终端是可用的(例如,流行的BBa_B0015双终结者的麻省理工学院注册标准生物部件),少量的元素的重复使用在基因电路可能导致贫穷的进化稳定(99年,One hundred.]。出于这个原因,可靠的方法来设计新的终端可预测的力量和方法预测的效率已经存在终端需要考虑到他们的序列。

终结者效率可以通过operon-structured特征测量系统,在启动子驱动两个不同的报告基因的表达与终结者序列组装这两个基因之间的测量。这两个记者蛋白质是量化和终止效率计算的值,考虑到操纵子没有终结者的利益作为控制(16,17,101年]。

启动子和苏格兰皇家银行等终结者效率也被发现是依赖于周围的环境。特别是,Cambray et al。16)测试不同的最小的终端,包括只有发夹和U-tail序列和终止效率相比各自的完整的结束符。效率显著改变这两个环境之间几乎所有的11测试终端,证明侧翼序列的基本终结者是至关重要的部分。作者还使用了一个多元线性回归模型来建立一个预测工具对于转录终止给定的终结者序列,通过逐步回归使用一组特性确定,但结果预测了54个终端使用上的表现不佳( 后交叉验证)。只有通过排除终端效率低、预测折叠频率结束符,和扩展终端类、皮尔森相关系数 交叉验证后增加到0.85。通过一个互补的方法,陈等人。17)实验的特点大量终端(582)和分析了序列特性有助于他们的力量。主要功能是用来建立一个生物物理模型,旨在捕捉终止强度(Ts)的函数U-tract,发夹循环,茎基,A-tract-free能量。通过线性回归模型被用来适应实验确定Ts,产生一个平方 值为0.4,从而导致较低的预测性能。虽然目前还没有提供给用户,上面的出版物中所开发的工具(16,17)可以通过所提供的回归系数,实现基于web的核酸折叠工具和特定的索引计算从终结者序列。这两个最近的研究依赖于实验测量通过上述执行和报告基因操纵子的结构。然而,Cambray等人构建测量与核糖核酸酶质粒侧翼终结者来衡量网站,为了避免terminator-dependent信使rna折叠,这可能会影响两个报告基因的翻译效率。作者测试了RFP-GFP和GFP-RFP操纵子与终端在核糖核酸酶III,核糖核酸酶E,或非功能性核糖核酸酶III网站。配置给上游基因水平的降低方差系数与核糖核酸酶III的RFP-GFP操纵子站点,这是用于所有的表征实验。相反,陈等人用GFP-RFP操纵子没有核糖核酸酶的网站,因为他们发现,在它们的配置,核糖核酸酶E网站存在下游基因表达的影响。根据这些研究结果,终端的标准测量方法仍然需要被定义为了使可靠的量化和避免潜在的机制,会使得测量终结者效率,例如,可能出现的启动子接口的终结者的测量和下游基因操纵子(17]。

总之,序列特性影响终端行为最近评估在大型数据集,但预测模型具有良好的表演还没有可用的,证明不同模型和额外的知识需要转录终止,以及实验测量的标准设置。

2.5。互联网络和追溯效力

在自下而上的哲学成分的生物系统中,任意复杂网络视为黑盒模块,可以相互联系。他们的描述可以提供必要的元素来描述它们的稳态和动态行为。以模块化的框架,这些知识使复合网络的预测功能。定量测试生物系统的模块化边界,最近的研究关注系统部分的描述和预测的复合系统的行为,获得在他们的互连。王等人。18)测试不同的监管促进剂(由阿拉伯糖诱导,AHL和IPTG)和/逻辑门的输入,其输出是通过GFP在两种不同温度下可视化。在拟合的过程涉及到一个特定的配置(即。,one of the cited input modules), the fluorescence output of the other configurations was predicted from the individual characterization of input devices and AND/NAND gates. Experimental data and predictions exhibited a Pearson correlation coefficient of 0.86 to 0.98, even though some specific input combinations yielded highly different values. Moon et al. [19构造和一组特征和盖茨。然后,他们使用他们工程师复合两个分层逻辑函数:3-input系统包括3输入设备连接到两个和盖茨和4-input系统包括4输入设备和3和盖茨。后者代表最大的遗传程序建立了到目前为止,共有11个调控蛋白,21 kbp-length三质粒。像以前的基本特征和盖茨是单独和复杂的输出3 - 4-input系统预测,与实验数据相比。3-input系统取得了较低的预测和数据之间的偏差,相比4-input系统。我们组也面临预测问题简单互联网络由输入设备(诱导启动子或不同优势本构的倡导者)组装与TetR-based非门提供GFP作为输出(20.]。单个输入设备通过RFP测量和稳态传递函数特征非门的输出由每个输入系统的量化。这些数据都配备了一个山功能:他们有类似的活动和希尔系数最大,而开关点不同的约44%,这被认为是与这些元素作为互连的估计误差。

提到研究评估interconnection-dependent变化相当复杂的系统,但他们没有描述这种偏差的原因。最好的特点和形式化的互联错误是追溯既往,现象,扩展了电子工程阻抗的概念或装载生物系统(5]。给定系统的功能可以改变下游或上游系统连接时,例如,因为不必要的封存转录因子的连接模块。在这种情况下,个体系统不能被认为是模块化;然而,鉴于部分的知识结合起来,这样的不必要的交互可以模仿,从而拥有一个互联系统与可预测的行为。Jayanthi et al。21)实验测试了模型系统,包括一个ATc-inducible LacI生产模块连接到一个与GFP lac-repressible启动子下游。这个复合系统是放置在一个单独medium-copy质粒和测试或下游的“客户”,包括lac运营商网站高仿质粒,从而为LacI提供额外的结合位点。客户的存在显著影响感应和deinduction动力学。这种现象被机械模型描述LacI-occupied DNA GFP的上游网站和客户端绑定,ATc的函数归纳。

2.6。电路结构

上面描述的大多数研究都是基于单基因磁带。多顺反子操纵子的结构可能是首选当表达基因进行类似的功能,可以由相同的启动子控制的。虽然在操纵子预测的苏格兰皇家银行调优报道(87年),在操纵子预测由基因编码的蛋白质含量不是微不足道的,不能简单地通过单个基因的蛋白质含量磁带推断。特别是,具体操纵子的结构会影响核糖体信使rna降解率和可访问性。林等人开发和实验测试了转录和翻译耦合的数学模型,预测编码的蛋白质含量由第一个基因操纵子长度的函数(22]。他们发现和预测蛋白质水平变化2到三倍。在互补的框架中,Levin-Karp等人研究了转化耦合的一个操纵子,也就是说,邻近基因的翻译效率之间的相互关系(102年]。他们个性化> 10倍变化由第二个基因编码的蛋白质水平的翻译速度的函数第一个基因。然而,林等人的发现和Levin-Karp等人没有有效的组合基因和没有观察到相同的现象在不同的研究61年,102年]。

测量mRNA转录水平的操纵子一直有用解耦RNA稳定和翻译速度变化的影响(102年]。总之,还需要其他数学分析建立预测工具,可以指导生物工程师在操纵子的组成结构与定量预测功能,可以通过启动子的知识推断,苏格兰皇家银行,基因序列,基因的位置,操纵子的长度,和其他可能的功能(22]。

2.7。遗传背景

的上下文基因表达盒放置或一个复杂的电路可以影响其定量的行为。遗传背景包括质粒复制在不同拷贝数每个细胞或细菌染色体。赋予了一项单一的基因表达盒,质粒序列会影响启动子或终止活动通过侧翼序列的克隆网站,如上所述,这两个类的一部分。此外,直觉上,DNA拷贝数决定了不同级别的所有物种(mRNA和蛋白),但这样的水平可能是不可预测的,因为细胞可能表现出代谢重载拷贝数增加时,因此表现出非线性变化。这种效应通常观察到表达式磁带在高拷贝数(20.,79年,103年)和需要的特点,当磁带拷贝数调整。此外,质粒拷贝数可以本质上吵104年,105年),也可以改变当合并多个质粒位于相同的单元中(106年]。测试后一种情况,李et al。106年)表明,低拷贝质粒的热敏性pSC101复制起源维持他们拷贝数(约5份/细胞)在3-plasmid单一质粒系统和系统,同时与中等或高拷贝质粒复制起源(p15A ColE1, resp)显示拷贝数增加时用于3-plasmid系统相比单一质粒系统。

基因调控网络的数学模型通常使用经验希尔函数来描述细胞的激活或镇压的物种,但是DNA拷贝数没有显式地出现在方程(23,103年]。出于这个原因,甚至通过假设一个线性变化的细胞物种DNA拷贝数的函数,机械数学模型应定义容易拷贝数的影响研究。其实这样的模型也被广泛用于描述生化反应,他们更困难比经验模型研究和识别,因此需要额外的工作来完全描述系统的兴趣。Mileyko等人利用这样的模型来研究不同的基因拷贝数的影响网络主题(23]。

集成所需的表达盒的细菌染色体决定了其DNA的维护在一个复制,复制的基因组。然而,在基因组上下文的定量行为很难预测。例如,真正的拷贝数所需的DNA可能会改变在集成不同的基因组的位置,因为细菌复制原点附近的序列将被复制比其他序列(早24,107年),因此特定DNA片段实际上是存在于细胞在拷贝数略高,平均。基因背景的复杂性并不局限于这种效应和其他没有完全理解现象的预测可能会限制一个集成的磁带。例如,从侧翼基因转录通读磁带会影响合成盒式的表达。

3所示。试错的方法

所需的生物功能的设计可以通过随机改变其DNA-encoded元素。发起人,苏格兰皇家银行、架构和环境是多种多样的,通过不同的实验方法,筛选得到的电路。所有这些方法的成功依赖于部分生成和筛选效率,应该允许一个简单的和大规模建设和识别所需的表型(60]。这里,只代表研究说明,随机优化启动子,苏格兰皇家银行、基因、体系结构和上下文朝着一个目标电路/通路功能。

目标基因启动子上游的一个或多个随机改变直接合成新的子序列或组装的控制下的基因启动子的集合。在第一种情况下,简并引物可用于插入一个新的随机启动子序列上游的基因(108年]。在第二种情况下,启动子从现有的集合部分(55)或随机片段(109年,110年)可用于筛选相同的方式以及由此产生的构造。在后者情况下,启动子的特征(或随机片段)的转录活动的量化不是必需的,因为只有电路的结果被认为是优化过程。这两种方法可以结合生产库的合成随机启动子,在需要时所需的设计约束(例如,所需的运营商网站)74年,111年),所筛选的报告基因与多样化的收益部分的集合,分级活动;然后,元素可以随机组合优化所需的电路/途径[74年,111年]。这样的过程可以部分理性:诱导启动子可以用来探测的最佳活动目标基因和新生成的推广者,只有一个子集的候选人有一个本构行为类似于最优,可以测试20.,112年,113年]。

遵循一个类似的过程,苏格兰皇家银行可以随机改变和选择。安德森et al。38和凯利101年修复一个非功能性和门逻辑逆变器,分别随机诱变的苏格兰皇家银行调节基因的上游。两门非功能性,因为他们的活动范围在输入不匹配提供的活动范围上游启动子中使用最后的互连电路。苏格兰皇家银行(RBS)序列诱变和筛选过程产生电路与预期的行为。苏格兰皇家银行的使用现有的集合也可以利用,而不是创建新的(42,114年]。启动子的随机诱变和苏格兰皇家银行可以通过执行不同的广泛使用的分子生物学方法,包括易错PCR和DNA与简并引物扩增。高通量技术最近提议同时突变序列的几个元素,同样在基因组,通过自动化程序。多元自动化基因工程(法师)的方法是使用,再加上一个微流控自动化系统和退化单链dna使番茄红素途径优化通过苏格兰皇家银行诱变24目标基因质粒或基因组(115年]。

基因随机突变主要是获取不同功能的蛋白质变异与改进的性能59]。因为这种方法导致氨基酸变异,而不是同义密码子替换,由此产生的蛋白质是不同的。这些方法都是超出本文的重点。密码子改变的研究,而不影响蛋白质序列,不被广泛使用,它们局限于实验工作探索基因优化规则,如部分所述2。3的审查。同样,终端一般不针对随机突变。

在处理多顺反子的设计时,基因表达的架构磁带可以随机变化通过改变基因的位置在一个操纵子或侧翼基因可调(TIGRs)基因间区域的库(116年]。自目标基因所产生的蛋白质水平目前在操纵子预测,第一,直观,方法依赖于随机变化的基因的位置。这一点,在几项研究中,产生了高度多样化的蛋白质含量之间的结构。例如,bicistronic操纵子包括1 a-hydroxylase皮质铁氧还蛋白,和NADPH-adrenodoxin还原酶基因(称为ADX和ADR),用作氧化还原伙伴”来形容人体内25 -羟维生素D3 1 a-hydroxylase基因,转(收益率ADX-ADR和ADR-ADX构造)和ADR和ADX表达水平不同的5倍(117年]。另一方面,使用TIGRs依赖于组装各种控制元素(信使rna二级结构,核糖核酸酶乳沟网站,苏格兰皇家银行(RBS)隔绝序列,等等)在操纵子基因。这种随机的方法证明了启用>酶水平的100倍和7倍的生产力改进合成甲羟戊酸途径(116年]。

遗传背景也可以随机优化。质粒拷贝数变化是一个直观的方法来优化电路的输出和途径。Kittleson et al。118年]构造different-allele(拨号)菌株遗传背景相同的表达式除了磁带提供不同蛋白质含量的trans-acting复制因子(π或RepA);质粒和R6 K ColE2复制起源可以维持在不同拷贝数每个细胞的水平,由于监管通过π和RepA,分别。由此产生的菌株被成功用于优化violacein生物合成途径。考虑遗传背景在基因组层面上,不同的方法被用来优化集成位置和拷贝数的合成DNA-encoded生产途径通过随机的方法。桑托斯等人开发了一个recombinase-assisted基因组工程(愤怒)方法,在液态氧网站,被Cre重组酶,是利用大量合成DNA片段整合到所需的基因位置,从而使一些预定义的候选位点之间的试错搜索(119年]。他们用它来优化34 Kb不等的海藻酸代谢途径。另一方面,随机插入所需的DNA部分往往是通过转位因子进行。通过随机优化推广活动和基因组的位置同时,Yomano等人优化乙醇生产的表达途径(120年]。特别是,他们集成promoter-less 3-cistron乙醇生产盒式随机应变的位置感兴趣的通过mini-Tn5磁带(transpososome),依赖于随机放置盒启动子的控制下的最优强度的最优基因的位置。

染色体集成电路还是路径也可以通过随机改变他们的拷贝数进行了优化。方法执行此任务依赖的DNA基因组整合利益一起抗生素耐药性磁带;随后,重组菌株中进化不断增加的抗生素浓度,促进DNA重组盒式的串联重复,直到到达目标的效率。这种方法提供了重组菌株包含超过25份DNA-encoded乙醇生产途径优化(121年,122年]。一个进一步细化的方法是由莫et al .,其中化学诱导染色体进化(CIChE)描述(123年]。它类似于前面描述的过程,但当达到所需的效率recA基因(促进同源重组)是淘汰。CIChE应用于poly-3-hydroxybutyrate (PHB)和番茄红素生产,产生重要的途径改善(4倍和60%,resp)。这种方法生产的连续大约40份DNA-encoded途径和遗传稳定性提高10倍123年]。

4所示。电路结构干预来提高可预测性

虽然各个部分、网络架构,和背景有上述可预测性问题,几个一直在努力修改其中的一些元素来减少他们的上下文相关的可变性和改善他们的可预测性。

戴维斯等人设计了一组绝缘推动者,扩展从105−+ 55从转录起始站点(73年]。这些元素有一个可预测的活动比noninsulated推动者当测试在不同的上下文中。Mutalik等人提出了一个bicistronic设计(BCD)基因表达的磁带来有效地预测下游基因的翻译起始速度(81年]。这个设计包括一个小型的开放阅读框(ORF),有自己的苏格兰皇家银行、组装启动子的下游。这羊痘疮的终止密码子是融合开始感兴趣的基因的密码子(因此TAATG),下游组装。感兴趣的基因的苏格兰皇家银行是包含在小ORF上游。这个设计,抑制RNA结构周围感兴趣的基因密码子或苏格兰皇家银行开始消除内在解旋酶活动的核糖体到达上游ORF的终止密码子。通过正向工程一个表达盒通过BCD,用户应获得预期的相对表达在目标价值的2倍以93%的概率,代表一个伟大的进步在先进的预测工具,苏格兰皇家银行(9,81年]。

七等人提出的使用细菌集群定期空隙短回文重复(CRISPR)路径元素工程师特定的基因操纵子转录后的卵裂产生可预测的单个基因的表达,也当放置在不同的位置(124年]。通过互补的方法,卢等人使用核酶,启动子的下游组装,提高可预测性的基因表达125年];核糖酶裂解mRNA消除他们的5′末端,也作为转录绝缘体。

德尔维奇奥et al。5,126年)提出了一个系统能够克服追溯效力问题在互连的生物系统,从而实现一个缓冲区(或绝缘子)设备。强烈依赖于engineering-inspired绝缘体,比如同相运算放大器。这种机制的生物实现包括phosphorylation-dephosphorylation反应,与快时间尺度行为,但它需要实验验证。

5。结论

本文描述了几个方面的基因电路的设计和预测功能。自底向上的方法最近调查模仿传统的设计过程在工程领域。在这种背景下,研究进行了评估生物系统的可预测性边界由precharacterized部分,提供预期的连接错误,估计研究的模型系统,强调电路的情况下不能表现。数学模型支持自底向上的设计步骤,从早期的可行性研究复杂功能电路行为的定量预测功能和基本知识的部分,最后,为了调试步骤。

利用合成生物学的潜能通过engineering-inspired自下而上的设计电路,需要面对的一些挑战。的主要关键问题确定在这个工作环境中划定在盒子里2形式的突出问题,并在此讨论。

可预测的生物工程需要深化我们的知识在上下文依赖性和生物部件的可重用性,通过发现部分函数的特性,发挥着重要作用可预测性。DNA合成领域的技术进步可以支持大量的假设的测试提供巨大的库的构造以负担得起的价格。事实上,尽管大规模研究报告支持部分可预测性的不同方面的调查60,81年,96年),DNA合成的成本和规模仍在基础研究的一个主要瓶颈,因为许多研究需要大量的构造变异,如密码子使用依赖的蛋白表达(88年]。发展的高通量方法部分测量起着互补的作用,因为需要进行多方面的部分性能的表征。特别是,充分描述的活动部分,同时量化的DNA, RNA,蛋白质需要精确解耦效果由于电路拷贝数,转录和翻译,提高知识的所有原子部分功能所涉及的步骤。此外,特别的实验设计,数据分析工具,和数学模型可以支持上述程序;例如,模型可以帮助nonobservable估计参数,有用的功能描述部分(36]。

基因调控网络的经验数学模型目前用来总结部分的功能和预测的定量行为高阶设备。虽然他们被广泛使用,在某些情况下机械的模型可能是更合适的工具,比如在研究DNA拷贝数变化或追溯效力的影响。其他工具使部分活动的预测知识的核苷酸序列。虽然取得了可喜的成果,尤其是在苏格兰皇家银行的情况下,已经通过这些计算方法的优化,这些工具需要显著提高。获得的数据和知识在上面的“发现”发展的步骤是利用预测的精度比目前更高的计算工具。在这种背景下,新工具可以基于获得生物知识,将用于定义函数预测或基本规则部分可以基于数据,机器学习方法在哪里学习感兴趣的关系用于部分预测。上下文相关的活动变化的各个部分和互联网络的数学模型最终应该综合贡献独特的工具,用于从序列部分相互连接的电路设计。

除了现有的部分预测,合成生物学的一个雄心勃勃的目标是建设自然的部分完美的定制功能。这一目标,计算设计工具需要扩展到支持新组件的正向工程,根据具体的设计规则,从数据的例子或获得生物知识。再次,当前可用的苏格兰皇家银行(RBS)设计工具已经使苏格兰皇家银行的设计所需的强度,考虑到下游基因序列,尽管他们的表现需要显著提高(57]。具体地说,苏格兰皇家银行计算器计算小说苏格兰皇家银行序列有47%机会展示目标强度在2倍(81年]。

尽管目前我们大部分的生物知识是基于平均值的数据和集中趋势值,细胞间的变化是一个至关重要的问题,可以带来不可预测的系统行为。尽管这一点的主要方面是描述其他地方(127年),超出了本文的范围,我们想强调可以有害生物噪声电路功能,即使集中趋势值是可预测的。出于这个原因,生物组件的完整的描述也应该考虑细胞间的变化,需要在一个相互联系的网络传播良好的模块来获取可靠的定量预测的网络输出。

综述,试错的方法涉及random-based /电路功能优化的部分也被简要地说明。这些方法依赖于可负担得起的部分施工方法和高效high-throughput-compatible筛选方法选择最佳组合的基因部分,而这些方法不能有效地应用在这种情况不会持续下去。上述技术的进步极大地支持大型图书馆的一代可以测量通过适当的高通量筛选技术,即使没有显著改善生物发现上下文相关的可变性。然而,虽然学习的可预测性边界预计贡献明确的预测工具来处理生物系统的复杂性,试错的方法并不保证成功的合成生物学。事实上,大量的候选结构可以建立,但高通量测量的定量评价方法并不总是可用电路活动和纯试错方法的影响仍局限于特定的项目。出于这个原因,自底向上的方法迫切需要完善利用合成生物学的全部潜力。的混合预测工具,即使nonoptimal准确性,和试错的方法可以迅速增强生物工程的效率,通过提供一个小比完全random-based方法搜索空间。

最后,强烈的干预基因电路已报告,提供相当大的改进促进剂的可预测性,苏格兰皇家银行、架构和追溯效力问题在不同的上下文中。因为这样的改进非常有前途,这些修改应该用于不同研究大规模展示他们的利益,他们应该考虑在所有前面提到的问题。

利益冲突

作者宣称没有利益冲突有关的出版。