时间波动环境下单细胞实验的优化设计

摘要

现代生物学实验正变得越来越复杂，设计这些实验来产生最大可能的定量洞见是一个开放的挑战。越来越多的复杂随机生物系统的计算模型被用来理解和预测生物行为或推断生物参数。这种定量分析还可以帮助改进针对特定目标的实验设计，如更多地了解特定的模型机制或减少特定情况下的预测误差。一个经典的实验设计方法是使用Fisher信息矩阵(FIM)，它量化了特定实验将揭示的模型参数的预期信息。有限状态投影法(FSP-FIM)是最近发展起来的一种计算离散随机基因调控系统的有限状态投影法(FSP-FIM)，其复杂响应分布不满足高斯变异的标准假设。在这项工作中，我们发展了FSP-FIM分析的一个随机模型的应激反应基因酿酒酵母在时变MAPK诱导下。我们验证了这个FSP-FIM分析，并使用它来优化在特定时间应该被量化的细胞数量，以尽可能多地了解模型参数。然后，我们扩展了FSP-FIM方法，以探索不同的测量时间或基因修饰如何帮助最小化细胞外环境感知的不确定性，我们通过实验验证了FSP-FIM对单细胞实验进行排序的能力，以最大限度地降低酵母渗透休克过程中NaCl浓度的估计不确定度。这项工作证明了定量模型的潜力，它不仅可以解释现代生物数据集，而且可以关闭定量建模和实验数据收集之间的循环。

1.介绍

设计实验的标准方法是完全依赖专业知识和直觉。然而，随着实验研究变得更加复杂并且寻求用更细微的非线性相互作用检查系统，随着单独使用直觉改善实验设计变得更加困难。在基因调节过程的现代单细胞单分子研究中，这个问题尤为重要。执行如此强大，但复杂的实验涉及从大量可能的实验设计中选择，并且通常不清楚哪些设计将提供最相关的信息。解决这个问题的系统方法是模型驱动的实验设计，其中一个组合现有的知识或体验来形成系统的假设（和部分不正确）的系统数学模型，以估计和优化潜在实验设置的值。在实践中，这种初步模型将由在更简单或更多的常规设置中拍摄的现有数据来定义，例如廉价的批量实验，或者将从类似基因，途径或生物中进行的文学值估计。当参数或模型结构不确定时，可以根据先前分布描述这些，并且需要根据许多可能的型号/参数组合的平均执行最佳实验。

近年来，模式驱动的实验设计已经获得了基因表达的生物学模型的牵引力，无论是在贝叶斯的环境中[1]或使用Fisher信息进行确定性模型[2]甚至在随机单细胞设置中[3.-7.］．尽管模型驱动的实验设计的承诺和积极发展，从理论上的角度来看，需要更一般，但生物学启发，需要采取这些方法，适合大型实验界。在这项工作中，我们将模型驱动的实验设计应用于由酵母中的时变高渗透压甘油（猪）丝肠激活蛋白激酶（MAPK）诱导在酵母中激活的实验验证的随机转录模型[8.-10.］．为了展示模型驱动的实验设计的具体和实际应用，我们找到了最佳状态测量计划（即，当测量应该被采取时）和适当的单个细胞数在每个时间点测量。

在我们的计算分析中，我们考虑了单分子mRNA荧光的实验技术原位杂交（SMFISH），其中特异性荧光寡核苷酸探针与固定细胞的感兴趣的mRNA杂交[11.那12.］．然后成像细胞，并且通过手或使用自动软件（例如[）计算每种小区中的mRNA丰度13.］．这种计数可以是一种繁琐的过程，但通常对每次应该测量和分析多少个细胞来给予很少的思想。此外，当正在研究动态响应时，应采取测量的特定时间（即，诱导后的诱导后的时间）也不清楚。在这项工作中，我们使用新开发的基于有限状态投影的Fisher信息矩阵（FSP-FIM，[6.]）优化酵母中渗透应激反应基因的这些实验量。

我们第一个研究引入了一种离散的随机模型，分析酵母中时变的MAPK诱导的基因表达响应，然后演示使用基于FSP的FISHER信息来优化实验，以最小化模型参数中的不确定性。在本研究的第二部分，我们扩展了这一结果，以查找和实验验证最佳SCFISH测量时间和细胞数，以最小化细胞受到细胞的未知环境输入（例如，盐浓度）的不确定度。通过这种方式，我们正在呈现一种新的方法，可以通过该方法最佳地检查天然细胞的行为，以获得对环境变化的准确估计。

2.背景

基因调节是小分子，染色质调节剂和一般和基因特异性转录因子相互作用的过程，以调节DNA转录到RNA中的转化和mRNA转化为蛋白质。即使在遗传相同细胞的群体中，这些单分子过程也是随机的，并导致基因表达水平的细胞对细胞变异。只能通过使用随机计算模型来实现这种可变响应的充分描述[14.-17.］．在接下来的章节中，我们首先介绍了一个关于hog1 - mapk诱导基因表达的非平衡离散随机模型，然后讨论如何使用有限状态项目分析来分析和比较该模型的数据。所有分析代码可在https://github.com/munskygroup/fox_compledity_2020．

２.１.hog1 - mapk诱导基因表达的离散随机模型

为了激发和演示我们的新方法，我们重点研究了酵母中HOG1-MAPK通路的动态，这是一个模型系统，用于研究渗透胁迫驱动的信号转导和单个细胞中的基因调控的动态[18.-23］．Hog1-MAPK活化转录的离散随机模型已成功使用，以预测酵母细胞群的适应性转录反应的变异[9.那10.那24］．特别是，[9.]利用smFISH数据拟合并交叉验证了具有不同数量基因状态和时变参数的多个不同潜在模型。他们发现两个应激反应基因的动态，STL.1和结论如图1所示，可以通过图中描绘的模型来准确地描述1（a）．

（一种）

（b）

(c)

(d)

图1

酵母渗透压应激基因的随机建模。（a）基因表达的四种模型，其中每个状态以不同的转录率转录mRNA，但每个mRNA以单一的速率降解γ.．（b）时变MAPK核定位信号。（c）从0.2M或0.4M NaCl渗透胁迫下的基因活化状态S2至S1（右）切换的速率。时间k ₂₁关闭了表示τ. ₁并且与NaCl水平无关。时间k ₂₃turn back on是由τ. _生理盐水取决于NaCl的含量。(d) STL1 mRNA在0.2 M和0.4 M NaCl胁迫下的时间演化。模型及参数取自[10.]总结在补充说明中我和II和补充表格我和II．

简而言之，模型[9.[四种不同基因状态之间的转换（S1，S2，S3和S4）组成。过渡的概率到无限时间的基因状态由倾向函数给出，．大部分价格除了从S2到S1的转换之外，除了从核中的HOG1-MAPK信号的时变级别控制的情况下，除了恒定的时间。．得到的时变速率使用线性阈值函数定义: 在哪里α.和β设置阈值激活/失活。这个函数通过拟合使用黄色荧光蛋白报告器测量的HOG1-MAPK核定位信号，在几个NaCl浓度下进行校准[10.］．数字1 (b)显示0.2 M和0.4 M NaCl对渗透胁迫的响应1 (c)的对应值．除了状态转移速率，每个国家还具有相应的mRNA转录率，．所有mRNA分子都以速率降低γ.，独立于基因州。在补充说明中给出了该模型的进一步描述和验证1在[9.那10.那24］．所有实验确定的参数STL.1和结论1转录调控模型见补充表S1，实验确定的HOG1-MAPK信号模型的参数列在补充表中S2［10.］．

２.２.随机基因表达的有限状态投影分析

为了分析上述模型，我们应用随机化学动力学的化学母级方程（CME）框架[25］．结合时变恒定的状态过渡率那转录率那和降解率γ.由上可知，CME可以写成矩阵形式的线性常微分方程，那时变矩阵在哪里被称为无限的发电机（见补充说明1)．CME一直是基因表达的随机建模的主力，并且通常通过随机仿真算法使用其溶液的模拟样本路径来分析[26或用矩近似[8.那27］．或者，使用FSP方法也可以用保证误差来解决CME [28那29]，这减少了完整的CME，以描述系统的最可能可观察状态之间的概率流动。补充说明提供了求解化学动力学系统的FSP方法的细节1．FSP分析在模型中的应用（图1（a））带动态臀部（图1 (b))调制时变速率k₂₁(图1 (c))，并预测0.2 M和0.4 M NaCl时的时间演化概率分布，如图所示1 (d)［10.］．

２.３.smFISH数据对FSP模式的似然性

最近，它已经阐明了一些系统，在拟合CME模型时考虑蜂窝种群的生物分子的全部分布至关重要[6.那10.］．为了将CME模型解决方案与单细胞smFISH数据相匹配，需要计算并最大化CME模型给出的数据的可能性[9.那10.那24那30.］．幸运的是，FSP方法允许计算有保证的准确性界限的可能性[28］．我们假设每个时间点测量是独立的，因为固定细胞进行测量排除了暂时的细胞间的相关性。的测量细胞可以连接成一个基质在每个测量时间观察到的mRNA种类t．

为所有人做出独立观察的可能性被测细胞是观察每个细胞被测状态的概率的乘积。然而，对于大多数基因表达模型，状态只是部分可观察的，我们定义了观察状态作为所有全部州的边缘化（或延伸）这是难以区分的基于观察。例如，模型STL.1转录由四个基因态组成（S1-S4，如图所示1（a）)和测量到的mRNA数量，可以观察到。如果我们让索引我表示mRNA的数量，然后是观察状态会把所有的状态加在一起(S1，我), (S2,我), (S3,我), (S4,我)．我们下次定义作为匹配的实验细胞数量在时间t．在这些定义下，模型给出的观测数据(及其对数)的可能性可表示为在哪里是数据中观察到的状态集，米是来自测量数据的任意重新排序的组合主管（即，来自多项分布），以及为可观测物种的边缘概率质量:

模型参数的向量表示为．忽略了这个词那这与模型无关，等式的求和（2）可以作为产品重写为产品那在哪里是被装箱的数据和的向量吗为相应的边缘概率质量向量。然后可以将方程(2）关于找到最大可能性估计（MLE）参数，那这取决于每一组新的实验数据。接下来，我们将演示hog1 - mapk诱导的基因表达系统的这种似然函数和FSP模型如何使用基于FSP的Fisher信息矩阵设计最佳smFISH实验[6.］．

结果

3.1。用于信号激活随机基因表达模型的基于有限状态投影的Fisher信息

Fisher信息矩阵(FIM)是工程和统计学中在收集数据之前估计参数不确定性的常用工具，它允许人们找到能使这些不确定性尽可能小的实验设置[3.那4.那31-34］．最近，它已应用于生物系统，以估计随机基因表达系统中的动力率参数[3.-6.那35］．一般而言，对单个测量的FIM定义为的向量包含每个潜在观测的对数概率，期望是状态的概率分布假设特定参数集．作为测量的次数，那增加使得参数的最大似然估计（MLE）是非偏见的，因此已知MLE估计的分布，用于通过由FIM的倒数给出的协方差来接近多元高斯分布，即，

在[6.，我们开发了基于FSP的Fisher信息矩阵(FSP- fim)，允许使用FSP解决方案那及其敏感性那寻找随机基因表达系统的FIM。对于一般的FSP模型，给出了各动力学模型的灵敏度动力学参数可以根据什么来计算在哪里．求解方程(6.)需要集成一组耦合的ode，该ode是原始FSP系统的两倍大。FSP-FIMt然后给出对所有状态求和包括在FSP分析(或在所有观察状态在分集的观察结果中）。我们注意到，FIM的FSP计算应该在计算上易于易于出现FSP解决方案本身是易旧的问题。但是，由于FSP灵敏度矩阵的大小（等式（6.））用物种数量呈指数级，所呈现的FSP-FIM的制剂的实际应用目前仅限于具有，或者可以降低到具有三种或更少的不同化学物质的模型。

FIM用于连续独立的测量(如smFISH数据) 可以通过测量次数的总和来计算: 在哪里每个单元格的数目是多少测量时间。对于smFISH实验，矢量对研究的设计起着重要的作用。通过优化所有向量这笔款那我们可以知道在每个时间点应该测量多少个单元格，以及应该完全跳过哪些时间点(例如， )．

在下一节中，我们将验证这个带有时变参数的随机模型的FSP-FIM，并找到最优解为了STL.酵母细胞中的1 mRNA。

３．２．FSP-FIM可以量化时变输入条件下随机基因表达的实验信息

我们的工作[6.局限于具有分段恒定反应速率的随机基因表达模型。在这里，我们将其扩展到影响系统中启动子切换并导致时间变化的时变反应速率在等式（6.)．例如，在图中描绘的模型中1（a），根据等式中的时变函数，时间增加渗透冲击导致Hog1-MAPK的核易位（1)．

模型参数同时适合实验测量0.2米和0.4米STL.1个mRNA取自[10.，用作参数的参考集(图中黄色的圆点)2(一个)和S1，我们将其定义为．这些参考参数用于生成50个独立的模拟数据集模拟数据集拟合出参数集，那这将模拟数据集的可能性最大化。在两个不同的实验设计中重复了这个过程，包括[10.]（结果如图所示2)和下面讨论的优化设计(结果如图所示S1)．为了简化这种拟合的计算负担，具有最小敏感性和最大的不确定性的四个参数（即，那些对模型预测的影响最小的参数以及最难以识别的参数）是在其基线值固定的。将剩余的五个参数的所得MLE估计收集到一组中并且在图中显示为黄点2和S1．利用极大似然估计量的渐近正态性及其与FIM(方程5.）），我们将Fisher信息（即Cramér-Rao绑定）反向的95％置信区间（CIS）与MLE估计的那些进行比较（比较数字中的紫色和橙色椭圆形2(一个)和S1a)．我们还比较了费雪信息的逆特征值，那到MLE估计协方差矩阵相应排序的特征值，那在数据2（b）和印地．为了进一步验证，我们指出了数字中椭圆的原理方向2(一个)和S1a也匹配的FIM和MLE分析，作为量化的角度之间的配对FIM和特征向量(图2（b）和印地)．为了比较，FIM和FIM等秩匹配的特征向量之间的角度均小于12°，而非秩匹配的特征向量均大于79.9°。通过验证肝脏诱导的基因表达模型的FSP-FIM，我们接下来探讨FSP-FIM如何用于最佳地分配渗透休克后每次测量的细胞数量。

（一种）

（b）

图2

时变HOG1-MAPK模型的FSP-FIM验证(a) 50个模拟数据集和模型参数子集的MLE参数估计的边缘参数直方图(顶部面板)和联合散点图(灰点)。所有参数均以对数标度显示。椭圆表示的是MLE散点图的FIM(紫色)和高斯近似(橙色)逆的95% CI。黄色的圆点表示FIM和模拟数据集生成的“真实”参数。(b) Rank-paired特征值MLE估计的协方差(橙色)和FIM的倒数(蓝色)。对应的秩对特征向量之间的角以度表示。

3.3。设计HOG1-MAPK路径的最佳测量酿酒酵母

为了探索在mapk激活的基因表达的现实背景下使用FSP-FIM进行实验设计，我们再次利用模拟的时间过程smFISH数据来研究酵母的渗透胁迫反应。

我们从一组已知的基础模型参数开始，这些参数来自于同时拟合的0.2 M和0.4 M数据[10.]（非私人模型）建立实验逼真的基线参数集。然后使用这些参数来优化不同时间点的测量分配 NaCl诱导后分钟。具体地，我们询问每次应该测量单元总数的小部分，以最大化关于重要模型参数的特定子集的信息。我们使用特定的实验设计目标标准称为 -最优，其对应于最小化参数空间不确定性的预期体积，以了解感兴趣的特定参数[35，并通过对相同参数的FIM特征值乘积的最大化得到。

数学上，我们的目标是找到最优的单元测量分配: 在哪里是要分配的总测量的分数和度规为总FIM特征值的乘积(式(8.））.每个时间点要测量的细胞的比例，那使用贪婪搜索进行优化，根据预测优化标准中最大改进的时间点，一次选择一个单单元测量值(见补充说明3.了解更多信息）。

为了说明我们的方法，我们首先根据划分细胞测量 -通过贪婪搜索找到的最优性。数字3.显示了每次0.2 M NaCl输入后要测量的最佳细胞分数，并将这些分数与[10.］．虽然每个可用的时间点被分配了一个非零的测量分数，三个时间点在几分钟比其他潜在的时间点更为丰富。为了验证此结果，我们将每个数据集模拟50个单元格集，并找到了每个限位数据集的MLE估计。我们将这些MLE估计的传播与优化的FIM的倒数进行了比较，如图所示S1．

（一种）

（b）

(c)

图3

在不同的时间点优化单元测量的分配。(a)不同测量时间下Fisher信息的对角线项。最佳测量时间分钟用橙色突出显示。(b)比较不同时间点FSP-FIM测定的最佳细胞组分(蓝色)与我们在[10.］．(c)的概率分布STL.1个mRNA，多次测量。蓝色方框表示最佳测量的时间点。

比较数字S1与图2说明了0.2 M NaCl实验的最佳测量次数设计与[10.］．除了提供更高的Fisher信息外，优化实验只需要测量3个时间点，而在原始实验中测量了16个时间点。此外，我们注意到，在简单的优化设计中，MLE不确定性的FIM预测更准确，这可能与我们的观察有关，即MLE估计在优化的实验设计中比在原始直观设计中更容易收敛。

数字4.接下来比较 -最优(实水平线)和直观([10.“虚线水平线”）实验设计为0.2M（黑色）和0.4米（灰色）条件的1,000实验。为了生成这些随机实验设计，我们选择了测量时间的随机子集，并使用多项分布在每个时间点的概率等概率分配所选的时间点之间的总量的1,000个单元。数字4(一)结果表明，直觉实验比大多数随机实验提供的信息更多，但仍远远低于最佳实验提供的信息。

（一种）

（b）

图4

通过对实际实验进行最佳实验获得的信息。（一种） -采用3个时间点的优化设计与采用16个时间点的直观实验设计的最优性用水平线(紫色，0.2 M，蓝色，0.4 M)表示。实水平线表示最优设计，虚线表示直观的实验设计。0.2 M和0.4 M NaCl的随机设计试验用黑色和橙色表示。对于随机实验，从实验测量次数中选取时间点，然后对每个选择的时间点随机分配测量次数。插图显示了前50个随机设计的实验。(b) -当应用于不同基因或不同的渗透休克（不同柱）的不同实验水平或不同的实验水平时，不同的实验设计（不同的行）。较轻的色调（更高 -度量标准）表示更适合识别参数的实验设计。

在许多实际应用中，科学家将不太可能精确先天的在进行实验前了解模型参数。相反，他们会对这些参数有一些估计，比如对适当的时间尺度的粗略了解或来自另一种类型实验的现有数据。这样的估计可能来自先前对系统对更简单的实验条件的反应的分析，对稍有不同的细胞系或生物体的测量，或考虑相关调控途径中不同基因的结果。为了探索在设计实验之前知道准确的工艺参数或输入动态的重要性，我们询问了在给定的渗透冲击水平(例如，STL.在不同的渗透冲击条件下(例如，结论0.4 M NaCl时1)。数字4 (b)demonstrates the impact of such mismatched experiment designs, where each row corresponds to a different intuitive or optimized experiment design (i.e., a specific allocation of cells to be measured at each time), and each column corresponds to a specific gene and specific osmotic shock condition to which that design could be applied. In all cases, the much simpler FIM-based optimal experiment designs perform as well or better than the more difficult intuitive designs, even when these FIM designs were computed assuming different environmental conditions and assuming genes whose parameters differ considerably from one another (see Supplemental Tables1和2对于参数集）。换句话说，这些结果表明，如果在先前研究的环境条件下，则可以基于一个分析的基因计算简单而最佳的实验设计，因此当应用于类似生物学中的相关基因的新调查时，该设计可能同样有效背景。

3．4．利用FSP-FIM设计最佳生物传感器测量

到目前为止，以及我们以前的工作中的工作[6.，我们一直在寻求一组最佳的实验，以减少估计的不确定性模型参数．在本节中，我们将讨论FSP-FIM如何优化实验设计，以解决更普遍的推断问题环境变量从细胞反应。为此，我们假设一个已知的参数化模型(即上面定义的模型，在[10.]），但它现在受到未知的环境影响。我们探讨了表征这些影响的最佳实验测量值。具体而言，我们询问应该使用SMFISH测量多少个细胞，并且在什么时候，确定细胞已经受到或，等效的NACL的特定浓度，我们询问最适合测量有效压力的实验通过向细胞添加未知解决方案引起的感应水平。

综上所述，在HOG1-MAPK转录模型中，细胞外渗透压最终通过时变参数影响应激反应基因转录水平(方程(1如图所示1 (c)适用于0.2 M和0.4 M盐浓度。更高的盐浓度推迟了时间返回其非零值。方程中的函数(1）可以粗略地近似三个沉重的步骤函数的总和，作为在哪里是核激酶水平到达的时间的固定延迟取消激活阈值（约1分钟或更短，[9.那10.]）和核激酶是否需要下降到该阈值以下的可变时间。在实践中，阈值过度时间，那应与细胞在合理的盐度水平下直接相关的。这种关系如图所示1 (b)那1 (c),5 (b)，其中0.2M NaCl输入呈现较短一个0.4 M的输入。在我们的分析中，我们假设先验的不确定性如时间可以是均匀分布之间的任何值和几分钟，我们的目标是找到最能降低后部不确定性的实验(因此可以估计NaCl的浓度)。

（一种）

（b）

(c)

图5

酵母渗透压应激反应的生物传感实验最优设计概述。（a）环境中未知的盐浓度（紫点）引起不同的重新激活时间，那通过速率影响模型中的基因表达．这些不同的重新激活时间导致下游STL.1表达动态表现不同，如（b）所示。（c）可以使用不同的反应来解决减少不确定性的实验．

重新制定FSP-FIM来估计不确定性鉴于我们的模型，第一步是计算MRNA丰富分布对变量变化的敏感性使用等式（5.），其中被替换为如下:

作为是唯一的参数这取决于那所有参赛作品除了那些依赖的，其他都是零吗那和因此是非零的．使用此事实，灵敏度动态的等式从FSP动态解耦并且可以简单地写作

如果把每个测量时间的费雪信息写到一个矢量中 (注意费雪信息随时可查为标量，）每个时间点的测量数是向量，那然后是给定值的总信息可以用这两个向量的点积来计算:

我们的目标是找到一个最优的实验来确定那给定一个假定的先验是否从均匀分布中抽样和．找到实验这将减少我们的后部不确定性那对方程(14.）在之前的不确定性：

为了稍后的便利，我们定义了方程中的积分（15.）（即最小化的目标函数）由符号那这对应于对值的预期不确定性对于给定的．

接下来，我们从上面应用贪婪搜索来解决方程中的最小化问题（15.)来寻找实验设计最小化估计误差．数字6.显示七种不同实验的示例，以完成此任务，根据FSP-FIM值排名从最具信息量(左上)到最不具信息量(左下)，但都使用相同数量的测量单元格。对于每个实验，使用FSP-FIM估计估计的后验不确定度(即期望标准差) 那这是由图中的橙色条显示的6.．为了验证这些估计，我们选择64个均匀间隔值那我们表示为集合那对于每个那我们按照指定的实验设计模拟了50个随机数据集，每个数据集包含1000个细胞。对于64位中的每一位50个模拟数据集，然后确定数值之间和根据公式(2)．的所有随机值的均方根估计(RMSE)误差和估计，那然后计算六种不同的实验设计中的每一个。数字6.结果表明，基于fim的不确定度估计与基于mle的实际不确定度在所有实验中具有良好的一致性(对比紫色和橙色条)。此外，很明显，通过FIM分析选择的最优设计具有更好的估计性能比制服或随机的实验设计。一种略微简化的设计，它使用与最佳时间相同的时间点，但每次具有相同数量的测量，几乎和最佳设计。

实验设计的集合如图所示6.包括只用的最好的设计STL.1(从上到下)，只用的最佳设计结论1(从上到下)，最好的设计使用了一些细胞结论1和一些STL.1（顶部设计）。要找到用于测量两个不同基因的最佳实验设计，我们在每次都有STL.1 mRNA.或结论1可以测量1 mRNA（但不是两者），对应于使用Sm鱼寡核苷酸进行STL.1或者结论1.为了确定每次应该测量哪个基因，我们计算了Fisher信息结论1和STL.为每个测量时间取1，并在范围内取平均值．对于每个测量时间那具有较高平均费雪信息的基因被选择．除了选择测量外，每个测量时间的细胞数与之前一样被优化结论1或者STL.1基于MRNA具有更大的Fisher信息（方程（14.））在那个特定的时间点。最好的STL.仅发现仅有1个实验设计，产生10.5秒的不确定性（标准偏差）;最好的结论仅发现仅实验，产生15.2秒的不确定性，最好混合STL.1 /结论实验设计的不确定度为10.4秒。换句话说，在这种情况下STL.发现1个基因对环境条件的更具信息丰富而不是结论1，并使用两者STL.1和结论1只提供极小的改进以外的使用STL.1一个人。我们注意到，在优化的实验设计中，尽管测量时间被限制在5分钟或更多的分辨率，值可以估计误差仅为10秒，对应的时间分辨率比允许的采样率提高约30倍。

3．5．基于fsp - fim的生物传感器测量设计的实验验证

为了通过实验验证我们的FSP-FIM的设计方法来设计最佳测量时间，我们接下来检查了用于该的实验SMFISH数据STL.1和结论酵母渗透休克后不同时间的1个基因[10.］．这些数据包括在渗透冲击0.2μm或0.4m NaCl的渗透冲击之后的16个时间点中的每一个中测量的总共535-4808个细胞。我们询问我们如何使用每次实验只有75个个体细胞识别从实验数据的渗透冲击浓度。我们再次提出了图中描绘的六种不同潜在的实验6.，包括最优STL.1和结论1 .设计，最优STL.1 .设计，简化STL.1设计为15个单元，每个最佳五个时间点，最佳结论1设计，制服STL.1设计，和随机STL1设计。对于每个设计，我们创建了1000个不同的实验复制数据集，每个数据集由从原始数据中随机选择的100个单元格组成。对于每个副本数据集，我们使用CME模型(补充说明)1)和参数化形式的HOG1-MAPK核定位信号(补充说明2）找到最大化模型的数据可能性的NaCl浓度。

数字7.图中显示了当细胞实际受到0.2 M NaCl的渗透冲击时，六种试验设计中每一种的估计NaCl浓度的结果直方图(图2)7(一))或0.4 M NaCl(图7 (c))．从数据7(一)和7 (c)，很明显，FSP分析使用相对较少的细胞提供了渗透冲击输入水平的准确估计，尽管事实上，产生这样的估计并不是模型在其原始公式或参数推断的预期用途[9.那10.］．图7 (b)和7 (d)当根据六种特定实验设计收集细胞，并根据六种特定实验设计收集细胞，并使用简化步骤将这些结果与FSP-FIM不确定性估算（暗杆）进行比较，以便在NaCl浓度（轻杆）的实验估计中的不确定性（标准偏差）。使用简化步骤输入功能（方程式（10.））.除了次优的结论仅限1设计，NACL实验估计方差的相对趋势之间的相对趋势和通过近似阶跃函数输入的FSP-FIM分析预测的差异提供了进一步的实验验证，即可以使用FSP-FIM方法即使在FSP分析使用模型动力学不精确假设的情况下，选择更多的信息实验设计。趋势的单一差异导致我们更加仔细检查模型和实验数据结论1表达在35分钟时间点占优势结论仅限1个设计。通过检查补充数字S7从[10.]，我们发现这种特定的组合结论在0.4M NaCl渗透休克后35分钟显示模型和数据之间的差异比其他63种，两个基因和两个条件中的任何一种更大的差异，但如果这种差异是实验的伪像，则目前尚不清楚实际瞬态效应仅影响基因，时间和环境条件的特定组合。

（一种）

（b）

(c)

(d)

图7

基于FSP-FIM的最佳生物传感器测量的实验验证。（a）使用来自图的六个实验设计的NaCl浓度的基于FSP的MLE估计的分布6.．每个分布来自1000个副本，每个副本有75个单元，分布在可能的16个时间点上。复制数据从已发表的实验数据中随机取样[10.]每次含有两种或三个生物学复制品和535-4808个细胞。真正应用水平的渗透休克水平为0.2米NaCl。（b）每个实验设计的MLE估计标准偏差适用于0.2M NaCl（蓝色）的数据集。将这些偏差与使用Pog1核定位（紫色）的分段常数模型进行比较。（c，d）与（a，b）相同，但真正的NaCl浓度为0.4米。

4。讨论

本作工作中开发的方法存在原则性的模型驱动方法，以分配在分析时变随机基因调节系统的分析期间应该在每次参加多少个快照单细胞测量。我们在酵母细胞中展示并验证了这些术渗透胁迫反应的良好模型的理论，这些理论在磷酸化Hog1的核定位时被激活[9.那10.］．对于这个系统，我们展示了如何最优地分配每次测量的细胞数量，以最大化关于模型参数子集的信息。我们发现最优实验设计估计模型参数为STL.1基因只需要三个时间点。而且，这三个时间点（分钟，在图中用蓝色突出显示3（b）)处于有生物学意义的时间点。在和15分钟，系统增加到最大表达，并且测量mRNA含量升高的细胞的概率很高，这有助于减少模型中控制最大表达的参数的不确定性。同样的，在最后的实验时间分钟，系统开始关闭基因表达，因此这段时间对于了解系统失活的时间尺度以及mRNA降解率很有价值。图中清楚地说明了这些效果3（a），显示了那个时代和分钟提供有关参数的最多信息那那和那而在测量会议纪要提供了关于γ.．因为γ.是最简单的估计参数（例如，其信息更大），而不是需要多个单元格约束该参数的时间。同样的,因为是估计最困难的参数（例如，它具有所有实验中最低的信息），并且因为分钟是为数不多的提供信息的时间点之一那最佳的实验设计是在同一时间选择大量的细胞分钟。该分析表明，最佳实验设计可以根据该参数最重要的是确定（例如，γ.或在这种情况下)，我们希望在未来的实验设计中考虑一个重要的事实。

因为我们将所有潜在的实验设计限制在我们之前工作中所进行的实验的子集内[10.[我们能够比较最佳实验设计的信息，以实现实际执行的直观设计。我们发现，虽然直观的实验几乎总是比随机机会的预期更好，但它们仍然提供了几个数量级较低的渔民信息，而不是最佳实验（图4(一))．此外，在我们的分析中，我们发现最佳设计可能需要比直觉设计的时间点更少（例如，图中只需要三个时间点3.)，因此这些设计可以更容易和更便宜的进行。我们还发现，最优实验设计的效用可能相对不敏感的变化，在实验条件或特定的模型参数用于实验设计。例如，我们发现，即使在不同的基因和不同的渗透冲击水平下，针对一个基因优化的实验仍然至少一样好，而且在大多数情况下优于直觉设计(图)4 (b))．在实践中，尽管先前的假设不准确，但这一事实将允许有效的实验设计。

除了建议最优实验来识别模型参数，我们还表明，FSP方法可以用来从单细胞数据推断波动的细胞外环境参数，并且FSP- fim与现有模型相结合，可以用来设计最优实验来改进这一推断(图)5.和6.)．我们通过检查许多小组单细胞SMFISH测量来通过针对不同基因和不同的测量时间进行实验验证了这一潜力，并显示了FSP-FIM分析可以正确地排名哪些实验设计将提供渗透休克环境条件的最佳估计。沿着非常相似的推理，还可以调整FSP-FIM分析，了解哪些生物学设计参数最佳，以减少重要环境变量的估计中的不确定性。例如，图8.显示预期的不确定性作为降低率的函数STL.1个基因假设50个细胞可以在每个实验测量时间被测量分钟使用smFISH方法。我们发现最好的选择是STL.1最精确地确定细胞外波动的降解率将是的mRNA/min，约为实验测定值的一半从[10.］．这一结果与我们之前的发现一致，即降解速度越快STL.1 mRNA是猪动力学的更好决定因素，而不是较慢的降级结论1 mRNA，提示其他稳定性较差的mRNA可能更有效。我们希望基于fsp的Fisher信息在其他系统和合成生物学环境中也能有类似的应用价值，科学家们希望在这些环境中探索不同的细胞属性如何影响细胞之间或细胞与人类观察者之间的信息传递。事实上，类似的想法最近在[36-39，以及最近在[7.那40]已经注意到Fisher信息与生化信号网络的信道容量之间的密切关系。

我们期望计算时变随机基因表达的最佳实验设计将创造机会，远远超出本工作中提供的例子。现代实验系统使科学家和工程师更容易使用化学诱导精确地扰乱细胞环境[41-43]或光遗传控制[44-46］．许多这样的实验涉及MRNA或蛋白质水平的随机爆裂行为[8.-10.那45[精确的最佳实验设计对于了解这种系统中随机变化的性能至关重要。也可能受益于这些方法的相关领域是生物分子图像处理和反馈控制，其中一个人可能需要在实时决定哪个测量以制造和在什么条件下。

数据可用性

与本文相关的所有数据和代码可在https://github.com/munskygroup/fox_compledity_2020．

信息披露

内容完全是作者的责任，并不一定代表资助机构的官方观点。

利益冲突

作者声明他们没有利益冲突。

致谢

国家健康研究院支持ZRF和BM（R35 GM124747）。ZRF也由Agence Nationale De La Recherche（ANR-18-CE91-0002，Cybercircuits）支持。GN由国家卫生研究院（DP2 GM11484901和R01GM115892）和Vanderbilt启动资金支持。本分析使用WM Keck基金会奖励支持的WM Keck高性能计算群集的计算资源。

补充材料

补充说明1：酵母应激反应随机模型。补充说明2：Hog-Mapk的核定位。补充说明3：细胞测量的优化。表I：Hog-Mapk模型参数。表II：HOG信令模型参数。图1：验证时变猪MAPK模型的FSP-FIM。（补充材料）

参考文献

J. Liepe, S. Filippi, M. Komorowski，和M. P. H. Stumpf，“最大化系统生物学实验的信息内容”，PLoS计算生物学，第9卷，第5期。1、文章编号e1002888, 2013。视图:出版商的网站|谷歌学者
J. F. Apgar, D. K. Witmer, F. M. White, B. Tidor，“草率的模型、参数不确定性和实验设计的作用”，分子生物系统，第6卷，第2期10页，1890,2010。视图:出版商的网站|谷歌学者
J. Ruess, A. Milias-Argeitis，和J. Lygeros，“设计实验以理解生物化学反应网络的可变性”，英国皇家学会界面杂志，第10卷，第5期。88，文章ID 20130588, 2013。视图:出版商的网站|谷歌学者
M. Komorowski, M. J. Costa, D. A. Rand，和M. P. H. Stumpf，“随机化学动力学模型的灵敏度、稳健性和可识别性”，国家科学院的诉讼程序，第108卷，第108号21, pp. 8645-8650, 2011。视图:出版商的网站|谷歌学者
C. Zimmer，“使用间隔线性噪声近似和状态估计的非线性信号传导途径随机模型的实验设计”普罗斯一体，第11卷，第5期。9、文章编号e0159902, 2016。视图:出版商的网站|谷歌学者
Z. R. Fox和B. Munsky，“基于有限状态投影的Fisher信息矩阵方法来估计信息和优化单细胞实验，”PLoS计算生物学，卷。15，不。1，2019年物品ID e1006365。视图:出版商的网站|谷歌学者
V. Singh和I. Nemenman，《大型配体-受体网络中浓度感知的普遍特性》，物理评论快报号，第124卷。2、2020年第028101条。视图:出版商的网站|谷歌学者
C. Zechner, J. Ruess, P. Krenn等人，“基于瞬间的推断预测瞬时基因表达的双模态，”国家科学院的诉讼程序，第109卷，第2期。21, pp. 8340-8345, 2012。视图:出版商的网站|谷歌学者
G. Neuert, B. Munsky, R. Z. Tan, L. Teytelman, M. Khammash, and A. van Oudenaarden，“信号激活的随机基因调控的系统识别”，科学，卷。339，没有。6119，pp。584-587,2013。视图:出版商的网站|谷歌学者
B. Munsky，G. Li，Z. R. Fox，D.P.Shepherd和G. Neuert，“分布形状管理对基因调节的预测模型的发现”国家科学院的诉讼程序第115卷第1期29, pp. 7533-7538, 2018。视图:出版商的网站|谷歌学者
A. Raj，P.Van den Bogaard，S.A.Rifkin，A.Van Oudenaarden和S. Tyagi，“使用多个单标记的探针进行成像单个mRNA分子”，“自然方法，卷。5，不。10，pp。877-879，2008。视图:出版商的网站|谷歌学者
A. M. Femino, F. S. Fay, K. Fogarty, R. H. Singer，《原位单个RNA转录本的可视化》，科学第280卷第2页，1998年。视图:出版商的网站|谷歌学者
N. Tsanov, A. Samacoits, R. Chouaib等人，“smiFISH和fish -quant -一种具有超分辨率能力的灵活的单RNA检测方法”，核酸研究，第44卷，第5期。22页e165,2016。视图:出版商的网站|谷歌学者
C. Zechner, M. Unger, S. Pelet, M. Peter，和H. Koeppl，“从集合单细胞记录的多相反应动力学的可扩展推断”，自然方法，第11卷，第5期。2，pp。197-202，2014。视图:出版商的网站|谷歌学者
R. M.Kumar，P. Cahan，A.K.Shalek等，“在多能干细胞中解构转录异质性”，自然，卷。516，没有。7529，第56-61,2014。视图:出版商的网站|谷歌学者
L. S. Weinberger, J. C. Burnett, J. E. Toettcher, a . P. Arkin，和D. V. Schaffer，“慢病毒阳性反馈回路中的随机基因表达:HIV-1 tat波动驱动表型多样性”，细胞第122卷2，页169-182,2005。视图:出版商的网站|谷歌学者
B. Munsky，G. Neuert和A.Van Oudeaarden，“使用基因表达噪声来了解基因调节”科学，第336卷，第2期6078页，第183-187页，2012。视图:出版商的网站|谷歌学者
H. sharfian, F. Lampert, K. Stojanovski等，“平行反馈回路控制HOG MAPK信号级联的基本活动”，综合生物学，第7卷，第5期4, pp. 412-422, 2015。视图:出版商的网站|谷歌学者
E. Klipp, B. Nordlander, R. Krüger, P. Gennemark，和S. Hohmann，“酵母对渗透休克反应的综合模型”，自然生物技术，第23卷，第2期。8，pp。975-982，2005。视图:出版商的网站|谷歌学者
B. Schoeberl, C. Eichler-Jonsson, E. D. Gilles，和G. Müller，“表面和内化EGF受体激活的MAP激酶级联动力学的计算模型，”自然生物技术，卷。20，没有。4，pp。370-375,2002。视图:出版商的网站|谷歌学者
D. Muzzey, C. A. Gómez-Uribe, J. T. Mettetal等人，“酵母渗透调节的完美适应的系统级分析”，杂志的端到端测试，卷。138，不。1，pp。160-171,2009。视图:出版商的网站|谷歌学者
H. Saito和F. Posas，《高渗应激反应》，遗传学，卷。192年，没有。2，pp。289-318,2012。视图:出版商的网站|谷歌学者
S.Pelet，F.Rudolf，M.Nadal-reselles，E. de Nadal，F. POSAS和M.彼得，“猪MAPK途径的瞬态激活调节双峰基因表达”科学，第332卷，第2期。6030, pp. 732-735, 2011。视图:出版商的网站|谷歌学者
B. Munsky，Z.Fox和G. Neuert，“整合单分子实验和离散随机模型来了解异质基因转录动态”方法，卷。85，pp。12-21,2015。视图:出版商的网站|谷歌学者
N. G. Van Kampen和N. Godfried，物理与化学的随机过程， Elsevier，阿姆斯特丹，荷兰，1992。
D. T.Gillespie，“耦合化学反应的精确随机模拟”物理化学杂志，卷。81，没有。25，pp。2340-2361，1977。视图:出版商的网站|谷歌学者
A. Singh和J. P. Hespanha，“化学反应系统的近似矩动力学”，IEEE自动控制交易，卷。56，没有。2，pp。414-418，2011。视图:出版商的网站|谷歌学者
Z. Fox, G. Neuert，和B. Munsky，“基于有限状态投影的边界使用单细胞数据比较化学主方程模型”，化学物理学报第145卷第1期7、文章ID 074101, 2016。视图:出版商的网站|谷歌学者
B. Munsky和M. Khammash，“化学总体方程解决的有限状态投影算法”化学物理学报号，第124卷。4，物品ID 044104,2006。视图:出版商的网站|谷歌学者
m . Gomez-Schiavon L.-F。Chen, A. E. West, and N. E. Buchler，“BayFish:从单个细胞中单分子RNA FISH种群快照中转录动力学的贝叶斯推断”，基因组生物学，卷。18，不。1，p。164,2017。视图:出版商的网站|谷歌学者
S. M. Kay，统计信号处理基础：估计理论，Prentice-Hall，Upper Saddle River，NJ，USA，1993。
G. Casella和R. L. Berger，统计推断， Wadsworth and Brooks/Cole, Pacific Grove, CA, USA, 1990。
C. Kreutz和J. Timmer，《系统生物学:实验设计》，2月期刊第276卷第2期4, pp. 923-942, 2009。视图:出版商的网站|谷歌学者
B. Steiert, A. Raue, J. Timmer，和C. Kreutz，“基因调控网络参数估计的实验设计”，普罗斯一体，第7卷，第5期7、文章ID e40052,2012。视图:出版商的网站|谷歌学者
J. Ruess, F. Parise, a . Milias-Argeitis, M. Khammash, and J. Lygeros，“迭代实验设计指导光诱导基因表达电路的特性”，国家科学院的诉讼程序，卷。112，没有。26，pp。8148-8153,2015。视图:出版商的网站|谷歌学者
R. Cheong，A. Rhee，C. J. Wang，I. Nemenman和A. Levchenko，“嘈杂的生物化学信令网络的信息转导能力”，科学，卷。334，没有。6054，pp。354-358,2011。视图:出版商的网站|谷歌学者
R. Suderman，J.A.A.Bachman，A. Smith，P. K.Sacer和E. J. Deeds，“单细胞和蜂窝种群信息流之间的基本权衡”，“国家科学院的诉讼程序，第114卷，第2期。22, pp. 5755-5760, 2017。视图:出版商的网站|谷歌学者
J. Selimkhanov，B. Taylor，J. Yao等，“通过动态生化信令网络准确的信息传输，”科学，卷。346，没有。6215，pp。1370-1373,2014。视图:出版商的网站|谷歌学者
G. Tkačik和a . M. Walczak，《基因调控网络中的信息传递:综述》，物理学杂志。凝聚态：物理学学院，第23卷，第2期。15、Article ID 153102, 2011。视图:出版商的网站|谷歌学者
T. Jetka, K. Nienałtowski, S. Filippi, M. P. H. Stumpf，和M. Komorowski，“解读多效和嘈杂的生化信号的信息理论框架，”自然通信，第9卷，第5期。1, p. 4591, 2018。视图:出版商的网站|谷歌学者
A.H.Ng，T.H. Nguyen，M.Gómez-Schiavon等，“使用De Novo蛋白质开关进行模块化和可调化生物反馈控制”，自然，卷。572，没有。7768，pp。265-269,2019。视图:出版商的网站|谷歌学者
A. Thiemicke, H. Jashnsaz, G. Li，和G. Neuert，“生成动力学环境以研究单细胞的动态细胞过程”，科学报告，第9卷，第5期。1、2019年第10129条。视图:出版商的网站|谷歌学者
J.-B。Lugagne, S. S. Carrillo, M. Kirch, a . Köhler, G. Batt，和P. Hersen，“通过实时反馈控制和周期强迫平衡遗传开关”，自然通信，卷。8，不。1，p。1671年，2017年。视图:出版商的网站|谷歌学者
R. Chait，J.Ruess，T.Bergmiller，G.Tkačik和C.C.Cawet，“通过计算机接口控制形状的个体细胞的细菌群体行为”自然通信，卷。8，p。2557,2017。视图:出版商的网站|谷歌学者
M. Rullan，D.Benzinger，G.W.Schmidt，A. Milias-Argeitis，以及M. Khammash，“用于实时，单细胞询问随机转录调节的致光学平台”，分子细胞，卷。70，否。4，pp。745-756,2018。视图:出版商的网站|谷歌学者
S. M. Castillo-Mair，E.A.Baerman，M.Fjita，O. A.Igoshin和J. J.J.J.Babor，“芽孢杆菌基因表达的致敏控制”，自然通信，第10卷，第5期。1，第3099页，2019。视图:出版商的网站|谷歌学者

复杂性

生物系统动力学分析

摘要

1.介绍

2.背景

２.１.hog1 - mapk诱导基因表达的离散随机模型

２.２.随机基因表达的有限状态投影分析

２.３.smFISH数据对FSP模式的似然性

结果

3.1。用于信号激活随机基因表达模型的基于有限状态投影的Fisher信息

３．２．FSP-FIM可以量化时变输入条件下随机基因表达的实验信息

3.3。设计HOG1-MAPK路径的最佳测量酿酒酵母

3．4．利用FSP-FIM设计最佳生物传感器测量

3．5．基于fsp - fim的生物传感器测量设计的实验验证

4。讨论

数据可用性

信息披露

利益冲突

致谢

补充材料

参考文献

版权

更多相关文章

相关文章