System Biology
课程描述:Systems Biology 2018 / Uri Alon
下文默认公式中的 $X$、$Y$ 指它们的浓度
研究手法:x-nullcline 即 $\frac{dx}{dt}=f(x,y)=0$ 的曲线,这条线上 x 方向的变化率为零;相似的还有 y-nullcline 。x/y-nullcline的交点是系统静止或平衡的状态
Lecture 1 Removal/Production
人的 GRN 由约 4500 Gene、10k edge 组成,单个 TF 可以影响 1-1000 个基因,单个基因也可以由 0-6 个 TF 共同调控。
假设有一个 TF $X$ 遇见糖分后形变为激活态 $X^{+}$,随后 $X^{+}$ 与 Promoter Zone 结合,影响转录 gene $Y$ 的效率。一般通过实验数据推断 $X^{+}$ 对 $Y$ 的影响。

可观测到的 $Y$ 生成速率 $\frac{dY}{dt} = \beta - \alpha Y$ 可由 Removal Rate $\alpha$ 以及 Production Rate $\beta$ 简单表示。
一般而言,生物体出于能源考虑,不会频繁降解蛋白,对于一些细菌而言降解周期是它们的一生。忽略 $\alpha = \frac{1}{Y寿命}$ 时, $Func(\beta,n,k)$ 大体上的表现如下图示。


Steady State 时 $0 = \frac{dY}{dt} = \beta - \alpha Y$,即 $Y_{st} = \frac{\beta}{\alpha}$
假设我们从乌有开始生成 $Y$,即突然使其 $\beta: (0 \rightarrow 1)$,则这个瞬间 $$\frac{dY}{dt} = 1 - \alpha Y_{st}$$ $$Y = Y_{st} (1-e^{-\alpha t})$$
随着时间变化,达成理论稳态的一半 $Y = \frac{1}{2} Y_{st}$,所需时间 $T_{\frac{1}{2}} = \frac{log2}{\alpha}$

假设现有一个初始的 Steady State $Y_{st}^{Old}$,突然使其 $\beta: (1 \rightarrow 0)$,则这个瞬间 $$\frac{dY}{dt} = 0 - \alpha Y_{st}^{Old}$$ $$Y = Y_{st}^{Old} e^{-\alpha t}$$
随着时间变化,达成旧稳态的一半 $Y = \frac{1}{2} Y_{st}^{Old}$,所需时间 $T_{\frac{1}{2}} = \frac{log2}{\alpha}$
随着时间变化,达成新稳态 $Y = 0$,所需时间 $T = \infty$

如此,Removal Rate $\alpha$ 才是达成 $\frac{Y_{st}}{2}$ 的关键。有丝分裂即 $Y_{st} \rightarrow \frac{Y_{st}}{2}$,可以根据 Cell Generation Time $T_{\frac{1}{2}}$ 来估算 $\alpha$
Lecture 2 Self-Loop
回顾 GNN 课程,我们一般会通过对比随机图(networkx里也提供多种模型)来获得一些显著的 Motif,我们也可以很容易的解释这些 Motif 的生物意义。
Negative Auto-regulation (NAR) 即是负反馈的 Self-Loop

已知 NAR 情况下,随着时间的推进,Production Rate $\beta = f(Y)$ 随着产物浓度 $Y$ 的升高而递减(左图)
相比于恒定的 $\beta = b$(右图),当 $\alpha$ 或 $\beta$ 发生变化时,NAR 曲线的 $Y_{st}$ 变化较小(抵挡噪音),且未平衡时其 $\beta-\alpha$ 曲线间的 Gap 较恒定 $\beta$ 更大(加速达成 $Y_{st}$)


再换一个角度,假设 $\alpha = 0$,想象 $\beta = f(Y) = \begin{cases} \beta \quad Y<k \\ 0 \quad Y \ge k \end{cases} $ 的情况,此时
Y bt
| /
| /________ Y_st = k 是最终平衡状态
| / 防止无止境的生成产物
|/___________
0 t
Positive Auto-regulation (PAR) 是一种正反馈的 Self-Loop,提供了某种惯性(或记忆),对于发育过程 GRN 而言很重要。
一共有如图所示的 $Y_{low}$, $Y_{阈值}$, $Y_{high}$ 三个 Steady State。观察 $\frac{dy}{dt}=\beta-\alpha$ 的符号(哪一条线在上方),可知会有两种最终结局。
具体来说,即使信号消失,但只要 $Y$ 跨越了阈值,它依然会上升至 $Y_{high}$,否则会下降回 $Y_{low}$


注意,PAR 可以同时影响 $\alpha$ 和 $\beta$(图一),相较于只影响 $\beta$ 的情况(图二),此时它可以在更大程度的变化中保存三个交叉点
Lecture 3 FFL-Gate
三元素的Motif中有8种 Feed Forward Loop (FFL),最主要的2种在E.coli网络中占80%

以 Type-1 Coherent FFL (C1-FFL) 为例,我们可以假设 $Z$ 通过一个 Gate 处理来自 $X$ 和 $Y$ 的信号。
当 $X$ 打开或关闭的瞬间,其下游的 $Y^{+}$ 需要一段时间才能达到 k 浓度(开关阈值)。
AND Gate 时,打开 $X$ 后由于需要等待达成 $Y^{+}$,因此生成 $Z$ 的时间相较于 $X$ 的变化有延迟。而关闭 $X$ 则对 $Z$ 即刻起效。这个机制可以过滤掉短暂的激活信号,但灵敏应对任何抑制信号。
OR Gate 时,打开 $X$ 对 $Z$ 即刻起效,而关闭 $X$ 则效果延迟。

注意,当 Node 间是抑制作用时,Strong Supression 令下游产物归零,Partial Supression 虽然令下游产物的 $Z_{st}$ 降低,但事实上缩短了达成此 low $Z_{st}$ 水平所需的时间,因此也可以被视为一种加速手段。以下图 Incoherent FFL 为例

想象一下,在面对急性压力时,会唤起快速响应的Loop;当压力转变为长期状态时,打开了其它较慢的Loop。
Lecture 4 FFL-More
Single Input Model (SIM) 常见于一系列基因的调控(e.g.操纵子中),以 Arg 生成为例,其生成需要一系列基因($argA/B/C$)的参与。在 Arg 浓度充足的情况下,$argR^{+}$处于激活态,抑制这一系列基因,不再生成 Arg;而当 Arg 浓度不足时,$argR^{+}$ 在自抑制 Loop 的影响下逐渐衰减,$argA/B/C$ 依次激活(对$argR^{+}$浓度耐受阈值不同),开始生成 Arg。

Multi-output FFL 类似于一种多层调控(总开关/小开关)

Bifan 一般组成 Dense Overlapping Regulons

此外,我们还需要注意速度的影响(e.g.转录速度不同),Graph 中-->可快可慢,组合在一起用则称为 hybrid network motif made of fast and slow interaction
关于 Mutual Regulation 展开想象:
X <--> Y 常见,结局:(X AND Y)=High OR (X AND Y)=Low
X |--| Y 常见,结局:(X OR Y)=High
X |--> Y 不稳定,会形成(High,Low,..)震荡的曲线
Lecture 5 Bifunctional Components
细胞信号通路常见的一个模式是磷酸化:细胞膜表面受体 X 被外界的信号分子 S 激活、将 Y0 磷酸化为 Yp,同时有一组 Z 帮助 Yp 去磷酸化为 Y0。

我们可以假设上图的简单模型,平衡状态下 $$\frac{dYp}{dt} = Vk \cdot Y0 \cdot X - Vz \cdot Yp \cdot Z = 0$$
$$Yp = \frac{ Vk \cdot Y_{All} \cdot X}{Vz \cdot Z + Vk \cdot X}$$
如此,最终的信号强度 Yp 受到细胞蛋白水平(X/Y/Z)的影响。而已知每个细胞内的蛋白分布并非一致,但它们可以对外界刺激保持同步的反应(同类型的细胞),简单模型无法对此进行解释。

上图的双功能组件 X 可维持信号的 Robustness。每输入一个ATP则生成一个磷酸基(Pi)、由Xp向Y传递,X0则作用相反。
只考虑模型的输入输出,平衡状态下
$$\text{Phosphorylation}= \text{Dephosphorylation}$$
$$\text{ATP Consumption}= \text{Dephosphorylation}$$
$$Va \cdot X0 = Vp \cdot X0 \cdot Yp$$
$$Yp = \frac{Va}{Vp}$$
与细胞的蛋白水平无关了!
(以上只是 0.1 seconds 尺度的概念模型,不属于长期调控;而且 ATP、Y总量、...不会是无限的,所以 Yp 会有一个上限)
Lecture 6 Integral Feedback
在漫游的过程中,细菌会依据化学物质的梯度变化调节其翻滚转向的频率,以此保证前进方向的正确,即是趋化性(Chemotaxis)。
如果只是改变一次化学浓度,翻滚频率在最初的激烈变化后,将逐渐回复到最初的水平(Exact adaptation),即已逐渐适应新浓度。

这个适应过程是依靠 Methelylation/Demethelylation 达成的,注意,甲基化修饰较缓慢(~min),曲线较为平缓。
平衡状态下,$\frac{dm}{dt} = \text{Add M} - \text{Remove M}= 0$ 即
$$\text{Add M [Const rate]}= \text{Remove M [Increase with Xm]}$$
$$V_R \cdot R= V_B \cdot B \cdot Xm_{st}$$
$$Xm_{st} = \frac{V_R \cdot R}{V_B \cdot B}$$
换句话说,$\frac{dm}{dt} = V_B \cdot B (Xm_{st} - Xm)$,即 $m= \int error = \int (Xm_{st} - Xm)$ 是一种典型的 integral feedback,可以快速响应周围的变化直至达成新的平衡。

在这个模型中,原本活跃的受体被 Stimuli 抑制(如下图),其活跃度的 $k \sim e^{\Delta G}$。而甲基化会增加自由能,于是 $k \sim e^{\Delta G + m\gamma}$,即以指数级提高 $k$。
(回忆一下,$k$ 指 50% 受体被结合时的 Stimuli 浓度)
从生物意义来讲,甲基化使得受体得以适应更高浓度的刺激,例如逐渐适应噪音/气味环境。(在一定范围内,因为甲基化也不是无限的)

总之,在这个反馈中,Add Methyl 的速率是恒定的,由 Del Methyl 的速率来动态的适应刺激信号的强度。不同的个体可以有不同的甲基化能力,但终究还是会达成 Exact adaptation,区别只在于平衡时的 Flipping Rate,也算是种群的一种多样性吧。
Lecture 7 Fold Change Detection

在安静环境中,我们或许可以感知到微小的声音;但在嘈杂环境中,只能感受到较大的音量。Fold Change Detection (FCD) 使我们能够基于环境决定感受的阈值,不至于对细小变化过于敏感。
FCD: 如果 $s_0 \rightarrow Const \cdot s_0$,Reaction 幅度将保持不变
可以整合不同的 FCD 信号($C_1 \cdot C_2 \cdot ...$)
简化一下 Lecture 6 的模型图:假设 $Xm \sim Action$,

已知,甲基化的 $k \sim e^{\Delta G + m\gamma}$,即 $k = k_0 e^{m\gamma}$,于是
$$\frac{dk}{dt} = k_0 \gamma e^{m\gamma} \frac{dm}{dt} = \gamma k \frac{dm}{dt} = \gamma k \cdot V_B \cdot B (Xm_{st} - Xm) = Const \cdot k (Xm_{st} - Xm)$$
$$\text{即,在这个时刻 }\begin{cases} \frac{dk}{dt}= C \cdot k(a_{st} -a) \\ a = f(\frac{s}{k}) \quad \text{即 HillFunc = } \frac{1}{1+(\frac{s}{k})^n} \end{cases} $$
证明这个机制可达成 FCD:
回忆一下,$k$ 指 $a = f(\frac{s}{k})$=50% 时的 Stimuli 浓度,$k$ 与 $s$ 共享一个 scaling factor,假设一次变换是 $s_0 \rightarrow s$
$$\text{rescale k and s,得到}\begin{cases} \frac{d k'}{dt}= C \cdot k'(a_{st} -a) \\ a = f(\frac{s/s_0}{k/s _0} ) = f(\frac{\text{Fold Change}}{k'}) \end{cases} $$
这样来看,只要每次 $s$ 的 Fold Change 程度一致,Action $a$ 的烈度也会一致,而与变化的初始状态 $s_0$ 无关
另一方面,Incoherent FFL I (Y-Strong) 时,若 Y >> k
$$\begin{cases} \frac{dy}{dt} = \beta_1 X - \alpha_1 Y = 0 \quad \text{解得 } Y_{st} = \frac{\beta_1 X_{st}}{\alpha_1} \sim X_{st} \\ \frac{dz}{dt} = \frac{\beta_2 X}{k + Y} - \alpha_2 Z = 0 \quad \text{解得 } Z_{st} = \frac{\beta_2 X_{st}}{(k + Y_{st})\alpha_2} \approx \frac{\beta_2 X_{st}}{Y_{st}\alpha_2} = \frac{\beta_2 X_{st} \alpha_1}{\beta_1 X_{st} \alpha_2} = Const \end{cases}$$
证明这个机制可达成 FCD:即如果每次 $x$ 的 Fold Change 程度保持不变,$z$ 将保持不变
假设一次变换是 $x \rightarrow Cx$,,则此时 $(x,y,z) \rightarrow (Cx,Cy,z)$,且 $(\frac{dy}{dt},\frac{dz}{dt}) \rightarrow (C\frac{dy}{dt},\frac{dz}{dt})$
将上述声明带入原式,约去C后,方程与上文一致
$$\begin{cases} C\frac{dy}{dt} = C \beta_1 X - C \alpha_1 Y \\ \frac{dz}{dt} = \frac{C \beta_2 X}{Ck + CY} - \alpha_2 Z \end{cases}$$
Lecture 8 Dynamic Compensation
人体维持着动态的平衡,以血糖调控为例:进食后血糖升高,胰岛B细胞分泌胰岛素令体细胞储存 Glucose、以此降低血糖。


$$ \text{如图示 }\begin{cases} \frac{dG}{dt} = meal - SIG \quad \text{血糖}\\ \frac{dI}{dt} = qXf(G) - \alpha I = qXG^2 - \alpha I \quad \text{胰岛素}\\ \frac{dX}{dt} = X (\text{proliferation} - \text{death}) \quad \text{B cell 数量} \end{cases}$$
解 $\frac{dG}{dt} = 0$ 得 $G_{st} = \frac{meal}{SI_{st}}$
解 $\frac{dI}{dt} = 0$ 得 $G_{st}^2 = \frac{\alpha I_{st}}{qX} = \frac{\alpha}{qX} \frac{meal}{S G_{st}}$,即 $G_{st} = (\frac{\alpha \cdot meal}{qXS})^{1/3}$
由表达式可知,假如 B cell 数量恒定,Insulin resistance ($S \downarrow$) 的病人的血糖 $G$ 将异常高,然而事实上 80% 的病人在此阶段可以维持正常的 $G$,这是因为 B cell 数量进行了代偿(~ weeks)
但血糖过高会造成 B cell 死亡,糖酵解造成的 oxidative stress 即 Glucotoxicity,每个人的耐受程度由基因决定。长期高糖会陷入某种 vicious cycle,最终造成二型糖尿病(T2DB)
Glucotoxicity 某种意义上也避免生成过于敏感的 B cell,因为它们在低浓度时即被杀死

(注意,代偿需要约一周来生成细胞,在达成前的这段时间,Insulin resistance 患者的血糖依然会有异常波动)
Lecture 9 Oscillator


Oscillator 是形成节律的机制(e.g.心跳、生物钟),Lecture 4 中提到过 X |--> Y 会形成 Damped oscillation(即 Undamped 的简谐运动时因阻尼而逐渐停止)
$$ \text{见 Motif 1 }\begin{cases} \frac{dx}{dt} = \beta_2 - \alpha_1x \quad \text{其中 } \beta_2 = f(y) \text{ 递减,$y_{st}$ 处斜率 } \frac{\partial f}{\partial y} \vert_{y_{st}}= \beta_1 \\ \frac{dy}{dt} = \beta_1 - \alpha_2y \quad \text{其中 } \beta_1 = g(x)\text{ 递增,$x_{st}$ 处斜率 } \frac{\partial g}{\partial x} \vert_{x_{st}}= \beta_2 \end{cases}$$


当 $(\alpha_1-\alpha_2)^2 < 4\beta_1\beta_2$ 时 Underdamped,即 $x$、$y$ 的留存时间不应相差过大,feedbacks $\beta$ 也不可以太微弱
Damped oscillation 最终将收敛,若想达成持续的节律,需要周期性的干预推动(施加外力的频率 = trapped in Fixed Point 的频率),即 Noise-induced oscillation. 这个外力可以是 X with PAR(Motif 2),在 X 浓度超过某一阈值后自加速生成 X、然后被抑制至低于阈值(过程类似一个 spike _|_)
此外,Repressilator(Motif 3)也可以产生周期曲线,不过此时 XYZ 曲线不再 in phase.
频率,主要是由 delay 控制,即生物反应所需要的时间。Motif 2 中可以在维持恒定振幅的情况下调节频率,因为它受外力 Noise 的调节。但如果不减小 Motif 3 的振幅,就不能改变它的频率。
Lecture 10
生物的进化过程,实际上就是通过改变基因型,不断提升自身在这个环境下的适应度。以 E.coli 为例,测算负责分解 lactose 的 lacZ 对 Fitness 的影响:定义 Fitness: Growth Rate,Property: lacZ protein
注意,E.coli还可以分解其它营养物质,而 lacZ 的存在可以增加 Growth Rate。约定在 lactose 不限量的情况下,每一个 lacZ 带来的增速为 Bo.
对于 WildType E.coli 而言,培养皿中更多 lactose 时会生成更多 lacZ,lactose 不限量的情况下最高可达成 lacZ = 60k per cell。
IPTG 的结构近似 lactose,它可以诱导生成 lacZ,但不可用于细胞生长,即生成 lacZ 的 COST。用 IPTG 取代 lactose 进行实验,在 lacZ = 60k 时,Growth Rate 下降了 5%,即 Co * 60k = 5%;在 lacZ = 1.8 * 60k = M 时,细胞死亡。
于是,在 lacZ = Z,lactose = L 时
Fitness(Z,L) = BENEFIT(Z,L) - COST(Z)
COST(Z)= Co * Z / (1 - Z/M)
BENEFIT(Z,L)= Bo * Z * L / (K + L)
其中 Binding coefficient K 即 Z+L <--(K)--> ZL
计算 $\frac{dFitness}{dZ}=0$ 可得这个环境的最优 $Z_{opt} = M (1- [\frac{Co(K+L)}{Bo \cdot L}]^{1/2})$,也知从 lacZ 中获利的 lactose $L$ 阈值是 $Co(K+L)=Bo \cdot L$
如果遇见 lactose 的几率很高,则 Fitness(Z,L) 在大多数情况下有利,即更加适应环境,进化过程将倾向于保留这个基因。
Lecture 11
为了在复杂环境中生存,生物性状是在对多个目标进行取舍后的结果
[Gene1,2,3..] ---> Performance(Task1) \
Genotype ---> Phenotype ---> Performance(Task2) ---> Fitness(i.e. Offsprings)
---> Performance(Task3) /
以 Performance(TaskX) 为坐标轴组成一个空间,对于每个 Task 都有一个最优模型 Archetype。综合 Fitness 最优的 Phenotype 可以分布在如图红色区域,即距离各 Archetype 欧氏距离之和最小的区域。
一些生物选择均衡发展,另一些选择成为某方面的专家(图示中 靠近某一个 Archetype)

Lecture 12
在进行进化模拟时,最简单的方法是将个体视为 Gate 网络:
Genome ---------**********++++++++++........
Gene1 Gene2 Gene3 ...
Gate1 Gate2 Gate3 ...
Gate 设定为接收 2 个 0/1 输入:
| InputA | InputB | AND | NAND | XOR | OR |
|---|---|---|---|---|---|
| 0 | 0 | 0 | 1 | 0 | -- |
| 0 | 1 | 0 | 1 | 1 | -- |
| 1 | 0 | 0 | 1 | 1 | -- |
| 1 | 1 | 1 | 0 | 0 | -- |
模拟步骤很简单:已知优化目标 OUTPUT 和一组可能的输入组合
0. 有一个初始群体的 Genome 网络
1. Each Individual get 10 offsprings
- Rewire network [Mutation]
- add/del Gate [gene gain/lost]
2. Each offspring:
loop through all possible Input stress,
then Calculate Fitness = C/A - gate_Err
C = num of Correct OUTPUTs
A = num of possible input set [1,1,0,1] (16 for 4 gates)
gate_Err = err * num_of_gates
3. 选择 top 50% Fitness 的子代个体作为下一个 Loop 的初始群体
有趣的是,如果优化目标恒定不变 [GoalA],最终得到优化网络是 Non Modular(有点类似过拟合?),但如果每隔几代交替使用优化目标 [GoalA,GoalB],最终得到优化网络 Modular --- 更符合实际的生物网络
