为什么各式各样的蛋白质在细胞里不会拥挤打乱？

2015-01-07科学

实际上是很乱很拥挤的。只是在自然选择（进化）的作用下，多数蛋白有了特殊的动力学/热力学性质，使它们刚好可以做完它该做的事情，「顺便」使你觉得他们没有乱跑。

其实我觉得这是个很有意思的问题。如我的答案和其他答案指出的那样，细胞实际上已经做了很多优化的工作，但结果还是很乱——因为细胞已经活得足够好了，进一步优化的进化/能量/物质代价太大。我的回答写了一大通，重点其实是： 这个问题的原假设（null hypothesis）应该是"会拥挤打乱" 。换句话说，你在细胞里面随便抽一个蛋白质，你就应该假设它是到处乱跑的，除非你有否定这个假设的证据。

以下举三个具体例子，说明细胞里面有多乱。需要指出的是，我稍微扩充了一下题主的问题。因为乱不乱不仅是蛋白质的问题，所有其它生物大分子也面临这个问题，例如核酸。

-------------------------------------------
1.基因表达 (gene expression)

这里谈的表达特指转录，即RNA合成酶(真核细胞里是Pol II)以DNA为模板合成mRNA的过程。

基因的表达说到底就是RNA合成酶」随机「结合到（打开的）DNA分子上面，开始合成RNA的过程。不难想象，在分子层面，这其实是一个很「乱「的过程。这种随机性有两个明显的表现：

(a) 表达噪音 （gene expression noise）：指 在遗传/环境/细胞状态都完全一样的两个细胞里，同一个基因的表达量不一样 。在全基因组水平对表达噪音进行测量，最早是在大肠杆菌[1]里，真核生物最早则在酵母[2]。（如果有人要问你怎么保证"遗传/环境/细胞状态都完全一样"，请看这两篇文章。如果你要问怎么确定不是测量造成的随机误差，也可以看文章，或者看本回答下面关于「原理」的部分。）这里面的逻辑就是， 如果蛋白质（Pol II）的运动真这么精确，何来的表达噪音呢？

实际上，细胞对单个基因的表达量并没有很精确的要求。比方说同样是G1期的肝细胞，只看同一个基因，在不同细胞里基因表达量差个2倍完全是没什么大不了的事。2倍差异都受不了的话，那些细胞早就全死了。但是，请不要把"单个细胞中的表达量"和"一群细胞的平均表达量"等同起来，「一群细胞的平均表达量"差2倍可以是很大的问题。

(b) 等位基因特异的基因表达 （allele-specific expression）：指 在双倍体的细胞中，两个等位基因中"随机的「一个表达很强，而另一个很弱甚至完全不表达 。而且这种差异不是表观遗传学差异造成的，而是随机的。也就是说同一个细胞，两对等位基因中常常是随机挑一个表达，并且可能这一秒是母本的等位基因表达，下一秒就成了父本表达了。关于这个比较新的证据出现在小鼠细胞里[3]。同样地，这种行为一点也不精确，「乱来」得很。

原理：

基因表达那么「乱」的根源/机制是什么。目前所知的原因，可以简单的概括为：因为 基因的转录是「爆发式」（bursty）的 。转录因子随机碰到一个启动子，就停在那，并募集RNA合成酶，从而开始基因表达。但是它会在启动子上面停多久(burst duration)，停的这段时间能募集到多少"随机"碰上来的RNA合成酶（burst size），掉下来之后隔多久还会再有一个转录因子结合上来（silence duration），都在很大程度上是随机的。当然这不是完全随机，它们会受DNA状态的影响（例如被核小体完全缠绕起来的DNA是基本不会被转录的），另外现在已经发现启动子里面的某些元件可以同时降低burst duration和burst size，从而降低表达噪音（显然，噪音还受mRNA降解速率影响，与此题无关，就不谈了）。对此感兴趣的知友可以从[4]开始看看。显然，「爆发式」的转录也很不精确。精确的应该是给定遗传背景/细胞状态/环境，你就能准确预测某个基因的在单个细胞里的表达量。

--------------------------------------------------

2.mRNA翻译成蛋白质 (translation)

翻译的过程主要包括起始（initiation），延伸（elongation）和终止（termination）三步，下面主要谈延伸。

mRNA翻译的过程其实就是把一个一个氨基酸根据mRNA上的密码子接起来的过程。假设根据mRNA，你下一步要往肽链上接一个亮氨酸，核糖体就晾在mRNA上等着tRNA跑过来（具体来说是tRNA跑到核糖体的 A-site）。大家知道细胞里面有很多不同的tRNA， 如果细胞里面生物大分子的运动够精确，跟mRNA上面的密码子对应的那个tRNA就应该乖乖地跑过来，完成它的使命 。可 实际情况是，任何tRNA都可以跑过来，嵌到核糖体的A-site上面 。但是，跟密码子不匹配的tRNA会呆在上面很久，它携带的氨基酸都不会被利用（不会被接到肽链上），直到它「识趣」地离开。而跟密码子匹配的tRNA则会在到位之后的很短时间内，就被利用上——这其实也是个随机的过程，只是匹配的tRNA的反应速率常数，比非匹配tRNA的反应速率常数大很多（大概是1000倍的差异[5]），导致翻译具有相当高的准确率。（实际上还有一步kinetic proof-reading才能达到足够高的准确率，也是跟题目无关。感兴趣可以去看Uri Alon那本系统生物学导论。）

尽管这样， 翻译还是经常会出错，足见「不识趣」的非匹配tRNA乱闯入核糖体是多么经常发生的事 。目前普遍接受的翻译错误率大约是每翻译2000个氨基酸，就会有1个出错[6]。酵母平均每个基因415个氨基酸，按此推算，酵母有20%的蛋白包含至少1个错误的氨基酸——这够乱的了吧？

---------------------------------------------------------------------

3.蛋白质的相互作用 (protein-protein interaction)

一般而言， 蛋白质都有它特定的结合对象，结合之后才能行使其功能 。跟上面的翻译的例子类似，有生理功能的蛋白质复合物的稳定性较高，能稳定存在比较长时间。而没有生理功能的蛋白质复合物（mis-interaction）则稳定性较差，很快就分离了。所以看上去好像蛋白都能正确地找到「对象」。但实际上， 这个"找对象"是个漫长的"试错"过程 ——可能蛋白质碰上100个别的分子，都碰不上自己的"对象"。如果不是自然选择/进化把基因组雕琢成现在这个样子，这个「试错」的过程恐怕是会变得太费时费事，而导致细胞无法存活了。关于细胞内蛋白质是如何乱成一锅粥以至于经常碰上错的对象，我所知的有以下的证据：

(a) "滥交"的蛋白过表达的时候，细胞会出问题 [7]：所谓"滥交"就是这个蛋白与任意蛋白结合的稳定性，都跟它与特定对象结合时的稳定性差不多。这种蛋白如果表达量异常增高，就会随机结合住很多其他"无辜"的蛋白质分子，导致它们不能干正事，从而引起细胞的各种"问题"（[7]里面谈的"问题"是果蝇/线虫/老鼠的一些异常性状和人的肿瘤）。如果蛋白质不"乱交"，都乖乖地只跟"对象"结合，是不会有这种事的。

(b) 蛋白质组总量的存在上限，此上限由 _有多少蛋白会被浪费在"试错"的过程中_ 决定 [8]：简单的来说，如果一个蛋白质分子只能存活1小时，然后它每一秒都碰到一个错的对象，"试错"3600个之后，如果它都没找到正确的对象，它就只能"冤死"了。如果细胞里面的蛋白质分子太多（严格来说是浓度太高，为了简化，先假设细胞体积固定吧），导致每个蛋白质都是冤死的命，那细胞也就活不下去了。因此细胞里面的分子总数不能超过某个值，以保证"冤死"的蛋白质不能太多。[8]里面估计，即使经过长年的进化， 酵母的细胞质和线粒体里面还是有20%的蛋白质分子是"冤死"在试错的过程中。细胞核中这个「冤死」的比例更高，有40%。 这够拥挤混乱了吧。（这段省略了很多detail，有兴趣的朋友去看原文吧，挺有意思的）

(c) 高表达的蛋白质倾向于在其三维结构的表面使用亲水性的氨基酸[9]： 蛋白质的相互作用一般是通过疏水性氨基酸进行的，因为细胞质里面都是水分子，两个蛋白质的疏水表面结合在一起会比较稳定。一个基因，如果其蛋白质表达量很高，显然它很容易成为其他蛋白"试错"的对象，所以它一定不能「滥交」。所以这些蛋白质表面通常都是亲水的氨基酸为主。低表达的蛋白没有这个限制，所以它们表面的疏水氨基酸会多一些。这也造成了高表达的蛋白质进化比较慢，因为它们的序列在进化上受到的限制比较多。如果细胞里面不是这么乱，这个现象也是不会出现的。

------------

参考文献:

[1]

http://www. ncbi.nlm.nih.gov/pubmed /12183631

[2]

http://www. ncbi.nlm.nih.gov/pubmed /15166317

[3]

http://www. ncbi.nlm.nih.gov/pubmed /24408435

[4]

http://www. ncbi.nlm.nih.gov/pubmed /24311680

[5]

Genetic code translation displays a linear trade-off between efficiency and accuracy of tRNA selection