当前位置: 华文问答 > 科学

为什么各式各样的蛋白质在细胞里不会拥挤打乱?

2015-01-07科学

实际上是很乱很拥挤的。只是在自然选择(进化)的作用下,多数蛋白有了特殊的动力学/热力学性质,使它们刚好可以做完它该做的事情,「顺便」使你觉得他们没有乱跑。

其实我觉得这是个很有意思的问题。如我的答案和其他答案指出的那样,细胞实际上已经做了很多优化的工作,但结果还是很乱——因为细胞已经活得足够好了,进一步优化的进化/能量/物质代价太大。我的回答写了一大通,重点其实是: 这个问题的原假设(null hypothesis)应该是"会拥挤打乱" 。换句话说,你在细胞里面随便抽一个蛋白质,你就应该假设它是到处乱跑的,除非你有否定这个假设的证据。

以下举三个具体例子,说明细胞里面有多乱。需要指出的是,我稍微扩充了一下题主的问题。因为乱不乱不仅是蛋白质的问题,所有其它生物大分子也面临这个问题,例如核酸。

-------------------------------------------
1.基因表达
(gene expression)

这里谈的表达特指转录,即RNA合成酶(真核细胞里是Pol II)以DNA为模板合成mRNA的过程。

基因的表达说到底就是RNA合成酶」随机「结合到(打开的)DNA分子上面,开始合成RNA的过程。不难想象,在分子层面,这其实是一个很「乱「的过程。这种随机性有两个明显的表现:

(a) 表达噪音 (gene expression noise):指 在遗传/环境/细胞状态都完全一样的两个细胞里,同一个基因的表达量不一样 。在全基因组水平对表达噪音进行测量,最早是在大肠杆菌[1]里,真核生物最早则在酵母[2]。(如果有人要问你怎么保证"遗传/环境/细胞状态都完全一样",请看这两篇文章。如果你要问怎么确定不是测量造成的随机误差,也可以看文章,或者看本回答下面关于「原理」的部分。)这里面的逻辑就是, 如果蛋白质(Pol II)的运动真这么精确,何来的表达噪音呢?

实际上,细胞对单个基因的表达量并没有很精确的要求。比方说同样是G1期的肝细胞,只看同一个基因,在不同细胞里基因表达量差个2倍完全是没什么大不了的事。2倍差异都受不了的话,那些细胞早就全死了。但是,请不要把"单个细胞中的表达量"和"一群细胞的平均表达量"等同起来,「一群细胞的平均表达量"差2倍可以是很大的问题。

(b) 等位基因特异的基因表达 (allele-specific expression):指 在双倍体的细胞中,两个等位基因中"随机的「一个表达很强,而另一个很弱甚至完全不表达 。而且这种差异不是表观遗传学差异造成的,而是随机的。也就是说同一个细胞,两对等位基因中常常是随机挑一个表达,并且可能这一秒是母本的等位基因表达,下一秒就成了父本表达了。关于这个比较新的证据出现在小鼠细胞里[3]。同样地,这种行为一点也不精确,「乱来」得很。

原理

基因表达那么「乱」的根源/机制是什么。目前所知的原因,可以简单的概括为:因为 基因的转录是「爆发式」(bursty)的 。转录因子随机碰到一个启动子,就停在那,并募集RNA合成酶,从而开始基因表达。但是它会在启动子上面停多久(burst duration),停的这段时间能募集到多少"随机"碰上来的RNA合成酶(burst size),掉下来之后隔多久还会再有一个转录因子结合上来(silence duration),都在很大程度上是随机的。当然这不是完全随机,它们会受DNA状态的影响(例如被核小体完全缠绕起来的DNA是基本不会被转录的),另外现在已经发现启动子里面的某些元件可以同时降低burst duration和burst size,从而降低表达噪音(显然,噪音还受mRNA降解速率影响,与此题无关,就不谈了)。对此感兴趣的知友可以从[4]开始看看。显然,「爆发式」的转录也很不精确。精确的应该是给定遗传背景/细胞状态/环境,你就能准确预测某个基因的在单个细胞里的表达量。

--------------------------------------------------

2.mRNA翻译成蛋白质 (translation)

翻译的过程主要包括起始(initiation),延伸(elongation)和终止(termination)三步,下面主要谈延伸。

mRNA翻译的过程其实就是把一个一个氨基酸根据mRNA上的密码子接起来的过程。假设根据mRNA,你下一步要往肽链上接一个亮氨酸,核糖体就晾在mRNA上等着tRNA跑过来(具体来说是tRNA跑到核糖体的 A-site)。大家知道细胞里面有很多不同的tRNA, 如果细胞里面生物大分子的运动够精确,跟mRNA上面的密码子对应的那个tRNA就应该乖乖地跑过来,完成它的使命 。可 实际情况是,任何tRNA都可以跑过来,嵌到核糖体的A-site上面 。但是,跟密码子不匹配的tRNA会呆在上面很久,它携带的氨基酸都不会被利用(不会被接到肽链上),直到它「识趣」地离开。而跟密码子匹配的tRNA则会在到位之后的很短时间内,就被利用上——这其实也是个随机的过程,只是匹配的tRNA的反应速率常数,比非匹配tRNA的反应速率常数大很多(大概是1000倍的差异[5]),导致翻译具有相当高的准确率。(实际上还有一步kinetic proof-reading才能达到足够高的准确率,也是跟题目无关。感兴趣可以去看Uri Alon那本系统生物学导论。)

尽管这样, 翻译还是经常会出错,足见「不识趣」的非匹配tRNA乱闯入核糖体是多么经常发生的事 。目前普遍接受的翻译错误率大约是每翻译2000个氨基酸,就会有1个出错[6]。酵母平均每个基因415个氨基酸,按此推算,酵母有20%的蛋白包含至少1个错误的氨基酸——这够乱的了吧?

---------------------------------------------------------------------

3.蛋白质的相互作用 (protein-protein interaction)

一般而言, 蛋白质都有它特定的结合对象,结合之后才能行使其功能 。跟上面的翻译的例子类似,有生理功能的蛋白质复合物的稳定性较高,能稳定存在比较长时间。而没有生理功能的蛋白质复合物(mis-interaction)则稳定性较差,很快就分离了。所以看上去好像蛋白都能正确地找到「对象」。但实际上, 这个"找对象"是个漫长的"试错"过程 ——可能蛋白质碰上100个别的分子,都碰不上自己的"对象"。如果不是自然选择/进化把基因组雕琢成现在这个样子,这个「试错」的过程恐怕是会变得太费时费事,而导致细胞无法存活了。关于细胞内蛋白质是如何乱成一锅粥以至于经常碰上错的对象,我所知的有以下的证据:

(a) "滥交"的蛋白过表达的时候,细胞会出问题 [7]:所谓"滥交"就是这个蛋白与任意蛋白结合的稳定性,都跟它与特定对象结合时的稳定性差不多。这种蛋白如果表达量异常增高,就会随机结合住很多其他"无辜"的蛋白质分子,导致它们不能干正事,从而引起细胞的各种"问题"([7]里面谈的"问题"是果蝇/线虫/老鼠的一些异常性状和人的肿瘤)。如果蛋白质不"乱交",都乖乖地只跟"对象"结合,是不会有这种事的。

(b) 蛋白质组总量的存在上限,此上限由 _有多少蛋白会被浪费在"试错"的过程中_ 决定 [8]:简单的来说,如果一个蛋白质分子只能存活1小时,然后它每一秒都碰到一个错的对象,"试错"3600个之后,如果它都没找到正确的对象,它就只能"冤死"了。如果细胞里面的蛋白质分子太多(严格来说是浓度太高,为了简化,先假设细胞体积固定吧),导致每个蛋白质都是冤死的命,那细胞也就活不下去了。因此细胞里面的分子总数不能超过某个值,以保证"冤死"的蛋白质不能太多。[8]里面估计,即使经过长年的进化, 酵母的细胞质和线粒体里面还是有20%的蛋白质分子是"冤死"在试错的过程中。细胞核中这个「冤死」的比例更高,有40%。 这够拥挤混乱了吧。(这段省略了很多detail,有兴趣的朋友去看原文吧,挺有意思的)

(c) 高表达的蛋白质倾向于在其三维结构的表面使用亲水性的氨基酸[9]: 蛋白质的相互作用一般是通过疏水性氨基酸进行的,因为细胞质里面都是水分子,两个蛋白质的疏水表面结合在一起会比较稳定。一个基因,如果其蛋白质表达量很高,显然它很容易成为其他蛋白"试错"的对象,所以它一定不能「滥交」。所以这些蛋白质表面通常都是亲水的氨基酸为主。低表达的蛋白没有这个限制,所以它们表面的疏水氨基酸会多一些。这也造成了高表达的蛋白质进化比较慢,因为它们的序列在进化上受到的限制比较多。如果细胞里面不是这么乱,这个现象也是不会出现的。

------------

参考文献:

[1]

http://www. ncbi.nlm.nih.gov/pubmed /12183631

[2]

http://www. ncbi.nlm.nih.gov/pubmed /15166317

[3]

http://www. ncbi.nlm.nih.gov/pubmed /24408435

[4]

http://www. ncbi.nlm.nih.gov/pubmed /24311680

[5]

Genetic code translation displays a linear trade-off between efficiency and accuracy of tRNA selection

[6]

http://www. ncbi.nlm.nih.gov/pmc/ar ticles/PMC2924539/

[7]

http://www. ncbi.nlm.nih.gov/pubmed /19596244

[8]

http://www. ncbi.nlm.nih.gov/pubmed /18682700

[9]

http://www. ncbi.nlm.nih.gov/pubmed /22416125