為什麽各式各樣的蛋白質在細胞裏不會擁擠打亂？

2015-01-07科學

實際上是很亂很擁擠的。只是在自然選擇（前進演化）的作用下，多數蛋白有了特殊的動力學/熱力學性質，使它們剛好可以做完它該做的事情，「順便」使你覺得他們沒有亂跑。

其實我覺得這是個很有意思的問題。如我的答案和其他答案指出的那樣，細胞實際上已經做了很多最佳化的工作，但結果還是很亂——因為細胞已經活得足夠好了，進一步最佳化的前進演化/能量/物質代價太大。我的回答寫了一大通，重點其實是： 這個問題的原假設（null hypothesis）應該是"會擁擠打亂" 。換句話說，你在細胞裏面隨便抽一個蛋白質，你就應該假設它是到處亂跑的，除非你有否定這個假設的證據。

以下舉三個具體例子，說明細胞裏面有多亂。需要指出的是，我稍微擴充了一下題主的問題。因為亂不亂不僅是蛋白質的問題，所有其它生物大分子也面臨這個問題，例如核酸。

-------------------------------------------
1.基因表現 (gene expression)

這裏談的表達特指轉錄，即RNA合成酶(真核細胞裏是Pol II)以DNA為樣版合成mRNA的過程。

基因的表達說到底就是RNA合成酶」隨機「結合到（開啟的）DNA分子上面，開始合成RNA的過程。不難想象，在分子層面，這其實是一個很「亂「的過程。這種隨機性有兩個明顯的表現：

(a) 表達噪音 （gene expression noise）：指 在遺傳/環境/細胞狀態都完全一樣的兩個細胞裏，同一個基因的表達量不一樣 。在全基因組水平對表達噪音進行測量，最早是在大腸桿菌[1]裏，真核生物最早則在酵母[2]。（如果有人要問你怎麽保證"遺傳/環境/細胞狀態都完全一樣"，請看這兩篇文章。如果你要問怎麽確定不是測量造成的隨機誤差，也可以看文章，或者看本回答下面關於「原理」的部份。）這裏面的邏輯就是， 如果蛋白質（Pol II）的運動真這麽精確，何來的表達噪音呢？

實際上，細胞對單個基因的表達量並沒有很精確的要求。比方說同樣是G1期的肝細胞，只看同一個基因，在不同細胞裏基因表現量差個2倍完全是沒什麽大不了的事。2倍差異都受不了的話，那些細胞早就全死了。但是，請不要把"單個細胞中的表達量"和"一群細胞的平均表達量"等同起來，「一群細胞的平均表達量"差2倍可以是很大的問題。

(b) 等位基因特異的基因表現 （allele-specific expression）：指 在雙倍體的細胞中，兩個等位基因中"隨機的「一個表達很強，而另一個很弱甚至完全不表達 。而且這種差異不是表觀遺傳學差異造成的，而是隨機的。也就是說同一個細胞，兩對等位基因中常常是隨機挑一個表達，並且可能這一秒是母本的等位基因表現，下一秒就成了父本表達了。關於這個比較新的證據出現在小鼠細胞裏[3]。同樣地，這種行為一點也不精確，「亂來」得很。

原理：

基因表現那麽「亂」的根源/機制是什麽。目前所知的原因，可以簡單的概括為：因為 基因的轉錄是「爆發式」（bursty）的 。轉錄因子隨機碰到一個啟動子，就停在那，並募集RNA合成酶，從而開始基因表現。但是它會在啟動子上面停多久(burst duration)，停的這段時間能募集到多少"隨機"碰上來的RNA合成酶（burst size），掉下來之後隔多久還會再有一個轉錄因子結合上來（silence duration），都在很大程度上是隨機的。當然這不是完全隨機，它們會受DNA狀態的影響（例如被核小體完全纏繞起來的DNA是基本不會被轉錄的），另外現在已經發現啟動子裏面的某些元件可以同時降低burst duration和burst size，從而降低表達噪音（顯然，噪音還受mRNA降解速率影響，與此題無關，就不談了）。對此感興趣的知友可以從[4]開始看看。顯然，「爆發式」的轉錄也很不精確。精確的應該是給定遺傳背景/細胞狀態/環境，你就能準確預測某個基因的在單個細胞裏的表達量。

--------------------------------------------------

2.mRNA轉譯成蛋白質 (translation)

轉譯的過程主要包括起始（initiation），延伸（elongation）和終止（termination）三步，下面主要談延伸。

mRNA轉譯的過程其實就是把一個一個胺基酸根據mRNA上的密碼子接起來的過程。假設根據mRNA，你下一步要往肽鏈上接一個白胺酸，核糖體就晾在mRNA上等著tRNA跑過來（具體來說是tRNA跑到核糖體的 A-site）。大家知道細胞裏面有很多不同的tRNA， 如果細胞裏面生物大分子的運動夠精確，跟mRNA上面的密碼子對應的那個tRNA就應該乖乖地跑過來，完成它的使命 。可 實際情況是，任何tRNA都可以跑過來，嵌到核糖體的A-site上面 。但是，跟密碼子不匹配的tRNA會呆在上面很久，它攜帶的胺基酸都不會被利用（不會被接到肽鏈上），直到它「識趣」地離開。而跟密碼子匹配的tRNA則會在到位之後的很短時間內，就被利用上——這其實也是個隨機的過程，只是匹配的tRNA的反應速率常數，比非匹配tRNA的反應速率常數大很多（大概是1000倍的差異[5]），導致轉譯具有相當高的準確率。（實際上還有一步kinetic proof-reading才能達到足夠高的準確率，也是跟題目無關。感興趣可以去看Uri Alon那本系統生物學導論。）

盡管這樣， 轉譯還是經常會出錯，足見「不識趣」的非匹配tRNA亂闖入核糖體是多麽經常發生的事 。目前普遍接受的轉譯錯誤率大約是每轉譯2000個胺基酸，就會有1個出錯[6]。酵母平均每個基因415個胺基酸，按此推算，酵母有20%的蛋白包含至少1個錯誤的胺基酸——這夠亂的了吧？

---------------------------------------------------------------------

3.蛋白質的相互作用 (protein-protein interaction)

一般而言， 蛋白質都有它特定的結合物件，結合之後才能行使其功能 。跟上面的轉譯的例子類別似，有生理功能的蛋白質復合物的穩定性較高，能穩定存在比較長時間。而沒有生理功能的蛋白質復合物（mis-interaction）則穩定性較差，很快就分離了。所以看上去好像蛋白都能正確地找到「物件」。但實際上， 這個"找物件"是個漫長的"試錯"過程 ——可能蛋白質碰上100個別的分子，都碰不上自己的"物件"。如果不是自然選擇/前進演化把基因組雕琢成現在這個樣子，這個「試錯」的過程恐怕是會變得太費時費事，而導致細胞無法存活了。關於細胞內蛋白質是如何亂成一鍋粥以至於經常碰上錯的物件，我所知的有以下的證據：

(a) "濫交"的蛋白過表達的時候，細胞會出問題 [7]：所謂"濫交"就是這個蛋白與任意蛋白結合的穩定性，都跟它與特定物件結合時的穩定性差不多。這種蛋白如果表達量異常增高，就會隨機結合住很多其他"無辜"的蛋白質分子，導致它們不能幹正事，從而引起細胞的各種"問題"（[7]裏面談的"問題"是果蠅/線蟲/老鼠的一些異常性狀和人的腫瘤）。如果蛋白質不"亂交"，都乖乖地只跟"物件"結合，是不會有這種事的。

(b) 蛋白質組總量的存在上限，此上限由 _有多少蛋白會被浪費在"試錯"的過程中_ 決定 [8]：簡單的來說，如果一個蛋白質分子只能存活1小時，然後它每一秒都碰到一個錯的物件，"試錯"3600個之後，如果它都沒找到正確的物件，它就只能"冤死"了。如果細胞裏面的蛋白質分子太多（嚴格來說是濃度太高，為了簡化，先假設細胞體積固定吧），導致每個蛋白質都是冤死的命，那細胞也就活不下去了。因此細胞裏面的分子總數不能超過某個值，以保證"冤死"的蛋白質不能太多。[8]裏面估計，即使經過長年的前進演化， 酵母的細胞質和線粒體裏面還是有20%的蛋白質分子是"冤死"在試錯的過程中。細胞核中這個「冤死」的比例更高，有40%。 這夠擁擠混亂了吧。（這段省略了很多detail，有興趣的朋友去看原文吧，挺有意思的）

(c) 高表達的蛋白質傾向於在其三維結構的表面使用親水性的胺基酸[9]： 蛋白質的相互作用一般是透過疏水性胺基酸進行的，因為細胞質裏面都是水分子，兩個蛋白質的疏水表面結合在一起會比較穩定。一個基因，如果其蛋白質表達量很高，顯然它很容易成為其他蛋白"試錯"的物件，所以它一定不能「濫交」。所以這些蛋白質表面通常都是親水的胺基酸為主。低表達的蛋白沒有這個限制，所以它們表面的疏水胺基酸會多一些。這也造成了高表達的蛋白質前進演化比較慢，因為它們的序列在前進演化上受到的限制比較多。如果細胞裏面不是這麽亂，這個現象也是不會出現的。

------------

參考文獻:

[1]

http://www. ncbi.nlm.nih.gov/pubmed /12183631

[2]

http://www. ncbi.nlm.nih.gov/pubmed /15166317

[3]

http://www. ncbi.nlm.nih.gov/pubmed /24408435

[4]

http://www. ncbi.nlm.nih.gov/pubmed /24311680

[5]

Genetic code translation displays a linear trade-off between efficiency and accuracy of tRNA selection