實際上是很亂很擁擠的。只是在自然選擇(前進演化)的作用下,多數蛋白有了特殊的動力學/熱力學性質,使它們剛好可以做完它該做的事情,「順便」使你覺得他們沒有亂跑。
其實我覺得這是個很有意思的問題。如我的答案和其他答案指出的那樣,細胞實際上已經做了很多最佳化的工作,但結果還是很亂——因為細胞已經活得足夠好了,進一步最佳化的前進演化/能量/物質代價太大。我的回答寫了一大通,重點其實是: 這個問題的原假設(null hypothesis)應該是"會擁擠打亂" 。換句話說,你在細胞裏面隨便抽一個蛋白質,你就應該假設它是到處亂跑的,除非你有否定這個假設的證據。
以下舉三個具體例子,說明細胞裏面有多亂。需要指出的是,我稍微擴充了一下題主的問題。因為亂不亂不僅是蛋白質的問題,所有其它生物大分子也面臨這個問題,例如核酸。
-------------------------------------------
1.基因表現
(gene expression)
這裏談的表達特指轉錄,即RNA合成酶(真核細胞裏是Pol II)以DNA為樣版合成mRNA的過程。
基因的表達說到底就是RNA合成酶」隨機「結合到(開啟的)DNA分子上面,開始合成RNA的過程。不難想象,在分子層面,這其實是一個很「亂「的過程。這種隨機性有兩個明顯的表現:
(a) 表達噪音 (gene expression noise):指 在遺傳/環境/細胞狀態都完全一樣的兩個細胞裏,同一個基因的表達量不一樣 。在全基因組水平對表達噪音進行測量,最早是在大腸桿菌[1]裏,真核生物最早則在酵母[2]。(如果有人要問你怎麽保證"遺傳/環境/細胞狀態都完全一樣",請看這兩篇文章。如果你要問怎麽確定不是測量造成的隨機誤差,也可以看文章,或者看本回答下面關於「原理」的部份。)這裏面的邏輯就是, 如果蛋白質(Pol II)的運動真這麽精確,何來的表達噪音呢?
實際上,細胞對單個基因的表達量並沒有很精確的要求。比方說同樣是G1期的肝細胞,只看同一個基因,在不同細胞裏基因表現量差個2倍完全是沒什麽大不了的事。2倍差異都受不了的話,那些細胞早就全死了。但是,請不要把"單個細胞中的表達量"和"一群細胞的平均表達量"等同起來,「一群細胞的平均表達量"差2倍可以是很大的問題。
(b) 等位基因特異的基因表現 (allele-specific expression):指 在雙倍體的細胞中,兩個等位基因中"隨機的「一個表達很強,而另一個很弱甚至完全不表達 。而且這種差異不是表觀遺傳學差異造成的,而是隨機的。也就是說同一個細胞,兩對等位基因中常常是隨機挑一個表達,並且可能這一秒是母本的等位基因表現,下一秒就成了父本表達了。關於這個比較新的證據出現在小鼠細胞裏[3]。同樣地,這種行為一點也不精確,「亂來」得很。
原理 :
基因表現那麽「亂」的根源/機制是什麽。目前所知的原因,可以簡單的概括為:因為 基因的轉錄是「爆發式」(bursty)的 。轉錄因子隨機碰到一個啟動子,就停在那,並募集RNA合成酶,從而開始基因表現。但是它會在啟動子上面停多久(burst duration),停的這段時間能募集到多少"隨機"碰上來的RNA合成酶(burst size),掉下來之後隔多久還會再有一個轉錄因子結合上來(silence duration),都在很大程度上是隨機的。當然這不是完全隨機,它們會受DNA狀態的影響(例如被核小體完全纏繞起來的DNA是基本不會被轉錄的),另外現在已經發現啟動子裏面的某些元件可以同時降低burst duration和burst size,從而降低表達噪音(顯然,噪音還受mRNA降解速率影響,與此題無關,就不談了)。對此感興趣的知友可以從[4]開始看看。顯然,「爆發式」的轉錄也很不精確。精確的應該是給定遺傳背景/細胞狀態/環境,你就能準確預測某個基因的在單個細胞裏的表達量。
--------------------------------------------------
2.mRNA轉譯成蛋白質 (translation)
轉譯的過程主要包括起始(initiation),延伸(elongation)和終止(termination)三步,下面主要談延伸。
mRNA轉譯的過程其實就是把一個一個胺基酸根據mRNA上的密碼子接起來的過程。假設根據mRNA,你下一步要往肽鏈上接一個白胺酸,核糖體就晾在mRNA上等著tRNA跑過來(具體來說是tRNA跑到核糖體的 A-site)。大家知道細胞裏面有很多不同的tRNA, 如果細胞裏面生物大分子的運動夠精確,跟mRNA上面的密碼子對應的那個tRNA就應該乖乖地跑過來,完成它的使命 。可 實際情況是,任何tRNA都可以跑過來,嵌到核糖體的A-site上面 。但是,跟密碼子不匹配的tRNA會呆在上面很久,它攜帶的胺基酸都不會被利用(不會被接到肽鏈上),直到它「識趣」地離開。而跟密碼子匹配的tRNA則會在到位之後的很短時間內,就被利用上——這其實也是個隨機的過程,只是匹配的tRNA的反應速率常數,比非匹配tRNA的反應速率常數大很多(大概是1000倍的差異[5]),導致轉譯具有相當高的準確率。(實際上還有一步kinetic proof-reading才能達到足夠高的準確率,也是跟題目無關。感興趣可以去看Uri Alon那本系統生物學導論。)
盡管這樣, 轉譯還是經常會出錯,足見「不識趣」的非匹配tRNA亂闖入核糖體是多麽經常發生的事 。目前普遍接受的轉譯錯誤率大約是每轉譯2000個胺基酸,就會有1個出錯[6]。酵母平均每個基因415個胺基酸,按此推算,酵母有20%的蛋白包含至少1個錯誤的胺基酸——這夠亂的了吧?
---------------------------------------------------------------------
3.蛋白質的相互作用 (protein-protein interaction)
一般而言, 蛋白質都有它特定的結合物件,結合之後才能行使其功能 。跟上面的轉譯的例子類別似,有生理功能的蛋白質復合物的穩定性較高,能穩定存在比較長時間。而沒有生理功能的蛋白質復合物(mis-interaction)則穩定性較差,很快就分離了。所以看上去好像蛋白都能正確地找到「物件」。但實際上, 這個"找物件"是個漫長的"試錯"過程 ——可能蛋白質碰上100個別的分子,都碰不上自己的"物件"。如果不是自然選擇/前進演化把基因組雕琢成現在這個樣子,這個「試錯」的過程恐怕是會變得太費時費事,而導致細胞無法存活了。關於細胞內蛋白質是如何亂成一鍋粥以至於經常碰上錯的物件,我所知的有以下的證據:
(a) "濫交"的蛋白過表達的時候,細胞會出問題 [7]:所謂"濫交"就是這個蛋白與任意蛋白結合的穩定性,都跟它與特定物件結合時的穩定性差不多。這種蛋白如果表達量異常增高,就會隨機結合住很多其他"無辜"的蛋白質分子,導致它們不能幹正事,從而引起細胞的各種"問題"([7]裏面談的"問題"是果蠅/線蟲/老鼠的一些異常性狀和人的腫瘤)。如果蛋白質不"亂交",都乖乖地只跟"物件"結合,是不會有這種事的。
(b) 蛋白質組總量的存在上限,此上限由 _有多少蛋白會被浪費在"試錯"的過程中_ 決定 [8]:簡單的來說,如果一個蛋白質分子只能存活1小時,然後它每一秒都碰到一個錯的物件,"試錯"3600個之後,如果它都沒找到正確的物件,它就只能"冤死"了。如果細胞裏面的蛋白質分子太多(嚴格來說是濃度太高,為了簡化,先假設細胞體積固定吧),導致每個蛋白質都是冤死的命,那細胞也就活不下去了。因此細胞裏面的分子總數不能超過某個值,以保證"冤死"的蛋白質不能太多。[8]裏面估計,即使經過長年的前進演化, 酵母的細胞質和線粒體裏面還是有20%的蛋白質分子是"冤死"在試錯的過程中。細胞核中這個「冤死」的比例更高,有40%。 這夠擁擠混亂了吧。(這段省略了很多detail,有興趣的朋友去看原文吧,挺有意思的)
(c) 高表達的蛋白質傾向於在其三維結構的表面使用親水性的胺基酸[9]: 蛋白質的相互作用一般是透過疏水性胺基酸進行的,因為細胞質裏面都是水分子,兩個蛋白質的疏水表面結合在一起會比較穩定。一個基因,如果其蛋白質表達量很高,顯然它很容易成為其他蛋白"試錯"的物件,所以它一定不能「濫交」。所以這些蛋白質表面通常都是親水的胺基酸為主。低表達的蛋白沒有這個限制,所以它們表面的疏水胺基酸會多一些。這也造成了高表達的蛋白質前進演化比較慢,因為它們的序列在前進演化上受到的限制比較多。如果細胞裏面不是這麽亂,這個現象也是不會出現的。
------------
參考文獻:
[1]
http://www. ncbi.nlm.nih.gov/pubmed /12183631[2]
http://www. ncbi.nlm.nih.gov/pubmed /15166317[3]
http://www. ncbi.nlm.nih.gov/pubmed /24408435[4]
http://www. ncbi.nlm.nih.gov/pubmed /24311680[5]
Genetic code translation displays a linear trade-off between efficiency and accuracy of tRNA selection[6]
http://www. ncbi.nlm.nih.gov/pmc/ar ticles/PMC2924539/[7]
http://www. ncbi.nlm.nih.gov/pubmed /19596244[8]
http://www. ncbi.nlm.nih.gov/pubmed /18682700[9]
http://www. ncbi.nlm.nih.gov/pubmed /22416125