諾貝爾化學獎授予蛋白質設計演算法和 AI 結構預測，諾獎為何連續兩天頒給 AI？化學的盡頭是電腦嗎？

2024-10-09數位

誰能想到，昨天的故事又重演了。2024諾貝爾化學獎，頒給了DeepMind的Demis Hassabis和John M. Jumper和華盛頓大學的David Baker。就在2023年，Hassabis和Jumper獲得了「諾獎風向標」拉斯克大獎，今天果然靈驗了。

沒錯，萬物皆可AI，今年的諾獎是妥妥的AI年

根據委員會的官方公告，今年的諾貝爾化學獎聚焦蛋白質。

David Baker成功完成了幾乎不可能的驚人成就：構建全新種類的蛋白質。

而Demis Hassabis和John Jumper則在2020年開發了AlphaFold 2，解決了人類50年來的夢想：預測蛋白質的復雜結構。

我們現在能夠預測蛋白質結構並設計自己的蛋白質，這一突破為人類帶來了巨大的益處，開啟了無限可能。

沒想到，我們曾經的預言成真了。

補充閱讀：預定諾獎？DeepMind創始人斬獲「諾獎風向標」拉斯克獎，AlphaFold成「AI for Science」標桿

拉斯克大獎再次證明了自己「獲獎風向標」的地位。

Hassabis也度過了傳奇的一天：白天祝福好朋友得諾獎，晚上自己親自得諾獎。

紐約大學助理教授謝賽寧回憶稱，在DeepMind實習期間，Hassabis被問及公司目標時，便提到了獲得多個諾貝爾獎。

而如今，這個使命已經實作了一部份。

Demis Hassabis

Demis Hassabis 1976年出生於英國。

4歲起，他就是西洋棋神通，在13歲時達到了大師標準。

1997年，他以雙第一的成績畢業於劍橋大學，在倫敦大學學院完成了認知神經科學博士學位，又在MIT和哈佛攻讀博士後。

2010年，他和Shane Legg共同創辦DeepMind，擔任CEO。

2023年，DeepMind和谷歌大腦合並後，Hassabis擔任谷歌DeepMind團隊CEO。

關於DeepMind的誕生還有一段傳奇故事：作為14歲以下世界上排名第二的象棋選手，Hassabis在一次聚會上成功征服了Peter Thiel，獲得了225萬美元風投，成立了DeepMind。

補充閱讀：OpenAI工程師曝出開發ChatGPT只用8天！長文揭秘谷歌DeepMind等矽谷頂流如何誕生

John M. Jumper

John Jumper是DeepMind的美國高級研究科學家。

2017年，他在芝加哥大學獲得博士學位。

作為一作，他和同事共同建立了AlphaFold。

2021年，他被Nature列為年度榜單十大「重要人物」之一。

David Baker

David Baker 1962年出生於華盛頓州西雅圖。

1984年獲得哈佛學士學位，1989年獲得UC柏克萊生物化學博士學位。

他是蛋白質設計領域的「鼻祖級」人物，設計出了比AlphaFold更早的蛋白質結構設計演算法RoseTTAFold，時間上比DeepMind更早。

作為美國國家科學院院士、華盛頓大學蛋白質設計研究所所長，他聯合創辦了十幾家生物技術公司，並入選【時代】 2024年首屆100名最具影響力的健康人物名單。

他們透過計算和AI揭示了蛋白質的秘密

支撐生命體各種活動的，是體內旺盛且多樣的化學反應，而蛋白質發揮了關鍵作用。

蛋白質通常由20種胺基酸構成，理論上，這些胺基酸可以以無限多種方式組合。以儲存在DNA中的資訊作為藍圖，這些胺基酸在我們的細胞中被連線在一起形成長鏈。

接下來，蛋白質的奇妙之處就體現出來了：胺基酸鏈會扭曲並折疊成一個獨特的，有時甚至是獨一無二的三維結構，正是這種結構賦予了蛋白質的生物功能。

蛋白質可由十幾個到幾千個胺基酸組成，胺基酸鏈會折疊成特定的三維結構，而這種結構決定了蛋白質的功能

有些蛋白質成為生命體的基本單元，可以構建肌肉、角或羽毛，而其他的則可能成為激素或抗體。

其中許多蛋白質會形成酶，以驚人的精確度驅動生命的各種化學反應。位於細胞表面的蛋白質同樣重要，它們充當細胞與其周圍環境之間的訊號傳遞通道。

蛋白質的首批影像

自19世紀以來，化學家們就知道蛋白質對生命過程至關重要，但直到20世紀50年代，化學工具才足夠精確，研究人員才能開始更詳細地探索蛋白質。

劍橋研究人員John Kendrew和Max Perutz在50年代末取得了突破性發現，他們成功使用一種叫做X射線晶體學（X-ray crystallography）的方法首次呈現出蛋白質的三維模型。

因為這一發現，他們於1962年獲得了諾貝爾化學獎。

此後，研究人員主要使用X射線晶體成像技術，加上付出了大量努力，成功繪制出約20萬種不同蛋白質的影像，才為今年的諾貝爾化學獎奠定了基礎。

蛋白質折疊之謎：一個50年的挑戰

美國科學家Christian Anfinsen做出了另一項早期重要發現。

透過各種化學技巧，他成功地使一個現有蛋白質展開，然後再次折疊起來。有趣的是，蛋白質每次都呈現出完全相同的形狀。

1961年，他得出結論，蛋白質的三維結構完全由胺基酸序列決定，這項發現使他在1972年獲得了諾貝爾化學獎。

然而，Anfinsen的邏輯中包含一個悖論，另一位美國科學家Cyrus Levinthal在1969年指出了這一點。

Levinthal計算出，即使一個蛋白質只由100個胺基酸組成，理論上該蛋白質也可以呈現出至少10^47種不同的三維結構。

如果胺基酸鏈是隨機折疊的，那麽找到正確的蛋白質結構所需的時間將比宇宙的年齡還要長。然而在細胞中，這個過程只需要幾毫秒。那麽，胺基酸鏈究竟是如何折疊的？

Anfinsen的發現和Levinthal的質疑共同指向了一個事實：胺基酸折疊是一個預定的過程。更重要的是，關於蛋白質如何折疊的所有資訊都必須存在於胺基酸序列中。

生物化學領域新聖杯

上述見解導致了另一個決定性的認識——如果化學家得知了蛋白質的胺基酸序列，他們就應該能夠預測蛋白質的三維結構。

這是一個令人興奮的想法。如果成功，他們將不再需要使用復雜的X射線晶體學技術，並且可以大大節省時間；此外，還能夠為所有X射線晶體學不適用的蛋白質生成結構。

這些邏輯和結論引出了生物化學領域的新聖杯：預測問題。

為了促進該領域的快速發展，1994年研究人員啟動了一個名為「蛋白質結構預測關鍵評估」（CASP）的計畫，之後發展成為一項競賽，每兩年舉辦一次。

在CASP競賽中，來自世界各地的研究人員都可以拿到剛剛一批蛋白質的胺基酸序列。這些蛋白質的結構剛剛被測定出來，但對參賽者嚴格保密。他們需要根據已知的胺基酸序列來預測蛋白質結構。

CASP吸引了許多研究人員，但事實證明，蛋白質結構預測是相當困難的，多年來進展十分緩慢，預測結構和真實結構之間的異質性幾乎沒有任何改善。

直到2018年，突破才終於出現，一位集西洋棋大師、神經科學專家和人工智慧先驅於一身的人物進入了這個領域，為這個長期存在的難題帶來了全新的視角。

這個人，就是DeepMind聯合創始人Demis Hassabis。

AlphaGo大師挑戰蛋白質奧林匹克

Demis Hassabis無愧於當今AI深度學習的一大元老了。

他從4歲開始下西洋棋，13歲就達到了大師水平。在青少年時期，他便開始了程式設計師和遊戲開發者的職業生涯。

隨後，Hassabis開始探索AI，並涉足神經科學，做出了幾項革命性的發現。

他堅定地認為，人工智慧神經網路與人腦密不可分。因此，他決定利用自己所學的大腦知識，來開發AI神經網路。

2010年，Hassabis與兒時的好友Mustafa Suleyman、以及研究同僚Shane Legg共同在英國創立了DeepMind。

當時，他們創造了一個以類人方式學習玩棋盤遊戲AI神經網路，一舉成名。

這個神經網路可以接入一個外部的記憶體，就像一個傳統的圖靈機一樣，使得一台電腦可以模擬人類的短期記憶。

2014年，DeepMind被谷歌正式收購。

就在同年，Hassabis帶領團隊拿下了被許多人視為AI領域的聖杯。

他們開發出的AlphaGo演算法擊敗了世界圍棋冠軍。最為人熟知的是，2016年AlphaGo在與著名棋手李世石交手中，拔得頭籌。

隨之，前進演化版的AlphaGo再次戰勝了人類選手。

然而，對Hassabis來說，圍棋並不是終極目標，而是開發出更好的AI的手段。

在這場勝利之後，他們準備去迎接對人類更為重要的挑戰——

因此，在2018年，Hassabis和團隊報名參加了第十三屆蛋白質結構預測關鍵評估（CASP）競賽。

Hassabis的AI模型意外獲勝

過去幾年裏，CASP參賽的研究者在蛋白結構預測上，最多能實作40%的準確率。

Hassabis團隊拿著AlphaFold去參賽後，竟達到了60%準確率。

因此，在CASP競賽首次亮相的AlphaFold，拿下了2018年的冠軍。

初代AlphaFold為43個建模領域中的24個建立了高精度結構。這一結果，足以讓許多人為之震驚。

但對於他們來說，AlphaFold的潛力還遠遠沒有被開發。

若要真正取得成功，蛋白質預測結構必須達到90%準確率。

由此，Hassabis和團隊一起繼續埋頭深耕。

但是，無論他們如何努力，都無法突破技術瓶頸。

彼時的團隊成員，早已疲憊不堪。

驚喜的是，一位剛剛入職的員工John Jumper提出了對AlphaFold改進的突破性想法。

John Jumper：迎接生物化學的「重大挑戰」

作為AlphaFold的第一作者，DeepMind的高級研究科學家John Jumper曾在2021年被評為Nature年度十大人物。

曾經，對宇宙的著迷促使他開始學習物理學和數學。

但2008年，當他開始在一家利用超算模擬蛋白質及其動力學的公司工作時，開始意識到物理學知識可以幫助解決醫學問題。

2011年，攻讀理論物理學博士學位時，為了節省算力，他開始開發更簡單、巧妙的方法，來模擬蛋白質動力學。

2017年，他完成了博士學位，聽說谷歌DeepMind在秘密開發預測蛋白質的技術後，他發送了求職申請。

因為在蛋白質模擬方面的經驗，他對如何改進AlphaFold有著創新性的想法，所以在團隊遇到瓶頸後，他獲得了晉升。

隨後，他和Hassabis共同領導了開發AlphaFold 2的工作。

革新後的AI模型取得驚人結果

新版本的AlphaFold2，融入了Jumper對蛋白質的深入認知。

團隊還開始使用Transformer，因而比以前更靈活地在海量數據中找到模式，有效地確定為了特定目標應該關註什麽。

訓練AlphaFold 2時，他們用了所有已知蛋白質結構和胺基酸序列資料庫中的大量資訊，而AlphaFold 2在第十四屆CASP競賽中表現優異。

當CASP的組織者在2020年評估結果時，他們意識到：生物化學50年來的挑戰已經結束。

在大多數情況下，AlphaFold2的表現幾乎與X射線晶體學一樣好，這實在令人驚嘆。

AlphaFold2的工作原理

一本關於細胞的教科書改變了David Baker的人生軌跡

David Baker最初進入哈佛大學時，選擇了哲學和社會科學。

然而，在一門前進演化生物學課程中，他偶然接觸到了經典教科書【Molecular Biology of the Cell】的第一版。正是

這本書，徹底改變了他的人生方向。

自此，他開始探索細胞生物學，最終對蛋白質結構產生了濃厚興趣。

1993年，Baker進入華盛頓大學擔任研究組長，開始直面生物化學領域的這個「重大挑戰」。

透過一系列巧妙的實驗，他開始探索蛋白質如何折疊。90年代末，他試著開發一款能預測蛋白質結構的軟體，由此Rosetta誕生。

在1998年，Bake使用Rosetta首次參加CASP競賽，表現異常出色。

這也啟發了他的創新性想法：反向使用這個軟體。

如果能輸入所需的蛋白質結構，獲得胺基酸序列的建議，就能創造全新的蛋白質，而非僅僅將胺基酸序列輸入Rosetta，得到蛋白質結構。

Baker：從頭設計蛋白質的先驅

20世紀90年代末，蛋白質設計領域開始蓬勃發展。

在許多情況下，研究人員對現有蛋白質進行定向改造，使它們能夠執行新的功能，比如降解環境汙染物或在化學制造業中充當催化劑。

然而，天然蛋白質的功能範圍畢竟是有限的。為了突破這一局限性，增加蛋白質的潛力，Baker的研究小組提出了一個大膽的想法：從頭設計全新的蛋白質。

這種想法從何而來？Baker曾經有一個形象的比喻：

「如果你想造一架飛機，你不會從改造一只鳥開始；相反，你會深入理解空氣動力學的基本原理，然後基於這些原理構建全新的飛行器。」

Baker的這種從零開始的蛋白質設計方法，開創了蛋白質工程領域的新紀元，為未來的生物技術和醫學套用提供了無限可能。

獨特蛋白質的誕生：從頭設計的突破

構建全新蛋白質，被稱為「從頭設計」（de novo design）。

Baker團隊首先繪制了一種全新結構的蛋白質，然後利用名為Rosetta的軟體計算出能夠產生所需蛋白質的胺基酸序列。

Rosetta先搜尋資料庫中所有已知的蛋白質結構，尋找與目標結構相似的短蛋白質片段；隨後，軟體利用蛋白質能量圖的基本知識，最佳化這些片段，並提出了最終的胺基酸序列。

為了驗證軟體的效果，Baker的研究小組將設計的胺基酸序列對應的基因引入到細菌中，使其產生目標蛋白質。隨後，他們使用X射線晶體學技術確定了蛋白質的實際結構。

結果令人振奮：Rosetta確實成功構建了預期的蛋白質。這個觀察到的名為Top7的蛋白質結構幾乎完全符合他們的設計，標誌著蛋白質工程領域的重大突破。

Top7——第一個與所有已知現有蛋白質完全不同的蛋白質

Baker實驗室的驚人創造

對於蛋白質設計領域的研究人員來說，Top7的出現無疑是一個裏程碑。

此前，從頭設計蛋白質的嘗試僅限於模仿自然界已存在的結構。而Top7的獨特結構在自然界中前所未見。

更令人驚嘆的是，它由93個胺基酸組成，比之前使用從頭設計方法生產的任何蛋白質都要大得多，這相當於在分子尺度上構建了一個微型的「蛋白質大廈」。

Baker於2003年發表了這一開創性發現，並慷慨地公開了Rosetta的原始碼，這一舉動極大地推動了全球研究社群對該軟體的持續開發和創新套用，為蛋白質設計領域註入了新的活力。

隨著這些突破性成果的湧現，2024年諾貝爾化學獎的輪廓已經初現。

曾經需要數年的工作現在只需幾分鐘

當Demis Hassabis和John Jumper確認AI蛋白質結構預測工具AlphaFold2真的有效時，便開始了所有人類蛋白質結構的計算。

隨後，他們預測了研究人員在探索地球生物多樣性過程中，發現的幾乎所有2億種蛋白質的結構。

不僅如此，谷歌DeepMind還公開了AlphaFold2的程式碼，任何人都可以存取。

如今，這個AI模型已成為研究人員的寶貴資源。截至2024年10月，已有來自190個國家的超過200萬名使用者使用了AlphaFold2。

以前，獲得一個蛋白質結構通常需要數年時間，而且並不總是能成功。現在只需幾分鐘就能完成。

雖然這個AI模型並非完美，但它能估計所產生結構的正確性，因此研究人員能夠了解預測結果的可靠程度。

利用AlphaFold2預測的蛋白質結構

在2020年CASP競賽之後，David Baker意識到了基於Transformer的AI模型的潛力。

隨後，他便將其添加到Rosetta軟體中，從而促進了蛋白質設計的發展。

近年來，一個又一個令人驚嘆的人工設計蛋白質從Baker的實驗室湧現。

利用Rosetta軟體設計的人工蛋白質

AI的影響力，已經滲透進了諾貝爾獎的各個領域，不知接下來是否還會有驚喜。