當前位置: 華文問答 > 健康

機器學習/人工智能能否在生物制藥/生命科學界大展身手?

2016-03-10健康

近年來,人工智能的深入發展助力生物醫學研究取得了重大突破。「AI+生物醫藥」成為了學術界和產業界都非常關註的熱門賽道。在後疫情時代, 「AI+生物醫藥」能否保持強勁的發展態勢,又將面臨哪些機遇與挑戰?在世界人工智能大會2022的上海生物計算論壇上,微軟傑出首席科學家、微軟研究院科學智能中心亞洲區負責人、微軟亞洲研究院副院長劉鐵巖與上海市生物醫藥促進中心副主任唐軍,華深智藥創始人兼CEO彭健展開了一場精彩的圓桌論壇。三位擁有交叉背景及行業視野的對話嘉賓分別從研究現狀、人才吸引、產業落地等多個角度對「AI+生物醫藥」進行了探討,並展望了該領域未來的發展藍圖,為觀眾帶來了一場賦有啟發的討論。

主持人: 藥物設計領域已經站在了新一輪爆發的起點,各種技術湧現,我們首先想請教一下幾位嘉賓,對於接下來領域內大的技術發展有什麽預測,是會呈現出一家獨大還是百花齊放的態勢?

彭健: 我們可以看到包括生物計算在內的許多新技術在最近三到五年已經湧現出來了,我個人判斷,未來一定是百花齊放的形式。

生物醫藥行業和傳統互聯網以及其他的產業還是有些區別的。生物醫藥行業是非常長的鏈條,制藥發展的各個環節,從早期靶點到後面的發現,甚至到臨床實驗,每一個環節都是在整個產業鏈中非常有價值的部份。不管是從AI還是計算,甚至是從實驗或其他的角度來講,都必定在這個產業鏈的每一個環節中有非常多不同的貢獻。因此, 我認為我們的行業在未來相當長的一段時間內,會呈現出百花齊放的情況。

劉鐵巖: 我非常同意彭健的說法。其實,藥物設計相關的研究本身就是一個非常廣譜且豐富的事情。從研究物件來講,我們有很豐富的藥物設計,比如小分子藥物、抗體藥、基因療法、PROTAC等,它們的原理與套用場景都有很大的差異;從制藥的流程來看,從前端的靶點發現、先導化合物的篩選最佳化,到後期ADMET的預測、甚至臨床效果的預測,各個環節都有各自獨特的技術挑戰。面對這樣非常豐富的研究場景,本來就應該是百花齊放的狀態。

但如果我們審視一下今天的AI制藥領域,就會發現事實上裏面還存在著一些問題。例如有一些紮堆的現象,卷到靶標蛋白的結構預測或者結合力預測(binding affinity prediction)這些問題上。之所以會出現紮堆的現象,其中一部份原因是這些領域已經有比較成熟的技術,比較容易獲取那些唾手可得的成果。大家沒有以一種長期主義的心態來思考如何構建自己的技術壁壘。剛才彭健提到我們微軟研究院今年成立了科學智能中心,我們這個中心的目的是 以更加長遠、更加基礎的視角來看待人工智能在整個科學領域的套用, 其中就包括AI制藥,希望能夠借由我們的努力引導大家以更長期的心態來看待這個領域的研究工作。

方向上應該百花齊放,不過下沈到技術層面,我們還是可以看到一些趨勢的。首先,AlphaFold 2 的成功讓人們體會到了深度學習、大數據、大模型、大計算所帶來的不同,而這種不同正是近年來人工智能領域發展的某種體現。比如,透過預訓練大規模的基礎模型來實作AI學習的規模效應,為豐富的下遊任務提供有力的支撐,例如像微軟投資的GPT-3等都是非常優秀的基礎模型。我們相信這種趨勢未來也會在生物醫藥領域進一步延展:比如,如何構建更適合小分子通用表示的基礎模型,包括它的骨幹結構設計以及預訓練的方法;如何有效地解決模型的泛化性和外推性,從而應對生物醫藥領域裏有效樣本不足和目標問題非常復雜這樣的一對矛盾。

其次,強化學習技術在藥物設計方面應該會有很大的發揮空間,因為藥物設計本質上就是一個搜尋問題,各種內容預測的深度學習模型扮演的就是價值函數的角色,而在這些價值函數的指導下,如何在巨大的分子空間中尋找到一個好的原子組合及其三維結構,是需要一些巧妙的策略做支撐的,蠻力搜尋是不可取的。

目前在深度學習和強化學習這兩個方面,人們還在大量使用著為傳統領域發明的人工智能工具,針對制藥領域進行的特異化設計還非常不足,所以我個人認為在生物醫藥領域人工智能要走得路還非常遠。而這就需要我們電腦科學家和生物專家、化學制藥的專家密切合作。做一個大膽的預測,我們有可能需要5-10年的時間才能真正形成比較穩定的技術路線,也可能再需要5-10年,我們才能夠對制藥行業產生本質的顛覆性的影響。

微軟傑出首席科學家、微軟研究院科學智能中心亞洲區負責人、微軟亞洲研究院副院長劉鐵巖

唐軍: 人工智能技術可以運用到整個藥物從研發、中試到生產的所有關鍵技術環節,如人的免疫原性實驗,在研發蛋白藥物、抗體藥物等過程中,作為臨床前毒理試驗的重要內容,必須完成。傳統的藥物開發過程是從分子水平到細胞水平,然後到動物實驗,再到人體實驗。我們不能等到了人體實驗才考慮免疫原性,以前的做法是把人的免疫系統透過轉基因技術放在小老鼠的模型上篩選藥物的免疫原性,但準確率和效率較低,尤其在大量候選藥物篩選的時候,工作量巨大,耗費的金錢成本也較多。自從有了AI技術模擬抗原免疫原性篩選系統以後,工作量減少了很多,這樣我們的一些判斷就可以提前到侯選藥物的篩選階段,這個工作非常有意義,對醫藥行業也有非常大的支持。因為一個創新藥物要開發出來往往需要10年的時間,還需要數億美元的經費。假如能在最前面的環節解決問題,那麽花費和時間都會有所節省。這給生物醫藥行業帶來了顛覆性的改變。另外,關於蛋白質結構的預測,我覺得也是非常有意義的。我們都知道胺基酸序列是肽或蛋白的一級結構,很快就能測出來的,但是它的二級/三級結構、空間結構、折疊卻很難檢測,或者目前的檢測精度不夠。假如利用了AI技術,那麽在蛋白藥物的設計和篩選方面會有很大的幫助。

上海市生物醫藥促進中心副主任唐軍

下面我從成果轉化和產業化的角度來談一下,AI和醫藥結合的產品是怎麽從技術發展到新產品上市的,這期間大概會經歷哪些比較難跨越的階段。首先,在實驗室裏發現一個技術,或者實驗室發明了一個新的檢測試劑或藥物,要轉化到工業化生產條件下進行生產制造,這就是一個難點。因為這裏面要考慮質素的控制、成本的控制,以及中式放大產業技術條件的篩選,但是實驗室裏的科學家對這些是沒有概念的,那麽就需要工業界的專家進行指導。其次,新藥從研發到上市最主要的一環就是需要大量的經費和時間投入,那麽長久的、持續的股權融資就非常重要。第三,在新產品註冊規劃方面也會比較困難。因為藥物和醫療器械的監管非常嚴格,細分領域的技術指導原則都非常細致,所以我們需要有藥物註冊專家,或者器械註冊專家幫助提前規劃。尤其是準備開發哪些種類新藥、診斷試劑、或者做疫苗,所以一開始就要規劃好。再者,最難的是人體實驗,人體實驗還需要臨床資源、GCP機構和醫生大量的配合。臨床實驗完成以後,上市銷售也比較困難,創新藥要努力開拓市場,仿制藥要想辦法搶占原研藥的市場,所以還需要銷售專家、醫保系統、定價系統和政府相關部門協調、合作,完成上市。

劉鐵巖: 唐主任剛才講得非常好,向我們闡述了從技術研發到成果落地一系列的環節,其中也提到了鴻溝的問題,對此,我想稍微做點補充,尤其是從AI的角度來說一說我看到的鴻溝是什麽樣子的。現在,很多從事AI制藥的人都在走一條「捷徑」,比如錨定已有的基準數據集或者一些公開的比賽(常見的如藥物-靶標相互作用、藥物-藥物相互作用等),然後在這些任務上進行模型調優,以期獲得SOTA結果。因為一旦有了這樣的結果就有機會發表論文、進行宣傳,甚至獲得資本的關註、實作研究的產業化。但是這樣的技術研發路徑是正確的嗎?是否存在問題呢?首先,我們註意到這些基準數據集很難反映藥物設計的全貌和豐富的場景,它們只覆蓋了其中的部份環節。所以 如何構建更加多樣化、更加可信的數據集,其實非常重要 。像蛋白質結構預測領域做得就很好,蛋白質結構一旦解析出來以後,大家都願意放到PDB這樣的公開數據庫裏。但是在醫藥領域,藥物研發過程中的數據多是藥廠私有的,是不拿出來公開的,這不利於學術界從事相關的研究工作。其次,如果AI從業者針對有限已知的數據集,面對單一的評價指標只是不斷調優,而不是思考模型在目標套用上是否存在著本質的設計缺陷,不去解決深層次的問題,那麽我們很難保證學到的AI模型可以在新藥研發領域有很好的表現。我們絕對不能天真地認為,只要手裏拿著AI的大錘到處敲一敲就可以顛覆制藥行業。想要實作AI+醫藥就需要跨領域的專家合作,也需要AI從業者不斷提高自己的修養,把相關領域知識消化吸收。我另外還有一個觀點想跟大家分享:如果我們站在AI的角度來看待藥物發現,其實藥物發現並不是典型的人工智能問題。為什麽這麽講呢?藥物發現的目標是所找到的最好的藥物要足夠有效,而不是要求整個藥物篩選流程裏所有的候選藥物在期望意義上都有效。這一點和我們經典的機器學習是非常不同的。另外,制藥問題對AI模型的分辨率要求非常高,要細致到能夠捕捉到關鍵蛋白的突變資訊,而不是像多數已有的AI模型那樣有很強的光滑性假設。最後,剛才唐主任也提到了不管我們前期做什麽樣的預研,最後都需要嚴苛的臨床實驗過程。目前AI制藥的研究主要集中在臨床之前(preclinical),尚未打通整個藥物研發的閉環。當然,一部份原因也是由於臨床階段數據更難獲得,問題更加復雜,更不可控,對已有的人工智能技術會造成非常大的挑戰。因此很多用計算方法或者人工智能找到的候選藥物,都折戟在了臨床的階段。

彭健: 非常感謝劉鐵巖老師和唐主任的分享!唐主任主要從產業的角度講述了技術到底是怎麽落地的,這裏面有許多的困難需要克服,要促成一個成功的技術轉化甚至落地,中間不僅僅需要AI和技術層面的提升,也包括政府和產業的聯動,才能使真正的技術從早期的研發到最終的成果落地持續貫穿。剛才劉鐵巖老師也給了我們很好的建議,特別是面向AI+醫藥領域的研究者和創業者,怎麽能夠更好地利用AI去解決一些真正的現實問題。

華深智藥創始人兼CEO彭健

我原來也是在學術界,去年回國創立了華深智藥公司,我可以從創業者的身份跟大家分享一下我這一年來的感受。像唐主任說的,我們真正要去做一家公司,想要落地AI技術,這不僅僅是學術界要做的事情。前面談到的免疫原性的例子,不管是做核酸藥,還是蛋白藥,它的流程都非常長,當我們把早期的工作做了以後,後面還有很多關於生產等各方面的評估。2012年以前基本上是以單抗為主,當時做抗體藥物的時候,大家其實不考慮這些因素,因為那時的技術還不夠發達,大家通常想的是只要能夠找到結合的就可以了,後面有什麽問題後面再去解決。如果大家去看2013年以後上市的藥物就會發現,它們和過去的抗體藥物有很大的不同——大家會把後面的生產、驗證、臨床逐漸早期化。這樣,很早的時候我們就能夠把分子找到,從而滿足一些我們想要的性質,制藥成功率就會大大提高。這一年我也看了許多的例子,也和很多的專家討論過,大家現在認為成功率是最為重要的,一旦前面早期的決策做錯了,後期的時間成本和資金成本都是不可估量的。當然,提高效率、提高精度是很重要的。但是很多時候我們需要從產業鏈條的角度思考這個問題,就是能夠把重要的資訊很早地註入在AI演算法裏,使得AI演算法在設計做預測的時候就能起到重要的作用。這一年我從產業界學到了很多,比如看問題更綜合。在學術界討論的問題有時候就只考慮成本、精度、計算速度等等,但後來我們逐漸意識到在藥物研發的過程中有非常多的參數要同時考慮。而且從做產業的角度而言也是一個很復雜的過程,包括資本的運作、政策的扶持等等。

唐軍: 像彭教授這樣的科學家,如果想來上海創業,目前是一個非常好的時機。上海關於產業高質素發展方面剛剛出台了一些新的政策。其中,對創新藥物、創新器械、國外註冊的藥物器械等每個環節,都有相應的政策支持。此外,上海還提出了「1+5+X」的產業園區新政策。「1」是張江核心區,「5」是臨港、奉賢、寶山、金山、閔行幾個大的生物醫藥基地;「X」指的是很多細分領域的園區,像浦江鎮的基因谷、張江細胞治療產業基地等。很多細分的產業園區我們都制定了相應的產業政策,包括土地規劃、資金支持、人才服務、子女教育等保障都做了相關的政策和規定。每個園區也都跟資本聯合,搞了產業支持資金。在這裏我也呼籲一下,如果一些科學家想創業,我想現在是最好的時機,政府也是大力支持的。特別是AI與生物醫藥的結合,對於生物醫藥我們專門做了關於數碼化轉型的細分支持政策。生物醫藥和AI實際上都是屬於比較前沿和比較尖端的交叉學科,都需要頂尖的人才,最後想請問兩位科學家,在交叉學科方面有沒有什麽經驗可以分享。

活動現場

劉鐵巖: 就像唐主任說的,AI和生物現在可能是整個學術界、產業界發展最快的領域,它們的結合還會涉及到物理、化學、數學等其他的支撐學科。跨學科的交流和融合從來都不是一件容易的事情,甚至不同學科詞匯的差異不亞於不同語言之間的差異。我想從兩方面討論一下跨界合作,或者是跨領域研發這件事。首先,我們要構建一支高效且多樣化的團隊。比如我們在微軟研究院組建科學智能團隊的時候,非常強調要招三類人:第一是頂級的人工智能科學家、第二是一流的自然科學家、第三是有豐富跨界合作經驗的人才作為粘合劑。這裏,我想著重強調一下頂級人工智能科學家和頂級自然科學家的重要性:沒有一流的自然科學家,我們很難提出真正的一流問題;沒有世界頂級的AI科學家,我們就沒有能力和魄力去顛覆性地創造新的人工智能演算法和工具,只靠拿來主義和魔改是沒有辦法構築真正的技術壁壘的。另外,如果兩個不同學科的團隊進行跨界合作時,那麽雙方都必須要有 敬畏之心 。AI科學家和自然科學家不是生產者與消費者的關系、不是運動員與裁判員的關系,而是隊友、合夥人,是一個團隊。大家要攜手共創,有充分的互信,而不是相互揣測、相互試探、甚至相互鄙視。這一點說起來容易做起來難,大家需要突破一定的固有思維模式的,要有成長型思維。在微軟,我們非常重視成長型思維,鼓勵不斷突破自己的知識局限,樂於學習新知識,勇於踏入新領域,不斷重新整理自己的知識瓶頸。未來AI制藥一定是跨界融合、蓬勃發展的領域,也希望在這個過程中,大家能夠不斷地做探索,透過求同存異讓不同背景的人能夠在一起共同把這個領域發展好。

彭健: 我最後從人才培養的角度來談一談。剛才劉鐵巖老師也說了,我們有很好的自然科學家和人工智能的專家,也需要位於交叉點的人才,但同時接受兩邊訓練的人才其實是比較稀缺的。他要能夠同時理解AI技術,同時又對自然科學,像藥物發現、生物學、化學有著非常深入的了解,這種人才非常少。之前我們各個高校的學科邊界設立得過於明顯,但很多世界頂級的學校都是鼓勵學生選修其他學科的專業。我想,要從本質上解決交叉學科人才的問題,在教育、人才培養方面也需要更多的創新。

主持人: 非常感謝三位嘉賓的分享,作為新興的科研領域,生物計算需要跨學科、跨行業、跨產業部門的溝通與合作。就像剛才三位嘉賓分享的那樣,這也代表了未來科技和產業發展的方向。