導讀
現代有機化學的大多數實驗都需要事先用文獻中的程式來制備反應物。將最常見的此類程式自動化可以為研究界節省大量的時間,同時也有利於眾包的最佳化。Rohrbach等人將100多個流行的協定轉譯成可在合成機器上執行的格式,然後他們對其中的一半進行了實驗驗證。作者還建立了一個開放的數據庫,新的可執行協定可以被添加到其中。——JSY盡管潛力巨大,但合成化學的自動化在過去幾十年中才取得了漸進式的進步。研究人員提供了一個包含 100 個分子的自動可執行化學反應數據庫,這些分子代表了當代有機合成中發現的反應範圍。這些反應包括過渡金屬催化的偶聯反應、雜環形成、官能團相互轉化和多組分反應。反應的化學反應程式碼或 χDLs 已儲存在數據庫中,用於版本控制、驗證、協作和資料探勘。這些合成中,已下載數據庫中的 50 多個條目,並在七個模組化 ChemPU 中自動執行,其產率和純度與專業化學家所達到的相當。
要復現一個已知的化學反應,必須從文獻或數據庫中獲得協定,這樣才能在實驗室中手動執行它。然而,並不是所有的文獻或數據庫條目都能被輕易復現。這不僅是合成新分子的障礙,也是為機器學習積累高質素數據的障礙,而且由於沒有公開的程式編碼標準,也沒有廣泛報告和糾正失敗實驗的方法,這就更加嚴重了。一個能夠明確捕捉和編碼化學合成協定的方法,供一個自動化系統使用,並具有類似於軟件的版本控制能力和記錄失敗的實驗,將改變這個領域。目前,有機合成需要密集的、高度熟練的勞動力,一個典型的合成可能需要多個復雜的單元操作,這些操作很難明確編碼。這是因為所需的隱性知識往往取決於上下文,導致發表的文獻中存在模糊不清的地方,限制了可重復性、自動化或資料探勘。這些限制在一些特定領域已經被克服,如寡肽、寡糖和寡核苷酸化學,近年來在更廣泛的化學反應自動化方面也取得了很大進展。然而,大多數自動化合成化學平台仍然是針對特定任務的,或者是代表手工工作流程中的自動化島嶼,但即使這些平台也有客製的指令集,它們之間或與文獻之間沒有簡單的語意聯系。為了充分挖掘化學合成中自動化的潛力,確保程式的可重復性,需要在兩個方面取得進展。首先,需要一個真正通用的自動化平台,可以執行所有的單元操作;其次,一個標準化的、精確的語法來描述這些化學過程,對於可靠地捕捉特定化學過程的所有關鍵細節至關重要。這樣的程式碼也必須獨立於自動化所采用的硬件類別,從而被編譯成可以在任何相容的硬件系統上完美地工作。
研究人員開發了一個工作流程的設計、構建和驗證,該流程允許將化學合成文獻從手工操作捕捉到完全描述的通用化學描述語言(χDL),並在化學處理單元或ChemPU中自動執行。在ChemPU上執行χDL的過程稱之為chemputation(類似於計算),是將程式碼和試劑可靠地轉換為產品。研究人員不僅展示了χDL可以被編譯到許多不同的ChemPU配置上執行,而且還展示了χDL語言編碼各種合成程式的能力,這些合成程式是有機化學工具箱的代表。總的來說,103個不同的化學反應已經從文獻中轉化為可靠的χDL程式碼,其中53個程式已經在硬件上得到驗證,其產率和純度與文獻中的相當。這種合成產量的提高在早期版本的ChemPU中是不可能的,因為它不能使用χDL。這也標誌著與χDL的原始論文相比,經過驗證的χDL程式的數量有了很大的提高,也證明了本文所采用的硬件的可靠性提高了。研究人員為目前的103個條目設計並建立了一個名為Chemify的χDL數據庫,預計這個數據庫將迅速擴大;任何人都可以在合適的硬件上執行和驗證該數據庫。這些χDL詞條不僅可以在其他自動合成平台上實作,而且可以根據需要生成材料,還可以收集統計數據,並在需要時提出新版本。除了直接重復驗證過的程式外,每個χDL的受質範圍可以透過改變受質和調整反應的關鍵參數--如溫度或時間--而保持工藝的其他部份不變來逐步擴大。由於我們是根據流行程度來選擇反應的,因此所產生的一套經過驗證的χDL涵蓋了大量的常見反應,構成了整個有機合成工具箱自動化的一個入口。此外,透過執行53個高度多樣化的化學程式,ChemPU的硬件和軟件被推向了極限,並展示了通向完全通用性的道路。為此,在硬件庫中加入了一個支持χDL的閃蒸柱色譜系統,取得了關鍵的進展。這意味著ChemPU不僅可以進行反應、加工和濃縮,還可以對產物進行色譜分離,直接按要求提供純化的化合物。為了實作這一目標,研究人員表明該平台可以以動態的方式做出反應,對產品的檢測做出反應,收集適當的餾分。
圖1說明了從文獻程式到研究人員的Chemify數據庫中的驗證條目的工作流程。與早期的χDL工作相比,研究人員的重點不是將原始程式文本準確地轉譯成χDL,而是實作一個提供目標分子的化學過程。遵循這種方法,不僅可以重現文獻,而且還可以在一些情況下改進過程。化學反應可以在χDL中得到體現,它將合成步驟表現為物理過程的序列,如添加、溶解、蒸發等。χDL框架內目前有44個步驟,每個步驟都有一套完全可客製的參數。所有有機合成中常用的任務都有一個樣版式的χDL步驟來表示,如EvacuateAndRefill用來建立惰性氣氛,Separate用來進行液-液分離和提取。χDL步驟有助於對過程進行精確的描述,並消除任何含糊不清的地方,如排空和惰性氣體再填充的周期數或過程關鍵的添加速度。為了實作這一目標,研究人員使用了基於網絡的化學開發環境(ChemIDE),透過提供文本到χDL的轉譯工具,幫助快速生成χDL程式。它透過使用一個包含所有可用χDL步驟的樣版庫和一個編輯器來工作,其中各個χDL步驟被表示為圖形元素,可以根據需要進行編輯和安排。ChemIDE被用於生成本工作中詳述的所有χDL程式。
用χDL表達一個化學過程並不能立即解決原始文獻說明中存在的資訊缺失或含糊不清的問題,但它確實提供了一個明確的途徑來關閉它。要做到這一點,可能仍然需要一些工藝開發和叠代,以使產量和純度最大化。在對來自ChemPU執行χDL程式碼的目標化合物進行適當的分析[NMR、LC-MS或GS-MS後,對產品的質素和純度做出評估。如有必要,對χDL進行改進,以提高產率和純度,然後再次執行。χDL的主要優點是,一旦一個成功的工藝被編碼,所有後來的使用者在相容的硬件上執行該程式碼,都可以得到相同的結果,而不需要再進行工藝開發。在合格的硬件上執行流程所需的所有關鍵知識,包括有形的和無形的,現在都在χDL中了。在這個階段,該協定可以作為一個經過驗證的工藝添加到數據庫中,並由目標產品的全部特征和工藝開發歷史作支持。包含工藝發展歷史是Chemify數據庫的一個突出特點;透過顯示不太成功的實驗結果,並與最終的成功執行進行對比,工藝的關鍵方面被突出,並可以被量化。
Chemify數據庫持久地保存了χDL程式、實驗結果和相關分析的資訊。它是一個本地托管的PostgreSQL數據庫伺服器,包含上述所有經過驗證的χDL指令碼,可以透過ChemIDE(基於網絡的χDL開發環境)或使用基於Python 3的API進行自動數據庫查詢來存取。此外,為了滿足終端使用者的體驗,ChemIDE配備了顯示每個實驗的特征參數,如產品規模、產率、狀態(轉譯、驗證、失敗)和過程持續時間。使用者可以送出、搜尋、下載和復制可信的合成。該數據庫包含最終驗證的合成指令碼以及以前的開發版本,這些指令碼可能在不同程度上起作用,提供的所需產品產量較低,純度不足,或者由於對自動化的必要工藝參數描述不足或不正確而導致工藝失敗。將失敗的或產量較低的實驗與某一特定反應或反應類別的成功嘗試進行比較,可以揭示出工藝的關鍵方面。此外,數據庫還包含已經轉譯過但尚未在合適的自動化平台上執行的χDL條目。對未驗證的χDL檔感興趣的使用者可以存取這些檔,並可以選擇驗證它們。這裏報告的χDL程式已經在ChemPU上進行了驗證,ChemPU是一個化學自動化平台,模擬台式化學家的手工操作。雖然操作上簡單直觀,但嚴格的實施意味著該平台作為一個有限狀態機執行(圖2)。它可以處於有限數量的狀態之一,並根據明確定義的操作從一個狀態過渡到另一個狀態。這些操作由程式--χDL合成協定--以及傳感器反饋[如溫度、電導率、壓力或紫外線(UV)吸收率]定義。χDL合成指令與狀態轉換或 "單元操作 "的直接對映,突出了χDL合成過程的嚴格抽象性。此外,χDL程式中對狀態轉換的明確定義對於確保χDL合成的可重復性至關重要,包括在ChemPU的不同布局和可能完全不同的合格硬件設定上。
ChemPU狀態機由三個邏輯部份組成:物理輸入或輸出(I/O)、數碼I/O和處理單元。處理單元可以根據ChemPU的初始條件或物理和數碼I/O的組合,即由傳感器定義的當前條件、過程變量和正在執行的χDL步驟,在幾種狀態中轉換。根據排程器,χDL步驟的執行會產生一個新的狀態,在以後的步驟中采取行動,並導致物理I/O的物理變化,例如,試劑位置的變化、溫度的變化、液-液分離中的相界,或色譜過程中的洗脫峰。排程器求助於硬件的圖形表示來解釋χDL指令碼並協調硬件的協同任務。抽象層定義了作為節點的硬件器材的位置和連線,並包含每個節點的具體資訊,如有關器材的IP地址和溫度限制。圖檔連同χDL檔可以編譯成一個執行檔,該檔是針對平台的。將化學過程的描述嚴格分離到χDL檔中,將硬件平台的描述嚴格分離到圖形檔中,可以確保χDL檔保持與平台無關。這也使得平台的設計方式和具體的物理布局具有靈活性。這意味著每個χDL都可以被版本化和編譯以在任何合適的平台上執行,而且ChemPU系統具有高度的模組化、靈活性和可延伸性(圖3)。
透過反映批次合成化學的單元操作,ChemPU代表了一個通用的、可編程的硬件平台,用於執行之前展示的合成化學。由於該平台的模組化性質,它可以隨時擴充套件,各個模組透過液體處理主幹網連線,類似於傳統電腦的總線。與液體處理主幹網(由泵和閥門組成)的連線是透過單片柔性管進行的,這使得模組可以很容易地被拆卸下來進行維護或重新安排以最佳化操作。液體處理主幹由一系列註射器泵和閥門組成。一個典型的主幹系統由六台組成;然而,主幹系統可以隨時收縮或擴充套件,以適應所需化學過程的要求。閥門有六個位置,每個有七個埠。液體處理主幹網中的每個閥門都與一個泵、其最近的相鄰閥門和一個廢物容器相連,並且可以與三到四個不同的試劑、溶劑或硬件模組相連。各個模組與主幹網的連線以抽象的方式用上述圖形來表示。主幹網的清潔是透過自動清潔程式進行的,該程式可由使用者定義,以說明不同程式後存在的不同類別的汙染。除了液體處理主幹,用於執行此處報告的合成的ChemPU系統還包括一個反應模組,由一個透過乙太網路-序列轉換器控制的標準熱板、一個用於液-液萃取的分離器,配備了一個用於攪拌的頂置攪拌器,以及一個用於相界檢測的電導率傳感器;它還包括一個用於產品沈澱和重結晶的夾套過濾器、一些試劑瓶、一個旋轉蒸發器,以及一個可選的色譜系統。
ChemPU的文獻程式進行驗證
透過chemputation的抽象,χDL語言和ChemPU平台,研究人員著手轉譯有機化學工具箱中的典型反應並使之自動化。有機化學包含了種類繁多的轉化過程。盡管種類繁多,但大多數反應都可以用少於10個類別進行簡明的分類。一些研究已經分析了不同領域的反應頻率,如藥物化學、工藝化學和全合成。在合成中使用的反應類別的分布有一些明顯的差異,這取決於主要目標;例如,藥物化學研究人員可能更喜歡過渡金屬催化的C-C鍵形成反應,這可以方便地產生大量的相關化合物用於生物檢測,而現代全合成更依賴於精心設計的成環反應,以盡可能少的步驟組裝復雜的分子骨架。
此外,盡管保護基化學是某些合成領域的基石,如多肽合成或碳水化合物化學,但從事全合成的研究人員往往喜歡更優雅的無保護基方法。盡管有微小的差異,這些類別體現了現代有機化學的各種工具箱。為了用所有類別的反應的例子來表示這些類別,研究人員選擇了轉譯這些程式的χDLs,並用ChemPU進行驗證(圖4)。碳-碳鍵形成反應類別被進一步分為過渡金屬催化反應和無過渡金屬反應。此外,還引入了一個單獨的多組分反應類別,因為這些反應通常在一次合成操作中完成多種化學轉化。最初的反應是從【有機合成】雜誌中被參照最多的論文中選出的。這本雜誌在有機化學領域很有名,因為它發表了一些實用的方法,用於合成著名的化合物或執行重要的合成方法,而且送出的程式至少被獨立於送出原始合成方法的化學專家重復過一次。盡管該雜誌的程式一般都有很高的詳細程度,但仍需要進行一些程式開發,這突出說明了用非結構化的散文格式捕捉所有必要資訊的難度,而不是χDL。從【有機合成】中選擇這些高參照率的論文涵蓋了最主要的反應類別,但分布不均。因此,研究人員從著名的文獻來源中手動選擇了更多的例子,以使數據集對有機化學工具箱有更均衡的表述。
ChemPU上各種反應的自動化
該系統對濕氣敏感或高活性的試劑具有耐受性,如銅介導的胺基甲酸酯的炔化反應中使用的雙醯胺鉀(KHMDS),甾體雌酮的Friedel-Crafts烷基化反應中使用的三氟化硼,或Fischer吲哚合成6中使用的Eaton試劑。此外,需要惰性氣氛的反應也在該平台上成功執行,包括在鈀催化下進行對映選擇性卡羅爾重排。ChemPU平台上有效地執行了高達90毫摩爾規模的程式。方便的是,一旦產生了χDL指令碼,一個特定的反應可以在可用的容器尺寸和化學過程的限制下放大或縮小。該平台上還成功執行了生成多組分和級聯反應產生的更復雜產品的χDL程式。
擴大基底範圍
透過使用ChemPU生成化合物庫,可以擴大驗證過的χDL程式的受質範圍。一個特別有吸重力的前景是利用經過驗證的χDL程式來構建用於生物篩選的大型化合物庫。這樣的化合物庫可以很方便地透過改變起始材料來獲得,而不需要對合成指令碼進行重大修改;也就是說,一旦建立了一個程式,它就可以作為一個一般程式套用於許多不同的受質,只需要改變關鍵參數,如受質、反應溶劑和反應時間。為了做到這一點,研究人員在ChemPU上同時執行多個或 "多執行緒 "反應,使用來自兩個不同的異氰酸酯和兩個醛的反應物組合,得到四個結構相關的α-胺基醯胺產品。進一步擴大所使用的反應物集將迅速擴大生成的產品數量,並允許迅速生成更大的庫。
ChemPU合成的可重復性
為了檢查執行策劃的χDL程式的一致性和可靠性,研究人員著手在ChemPU平台上多次重復相同的反應方案。丙二酸酯的烷基化被選為可重復性研究的合適反應,因為準確的溫度控制和添加速率是該過程成功的關鍵。在最初的工藝開發後,獲得了經過驗證的χDL程式指令碼,並在12次嘗試執行中成功復制了10次反應協定。兩次失敗是由於在液-液分離過程中相界測定不正確造成的;產品本可以透過手動重新開機系統來恢復,但這裏沒有這樣做。最重要的是,經過策劃的χDL程式可靠地提供了產品,其產率和純度都很一致。加上生成化合物庫的能力,ChemPU可用於自動生成同一材料的多個批次或在初始協定建立後用不同受質重復同一反應的高度重復性工作。
ChemPU上進行全自動純化
對反應中的產物化合物進行色譜分離是中小型有機合成的首選純化方法。許多市售的色譜系統可以幫助實驗室的化學家進行色譜分離。然而,這些系統仍然需要大量的使用者互動。例如,粗制材料必須手工裝入色譜柱,產品餾分必須手工辨識,從餾分瓶中洗出,然後合並。此外,這些商業系統需要使用者在幾個不同的階段進行互動,從而將化學家與實驗室捆綁在一起,即使只是把樣品裝到柱子上這樣的瑣碎任務。為了將Buchi Pure C-815色譜系統與ChemPU整合在一起,研究人員建造了兩個輔助硬件單元:一個允許在系統上預裝不同色譜柱的色譜柱轉盤和一個餾分托盤的擴充套件。後者允許ChemPU回收產品餾分。第一個具有挑戰性的自動化操作是將樣品載入到柱子上。基於實驗室的化學家通常會在幹式裝載和液體註入樣品之間做出選擇。研究人員的目標是實施液體註射法,這與ChemPU的液體處理主幹很好地結合在一起;此外,液體註射的樣品裝載方法需要很少的過程開發,只需要確定一個合適的溶劑混合物和體積來溶解粗制材料。正相色譜全自動化的第二個挑戰是如何可靠地選擇產品峰。通常情況下,化學家需要在色譜分離後透過薄層色譜、質譜或核磁共振分析各個餾分。對於ChemPU整合的模組,我們考慮了幾個備選方案。我們發現,考慮洗脫餾分的紫外/可見光反應或彈性光散射檢測器的訊號,並在指定的訊號軌跡下選擇具有最大曲線下面積的峰,是可靠性和靈活性的最佳權衡;對於一個給定的效能良好的反應,可以正確辨識產物峰,而不考慮確切的保留時間。此外,這種方法不依賴於更復雜的產物鑒定,如質譜或核磁共振。
然後ChemPU控制器進行峰值檢測並觸發色譜機的餾分收集機制。控制器還跟蹤餾分瓶的填充水平糊各種執行參數,如背壓積聚、溶劑蒸汽水平、梯度溶劑和溶劑廢液桶的溶劑水平。如果這些參數中的任何一個超過了規定的閾值,就會啟動一個適當的錯誤處理常式,以可控的方式暫停色譜分離。當分離執行完成後,產品峰被辨識並轉移到下一個模組。粗制材料通常從旋轉蒸發儀轉移到色譜模組,然後將純化的產品從色譜模組轉移回旋轉蒸發儀,因此旋轉蒸發儀燒瓶需要在兩者之間進行清洗。因此,已經實作了對純化產品的目標容器的可選清洗程式,並且可以在色譜分離過程中進行。綜合色譜分離法被用於三個反應。這些色譜分離的過程已經被χDL記錄下來,以簡明易懂的方式說明了每一個細微的關鍵細節。因此,在另一個ChemPU或同等的系統上,甚至用市面上的色譜機手動復制色譜分離是很容易的。
Outlook
研究人員已經展示了如何將化學合成文獻輕松轉換為通用的化學程式碼,可以在任何能夠進行化學合成的機器人上執行;這方面的唯一要求是一個批次反應器、一個分離器、蒸發器和純化系統。這意味著,潛在的許多不同的機器人方法將能夠使用相同的χDL程式碼,產生相同的結果。χDL Chemify數據庫的使用不僅有助於復制已發表的程式,而且還為社區提供了豐富的驗證數據,可用於最先進的機器學習,以實作反應最佳化、合成路線規劃、提高安全性和減少合成的環境影響,同時大大減少化學家重復著名程式的勞動。
參考資料
Authors:Simon Rohrbach; Mindaugas Siauciulis; Greig Chisholm; Petrisor-Alin Pirvan; Michael Saleeb; S. Hessam M. Mehr; Ekaterina Trushina; Artem I. Leonov; Graham Keenan; Aamir Khan; Alexander Hammer; Leroy Cronin
DOI:10.1126/science.abo0058