文章專區

2023-08-15從Midjourney獲得靈感 科學家開創全新的AI蛋白質設計工具RFdiffusion 500 期

Author 作者 編譯|羅億廷

以深度學習(deep learning)、人工智慧(artificial intelligence, AI)設計蛋白質的工具在近年來進展快速。去(2022)年8月,由美國華盛頓大學(University of Washington)生物化學家貝克(David Backer)團隊與AlphaFold合力開發出RoseTTAFold,能學習、預測胺基酸片段,並統合出蛋白質結構。隨著生成式AI(generative artificial intelligence, GAI)的爆紅,今(2023)年7月該團隊與哈佛大學(Harvard University)、麻省理工學院(Massachusetts Institute of Technology, MIT)等學校組合成的團隊從圖像生成式AI(如Midjourney)獲得靈感,建構出一款新的蛋白質預測工具「RFdiffusion」。如同Midjourney只要輸入各種指令(prompt)就能產出圖像,RFdiffusion也能根據使用者輸入的需求,訂製出前所未有、具有功能的蛋白質。RFdiffusion軟體在今年3月發布,而描述此軟體神經網路的論文則已刊登於《自然》(Nature)期刊。

 

(123RF)

 

過往的蛋白質結構預測

科學家在這十年間不斷嘗試建構新的蛋白質,他們最初試圖將現有蛋白質的有效結構拼湊在一起,但這種方法須仰賴他們對於蛋白質如何折疊、產生功能的理解程度,還需要經過大量的試驗並從錯誤中修正。有時甚至要篩選成千上萬的蛋白質設計,才可能找出符合期望的唯一蛋白質。2018年,由DeepMind開發的AlphaFold為蛋白質結構預測帶來了新的變革。AlphaFold模型能夠準確地從一段胺基酸序列預測蛋白質結構,也讓科學家們意識到神經網絡的強大——透過學習真實世界蛋白質序列、結構等訓練,AI將能從頭開始創建蛋白質。
 
貝克在過去幾年間推出了大量以AI為基礎的蛋白質設計工具,這些工具首先會創建一個由胺基酸隨機組合成的字串,然後再使用如AlphaFold或RoseTTAFold等軟體改良,直到這個隨機組合的字串被神經網路判定為可以組成一個特定結構。另一種方式則是使用RoseTTAFold針對特定的蛋白質序列或結構片段進行修補,建構出以該序列、結構片段為基底的分子。不過這些工具並不完美,在實驗中使用第一種方法設計出的蛋白質並不是每次都能產生良好的折疊,且也很難製造出除了小蛋白質以外的結構;當提供給AI的蛋白質序列或結構片段太短時,使用修補方法形成蛋白質的效果也不佳。
 

RFdiffusion如何建構蛋白質

團隊今年發表的RFdiffusion正好解決了此一困境。RFdiffusion建構蛋白質的基礎原理類似圖像生成式AI,首先透過「擴散」網路訓練蛋白質結構的相關數據,並在模型訓練過程中逐漸加入雜訊,使得數據最終看起來與原始結構毫無相似之處,最後再進行「去雜訊」過程,透過反向歷程解析蛋白質的結構。
 
RFdiffusion在訓練的過程中,學習了儲存於蛋白質資料庫(Protein Data Bank, PDB)內數以萬計的真實蛋白質結構。當它開始創建蛋白質時會從一組隨機的胺基酸開始,經歷多次的去雜訊過程,最終生成一個看起來像是真實存在、但卻前所未見的蛋白質。貝克團隊在測試時也發現,若是僅提供RFdiffusion「蛋白質長度」的指令時,它將生成多樣化、看起來相當真實的蛋白質結構,且與PDB中的任何一個蛋白質都不同。此外,他們也嘗試讓RFdiffusion以特定的折疊方式設計蛋白質,或是讓設計出的蛋白質能夠與另一個分子的表面結合。RFdiffusion同時擅長製造出能自我組裝成為複雜奈米顆粒的蛋白質,而這些奈米顆粒則能用來運送藥物或作為疫苗的成分。
 

目前RFdiffusion的限制與未來目標

來自英國牛津大學的免疫電腦科學家迪恩(Charlotte Deane)表示,RFdiffusion確實是蛋白質結構研究中的一個跳躍式進展。而她與其他科學家、生技公司則對於使用RFdiffusion設計出結合位點(bimding site)更加複雜的蛋白質(例如抗體或T細胞受體)特別感興趣。由於這些蛋白質上具有機動性高、能靈活地結合多種不同目標物的受體,但RFdiffusion目前擅長的卻是類似三明治狀或較為平坦的結構。
 
美國加州大學舊金山分校(University of California, San Francisco)的計算生物學家科特默(Tanja Kortemme)則是使用RFdiffusion設計可作為感測器或控制細胞開關用的蛋白質。她表示,蛋白質的活性位點(active site)取決於幾個胺基酸的位置,雖然AI在蛋白質結構設計上表現良好,但它卻很難設計出具有更複雜活性位點的蛋白質。任職於微軟研究院(Microsoft Research)的生醫機器學習研究員楊(Kevin Yang)則表示,採用與圖像生成式AI相同原理的另一個限制是它們無法產生與天然蛋白質截然不同的蛋白質。由於AI接收到的蛋白質資料訓練僅涵蓋現有蛋白質,且它也會傾向於創建與這些蛋白質相似的蛋白質,因此如果想生成一個全新的蛋白質,可能仍需要科學家更全面地了解蛋白質產生功能的原理。雖然這項模型可以讓設計蛋白質變得更加容易,但未來還有很大的成長空間。

 
新聞來源
Callaway E. (July 11 2023). AI tools are designing entirely new proteins that could transform medicine. Nature, https://reurl.cc/zYEvk6.