文章專區

2022-09-16AlphaFold的蛋白質宇宙?人工智慧幾乎能預測所有已知序列的蛋白質結構 489 期

Author 作者 編譯|羅億庭

由DeepMind開發的蛋白質結構預測程式AlphaFold,可以預測任何目前已具備序列數據的蛋白質結構——包含了來自約100萬個物種、將近兩億多種蛋白質。這幾乎涵蓋了地球上所有已知蛋白質的數據資料,且研究者能在DeepMind建立的數據庫中免費取得數據。蛋白質的3D形狀或結構決定了它在細胞中的功能,而大多數藥物的設計也都會利用到蛋白質結構訊息。

為了知道蛋白質是如何摺疊成具有功能的結構,找出準確的胺基酸序列是這項工作的第一步。傳統上,科學家們需要使用耗時且昂貴的實驗方法,如X射線晶體學和低溫電子顯微鏡來解析蛋白質結構;而DeepMind使用深度學習技術開發出能預測蛋白質結構的AlphaFold,則讓研究人員在預測蛋白質結構時能更加精準,也可以節省研究人員的時間、金錢。

此外,DeepMind也在去(2021)年推出的AlphaFold數據庫,其中包含了超過35萬個結構預測,從人類、小鼠到其他19種目前已被廣泛研究的生物體製造出的蛋白質皆有紀錄,目前此數據庫已擴增至約100萬個預測資料。

過去一年內,科學家們將AlphaFold應用於各種不同的面向中,而目前收錄在AlphaFold數據庫中的所有蛋白質結構,也拓展了研究者進行新類型研究可能性。像是有些人利用它來辨識新的蛋白質;也有研究者正在使用它幫助尋找能用於治療被忽視疾病的藥物;或是研究從海洋、廢水樣本中收集到的基因序列,識別它們的結構以確認這些蛋白質是否含有降解塑膠的潛力酵素。

倫敦大學學院(University College London)的計算生物學家奧倫戈(Christine Orengo)就使用了擴增後的AlphaFold數據庫來辨識新型的蛋白質家族。未來他們也預計使用此數據庫協助團隊了解具有特殊功能的蛋白質,例如消耗塑膠能力、導致癌症的蛋白質如何演化而來。此外,透過AlphaFold數據庫,研究者還能識別這些蛋白質的遠親,並查明它們的基礎特性。

除了創建數據庫之外,DeepMind還在去年7月決定將建立起Alphafold的基礎程式碼開源分享,供任何人使用這項工具。為了讓更多人能利用AlphaFold,來自首爾大學(Seoul National University)的計算生物學家施坦內格(Martin Steinegger)也協助開發了AlphaFold的雲端版本。但由於AlphaFold數據庫中的所有內容高達23兆位元組(Terabyte, TB),因此他與另外的合作者共同開發了名為「FoldSeek」的軟體,此項工具可以快速找到結構相似的蛋白質,還能大大壓縮AlphaFold數據。

儘管AlphaFold的使用具有侷限性,例如它不能用於預測蛋白質形狀會如何因為致病基因突變而改變,也無法預測不同蛋白質間進行相互作用時形狀會如何改變。但研究人員仍期望未來能透過AlphaFold的預測,找出更多藥物設計上的細節,像是小分子可能結合的蛋白質區域的精確形狀等。隨著新生物的發現以及可用的數據增多,未來AlphaFold的數據庫也會不斷的更新,而它預測蛋白質結構的能力也將愈來愈準確。

新聞來源
1. Callaway, E. (2022). 'The Entire Protein Universe': AI Predicts Shape of Nearly Every Known Protein. Nature, 608, 15–16.
2. Editorial. (2022). How AlphaFold can realize AI's full potential in structural biology. Nature, 608, 8.