文章專區

2022-12-26Meta 預測出六億種蛋白質結構 637 期

Author 作者 編輯部

蛋白質是所有生物的必要組成成分,然而人類對如此重要的物質其實所知甚少。即使集結眾多科學家之力所建構的蛋白質資料庫(Protein Data Bank)也只解出近18 萬種蛋白質結構,而這僅占生物圈的極小部分。不過,人工智慧(artificial intelligence,AI)帶來了驚人的突破。去(2022)年初,Google 旗下的人工智慧公司DeepMind 利用AlphaFold 預測出兩億種蛋白質結構,幾乎涵蓋所有已知生物的DNA資料庫。而另一個科技巨頭Meta(Facebook 母公司)也不落人後,在去年10 月31 日宣布它們開發的ESMFold 預測出超過六億種蛋白質結構,這當中還包含了許多潛藏未曾被發現的蛋白質。

Meta 採用一種稱為「大型語言模型」(large language model)的AI 模型,該模型的原始用途是根據個別字母或字詞來預測文本。此蛋白質結構計畫的負責人里維斯(Alexander Rives)與研究人員利用此AI 模型,先輸入已知的蛋白質結構,並使用字母代表20 種胺基酸訓練AI 填補未知的胺基酸序列。雖然里維斯表示ESMFold的預測精準度尚不如AlphaFold,但速度卻快上60 倍,所以可在短短兩週內就累積如此龐大的資料庫。目前這些資料已開放自由取用,將可幫助研究人員進一步探索更廣大的蛋白質世界。

(Photo by ANIRUDH on Unsplash)

Lin, Z. et al. (2022). Evolutionary-scale prediction of atomic level protein structure with a language model. Preprint at bioRxiv.