文章專區

2024-10-21以AI建構演化樹 - 英國團隊追溯黃病毒起源 514 期

Author 作者 編譯|羅億庭

我們要如何追溯病毒的起源?人工智慧(artificial intelligence, AI)的發展或許可以協助我們了解病毒的譜系。由蛋白質結構預測程式AlphaFold,以及受到聊天機器人啟發而建構出的蛋白語言模型(protein language models),有望告訴我們那些會感染人類的病原體和新興、具威脅性病毒家族之間的關聯。

目前科學家對於病毒演化的理解,大部分都奠基於基因組(genome)的比較。但病毒的演化速度相當快(尤其是RNA病毒),且還有可能從其他生物體中獲取遺傳物質,代表它們的遺傳序列中可能隱藏錯綜複雜的訊息與關係。相較之下,由病毒基因編碼出的蛋白質形狀、結構變化的演化就相當緩慢,因此科學家便有機會透過蛋白質結構的分析,找出隱藏在病毒基因序列中的演化資訊。隨著AI工具的發展愈來愈成熟,科學家現在可以透過AlphaFold這類能大規模預測蛋白質結構的工具,比較病毒家族的蛋白質結構。

在上(9)月發表於《自然》(Nature)期刊的一篇研究中,英國格拉斯哥大學(University of Glasgow)的分子病毒學家格羅夫(Joe Grove)研究團隊,展示了AI工具分析黃病毒屬(flaviviruses)病毒,包括C型肝炎(hepatitis C)、登革熱(dengue)病毒和茲卡病毒(Zika viruses)等病毒演化的強大威力。

在過去,研究人員大多透過一些演化較為緩慢的酵素序列,了解黃病毒的演化過程。然而研究人員對黃病毒用來入侵細胞用的蛋白,以及這些蛋白如何決定病毒感染宿主的範圍等資訊並無太多了解。格羅夫認為,這個缺口阻礙了C型肝炎疫苗的研發速度,而C型肝炎每年導致數十萬人死亡。為了突破此困境,研究人員使用AlphaFold 2和Meta開發的結構預測工具ESMFold〔註〕,為458種黃病毒的蛋白質生成了超過3萬3000個預測結構。

〔註〕ESMFold 是一款使用了數千萬個蛋白質序列進行訓練的語言模型,它能使用單一條的輸入序列進行蛋白質結構預測,因此適用於研究未知的病毒結構。


藉由分析AI預測出的蛋白質結構,研究團隊能夠識別出特殊的病毒入侵蛋白。這些蛋白質雖然在基因序列上與已知的黃病毒大不相同,但在結構上卻顯示出意想不到的相似性。例如包括C型肝炎在內的病毒亞群,在感染細胞時使用的系統與瘟疫病毒屬(pestiviruses)中發現的系統相似,而瘟疫病毒屬包含會引起豬出血熱(haemorrhagic fever)的豬瘟病毒(swine fever virus)。

透過AI的比較顯示,這種病毒的入侵系統與許多其他黃病毒的入侵系統截然不同。此外,結構預測還顯示目前已被廣泛研究的茲卡病毒和登革熱病毒中的入侵蛋白,與具有巨大基因組的黃病毒、可能引起人類發燒的HSTV(Haseki tick virus)的入侵蛋白具有相同起源。

另一個研究成果則是團隊發現,某些黃病毒擁有一種疑似竊取自細菌的酵素。來自澳洲雪梨大學(University of Sydney)的病毒學家佩特隆(Mary Petrone)表示,他們團隊今(2024)年在一種特別的黃病毒物種中也發現類似的竊取行為,這類行為可能在黃病毒科病毒的演化過程中發揮了比先前認為更大的作用,但仍需更多研究才能釐清竊取行為與病毒演化間的關係。

目前,這些黃病毒研究只是病毒演化的冰山一角。未來隨著AI系統的輔助,其他病毒甚至是細胞生物的演化歷史很可能會被AI重寫,使科學家能發現更深遠的生物故事。

新聞來源
Callaway, E. (16 September 2024). Where did viruses come from? AlphaFold and other AIs are finding answers. Nature. https://www.nature.com/articles/d41586-024-02970-w