- 精選文章
文章專區
2019-08-01醣類合成的魔術師—Auto-CHO系統
596 期
Author 作者
許聞廉/中研院資訊所的特聘研究員,研究領域為生物資訊,演算法及人工智慧。
前言
「醣」是生物體中最重要的分子之一,從細胞的基本運作到癌細胞的增生,都與醣分子息息相關。然而,醣分子組成方式複雜且多元,9 種單醣(monosaccharides)分子即可能產生上千萬種組合方式的寡糖。直到「一鍋化」系列方法問世,科學家才得以人工方法合成足量、純粹的醣分子。
1982 年,由中央研究院院士翁啟惠研發的「一鍋式酵素合成法」,是使用生物方式將單醣都放進同一個反應器裡,再以酵素合成出所需的寡醣;1999 年,則進一步研發「程式化一鍋合成法」,是一種採用化學方式,將單醣所組成的組合單元(building blocks, BBL),依據其相對反應值(relative reactivity values, RRV),建入電腦程式Optimer 與資料庫,科學家只要輸入想合成的寡醣結構,即可找出適合的組合單元。
相對反應值
當一個醣組合單元有著越大的相對反應值,表示此組合單元當作捐贈者(donor)時,可以越快和它的接受者(acceptor)進行反應。一鍋化醣分子合成法便是利用組合單元由快到慢的接合特性,使一連串的組合單元接合成最後想要的合成標的。
醣分子合成
去(2018)年底,在繼「一鍋式酵素合成法」及「程式化一鍋合成法」後,中研院的基因體研究中心及資訊科學研究所跨領域合作,結合人工智慧(arti cial intelligence, AI)及演算法(algorithm),寫成電腦軟體「Auto-CHO」與學術社群共享,讓「程式化一鍋合成法」更上層樓。科學家往後可以如閱讀食譜,更快速且廣泛地合成醣分子,並可望對醣分子相關的疾病提出更多解方。
而執行一鍋化醣分子合成的程式Optimer,是一種運作於麥金塔作業系統(Macintosh operating systems)的非公開軟體。2012 年時, 翁啟惠期望將此程式改寫成能在微軟(Windows)作業系統中運作的程式,並開放給更多科學家使用,以增進科學界進行一鍋化醣分子合成的便利性。因此,他與筆者的研究團隊共同研究,也進一步開啟了這段跨領域的合作。
首先,筆者的研究團隊必須要了解1999 年所發表的那篇與Optimer 系統有關的論文,並熟悉此系統的程式碼邏輯。在研究的一開始,筆者便體認到隔行如隔山,對於許多化學上的詞彙十分陌生。不過,經由不斷討論、交流與文獻閱讀之下,逐漸克服各種瓶頸,在此過程中筆者的研究團隊也學到了許多新知識,是一場名符其實的跨領域研究。
其實,初始系統的程式邏輯很直觀,要改寫成為能在不同作業系統運作的程式並不困難。但是,研究團隊並不以此自滿,決定重新設計演算法並考量眾多合成時的化學條件,花費一番心血重新開發成可支援階層性一鍋化醣合成的軟體──Auto-CHO。另一方面,也在一次研究團隊的討論中,開啟了原本未預期的新研究方向。
圖一:醣分子合成系統程式研究流程。上圖為醣分子合成標的輸入Auto-CHO 軟體後,透過醣組合單元資料庫搜尋,軟體回傳可行的一鍋化合成方案,其中,醣元件的RRV 可以是實驗驗證或預測出的值。下圖是此研究的細節描述,包括如何建構RRV 預測模型並建立虛擬醣組合單元資料庫。
虛擬組合單元
醣分子的合成有如搭建樂高積木。一開始,原有的醣分子實體基本單元只有50 個,經過多年努力,現今已增加至154 個單元。然而,由於醣合成的種種化學限制,這些少數的組合單元真正能夠合成的醣分子數量極為有限,正是所謂的「巧婦難為無米炊」。
基於電腦科學家的本能,研究團隊突發奇想,開始考慮「虛擬」組合單元。試想,在一個六碳醣上,例如說半乳糖(galactose)上有4 個位置可以接上-OH 或保護基(protecting groups),若有10 種保護基可用,那麼光是半乳糖這類的虛擬組合單元就有多達114(=14641)種可能結構。於是,研究團隊將此發現撰寫成Python程式,自動化產生出5 萬個「虛擬」組合單元,為一鍋化方法增添了許多「食材」。
不僅如此,由於以實驗備製組合單元,再進行相對反應值的測量相當花費時間與人力,如果事後發現其相對反應值不合所用,更是功虧一簣。因此,若是組合單元的相對反應值可以事先預測,便可免去無窮無盡的實驗,以軟體大幅擴增組合單元的資料庫,也會使Auto-CHO 產生更多能利用的組合單元。也因為這個想法,啟動了合作中另一個研究項目。
圖二:Auto-CHO 支援階層性一鍋化醣分子合成的概念,以Globo-H 醣分子合成為例。左下是透過使用多次一鍋化醣分子合成的概念;右下則是使用一次一鍋化醣分子合成的概念。
相對反應值的數值預測
在人工智慧中,機器學習(machine learning)的迴歸模型(regression model)很適合被用來解決數值預測的問題,但是能從資料中萃取出有效的「特徵(features)」來進行訓練,是機器學習在預測上是否有傑出表現的關鍵,而「特徵工程」則往往在研究過程中最困難且耗時。
根據基因體研究中心研究團隊的描述,組合單元的核磁共振化學位移(NMR chemical shi s)與相對反應值有著某種程度的關聯。所以第一步,便是將組合單元的基礎屬性(basic properties)與化學結構繪圖軟體ChemDraw 所預測的核磁共振化學位移作為特徵。如此一來,在交叉驗證(leave-one-out crossvalidation)上,能夠達到0.7 左右的皮爾遜相關係數(Pearson correlation coefficient, PCCs)。之後,藉由中研院生物醫學研究所透過觀察資料特性,建議只保留六碳醣組合單元,並對機器學習所使用的化學位移特徵,進行二元化編碼(binarization)。經過實驗,合併原先使用的正規化(normalization)與新嘗試的二元化編碼可以達到較好的結果,讓皮爾遜相關係數提升至約0.78。不過,此預測模型結果與能運用於實務上仍存在一段距離,因此,團隊必須從資料中萃取更多有效的特徵提升預測準度。
透過大量的文獻閱讀,研究團隊發現應用於定量構效關係(quantitative structure–activity relationship, QSAR)的分子描述單元(molecular descriptors)可以被用來當作機器學習有效的特徵,單獨使用這些特徵所訓練的預測模型可以使皮爾遜相關係數提升至約0.73。最後,在合併基礎屬性、預測的核磁共振化學位移和分子描述單元三大類特徵後,皮爾遜相關係數成功提升至0.88。然而,研究團隊仍不盡滿意,在經過遞迴式的特徵挑選,最終達到皮爾遜相關係數0.97。儘管在期刊投稿審查的過程中,研究團隊也曾遭到審查者的質疑,認為預測結果太過理想,可能是預測模型過度訓練(over- tting)的結果。不過,經由研究團隊進一步的檢查實驗數據確認後,也消除審查者的疑慮。
完成了理想的交叉驗證相對反應值預測模型,接下來便是要將預測模型實際應用於未知相對反應值的組合單元上。再者,是使用視窗介面的化學軟體ChemDraw 計算每個虛擬組合單元的核磁共振化學位移。由於虛擬組合單元的數量龐大,團隊另外撰寫Python 程式進行自動化操作ChemDraw 軟體,以便執行龐大且高重複性的作業。此外,研究團隊也另外進行相對反應值獨立驗證(independent test),由基因體研究中心實驗測量數個組合單元的相對反應值,研究團隊再將數個虛擬組合單元的實驗與預測相對反應值比較,發現預測表現的結果良好。
核磁共振化學位移
在核磁共振(nuclear magnetic resonance, NMR)光譜當中,由於每個原子具有各自的分子環境,所形成各別小磁場容易受相鄰原子磁場影響,產生遮蔽效應(shielding effect)。此效應造成原子核在磁場中有不同的共振頻率,此共振頻率差異即稱為化學位移。
皮爾遜相關係數
皮爾遜相關係數為統計學中的名詞,用於度量2 個變數X 和Y 之間的相關程度,其值介於-1 與1 之間。係數值1 代表X 和 Y 可以由直線方程式描述,所有的數據點皆落在一條直線上,且 Y 隨著 X 的增加而增加;係數值− 1 代表所有的數據點都落在直線上,且 Y 隨著 X 的增加而減少;而係數值0 則代表兩變數間沒有線性關係。
定量構效關係
定量構效關係是一種依照分子的理化性質或結構參數,以數學和統計學定量研究有機小分子與生物大分子相互作用、有機小分子在生物體內吸收、分布、代謝和排泄等生理相關性質的方法。此方法廣泛用於藥物、農藥或化學毒劑等生物活性分子設計,特別是在藥物研究上扮演重要角色。
分子描述單元
分子描素單元是以數學或邏輯的方式將圖像化的化學結構資訊轉換為有用的數值或一些標準化的實驗結果,例如實驗測量、分子的物理化學性質或理論分子描述等。
階層式演算法
原先Optimer 的程式邏輯僅支援一次性的一鍋化醣分子合成,所以,為了讓一鍋化方法能應用於建構更複雜的醣分子,研究團隊設計新的演算法,將醣分子的合成過程拆解成不同階層,讓一個以一鍋化方法合成的醣片段,可作為新的組合元件,以便用於另一個一鍋化方法。演算法中考慮許多合成時所需的限制條件,配合使用者自訂的需求。團隊並以此開發出跨平台視覺化操作軟體Auto-CHO,搭配「食材」資料庫使用,將一鍋化方法整理成軟體流程,如同一篇可依序調配的「食譜」。目前,依據Auto-CHO 提供的「食譜」,研究團隊已成功合成出4 種生物學上重要的寡醣分子。
結語
筆者認為早期的Optimer 程式化一鍋合成法雖已找到規律,讓醣分子的組合有如玩樂高積木,但受限於較小的資料庫,僅能合成模型車。透過Auto-CHO,大幅擴大資料庫的元件,並結合人工智慧與演算法,讓醣合成已提升至較大的規模。除此之外,研究團隊也將開放Auto-CHO的原始碼,讓學術界共同探索醣分子的合成方式以加速對醣分子的研究,並讓使用該程式的化學家們,可將虛擬醣元件的使用心得回饋,讓廣大的研究社群可以共襄盛舉,持續修正、增添資料庫的內容。
延伸閱讀
1. 中央研究院,〈運用人工智慧(AI) 與演算法(Algorithm),將醣分子一鍋化合成帶入新境界〉,2018 年12 月18 日,https://bit.ly/2HZsoku。
2. 分子描述單元,https://bit.ly/2XIbHCg。