文章專區

2015-02-01真的只是運氣差嗎? 542 期

Author 作者 歐陽太閒/就讀美國哥倫比亞大學電機工程研究所博士班,研究領域為系統生物學、高通量定序資料分析與癌症生物標記。
2015年1月2日的Science期刊出了〈不同組織之癌症風險變異可以藉幹細胞分裂次數解釋〉(Variation in cancer risk among tissues can be explained by the number of stem cell divisions)的研究報告。作者之一的約翰霍普金斯大學醫學院教授沃格斯坦(Bert Volgelstein),之前就以提出連續基因突變之癌症生成模型,及發現TP53APC為抑癌基因(tumor suppressor gene)而聞名。

該報告隔日即被全球各大媒體廣為報導,但部分文章將此篇研究報告簡化為「罹癌肇因於運氣差」,這樣武斷的論點。報導把陳述重心放在研究指出,三分之二罹癌病例係肇因於運氣不佳所致。然而如此聳動的標題易被錯誤解讀,可能導致讀者做出過度的推論,超出原始研究報告數據所能支持的結果。因此本文,從此篇報告的原始文獻之研究方法與假設談起,解讀此研究所揭櫫之結果,並說明依此報告可合理衍生之推論。

人類身體內某些組織發生癌症的機率,會遠高於其他組織。這個現象雖早已為人所熟知,但人類細胞的內生突變率(endogenous mutation rate),在各組織中卻幾乎相同,因此造成各器官癌症發生率之差異的原因為何,一直是個謎。沃格斯坦這個研究的主要目的,就是在探討這個問題。

沃格斯坦和另一位作者湯瑪塞堤(Cristian Tomasetti) 兩人假設,細胞癌化主要是因為基因組中的變異累積所導致;而個別器官內,應有某一類細胞的終生分裂數,和該器官的終生罹癌風險有高度相關。他們以SEER(Surveillance, Epidemiology, and End Results Program)資料庫為主要數據來源,分析其內的癌症資料後發現,個別器官內的幹細胞分裂數(number of stem cell divisions)和終生罹癌風險(lifetime risk of cancers)有高度正相關,其斯皮爾曼係數(Spearman's ρ)高達0.81。

雖然由此高相關係數可知,幹細胞分裂和罹癌風險有關。但必須注意,兩變數在統計上的相關,不必然表示兩變數間具有直接的因果關係!此相關性,或許可以提供我們做這樣推論的線索:假設幹細胞分裂時,其隨機錯誤所帶來的突變可能造成細胞癌化。在錯誤機率相同的假設下,幹細胞分裂次數越多,隨機錯誤造成的突變也就越多,可能導致更多細胞癌化;但不足以說明,幹細胞分裂時的突變就是罹癌的主因。


因為各器官間的幹細胞分裂率差異極大,沃格斯坦和湯瑪塞堤為了分析幹細胞分裂數,對各型癌症生成的重要性;他們假設各型癌症的總幹細胞分裂數,和終生癌症風險有正相關,並依此假定了一個新的參數——額外風險指數(extra risk score)。此指數為總幹細胞分裂數和罹癌風險的乘積,因此亦可表示為,罹癌風險等於額外風險指數除以總細胞分裂數。


舉例而言,在低額外風險指數的癌症中,僅需少量的幹細胞分裂,即會造成較高的罹癌風險,故可推論幹細胞分裂為此類癌症發生的主因。反之,具高額外風險指數的癌症,就算有大量的幹細胞分裂,其罹癌風險亦不高,所以幹細胞分裂以外的因素,就可能是此類癌症發生的主因。作者以此指標,對三十一種癌症進行聚類分析(cluster analysis),得到了幹細胞分裂數,在二十二種癌症中為最重要的因子,而在另九種癌症則非。

根據此結果,作者推論在二十二種癌症中,幹細胞分裂時,因DNA複製隨機錯誤造成的突變,即「壞運」是此類癌症生成的主要因素。然而由於癌症生成仍有其他因素的參與,突變不必然導致細胞癌化;而在此研究中,也未排除其他可以降低突變機率的因子。所以無法藉此結果,推論不良生活習慣、環境與病毒感染不會提升罹癌風險。何況這些因子,仍可能提高罹患其他九種癌症的風險。

又該研究中,將三十一種癌症分為兩類的方法,乃是根據各癌症的額外風險指數相近程度之聚類分析,而非找出導致癌症發生的幹細胞分裂數閾值。故二十二種癌症,只是相對性地被歸類為「壞運」所造成,而不是出自於跟明確的基準比較之結果。因而依此篇研究的數據,至多僅能用以推論癌症無法完全預防,但無法藉此推論癌症不必預防。

另外需注意的是,該研究表示,因為缺乏可靠的幹細胞分裂率資料,所以並未納入乳癌與攝護腺癌,這兩個高盛行率的癌症在研究分析之列;此外,本研究也缺乏人口統計因子(demographic factor)的校正。所以,「三分之二罹癌病例肇因運氣不佳」的陳述並不完整,不宜貿然用此機率值作為其他研究中的假設,這點或許可以做為後續相關研究的主題。

最後,藉此研究可以得到的合理建議,就如同其報告中的結論所述。由於某些癌症可能主要肇因於隨機因素,因此可加強此類癌症早期篩檢技術之相關研究;亦即以次級預防(secondary prevention)的方式,以求早期發現、早期治療,降低死亡風險。而對於非隨機因素所造成的癌症,則可藉由加強改變生活習慣、環境、施打疫苗等初級癌症預防(primary prevention)方法,以求降低罹癌風險。

近年來,因各領域中公開發表的研究報告數量大幅提升,整合分析(meta-analysis)成為運用多種來源資料,獲取統計結果的利器。然而無論是研究者或讀者,對於研究中原始資料之限制、假設命題的範圍,及統計方法的設計,皆須有充分的認識;並且對分析結果應審慎解讀,尤其研究若涉及多變項分析(multivariate analysis)時,需更加謹慎,以免做出數據無法支持的推論。


1.SEER資料庫:美國國家癌症研究院(National Cancer Institute, NCI)所建立的全國性癌症統計資料庫。該資料庫提供自1973年以來,美國癌症病例的臨床數據、人口學及存活時間等流行病學的統計數據,開放供研究使用。

2.斯皮爾曼係數:一種評量兩變數間相關性的非參數(non-parametric)指標,藉由兩變數的排序差異平方和以計算其相關程度。此係數可使用在,無法確定兩變數是否符合皮爾森相關係數(Pearson's correlation)的線性相關假設時。

3.聚類分析:依據集合中元素特定屬性的相似程度,將各元素分配至不同子集的統計分析方法。

延伸閱讀
1. Tomasetti, C. and Vogelstein, B., Variation in cancer risk among tissues can be explained by the number of stem cell divisions, Science, Vol. 347: 78-81, 2015.

2. Couzin-Frankel, J., The bad luck of cancer, Science, Vol. 347: 12, 2015.