- 評論
文章專區
2015-11-01科學研究現危機—多數研究結果都不可信?
551 期
Author 作者
吳佳瑾/佛光大學心理學系助理教授。不喜歡做瑣碎的事,喜歡動腦,因而踏上心理學研究的不歸路。研究興趣為知覺心理學與認知神經科學。
著名的學術期刊Science在2015年8月刊載了一篇文章,題為〈估計心理學研究的再現性(Estimating the reproducibility of psychological science)〉。此研究由270位研究者共同合作,重新執行了三本重要心理學期刊在2008年所刊登的100個研究。他們想知道有多少比率的研究結果可以成功地被再現。
研究團隊使用原作者提供的材料、設計與程序,並以較易偵測到效果的設計來看這些已發表的研究結果能否被再現。結果發現,大部份的研究無法成功地被複製!例如,以最常使用的統計顯著指標P<0.05來看,這100個研究中原本有97%達到顯著,但在重新執行的研究中,僅有36%達到統計顯著;由另一項指標,效果量(effect size)來看,也僅有47%的研究結果成功地被複製。
再現性(reproducibility)是科學研究的要件。科學研究報告必須清楚說明研究方法及結果,一方面揭露研究結果是在何種情境下產生,以供他人瞭解、討論,一方面也讓他人可以採用相同的方法來複製研究。然而,這篇Science文章的作者表示,多項因素可能使得研究結果不可信或無法再現,且現行的研究發表制度重視研究的新奇性,複製他人結果的研究難以發表,令人難以知道研究結果的再現性有多高。若一研究結果無法再現,基於此研究結果的討論就沒有意義。由於在大規模地檢驗之後顯示再現率並不高,作者認為期刊投稿制度應在創新研究與複製研究之間取得平衡。
乍看之下,偏低的再現率似乎表示大多數的研究結果並不可信,或令人懷疑學術研究制度出了問題。但是否真是如此?在這裡,我們得先回到更基本的問題:哪些因素會影響再現性?即使在最嚴謹的科學研究上,研究結果的再現性也會受到許多因素的影響,包括:
1. 研究結果的推論
實證性的心理學研究是以研究結果來檢驗研究假設是否成立。例如,某研究想要檢驗某教學法是否有效,科學家會去估計「若此教學法無效,有多少機率我們的研究會得到這樣的結果」,若此機率小於5%,科學家會較有信心下結論說此教學法可能有效,此即所謂的統計顯著(statistically significant)。儘管如此,這個結論仍有5%的犯錯機率(在統計上稱為Type I error),意即,此教學法仍有5%的可能性是無效的。前文中所提到的P<0.05即為此概念。因此,任何實證研究結果的推論都有犯錯的可能,百分之百的再現率在實際上並不可能。同樣地,即使在我們的例子中之教學法有效,也有可能純粹因為機率因素而得到該方法無效的結論(在統計上稱為Type II error)。因此,一個研究結果不能被成功地複製,有可能是因為原研究拉了假警報,但也可能是後來的複製研究未能偵測到應有的效果。
2. 已知或未知的差異
原研究與複製研究間的差異也會影響原研究結果的再現。心理學是探討人類行為的科學。人類行為不但具有個別差異與文化差異,且會受到情境脈絡的影響,只要複製研究中有一個已知或未知的關鍵因素改變了,所觀察到的結果就可能與原研究不同。
3. 研究偏誤
任何科學家都會有研究偏誤,傾向去證實自己認為是對的假設。因此,在研究設計、資料選擇、以及資料的分析與呈現上,都可能存在偏誤。心理學研究者在設計研究時會盡力避免偏誤。然而,研究偏誤卻無法完全避免。倘若研究偏誤存在,就有可能產生與事實不合的研究結果,進而影響研究結果的再現。
無法再現不表示研究結果不可信
承上,研究結果無法再現的原因,部份來自原研究和複製研究在統計推論上的不確定性,部份來自兩研究的差異,部份來自研究偏誤。除非這些因素能加以釐清,否則無法再現並不能完全咎責於原研究。尤其這篇文章所選擇的心理學研究中,43%屬於認知領域,57%屬於社會與人格領域,都是人類心智表現中較高層次者。這些領域通常存在較大的個別差異,研究結果也較容易受到各種已知和未知因素的影響。由於這些因素眾多,科學家們往往無法一一列舉,甚至無法意識到這些因素的影響。由於原研究和複製研究都會受到這些干擾變項(nuisance variable)的影響,即便兩研究結果有所差異,它們的結果也可能在各自的研究條件下皆為正確。
科學研究不乏複製研究
確實,現行的發表制度並不重視直接複製他人結果的研究。畢竟若一研究的方法和結果皆為已知,便無刊登的必要。因此,多數研究者並不會致力於直接複製別人的研究。然而,科學家仍常藉由其他方式來「複製」已發表研究。例如,一研究假設「顏色會影響作業表現」,也得到「操弄作業本的封面顏色」會影響「學童的四則運算表現」。其他研究者若想要再次檢驗此研究,可能會進行概念性的複製,給予原研究概念不同的操作型定義,觀察原假設是否依然成立,例如「操弄作業本上的印刷字色」來看學童的四則運算表現是否受到影響;或是加入其他變項來複製原研究,例如操弄作業本的封面顏色來看「高低年級」學童四則運算表現是否受影響。如此不僅可以檢驗原研究的結果,也可以進一步探討研究論述的適用範圍。
結論
此文章以實證法大規模探討了研究結果的可再現性,得到的結果有其重要性。雖然文章中所取樣的研究結果大部份無法再現,但這並不表示多數的科學研究都不可信,而是顯示了科學研究的複雜性。因此,研究者在研究過程中需更謹慎,讀者也須注意不應以單一研究的結果來下結論。
延伸閱讀 Open Science Collaboration, Estimating the reproducibility of psychological science, Science, Vol.349:6251, 2015.