文章專區

2015-11-01科學研究現危機—多數研究結果都不可信？ 551 期

Author 作者吳佳瑾／佛光大學心理學系助理教授。不喜歡做瑣碎的事，喜歡動腦，因而踏上心理學研究的不歸路。研究興趣為知覺心理學與認知神經科學。

著名的學術期刊Science在2015年8月刊載了一篇文章，題為〈估計心理學研究的再現性（Estimating the reproducibility of psychological science）〉。此研究由270位研究者共同合作，重新執行了三本重要心理學期刊在2008年所刊登的100個研究。他們想知道有多少比率的研究結果可以成功地被再現。

研究團隊使用原作者提供的材料、設計與程序，並以較易偵測到效果的設計來看這些已發表的研究結果能否被再現。結果發現，大部份的研究無法成功地被複製！例如，以最常使用的統計顯著指標P＜0.05來看，這100個研究中原本有97%達到顯著，但在重新執行的研究中，僅有36%達到統計顯著；由另一項指標，效果量（effect size）來看，也僅有47%的研究結果成功地被複製。

再現性（reproducibility）是科學研究的要件。科學研究報告必須清楚說明研究方法及結果，一方面揭露研究結果是在何種情境下產生，以供他人瞭解、討論，一方面也讓他人可以採用相同的方法來複製研究。然而，這篇Science文章的作者表示，多項因素可能使得研究結果不可信或無法再現，且現行的研究發表制度重視研究的新奇性，複製他人結果的研究難以發表，令人難以知道研究結果的再現性有多高。若一研究結果無法再現，基於此研究結果的討論就沒有意義。由於在大規模地檢驗之後顯示再現率並不高，作者認為期刊投稿制度應在創新研究與複製研究之間取得平衡。

乍看之下，偏低的再現率似乎表示大多數的研究結果並不可信，或令人懷疑學術研究制度出了問題。但是否真是如此？在這裡，我們得先回到更基本的問題：哪些因素會影響再現性？即使在最嚴謹的科學研究上，研究結果的再現性也會受到許多因素的影響，包括：

1. 研究結果的推論

實證性的心理學研究是以研究結果來檢驗研究假設是否成立。例如，某研究想要檢驗某教學法是否有效，科學家會去估計「若此教學法無效，有多少機率我們的研究會得到這樣的結果」，若此機率小於5%，科學家會較有信心下結論說此教學法可能有效，此即所謂的統計顯著（statistically significant）。儘管如此，這個結論仍有5%的犯錯機率（在統計上稱為Type I error），意即，此教學法仍有5%的可能性是無效的。前文中所提到的P＜0.05即為此概念。因此，任何實證研究結果的推論都有犯錯的可能，百分之百的再現率在實際上並不可能。同樣地，即使在我們的例子中之教學法有效，也有可能純粹因為機率因素而得到該方法無效的結論（在統計上稱為Type II error）。因此，一個研究結果不能被成功地複製，有可能是因為原研究拉了假警報，但也可能是後來的複製研究未能偵測到應有的效果。

2. 已知或未知的差異
原研究與複製研究間的差異也會影響原研究結果的再現。心理學是探討人類行為的科學。人類行為不但具有個別差異與文化差異，且會受到情境脈絡的影響，只要複製研究中有一個已知或未知的關鍵因素改變了，所觀察到的結果就可能與原研究不同。

3. 研究偏誤
任何科學家都會有研究偏誤，傾向去證實自己認為是對的假設。因此，在研究設計、資料選擇、以及資料的分析與呈現上，都可能存在偏誤。心理學研究者在設計研究時會盡力避免偏誤。然而，研究偏誤卻無法完全避免。倘若研究偏誤存在，就有可能產生與事實不合的研究結果，進而影響研究結果的再現。

無法再現不表示研究結果不可信

承上，研究結果無法再現的原因，部份來自原研究和複製研究在統計推論上的不確定性，部份來自兩研究的差異，部份來自研究偏誤。除非這些因素能加以釐清，否則無法再現並不能完全咎責於原研究。尤其這篇文章所選擇的心理學研究中，43%屬於認知領域，57%屬於社會與人格領域，都是人類心智表現中較高層次者。這些領域通常存在較大的個別差異，研究結果也較容易受到各種已知和未知因素的影響。由於這些因素眾多，科學家們往往無法一一列舉，甚至無法意識到這些因素的影響。由於原研究和複製研究都會受到這些干擾變項（nuisance variable）的影響，即便兩研究結果有所差異，它們的結果也可能在各自的研究條件下皆為正確。

科學研究不乏複製研究

確實，現行的發表制度並不重視直接複製他人結果的研究。畢竟若一研究的方法和結果皆為已知，便無刊登的必要。因此，多數研究者並不會致力於直接複製別人的研究。然而，科學家仍常藉由其他方式來「複製」已發表研究。例如，一研究假設「顏色會影響作業表現」，也得到「操弄作業本的封面顏色」會影響「學童的四則運算表現」。其他研究者若想要再次檢驗此研究，可能會進行概念性的複製，給予原研究概念不同的操作型定義，觀察原假設是否依然成立，例如「操弄作業本上的印刷字色」來看學童的四則運算表現是否受到影響；或是加入其他變項來複製原研究，例如操弄作業本的封面顏色來看「高低年級」學童四則運算表現是否受影響。如此不僅可以檢驗原研究的結果，也可以進一步探討研究論述的適用範圍。

結論

此文章以實證法大規模探討了研究結果的可再現性，得到的結果有其重要性。雖然文章中所取樣的研究結果大部份無法再現，但這並不表示多數的科學研究都不可信，而是顯示了科學研究的複雜性。因此，研究者在研究過程中需更謹慎，讀者也須注意不應以單一研究的結果來下結論。

延伸閱讀 Open Science Collaboration, Estimating the reproducibility of psychological science, Science, Vol.349:6251, 2015.

文章專區

2015-11-01科學研究現危機—多數研究結果都不可信？ 551 期

無法再現不表示研究結果不可信

科學研究不乏複製研究

結論

相關推薦

認識科月

讀者服務