文章專區

2021-02-18我剛工作就出醜,只因不懂統計學 470 期

Author 作者 Han

從一件糗事說起

話說,當年我剛畢業開始工作的時候,總覺得作為一名軟體工程師,只要做好程式設計工作就萬事大吉了。可是,我工作出的第一個大醜,卻不是因為程式設計技術不行,而是不懂統計學鬧出的笑話。下面,我就把這個故事分享給你。

那時,我剛剛畢業。進入矽谷工作兩個月後,我人生中第一個重大專案終於完成了。這天傍晚下班前,我們決定向全球發布這個新功能。新功能上線後,效果真的非常不錯,我們可以清晰地看到各項指標瘋狂上漲,短短幾個小時,就已經達到了我們對這個季度的業務預期。於是,我就開心得早早回家慶祝了。

第二天早上到公司,我發現,我們團隊辦公桌旁邊牆上掛的數據大螢幕居然壞了—因為數據太好,讓顯示系統崩潰了。我暗自笑笑,悠閒地去吃了個全套英式早餐,之後,優雅地邊喝茶邊發了內部捷報—新產品上線,12 小時打破歷史紀錄。

然後,就是各種人故意路過我的辦公桌,給我打招呼恭喜。畢竟,一個剛到職的畢業生,能在兩個月內能取得這樣的成績十分難得。很快,到下班時間了,當我即將歡快地唱起《難忘今宵》並闔上電腦離開的時候,突然,產品經理給我發訊息—「又是祝賀的消息吧?」我想,「哎,年少成名真的好煩。」——可我定睛一看,這是一個新建的工作群組,群組名稱是「事故調查」,我一下就懵了。

打開群聊一看:「Han,你的產品,出事了。」我的第一個反應就是:啥?不對,不可能,我不信!因為,我可是監測了一天回測數據,全都正常啊!我當然不可能就這樣接受這個消息,畢竟,捷報我都發了,現在有問題,真的是啪啪打臉啊!

但是,事實果然如此:客服部門收到大量用戶投訴,一大部分用戶的App 無法正常使用了。透過事故運行紀錄分析,確實是因為我寫的那部分程式碼出了問題。我只能緊急地把新產品下線,灰溜溜地低下了頭。這時,我再看同事的目光,隱隱覺得他們的眼神裡流露著嘲笑和諷刺。

哎,工作以後第一次炫耀,就這麼失敗了,以出醜告終。

出了事,就要調查原因。可是,我自己搞了好幾天都沒什麼進展。因為真的是,所有傳回來的數據都表示,用戶沒有任何異常呀!這幾乎是一個悖論:數據顯示沒問題,但是用戶就是會投訴有問題。肯定是哪裡出錯了。

直到有一天我去公司的咖啡廳,和同事Tommy 閒聊。他問起我的近況,我就說了這件事。之後,Tommy語重心長地跟我說:「Han,你聽說過倖存者偏差(survivorship bias)嗎?」

倖存者偏差

Tommy跟我說,在第二次世界大戰的時候,英國空軍為了減少傷亡,分析了所有飛回來的戰鬥機的中彈統計,如下圖所示。
 

(原始圖片來源:維基百科Survivorship bias條目,作者:McGeddon)

 
人們發現,安全回來的戰鬥機,都是機翼上彈痕多,而機頭和機身的彈痕分布都不明顯。因此,大家普遍都覺得,為了加固飛機,應該重點關注機翼位置。這時,一個統計學教授亞伯拉罕.沃爾德(Abraham Wald)卻說,不對,最應該加強的部分,不應該是有很多彈痕的地方,而應該是機頭和機身。因為一旦機頭和機身中彈,整個飛機會損壞嚴重而被擊落,根本就沒有機會飛回來。

聽完之後,我靈光乍現,趕緊回去重新調查我的事故。最終發現,原來,只有對於那些沒問題的用戶,產品數據才會被成功傳回來,系統才有記錄。而對於那些App有問題的用戶,因為App會直接閃退,相關的數據回傳程式碼不會運行,因此我們後台根本沒有得到任何回傳數據!其實,它們就是那些被提前擊落的戰機啊!所以,這才造成了後端檢測數據一切正常的假象。

「倖存者偏差」是一個典型的統計學「統計偏差」概念,也是一個可以在生活中廣泛應用的原理,也可以被理解成「沉默的大多數」理論。其實質就是,在進行統計分析的時候,人們忽略了樣本的隨機性和全面性而造成了錯誤。因為人們只對部分人做了分析,從而得出了錯誤的結論。而在真實生活和工作中,往往就是因為一部分人沒有發聲,或者不能發聲,從而讓倖存者偏差更容易產生,我們一定要多多注意。

例如「讀書無用論」經常充斥在我們耳邊。經常有人會說「讀書有什麼用,你看誰誰誰,連小學都沒畢業,不還是成功了。」其實,絕大部分失敗者因為並沒有被媒體報導,而自己又沒有能力發聲被公眾注意,就等於被迫選擇了沉默,最終大眾並沒有辦法知道。如果能夠得到完整數據,並且計算確切的比例,我們可以發現,那些獲得高學歷的人,其實成功的機率更大。

還有,「飛機太不安全了,一天天總出事故」也是錯的。飛機是目前人類發明的最安全的交通工具,只不過是因為大部分空難都會被報導,讓你知道了,所以你覺得飛機出事的機率很高。而其他的如汽車等交通工具的事故,大多數並沒有被報導,因此就有了誤解。

另外,身邊還會經常出現這種現象:一部電影在影評網站上得分很差,可是周圍朋友對其評價還不錯。其實這同上面說的是一樣的道理。因為覺得電影「還能看得過去」的人,並不會在影評網站發表評論,反而是那些覺得電影很差的人,會怒氣沖沖地到網站上打上很低的分數。

再比如,「愛笑的女生運氣都不會差」,其實,運氣差的話根本笑不出來。還有,「為什麼爸媽不挑食」,因為他們在買菜的時候,都已經挑過了。

應用實戰

倖存者偏差在互聯網工作中應用非常廣泛。那麼怎麼避免倖存者偏差呢?首先,你的腦海中要時刻記著這個概念,千萬不要輕易地掉進統計偏差的陷阱。如果你是一位設計師或者產品經理,經常在產品後台收到用戶對一些功能提出的改進建議。那麼,你要不要立刻就聽他們的呢?其實,那些對產品滿意的用戶,都已經選擇了沉默。這時,你就要看看,這些「沉默的」人,是不是大多數了。你只需看看實際的整體用戶數據,計算一下,到底有多少比例的用戶在抱怨,你很快就會有答案。 再比如,你是一名新媒體小編,經營著一個臉書粉絲專頁。有時候,對於閱讀量還不錯的文章,卻發現收到了一些負面評價。這時,你可能會有點失望。我在寫我的原創公眾號「涵的硅谷成長筆記」時,一開始也常會有這個困擾。但後來我發現,文章閱讀量高,本來就已經說明有很多人認可你的觀點並且轉發了,那些寥寥無幾的負面評價,真的只是少數,不能代表全部讀者的行為。你應該讓自己的目光,多多注意到那些喜愛你的人身上。

在我們涉及那些要對「很多人」進行統計分析的時候,想想統計的樣本是不是「完全」且沒有「偏差」,是不是有某些樣本不能或者很難進入統計。只有做到這樣,我們才能有效避免偏差對工作帶來的影響。

除了倖存者偏差,下面再介紹其他三個常見的統計偏差案例。

其他常見統計偏差案例

回憶偏差(recall bias)
它是指人們對於自己過去的評價,會因當前狀況的不同而產生變化。

例如兩個當年英語成績都是100分的孩子,多年以後,一個出國留學了,另一個在國內發展。他們對自己小的時候的英語能力評判,往往是不一致的。那個出國留學的孩子,很可能印象中自己的英語從小就很好;而另一個在國內發展的孩子,很可能認為自己從小英語就不好。可事實是兩個人小時候英語分數都很高。

查爾斯.惠倫(Charles Wheelan)在他的書《聰明學統計的13又1/2堂課》(Naked statistics)中,介紹了一個很著名的實驗。1993年,一名哈佛大學的研究者進行了一項實驗。有兩組婦女,一組患有乳腺癌,而另一組健康。通過調查發現,患有乳腺癌的婦女,相比健康婦女,在她們年輕時有顯著的高脂肪飲食習慣。

但是,這其實並不是一項醫療研究,而是統計偏差實驗。

研究者早在多年前,就已經對兩組婦女的所有人進行了飲食習慣的記錄。而那時,她們均身體健康,而且她們的飲食習慣其實都很清淡。但是,多年以後,當一部分婦女遺憾地患病以後,她們對早年的自身行為居然有了偏差。她們會把當前身體患病的一部分原因,歸結於年輕時吃飯過於油膩。可見,患病不僅改變了這些婦女的現在、未來,甚至還改變了她們腦海中對於過去的記憶。

健康者偏差(healthy user bias)
它是指選擇的實驗受試者本身的行為,對實驗結果影響更大。

來看一個著名的「紫色睡衣」實驗。

有這樣一個統計結果:98%的哈佛畢業生,在他們小時候都穿過紫色睡衣。而在麻省監獄的犯人,只有3%的人在小時候穿過紫色睡衣。於是,人們得出結論:小時候穿紫色睡衣對個人發展十分重要,國家因此強制要求所有人在小時候穿紫色睡衣。

這科學嗎?顯然不。

紫色睡衣不重要,讓孩子穿上這些睡衣的父母和家庭才重要——他們往往是經濟條件和教育資源更好的家庭。正如《紐約時報》(The New York Times)健康專欄作家蓋瑞.陶布斯(Gary Taubes)解釋的那樣:「簡單地說,按醫囑服藥或吃他們認為有益健康的食物的人,跟那些不這樣做的人,有著根本上的不同。」

發表機會偏差(publication bias)
媒體界流傳一句話:「好事不出門,壞事傳千里」。

通常,一個公司或者名人的負面新聞,一定比正面消息傳播得更廣泛。因為人們喜歡八卦,更有人「唯恐天下不亂」。久而久之,為了流量,很多媒體就會偏向於發表負面內容,而對那些正向的或常規的新聞報導視而不見。

這樣,就造成了資訊傳播本身的偏誤。例如,你是一名科學家,做了一項統計調查,最終發現:小時候去網咖,對青少年近視其實沒有太大影響。那這篇報導就很有可能無法刊登,因為和「網咖對青少年有害」這樣的普遍負面認知不符。如果你切換幾個取樣對象,其實容易改變統計結論,變成「去網咖,會有很大機率造成青少年近視」就好了,再配上一個「網咖,正摧毀中國億萬青少年」的標題,那麼這篇報導的閱讀量一定會超過10萬。

所以,因為發表偏差,公眾日常接受的很多報導,尤其是負面報導,幾乎都不能代表某個個體或者企業的全部真實資訊,我們應當盡量保持理智和客觀的態度對待公關事件。

 
互聯網行業競爭激烈,重視盈利模式的科學性與可行性,永遠都那麼多采多姿、煙硝瀰漫。不管是蓬勃
發展的順風期,還是調整重組的逆風期,總有很多可愛的人物與有趣的案例讓人津津樂道。
作者Han從矽谷一流企業的實習生做起,後來成為獨當一面的頂尖軟體工程師。多年的實戰經驗讓他領
悟——互聯網企業面對的市場挑戰,任何其他類型的企業都要面對;互聯網從業者所需的涵養素質,任
何其他類型的職位都要具備。然而,有很多知識,在互聯網行業非常重要,但在學校從來不教。
《矽谷思維》從五個思維模式介紹矽谷的領先祕訣,拆解網路科技企業產品與營運,用平易近人的筆觸
描繪矽谷的成功地圖,用豐富有趣的案例講解內涵深奧的概念方法。
.產品思維:從人的本質心態出發,打造方向正確的產品
.數據思維:正確地對待數據資源,從而利用數據帶出產品的優化
.創業思維:理解矽谷創業氛圍,在失敗、週期、目標等概念中找到感覺
.增長思維:突破界限、解放頭腦,用更博大的胸懷迎接明天
.成長思維:自我激勵、完美溝通、提升效率、合理休息,為成長蓄力
網路時代,不論你從事哪一行、位於哪個職場位置,充足的知識儲備和溝通技巧已是入門基礎,更高的
格局和眼光,才是進階的必要條件。幸好,格局和眼光是可以培養的。
本書用一種對待用戶的心態對待每一位讀者,深入淺出理解互聯網邏輯背後的內容,不僅是科技產業人
士可以借鑑的思路,也為各行各業的你我,提供源源不絕的營養和動力!


書 名∣《矽谷思維:矽谷頂尖工程師實戰經驗總結,五大模式訓練邏輯
思考,職場技能提升+競爭力開外掛!》
作 者| Han
出版社|寶鼎出版
出版日| 2021 年2 月4 日