大數據統計顯示:口袋裡有打火機的人,罹患肺癌的機率是沒有打火機的人的十倍以上。P 值顯著。
如果把這份數據丟給一個只懂相關性的 AI 模型,它給出的健康建議可能是:「為了降低罹癌風險,請立即丟棄您的打火機。」
荒謬嗎?你的直覺立刻能反駁:打火機不致癌,是抽菸致癌。抽菸的人隨身帶打火機,抽菸的人也更容易得肺癌。「抽菸」同時導致了「帶打火機」和「得肺癌」這兩個結果,它是幕後的大魔王,讓兩個本來不相干的變數看起來強烈相關。
問題是:現實世界裡,大多數的「打火機」沒有這麼明顯。我們每天在分析數據、建立模型、做決策的時候,那個幕後的第三方往往躲在看不見的地方。
19. 混雜因素(Confounding Factor):幕後的第三方
混雜因素(Confounder)是一個同時影響 X 和 Y 的變數,讓 X 和 Y 看起來有因果關係,實際上只是都被它影響著。
喝紅酒能長壽?大量研究顯示,適量飲酒的人比不喝酒的人壽命更長。酒商大肆宣傳,直到更嚴謹的研究揭開了真相:能每天悠閒喝紅酒的人,通常社會經濟地位較高,有更好的醫療條件、更健康的飲食、更小的生活壓力。是**「有錢」**讓他們長壽,也是有錢讓他們喝得起紅酒。紅酒是相關物,不是原因。
在產品開發中,「使用進階功能的用戶留存率更高」是一個常見的觀察。PM 的結論:強推進階功能給所有用戶。結果留存率沒變。因為**「忠誠度高的用戶」**(混雜因素)本來就更願意探索進階功能,是忠誠導致了使用,不是使用帶來了忠誠。
識別混雜因素的問題是:「有沒有什麼第三個變數,同時影響了我在研究的 X 和 Y?」
20. 反向因果(Reverse Causality):方向弄反了
「數據顯示,警察出勤率越高的街區,犯罪率越高。所以要降低犯罪率,應該減少警察出勤?」
這是因果倒置。是犯罪率高,才讓警察派更多人去。A 和 B 有關聯,但導致關聯的方向和你以為的相反。
在行銷分析中,這個陷阱極常見:「投放廣告越多的地區,銷量越高。」究竟是廣告帶來了銷量,還是因為那個地區本來就賣得好、市場需求大,行銷部門才決定投入更多預算?如果搞錯方向,你可能會在一個毫無潛力的市場燒光預算,期待廣告「創造」需求,但需求從來就不在那裡。
判斷因果方向的一個基本工具:時間順序。A 必須在 B 之前發生,才可能是 A 導致了 B。但時間順序是必要條件,不是充分條件,A 在 B 之前發生,不代表 A 就是 B 的原因。
21. 對撞結構(Collider Bias):篩選樣本創造了假相關
為什麼「帥哥通常是渣男」這個刻板印象那麼普遍?難道美貌真的會腐蝕人心?
不。這是樣本被篩選的結果。你會選擇交往或關注的對象,通常需要至少滿足一個條件:要嘛長得好看,要嘛脾氣好。又醜脾氣又差的人根本進不了你的社交圈。在你能觀察到的人裡,長得醜但還能成為你朋友的,脾氣一定很好;長得好看的,不需要脾氣好也能出現在你的視野。
結果:在你的樣本中,顏值和脾氣呈負相關,但在真實人口中,兩者可能根本無關。「進入你的社交圈」是一個對撞因子(Collider),它被顏值和脾氣共同導致,當你只在這個已篩選的樣本中觀察時,就製造了假相關。
在用戶滿意度分析中,類似的結構很常見:你只分析「繼續使用」的用戶,而「繼續使用」是被「滿意度」和「替代方案成本」共同篩選出來的。在這個樣本中看到的各種特徵之間的關係,未必反映真實用戶群體的關係。
22. 偽相關(Spurious Correlation):巧合,不是因果
冰淇淋銷量和溺水死亡人數呈現強烈正相關。如果你不知道有夏天這件事,你可能會以為冰淇淋致人溺水。
偽相關和混雜因素的差別:混雜因素是有意義的第三方(吸菸真的導致了帶打火機和肺癌),偽相關可能只是統計上的巧合,或者背後的機制非常間接。電影演員尼可拉斯·凱吉每年出演的電影數量,和美國游泳池溺死人數的相關係數長達多年都很高,沒有任何合理的因果機制。
在時間序列數據中,偽相關尤其容易出現:任何兩個同時呈增長趨勢的指標,都可以呈現高度相關,但它們之間可能根本沒有因果關係,只是都在增長。把「共同增長」誤認為「互相影響」,是時間序列分析中最常見的錯誤之一。
23. 中介變量謬誤(Mediation Fallacy):你切斷了你想研究的因果路徑
這是因果推論中最隱蔽的陷阱之一,技術上看起來正確,邏輯上卻完全錯誤。
假設你想研究新手引導功能(X)是否能改善 6 個月長期留存(Y)。你知道 Day-3 留存(M)是重要的早期指標,於是在回歸模型中控制了 M,想讓分析更「精確」。
結果:控制 M 後,新手引導對長期留存的效果幾乎消失。結論:「新手引導對長期留存沒有效。」
這個結論是錯的。新手引導之所以改善長期留存,正是因為它先改善了 Day-3 留存,而 Day-3 留存再影響了長期留存。因果路徑是 X → M → Y。當你控制了 M,你把 X 影響 Y 的主要途徑堵死了,自然看不到效果。你測到的不是「無效」,是你自己用分析方法切斷了因果鏈。
流行病學上把這個叫做「Table 2 謬誤」:在多變量回歸裡同時控制了中介變量和混雜因素,兩者必須被區分對待。控制混雜因素讓你的結論更準確;控制中介變量讓你的結論失去意義。問題是,不事先畫出因果圖,你根本不知道哪個是哪個。
從相關性到因果性的距離,比大多數人想的遠得多。相關性可以幫你「預測」(帶打火機的人肺癌風險確實比較高,可以用於保險定價),但如果你想「改變」某個結果,你必須找到真正的因果路徑。
建議一個習慣:每次看到「A 和 B 有關聯」,先畫一張簡單的因果圖。圓圈代表變數,箭頭代表你認為的因果方向。畫出來之後,你往往會發現有個沒被圓圈框住的第三方,正在默默地控制全局。