因果推論篇 - 為什麼 AI 建議你「扔掉打火機」來防癌？

statistics causal-inference confounding correlation 2026-01-17

大數據統計顯示：口袋裡有打火機的人，罹患肺癌的機率是沒有打火機的人的十倍以上。P 值顯著。

如果把這份數據丟給一個只懂相關性的 AI 模型，它給出的健康建議可能是：「為了降低罹癌風險，請立即丟棄您的打火機。」

荒謬嗎？你的直覺立刻能反駁：打火機不致癌，是抽菸致癌。抽菸的人隨身帶打火機，抽菸的人也更容易得肺癌。「抽菸」同時導致了「帶打火機」和「得肺癌」這兩個結果，它是幕後的大魔王，讓兩個本來不相干的變數看起來強烈相關。

問題是：現實世界裡，大多數的「打火機」沒有這麼明顯。我們每天在分析數據、建立模型、做決策的時候，那個幕後的第三方往往躲在看不見的地方。

19. 混雜因素（Confounding Factor）：幕後的第三方

混雜因素（Confounder）是一個同時影響 X 和 Y 的變數，讓 X 和 Y 看起來有因果關係，實際上只是都被它影響著。

喝紅酒能長壽？大量研究顯示，適量飲酒的人比不喝酒的人壽命更長。酒商大肆宣傳，直到更嚴謹的研究揭開了真相：能每天悠閒喝紅酒的人，通常社會經濟地位較高，有更好的醫療條件、更健康的飲食、更小的生活壓力。是**「有錢」**讓他們長壽，也是有錢讓他們喝得起紅酒。紅酒是相關物，不是原因。

在產品開發中，「使用進階功能的用戶留存率更高」是一個常見的觀察。PM 的結論：強推進階功能給所有用戶。結果留存率沒變。因為**「忠誠度高的用戶」**（混雜因素）本來就更願意探索進階功能，是忠誠導致了使用，不是使用帶來了忠誠。

識別混雜因素的問題是：「有沒有什麼第三個變數，同時影響了我在研究的 X 和 Y？」

「數據顯示，警察出勤率越高的街區，犯罪率越高。所以要降低犯罪率，應該減少警察出勤？」

這是因果倒置。是犯罪率高，才讓警察派更多人去。A 和 B 有關聯，但導致關聯的方向和你以為的相反。

在行銷分析中，這個陷阱極常見：「投放廣告越多的地區，銷量越高。」究竟是廣告帶來了銷量，還是因為那個地區本來就賣得好、市場需求大，行銷部門才決定投入更多預算？如果搞錯方向，你可能會在一個毫無潛力的市場燒光預算，期待廣告「創造」需求，但需求從來就不在那裡。

判斷因果方向的一個基本工具：時間順序。A 必須在 B 之前發生，才可能是 A 導致了 B。但時間順序是必要條件，不是充分條件，A 在 B 之前發生，不代表 A 就是 B 的原因。

為什麼「帥哥通常是渣男」這個刻板印象那麼普遍？難道美貌真的會腐蝕人心？

不。這是樣本被篩選的結果。你會選擇交往或關注的對象，通常需要至少滿足一個條件：要嘛長得好看，要嘛脾氣好。又醜脾氣又差的人根本進不了你的社交圈。在你能觀察到的人裡，長得醜但還能成為你朋友的，脾氣一定很好；長得好看的，不需要脾氣好也能出現在你的視野。

結果：在你的樣本中，顏值和脾氣呈負相關，但在真實人口中，兩者可能根本無關。「進入你的社交圈」是一個對撞因子（Collider），它被顏值和脾氣共同導致，當你只在這個已篩選的樣本中觀察時，就製造了假相關。

在用戶滿意度分析中，類似的結構很常見：你只分析「繼續使用」的用戶，而「繼續使用」是被「滿意度」和「替代方案成本」共同篩選出來的。在這個樣本中看到的各種特徵之間的關係，未必反映真實用戶群體的關係。

冰淇淋銷量和溺水死亡人數呈現強烈正相關。如果你不知道有夏天這件事，你可能會以為冰淇淋致人溺水。

偽相關和混雜因素的差別：混雜因素是有意義的第三方（吸菸真的導致了帶打火機和肺癌），偽相關可能只是統計上的巧合，或者背後的機制非常間接。電影演員尼可拉斯·凱吉每年出演的電影數量，和美國游泳池溺死人數的相關係數長達多年都很高，沒有任何合理的因果機制。

在時間序列數據中，偽相關尤其容易出現：任何兩個同時呈增長趨勢的指標，都可以呈現高度相關，但它們之間可能根本沒有因果關係，只是都在增長。把「共同增長」誤認為「互相影響」，是時間序列分析中最常見的錯誤之一。

這是因果推論中最隱蔽的陷阱之一，技術上看起來正確，邏輯上卻完全錯誤。

假設你想研究新手引導功能（X）是否能改善 6 個月長期留存（Y）。你知道 Day-3 留存（M）是重要的早期指標，於是在回歸模型中控制了 M，想讓分析更「精確」。

結果：控制 M 後，新手引導對長期留存的效果幾乎消失。結論：「新手引導對長期留存沒有效。」

這個結論是錯的。新手引導之所以改善長期留存，正是因為它先改善了 Day-3 留存，而 Day-3 留存再影響了長期留存。因果路徑是 X → M → Y。當你控制了 M，你把 X 影響 Y 的主要途徑堵死了，自然看不到效果。你測到的不是「無效」，是你自己用分析方法切斷了因果鏈。

流行病學上把這個叫做「Table 2 謬誤」：在多變量回歸裡同時控制了中介變量和混雜因素，兩者必須被區分對待。控制混雜因素讓你的結論更準確；控制中介變量讓你的結論失去意義。問題是，不事先畫出因果圖，你根本不知道哪個是哪個。

從相關性到因果性的距離，比大多數人想的遠得多。相關性可以幫你「預測」（帶打火機的人肺癌風險確實比較高，可以用於保險定價），但如果你想「改變」某個結果，你必須找到真正的因果路徑。

建議一個習慣：每次看到「A 和 B 有關聯」，先畫一張簡單的因果圖。圓圈代表變數，箭頭代表你認為的因果方向。畫出來之後，你往往會發現有個沒被圓圈框住的第三方，正在默默地控制全局。