數字直覺陷阱篇 - 數學告訴你的，往往和你的直覺相反

statistics cognitive-bias probability data-aggregation 2025-12-06

在一場產品會議上，有人展示了一份用戶意願調查：「高達 80% 的受訪用戶表示非常需要這個新功能。」提案幾乎無法拒絕。

然後有人問了一個問題：「這份問卷是在哪裡發放的？」

「在 App 的『進階設定』頁面裡。」

問題出現了：根據後台數據，只有不到 5% 的用戶會點進進階設定。80% 的「想要」，乘上 5% 的「可能遇到這個功能的人」，等於整體用戶中只有 4% 真正想要它。那個讓人興奮的 80%，其實是一個被分母吞掉的幻象。

大腦被「80%」這個大數字吸引了，自動忽略了更重要的背景：基準率。這就是數字直覺陷阱的核心：數學計算出來的答案，和我們的直覺預期，往往不是同一個方向。

這一篇涵蓋兩種不同但相關的失敗模式：大腦處理機率時的系統性偏差（#13–15），以及把數據合在一起或拆開看時會出現的聚合悖論（#16–18）。

13. 基準率謬誤（Base Rate Fallacy）：忽略了最重要的分母

某種罕見疾病的患病率是 1%。有一種檢測方法準確率是 99%（有病的人 99% 會顯示陽性，沒病的人 99% 會顯示陰性）。如果你的檢測結果是陽性，你真正患病的機率是多少？

直覺說：「99% 準確率，應該接近 99% 吧？」

用 1000 人推演：

真正有病的人：10 人。其中 9.9 人顯示陽性（接近 10）。
健康的人：990 人。其中有 1% 誤報，即約 9.9 人被錯誤標記為陽性。
你拿到的陽性報告：約 20 份，其中真正有病的只有 10 份。

實際患病機率：約 50%，不是 99%。大腦完全忽略了「這個病本來就很罕見」這個背景數字。

在資安監控中，假設異常檢測系統準確率 99%，但駭客真正攻擊的基準率極低。工程師收到的警報中，絕大多數都是假警報。如果不懂基準率謬誤，最終結果往往是「警報被工程師忽略成習慣」，然後真正的攻擊在噪音中溜走。

14. 賭徒謬誤（Gambler’s Fallacy）：隨機性沒有記憶

連續拋硬幣出現 10 次正面，下一次反面的機率是多少？

直覺說：「機率應該要平衡回來了，反面的機率應該更高。」

硬幣沒有記憶。下一次出現正面或反面的機率依然各是 50%。過去的結果不影響未來，因為每次拋擲是獨立事件。

在工程環境中，這種思維是危險的：「系統已經連崩三次了，運氣應該會好轉，不會再崩了吧？」如果導致崩潰的根本原因（Root Cause）沒有修好，崩潰的機率不會因為「過去已經崩了很多次」而降低。期待隨機性自我修正，是一種精確的邏輯錯誤。

在 A/B 測試中，類似的錯誤是：「測試跑了這麼久都沒有顯著差異，再跑久一點一定會出現的。」不會。如果兩個版本真的沒差，繼續跑只是繼續製造噪音。

15. 小數定律（Law of Small Numbers）：小樣本不代表大真相

5 位用戶訪談，4 位說喜歡某功能。「80% 的用戶喜歡這個功能。」這是賭博，不是分析。

在小樣本中，極端結果出現的機率非常高。5 人裡有 4 人給正面反饋，可能只是因為剛好選到了喜歡的那幾個，或者是今天的用戶情緒特別好，或者純粹是運氣。這不是規律，是隨機性的雜訊。

A/B 測試的早期階段常看到這種錯誤：新版本在前 100 個用戶中表現極好，有人急著宣布勝利並停止測試。把樣本擴大到 10,000 人後，那個「顯著的優勢」往往就消失了，回歸到兩版本沒有差異的現實。

這是直覺的問題，不是技術問題。大腦天生傾向在少量觀察中尋找規律，然後相信那個規律是真的。對抗方法只有一個：算清楚你需要多大的樣本，才能看見你預期中的效果，也就是做功效分析（Power Analysis）。在統計方法篇會詳細討論。

接下來三種是另一類數字直覺陷阱：不是大腦對機率的直覺出了問題，而是把數據「合在一起」或「拆開來」看時，結論可以完全反轉。

16. 辛普森悖論（Simpson’s Paradox）：整體趨勢和每個子群體的趨勢方向相反

某產品團隊 A/B 測試的結果讓所有人從椅子上跳起來：

	舊版本	新版本
iOS 轉換率	6%	8%
Android 轉換率	3%	4%
整體轉換率	6%	5%

新版本在 iOS 和 Android 上的表現都更好，但整體反而更差。

謎底：A/B 流量分配出了問題。舊版本分到了 90% 的 iOS 用戶（高轉換），新版本分到了 80% 的 Android 用戶（低轉換）。新版本「背負」的是更難轉換的用戶群，加權平均後整體成績被拉低。

這是數學本身告訴你的事：整體趨勢的方向，由各子群體的「比重」決定，而不是由各子群體的「表現」決定。

在機器學習中，模型 A 在每個類別的準確率都高於模型 B，但如果測試集的類別分佈不均，合計後模型 B 的整體準確率可能更高。選錯了模型，因為你沒有看清楚分組的結構。

辛普森悖論不是罕見的統計奇觀，它在每個有「子群體比重差異」的數據集裡靜靜等待。解藥是：先分組看，再合計看，並永遠優先信任分組後的數據。

17. 生態學謬誤（Ecological Fallacy）：從群體推論個體

「統計顯示，富裕地區的平均壽命較高。所以如果你想長壽，搬去富裕地區？」

這就是生態學謬誤：用群體（宏觀）的統計特徵，去推論個體（微觀）的性質。富裕地區壽命長，可能是因為那裡住了有錢、本來就健康的人，而不是「住在那裡」這件事讓你長壽。搬過去但生活習慣不變，壽命不會改變。

在做用戶畫像時，常見的版本是：「這個年齡層的用戶平均每天使用 App 30 分鐘。」於是設計功能時假設每個用戶都會用滿 30 分鐘。但這個「平均 30 分鐘」可能是由 50% 的「0 分鐘（不活躍）」用戶和 50% 的「60 分鐘（重度）」用戶組成的。根本不存在一個「使用 30 分鐘」的典型用戶。針對「平均人」設計的產品，往往誰都討好不了。

18. 原子論謬誤（Atomistic Fallacy）：從個體推論群體

這是生態學謬誤的相反方向：用少數個體的極端經驗，去推論群體的規律。

「我爺爺每天抽菸喝酒活到 90 歲，醫學統計說吸菸有害健康是騙人的。」邏輯上的荒謬是顯而易見的，但在數據分析中，我們常因為過度關注極端值（Outliers）或個案分析（Case Study）而犯同樣的錯。

某個學校因為採用了新的教學法，學生成績大幅提升。教育主管機關於是將這個方法推廣到全縣所有學校。結果發現，那個方法只對「高社經地位、家長參與度高」的特定群體有效。推廣到資源匱乏的學校時，反而造成更大的落差。

從一個個體（一所學校）推論到群體（所有學校），忽略了結構性的差異，導致政策災難。個案研究有價值，但它的結論範圍是有邊界的。

這 6 種陷阱有一個共同的起源：我們的大腦是為了識別模式而演化的，而不是為了計算條件機率或抵抗加權平均的誤導。面對數字，最有效的防禦不是更強的直覺，而是養成一個習慣：看到任何比率，先問「分母是什麼」；看到任何整體趨勢，先問「分組之後長什麼樣子」。