在一場產品會議上,有人展示了一份用戶意願調查:「高達 80% 的受訪用戶表示非常需要這個新功能。」提案幾乎無法拒絕。
然後有人問了一個問題:「這份問卷是在哪裡發放的?」
「在 App 的『進階設定』頁面裡。」
問題出現了:根據後台數據,只有不到 5% 的用戶會點進進階設定。80% 的「想要」,乘上 5% 的「可能遇到這個功能的人」,等於整體用戶中只有 4% 真正想要它。那個讓人興奮的 80%,其實是一個被分母吞掉的幻象。
大腦被「80%」這個大數字吸引了,自動忽略了更重要的背景:基準率。這就是數字直覺陷阱的核心:數學計算出來的答案,和我們的直覺預期,往往不是同一個方向。
這一篇涵蓋兩種不同但相關的失敗模式:大腦處理機率時的系統性偏差(#13–15),以及把數據合在一起或拆開看時會出現的聚合悖論(#16–18)。
13. 基準率謬誤(Base Rate Fallacy):忽略了最重要的分母
某種罕見疾病的患病率是 1%。有一種檢測方法準確率是 99%(有病的人 99% 會顯示陽性,沒病的人 99% 會顯示陰性)。如果你的檢測結果是陽性,你真正患病的機率是多少?
直覺說:「99% 準確率,應該接近 99% 吧?」
用 1000 人推演:
- 真正有病的人:10 人。其中 9.9 人顯示陽性(接近 10)。
- 健康的人:990 人。其中有 1% 誤報,即約 9.9 人被錯誤標記為陽性。
- 你拿到的陽性報告:約 20 份,其中真正有病的只有 10 份。
實際患病機率:約 50%,不是 99%。大腦完全忽略了「這個病本來就很罕見」這個背景數字。
在資安監控中,假設異常檢測系統準確率 99%,但駭客真正攻擊的基準率極低。工程師收到的警報中,絕大多數都是假警報。如果不懂基準率謬誤,最終結果往往是「警報被工程師忽略成習慣」,然後真正的攻擊在噪音中溜走。
14. 賭徒謬誤(Gambler’s Fallacy):隨機性沒有記憶
連續拋硬幣出現 10 次正面,下一次反面的機率是多少?
直覺說:「機率應該要平衡回來了,反面的機率應該更高。」
硬幣沒有記憶。下一次出現正面或反面的機率依然各是 50%。過去的結果不影響未來,因為每次拋擲是獨立事件。
在工程環境中,這種思維是危險的:「系統已經連崩三次了,運氣應該會好轉,不會再崩了吧?」如果導致崩潰的根本原因(Root Cause)沒有修好,崩潰的機率不會因為「過去已經崩了很多次」而降低。期待隨機性自我修正,是一種精確的邏輯錯誤。
在 A/B 測試中,類似的錯誤是:「測試跑了這麼久都沒有顯著差異,再跑久一點一定會出現的。」不會。如果兩個版本真的沒差,繼續跑只是繼續製造噪音。
15. 小數定律(Law of Small Numbers):小樣本不代表大真相
5 位用戶訪談,4 位說喜歡某功能。「80% 的用戶喜歡這個功能。」這是賭博,不是分析。
在小樣本中,極端結果出現的機率非常高。5 人裡有 4 人給正面反饋,可能只是因為剛好選到了喜歡的那幾個,或者是今天的用戶情緒特別好,或者純粹是運氣。這不是規律,是隨機性的雜訊。
A/B 測試的早期階段常看到這種錯誤:新版本在前 100 個用戶中表現極好,有人急著宣布勝利並停止測試。把樣本擴大到 10,000 人後,那個「顯著的優勢」往往就消失了,回歸到兩版本沒有差異的現實。
這是直覺的問題,不是技術問題。大腦天生傾向在少量觀察中尋找規律,然後相信那個規律是真的。對抗方法只有一個:算清楚你需要多大的樣本,才能看見你預期中的效果,也就是做功效分析(Power Analysis)。在統計方法篇會詳細討論。
接下來三種是另一類數字直覺陷阱:不是大腦對機率的直覺出了問題,而是把數據「合在一起」或「拆開來」看時,結論可以完全反轉。
16. 辛普森悖論(Simpson’s Paradox):整體趨勢和每個子群體的趨勢方向相反
某產品團隊 A/B 測試的結果讓所有人從椅子上跳起來:
| 舊版本 | 新版本 | |
|---|---|---|
| iOS 轉換率 | 6% | 8% |
| Android 轉換率 | 3% | 4% |
| 整體轉換率 | 6% | 5% |
新版本在 iOS 和 Android 上的表現都更好,但整體反而更差。
謎底:A/B 流量分配出了問題。舊版本分到了 90% 的 iOS 用戶(高轉換),新版本分到了 80% 的 Android 用戶(低轉換)。新版本「背負」的是更難轉換的用戶群,加權平均後整體成績被拉低。
這是數學本身告訴你的事:整體趨勢的方向,由各子群體的「比重」決定,而不是由各子群體的「表現」決定。
在機器學習中,模型 A 在每個類別的準確率都高於模型 B,但如果測試集的類別分佈不均,合計後模型 B 的整體準確率可能更高。選錯了模型,因為你沒有看清楚分組的結構。
辛普森悖論不是罕見的統計奇觀,它在每個有「子群體比重差異」的數據集裡靜靜等待。解藥是:先分組看,再合計看,並永遠優先信任分組後的數據。
17. 生態學謬誤(Ecological Fallacy):從群體推論個體
「統計顯示,富裕地區的平均壽命較高。所以如果你想長壽,搬去富裕地區?」
這就是生態學謬誤:用群體(宏觀)的統計特徵,去推論個體(微觀)的性質。富裕地區壽命長,可能是因為那裡住了有錢、本來就健康的人,而不是「住在那裡」這件事讓你長壽。搬過去但生活習慣不變,壽命不會改變。
在做用戶畫像時,常見的版本是:「這個年齡層的用戶平均每天使用 App 30 分鐘。」於是設計功能時假設每個用戶都會用滿 30 分鐘。但這個「平均 30 分鐘」可能是由 50% 的「0 分鐘(不活躍)」用戶和 50% 的「60 分鐘(重度)」用戶組成的。根本不存在一個「使用 30 分鐘」的典型用戶。針對「平均人」設計的產品,往往誰都討好不了。
18. 原子論謬誤(Atomistic Fallacy):從個體推論群體
這是生態學謬誤的相反方向:用少數個體的極端經驗,去推論群體的規律。
「我爺爺每天抽菸喝酒活到 90 歲,醫學統計說吸菸有害健康是騙人的。」邏輯上的荒謬是顯而易見的,但在數據分析中,我們常因為過度關注極端值(Outliers)或個案分析(Case Study)而犯同樣的錯。
某個學校因為採用了新的教學法,學生成績大幅提升。教育主管機關於是將這個方法推廣到全縣所有學校。結果發現,那個方法只對「高社經地位、家長參與度高」的特定群體有效。推廣到資源匱乏的學校時,反而造成更大的落差。
從一個個體(一所學校)推論到群體(所有學校),忽略了結構性的差異,導致政策災難。個案研究有價值,但它的結論範圍是有邊界的。
這 6 種陷阱有一個共同的起源:我們的大腦是為了識別模式而演化的,而不是為了計算條件機率或抵抗加權平均的誤導。面對數字,最有效的防禦不是更強的直覺,而是養成一個習慣:看到任何比率,先問「分母是什麼」;看到任何整體趨勢,先問「分組之後長什麼樣子」。