抽樣偏差篇 - 你看到的世界,是一個被篩選過的世界

1943 年,美軍統計了所有飛回來的戰機,記錄彈孔分佈。機翼和機身彈孔密密麻麻,引擎和駕駛艙幾乎沒有。按直覺:加固彈孔最多的地方。統計學家 Abraham Wald 給出了相反的建議:「加固那些沒有彈孔的地方。」

道理很直接:我們看到的數據,只來自那些能飛回來的飛機。引擎中彈的飛機根本飛不回來,所以它們不在你的樣本裡。軍方以為在分析「所有飛機被擊中的位置」,實際上在分析「被擊中後還活著的飛機」,那是一個系統性篩選過的樣本。

這就是**抽樣偏差(Sampling Bias)**的本質:你分析的樣本不代表你想了解的整體。不是計算錯了,是數據在進入你手裡之前就已經歪了。


1. 倖存者偏差(Survivorship Bias):死掉的數據不說話

Wald 的洞察,本質上是一個問題的逆轉:不是問「這些數據說明了什麼」,而是問「什麼樣的數據不會出現在這裡」。

「比爾蓋茲、祖克柏、賈伯斯都沒有大學畢業,退學創業是通往成功的捷徑。」這是倖存者偏差最常被引用的版本。我們看到了那幾個活下來的名字,卻看不到成千上萬個死在車庫裡的創業者。失敗案例沒有辦法替自己發言。

在產品開發中,這個偏差每天都在發生:我們分析留存用戶的行為數據,發現他們非常喜歡某個「進階功能」,於是決定優化它。但我們忽略了那些在第一週就刪除 App 的用戶,也許正是那個功能太過複雜才導致他們離開。只聽倖存者的聲音,產品會越做越小眾。

2. 樣本選擇偏差(Sample Selection Bias):你的名單決定了你的結論

1936 年,美國總統大選前,《文學文摘》(Literary Digest)寄出了 1,000 萬份問卷,回收了 240 萬份有效回覆。數據顯示共和黨候選人蘭登將大勝羅斯福。同時,一個叫喬治·蓋洛普的年輕人,只用了 5 萬份樣本,預言羅斯福會大勝。

結果:羅斯福以 60.8% 得票率橫掃全美。《文學文摘》不久後倒閉。蓋洛普一戰成名。

為什麼 240 萬輸給 5 萬?問題出在名單。《文學文摘》從電話簿和汽車登記資料取樣。1936 年大蕭條時期,能裝電話、開得起車的人,大多是富裕階層,而富人傾向支持共和黨。不是回收率不夠高,而是那 240 萬份問卷從一開始就沒有覆蓋到窮人。

在數位時代,這種偏差更加隱蔽。你的數據採集 SDK 在低階 Android 手機上容易崩潰,那些設備的用戶行為就不在你的數據庫裡。你可能得出「用戶平均消費能力很高」的結論,但那只是因為買不起好設備的用戶被物理性地排除掉了。

3. 覆蓋偏差(Coverage Bias):你的抽樣框架遺漏了整個群體

這是樣本選擇偏差的系統性版本:不是隨機採樣做得不好,而是你的抽樣框架(Sampling Frame)根本就沒有覆蓋到某些群體。

線上問卷系統性地排除了沒有網路或不擅長數位工具的老年群體。Twitter 輿情分析只能看到「願意公開發文的人」的意見,那些不說話的沉默大多數,可能才是真正的多數意見,但他們不會出現在你的數據裡。

在分析用戶行為時,如果你的埋點只覆蓋了 App 內的行為,那些因為 App 介面太差而在第一頁就離開的用戶,幾乎不留下任何可分析的痕跡。你的數據庫裡全是「至少用了幾頁」的人,而那些連第一頁都撐不過去的,對你來說是透明的。

4. 自選偏差(Self-Selection Bias):只有情緒強烈的人才會開口

打開 App Store,你會看到一個明顯的「U 型分佈」,大量 5 星好評和大量 1 星差評,中間的 3 星稀少。這代表用戶對你的產品愛恨分明嗎?不,這代表只有情緒強烈的人才願意花時間評分。

這就是自選偏差。參與調查的人,不是隨機選出來的,是「自願決定要說話的人」。這群人在本質上和沉默的大多數不同:他們可能更忠誠、更憤怒、更有時間,或者只是更有意見。

在產品論壇或社群媒體上收集功能反饋時,你永遠聽到的是重度使用者或極度不滿者的聲音。那 80% 默默使用、既不狂熱也不憤怒的人,他們的數據是缺失的。根據論壇的聲音來修改產品,有時會把產品改得越來越複雜,嚇跑了普通用戶。

5. 便利抽樣偏差(Convenience Sampling Bias):最容易找到的人,不是你需要了解的人

在產品開發初期,最常做的事是「找身邊的同事試用」。這叫便利抽樣,因為這些數據最容易獲取。

問題在於,同事通常是科技愛好者:能忍受複雜的 UI,能理解晦澀的技術名詞,知道什麼是「滑動返回」,習慣了某種設計模式。某團隊在公司內部測試新功能時好評如潮,上線後真實用戶卻抱怨「找不到按鈕」,同事和真實用戶活在兩個不同的使用宇宙裡。

用便利樣本來驗證需求,就像在鏡子裡問自己「我帥不帥」。你得到的永遠是自我感覺良好的答案。

6. 時間窗口偏差(Time Window Bias):不同時間,不同的人

假設你在週一上午 10 點到 11 點進行 A/B 測試,新版首頁轉化率提升了 20%。你開心地全面上線,週末的銷量卻暴跌。

這不是測量時機選錯了(那是測量偏差的問題),而是選錯了時間段的人群。週一上午購物的人,可能是企業採購或在家工作者;週末購物的,可能是學生或上班族。行為模式完全不同。你的 A/B 測試樣本,代表的是「週一上午會出現的人」,不是「所有潛在用戶」。

監控系統效能時,如果你只分析非高峰時段的日誌,你對系統真實承載能力的認識,是基於一個完全不具代表性的時間窗口。


這 6 種偏差有一個共同的解藥:問「我的樣本是怎麼形成的,以及誰沒有出現在這裡」。這個問題聽起來簡單,但在數據量大、置信度看起來很高的情況下,幾乎沒有人會主動提出它。

Wald 的貢獻,不是更好的數學,而是更好的問題。