測量偏差篇 - 你測量到的,不是你以為測量到的

隱私問卷上,90% 的用戶說他們「非常關心個人隱私」。

後台數據顯示,同一批用戶為了換取一個免費貼圖,毫不猶豫地授權了包括位置、聯絡人、麥克風在內的所有權限。

數據沒有造假,問卷回收率也很高。問題在於:你用問卷量的是「用戶願意說什麼」,不是「用戶實際怎麼做」。當測量工具和你真正想測量的東西之間有落差,你得到的每一個數字都是錯的,即使它在技術上是正確的。

這就是測量偏差(Measurement Bias):不是數字算錯了,而是你的「尺」從一開始就量錯了東西。


7. 社會期望偏差(Social Desirability Bias):受訪者在表演

問卷的回答,往往是受訪者對你期望什麼的猜測,而不是他們真實的想法和行為。

隱私問卷是最典型的例子。「你會定期更換密碼嗎?」大多數人回答「會」,後台日誌顯示他們的密碼三年沒換過。這不是謊言,這是大腦在「符合社會期待」和「回答真實情況」之間自動選了前者。

在做用戶滿意度調查時,這個偏差的力量尤其大。不滿意的用戶可能懶得填問卷,填了的用戶又因為不想讓開發者難堪而給出偏高的分數。依賴這種「自我報告(Self-reported)」的數據做決策,就像相信每個人在履歷上寫的「精通 Excel」一樣天真。

解法:用行為數據替代自我報告。用戶說他們怎麼做,比不上日誌記錄他們實際怎麼做。

8. 觀察者偏差(Observer Bias):測量者的主觀影響了結果

觀察者偏差是測量者本身的預期污染了測量結果,不是被測者在演戲,是測量者看錯了。

工程師在測試自己寫的 code 時,會下意識地避開那些「可能會出錯」的操作路徑。這不是刻意作弊,這是大腦在保護自尊:當你預期某個功能會成功,你會不自覺地選擇那些能證明它成功的測試案例。

在代碼審查中,如果你知道這段代碼是資深工程師寫的,你的審查標準會和它是實習生寫的時候不一樣,即使代碼本身一模一樣。這就是為什麼好的代碼審查流程,有時要遮蔽作者信息。

9. 回憶偏差(Recall Bias):記憶是編劇,不是攝影機

問用戶「過去一年你用了幾次這個功能?」得到的數據基本是廢的。

人類的記憶不是錄像機,它是根據情緒和故事性重建的。我們傾向於記住最高峰的體驗(Peak)和最近的結尾(End),遺忘過程中的大多數時刻。這就是 Kahneman 的 Peak-End Rule。

一個用戶可能記得他用某功能解決了一個緊急問題(印象深刻),但忘記了他之前試用了十幾次都覺得沒用而放棄的那些時刻。你收到的是他記得的版本,不是他實際的使用軌跡。

解法:永遠優先使用系統日誌(System Logs),而不是用戶自述(User Recall)。行為數據比問卷數據誠實。

10. 工具與測量誤差(Instrument & Measurement Error):尺本身是彎的

用一個有延遲的監控系統測量 API 響應時間,得到的全是噪音。這不是分析方法的問題,是測量工具本身引入了誤差。

在技術領域,這種偏差更常出現在「工具差異」上:iOS 和 Android 的留存率差異,可能不是兩個版本的功能差異造成的,而是因為你的資料採集 SDK 在某些低階 Android 機型上會崩潰,導致那些用戶的數據根本沒傳回來。你看到的「留存率差距」,只是數據缺失的假象。

不同版本 App 的上報邏輯不一致,也是常見的工具偏差:新版本把某個事件的定義改了,舊版本還在用舊定義,跨版本的數據比較變成了蘋果比橘子。

在設計數據採集前,最重要的問題不是「我要量什麼」,而是「我的量測方式,會不會系統性地量到另一件事」。

11. 確認偏差(蒐集階段)(Confirmation Bias in Collection):只記錄你想看到的

這與分析階段的確認偏差不同。這裡說的是:在數據蒐集階段,就只記錄符合你預期的觀察。

當你覺得某個同事很懶,你會在他每次休息時特別注意,記在腦子裡;而他加班的時刻,你沒有同樣地標記。久而久之,你的「印象數據庫」裡只有他偷懶的時刻,形成了一個有偏差的樣本,不是因為你造假,而是因為你的注意力從一開始就不對稱。

在做用戶研究時,如果你已經有了對某個設計方向的傾向,你在訪談時問的問題、追問的方向、記錄的重點,都可能系統性地往那個方向靠。最後拿到的「用戶反饋」,更像是你自己想法的回聲,而不是用戶真實的聲音。

12. 時間與季節偏差(Temporal & Seasonal Bias):你在錯誤的時刻量了正確的數字

半夜 3 點測量網站流量,得到的數字是正確的(確實只有 10 個人在線),但這個數字對白天的決策毫無意義。數值沒有錯,只是它根本不代表你想了解的情況。

季節性偏差是時間偏差的另一個面向:健身 App 在一月份的數據會好得離譜,用戶暴增、活躍度高,這是新年新希望效應,不是你的新功能有效。如果你在一月份上線了新功能,然後把那個月的數據成長歸因於功能,你會得出一個完全錯誤的結論。

電商在十二月的銷量暴增,不是你的改版成功了,是聖誕節。把季節性波動當作自己努力的成果,是最常見的自欺欺人。

時間偏差和抽樣偏差篇的「時間窗口偏差」有一個關鍵的差別:時間窗口偏差是選錯了時間段的人群(不同時間出現的人不同),時間與季節偏差是選錯了時間點來量一個本來就會隨時間波動的現象。前者是「誰進了你的樣本」,後者是「你的測量時機讓數字失真」。


測量偏差告訴我們一件事:看得見的數字,往往是一個代理人,代理的是某個你真正想測量的東西。當這個代理人本身有偏差,你做的所有後續分析都是在一個錯誤的地基上建高樓。

在接受任何數字之前,先問一句:「這個數字是怎麼來的,它測量的,真的是我以為它測量的東西嗎?」