1924 年,西方電氣公司在芝加哥郊外的霍桑工廠做了一個實驗:研究改善照明條件是否能提高工人的生產效率。
實驗組在更好的燈光下工作,效率提升了。然後他們把燈光調暗,效率還是提升了。研究者繼續嘗試各種改變,包括縮短工時、改變休息頻率、重新排列工作台。幾乎每一種改變都讓效率提升,不管變化的方向是什麼。
最終他們意識到:讓生產效率提升的,不是燈光,不是工時,而是「被關注」這件事本身。工人知道自己在被研究,所以他們更認真地工作。
這就是實驗設計最棘手的問題:你問一個問題,問的方式已經塑造了答案。你觀察一個行為,觀察的存在已經改變了那個行為。你設計一個實驗,實驗的結構本身已經決定了你能看見什麼。
沒有完全中立的實驗。好的實驗設計不是消除這些問題,而是把這些問題帶進已知的範圍裡,讓它的影響可以被估計和控制。
42. 霍桑效應(Hawthorne Effect):被觀察就會改變行為
被測者因為意識到自己被觀察而主動改變了行為。在 App 的用戶研究中,邀請用戶「來測試新功能」這件事本身,就已經讓這群用戶和一般用戶不同了,他們更投入,更願意嘗試,更不容易放棄。你測到的不是「普通用戶使用新功能的行為」,而是「知道自己在被測試的用戶的行為」。
在遠端工作文化下,這個效應更難處理:當你宣布「本週我們要觀察工程師的生產效率」,你測到的是「知道被觀察的工程師」的效率,不是平時的效率。管理者常犯的錯誤是把觀察期間的數據當作基準,然後訂下在正常情況下不可能持續的指標。
43. 安慰劑效應(Placebo Effect):功能沒改變,用戶感覺變了
被測者因為相信自己受到了干預,而產生了真實的效果,哪怕干預本身毫無作用。
用戶收到「我們更新了演算法,為你提供更個人化的體驗」的通知後,可能真的覺得體驗變好了,即使後端什麼都沒改。在藥物臨床試驗中,安慰劑組有 20–30% 的患者報告症狀改善是很常見的,他們沒有收到真藥,但他們相信自己收到了。
霍桑效應和安慰劑效應看起來相似,但機制不同:霍桑效應是被測者因為「知道自己在被觀察」而改變;安慰劑效應是被測者因為「相信干預有效」而改變。前者是表現的改變,後者是主觀感受的改變,有時兩者都同時發生。
44. 實驗者期望效應(Experimenter Expectancy Effect):研究者的期待影響了受試者
研究者的眼神、語氣、追問方式,不知不覺地告訴了受試者「正確答案」是什麼。即使研究者沒有刻意引導,細微的肢體語言和措辭選擇也可能系統性地影響結果。
Rosenthal 效應(也叫畢馬龍效應)是一個著名的例子:老師被告知某些學生是「潛力無限的快速學習者」(實際上是隨機選的),這些學生一年後的成績真的比其他人更好。老師的期待改變了他們的教學行為,而這影響了學生的表現。
雙盲設計(Double-blind)的存在就是為了對抗這兩個效應,連研究者自己都不知道哪組是實驗組。當連研究者都不知道,就沒有期待可以被傳遞。
45. 干預偏差(Intervention Bias):除了你設計的變因,還有其他東西不同
對照組與實驗組受到的對待,在實驗變因以外的地方出現了差異。
最常見的形式:實驗組用戶收到了「感謝你參與測試新功能」的郵件,對照組沒有。這封郵件是一種干預,無論功能好不好,光是受到特別關注這件事,就可能影響用戶的行為。你無法區分「功能帶來的效果」和「被當作特殊用戶帶來的效果」。
在 A/B 測試中,如果實驗組和對照組的用戶獲取時間不同(例如實驗組是週五,對照組是週一),那些天的特性可能就成了一個不受控制的干預。
46. 無回應偏差(Non-Response Bias):沒填問卷的人,和填了的人,本質不同
問卷回收率 20%,那 80% 沒有回應的人,和填了的那 20% 是同一群人嗎?幾乎肯定不是。
為什麼人會填問卷?他們有時間,他們有強烈的感受(非常滿意或非常不滿意),他們關心這個產品,或者他們只是更配合研究。為什麼人不填?他們太忙,他們感受不強烈,他們早就不用了,或者他們根本找不到問卷入口。
在滿意度調查中,那沉默的 80% 可能恰恰是你最需要了解的人:不特別滿意也不特別不滿意的「隱形大多數」,或者流失後就再也不接觸產品的人。只聽 20% 的聲音,你得到的是一個系統性偏斜的圖像。
47. 問卷偏差(Questionnaire Bias):問題的措辭和設計,決定了答案的方向
問題的表述方式、選項的設計、問題的順序,都可以系統性地影響答案。這不一定是刻意的,但效果是一樣的。
「你喜歡這個新功能嗎?」和「你對這個新功能有什麼看法?」問出的是完全不同的數據。前者已經預設了一個傾向,用戶需要主動「反對」才能給出負面回答;後者是開放的,用戶可以自然說出任何感受。
「你認為價格合理嗎?(1-5 分)」和「你覺得這個功能值多少錢?」也會得到不同的結果。前者用「合理」這個詞已經暗示你覺得它應該合理;後者讓用戶自己形成判斷。
選項的設計也很重要:如果你的滿意度量表是「非常滿意、滿意、還行」,你就已經刪除了負面選項,強迫用戶在正面選項中選擇。
48. 資訊偏差(Information Bias):你的數據標籤本身就是錯的
垃圾進,垃圾出。在機器學習中,如果訓練數據的標籤(Labels)由人工完成,標註者的偏見、疲勞、理解差異,都會系統性地污染你的模型。
不同標註員對「正面情緒」的定義可能不一致。一個標註員把「這個 App 還可以」標為正面,另一個標為中性。你的 1000 萬條訓練數據,是由不同標準的人在不同狀態下標出來的混合物。模型學到的是「標註員的偏見」,不是「用戶真實的情緒」。
在醫療數據中,診斷標準的不一致(不同醫院、不同醫生)導致同樣的症狀被標記成不同的疾病,或者同樣的疾病被標記成不同的診斷代碼。你用這些數據訓練的模型,實際上在學習「診斷不一致」的規律,而不是疾病本身的規律。
49. 檢測偏差(Detection Bias):找得越努力,發現得越多,不代表現象越普遍
尋找某現象的努力程度不同,導致發現率的差異被誤認為是現象本身的差異。
癌症篩查在富裕地區更密集,所以富裕地區「發現」更多早期癌症。這不是因為富裕地區的癌症更多,而是因為他們更認真地找了。如果你只看「確診率」,你會得出「富裕地區癌症發生率更高」這個完全錯誤的結論。
在技術領域:如果你只對付費用戶做詳細的錯誤追蹤,而免費用戶只有基本日誌,你會發現付費用戶遇到的 Bug「更多」。實際上是因為你在更認真地追蹤他們。把這個差異當作「付費用戶有更多問題需要解決」的依據,會導致資源錯誤分配。
50. 排除偏差(Exclusion Bias):把異常值刪掉,可能刪掉了最重要的信號
在數據清理階段,「把明顯的異常值刪掉」聽起來合理。但那些「異常」可能正是你最需要了解的用戶。
如果你在分析用戶行為時,把「使用時間超過 8 小時的用戶」當作異常值刪除,你可能刪掉了你最忠誠的重度用戶,他們的使用模式就是和普通用戶不同,這才是他們的特點,不是數據錯誤。
如果你把「崩潰的 session 數據」當作噪音排除,你排除的正是「App 崩潰了」這個事實本身。用戶因為崩潰離開 App 的行為,不是「不正常」,是你要修的問題。
異常值有兩種:真正的數據錯誤(例如記錄了一個顯然不可能的數值)和真實世界中的極端但真實的情況。前者應該清除,後者需要理解,而不是刪除。
實驗設計的挑戰,幾乎都圍繞著「如何讓你測量到的東西,盡可能接近你真正想知道的東西」。觀察本身會改變被觀察的事物,問題本身會影響答案,排除標準本身會影響你能看到什麼。好的實驗設計,不是找到一個不受這些問題影響的方法,而是把這些問題的影響量化、控制,讓它對你的結論的污染程度是已知的,而不是未知的。