實驗設計篇 - 你以為實驗是公正的，但它從一開始就不是

statistics experiments survey-design research-methods 2026-02-14

1924 年，西方電氣公司在芝加哥郊外的霍桑工廠做了一個實驗：研究改善照明條件是否能提高工人的生產效率。

實驗組在更好的燈光下工作，效率提升了。然後他們把燈光調暗，效率還是提升了。研究者繼續嘗試各種改變，包括縮短工時、改變休息頻率、重新排列工作台。幾乎每一種改變都讓效率提升，不管變化的方向是什麼。

最終他們意識到：讓生產效率提升的，不是燈光，不是工時，而是「被關注」這件事本身。工人知道自己在被研究，所以他們更認真地工作。

這就是實驗設計最棘手的問題：你問一個問題，問的方式已經塑造了答案。你觀察一個行為，觀察的存在已經改變了那個行為。你設計一個實驗，實驗的結構本身已經決定了你能看見什麼。

沒有完全中立的實驗。好的實驗設計不是消除這些問題，而是把這些問題帶進已知的範圍裡，讓它的影響可以被估計和控制。

42. 霍桑效應（Hawthorne Effect）：被觀察就會改變行為

被測者因為意識到自己被觀察而主動改變了行為。在 App 的用戶研究中，邀請用戶「來測試新功能」這件事本身，就已經讓這群用戶和一般用戶不同了，他們更投入，更願意嘗試，更不容易放棄。你測到的不是「普通用戶使用新功能的行為」，而是「知道自己在被測試的用戶的行為」。

在遠端工作文化下，這個效應更難處理：當你宣布「本週我們要觀察工程師的生產效率」，你測到的是「知道被觀察的工程師」的效率，不是平時的效率。管理者常犯的錯誤是把觀察期間的數據當作基準，然後訂下在正常情況下不可能持續的指標。

43. 安慰劑效應（Placebo Effect）：功能沒改變，用戶感覺變了

被測者因為相信自己受到了干預，而產生了真實的效果，哪怕干預本身毫無作用。

用戶收到「我們更新了演算法，為你提供更個人化的體驗」的通知後，可能真的覺得體驗變好了，即使後端什麼都沒改。在藥物臨床試驗中，安慰劑組有 20–30% 的患者報告症狀改善是很常見的，他們沒有收到真藥，但他們相信自己收到了。

霍桑效應和安慰劑效應看起來相似，但機制不同：霍桑效應是被測者因為「知道自己在被觀察」而改變；安慰劑效應是被測者因為「相信干預有效」而改變。前者是表現的改變，後者是主觀感受的改變，有時兩者都同時發生。

44. 實驗者期望效應（Experimenter Expectancy Effect）：研究者的期待影響了受試者

研究者的眼神、語氣、追問方式，不知不覺地告訴了受試者「正確答案」是什麼。即使研究者沒有刻意引導，細微的肢體語言和措辭選擇也可能系統性地影響結果。

Rosenthal 效應（也叫畢馬龍效應）是一個著名的例子：老師被告知某些學生是「潛力無限的快速學習者」（實際上是隨機選的），這些學生一年後的成績真的比其他人更好。老師的期待改變了他們的教學行為，而這影響了學生的表現。

雙盲設計（Double-blind）的存在就是為了對抗這兩個效應，連研究者自己都不知道哪組是實驗組。當連研究者都不知道，就沒有期待可以被傳遞。

45. 干預偏差（Intervention Bias）：除了你設計的變因，還有其他東西不同

對照組與實驗組受到的對待，在實驗變因以外的地方出現了差異。

最常見的形式：實驗組用戶收到了「感謝你參與測試新功能」的郵件，對照組沒有。這封郵件是一種干預，無論功能好不好，光是受到特別關注這件事，就可能影響用戶的行為。你無法區分「功能帶來的效果」和「被當作特殊用戶帶來的效果」。

在 A/B 測試中，如果實驗組和對照組的用戶獲取時間不同（例如實驗組是週五，對照組是週一），那些天的特性可能就成了一個不受控制的干預。

46. 無回應偏差（Non-Response Bias）：沒填問卷的人，和填了的人，本質不同

問卷回收率 20%，那 80% 沒有回應的人，和填了的那 20% 是同一群人嗎？幾乎肯定不是。

為什麼人會填問卷？他們有時間，他們有強烈的感受（非常滿意或非常不滿意），他們關心這個產品，或者他們只是更配合研究。為什麼人不填？他們太忙，他們感受不強烈，他們早就不用了，或者他們根本找不到問卷入口。

在滿意度調查中，那沉默的 80% 可能恰恰是你最需要了解的人：不特別滿意也不特別不滿意的「隱形大多數」，或者流失後就再也不接觸產品的人。只聽 20% 的聲音，你得到的是一個系統性偏斜的圖像。

47. 問卷偏差（Questionnaire Bias）：問題的措辭和設計，決定了答案的方向

問題的表述方式、選項的設計、問題的順序，都可以系統性地影響答案。這不一定是刻意的，但效果是一樣的。

「你喜歡這個新功能嗎？」和「你對這個新功能有什麼看法？」問出的是完全不同的數據。前者已經預設了一個傾向，用戶需要主動「反對」才能給出負面回答；後者是開放的，用戶可以自然說出任何感受。

「你認為價格合理嗎？（1-5 分）」和「你覺得這個功能值多少錢？」也會得到不同的結果。前者用「合理」這個詞已經暗示你覺得它應該合理；後者讓用戶自己形成判斷。

選項的設計也很重要：如果你的滿意度量表是「非常滿意、滿意、還行」，你就已經刪除了負面選項，強迫用戶在正面選項中選擇。

48. 資訊偏差（Information Bias）：你的數據標籤本身就是錯的

垃圾進，垃圾出。在機器學習中，如果訓練數據的標籤（Labels）由人工完成，標註者的偏見、疲勞、理解差異，都會系統性地污染你的模型。

不同標註員對「正面情緒」的定義可能不一致。一個標註員把「這個 App 還可以」標為正面，另一個標為中性。你的 1000 萬條訓練數據，是由不同標準的人在不同狀態下標出來的混合物。模型學到的是「標註員的偏見」，不是「用戶真實的情緒」。

在醫療數據中，診斷標準的不一致（不同醫院、不同醫生）導致同樣的症狀被標記成不同的疾病，或者同樣的疾病被標記成不同的診斷代碼。你用這些數據訓練的模型，實際上在學習「診斷不一致」的規律，而不是疾病本身的規律。

49. 檢測偏差（Detection Bias）：找得越努力，發現得越多，不代表現象越普遍

尋找某現象的努力程度不同，導致發現率的差異被誤認為是現象本身的差異。

癌症篩查在富裕地區更密集，所以富裕地區「發現」更多早期癌症。這不是因為富裕地區的癌症更多，而是因為他們更認真地找了。如果你只看「確診率」，你會得出「富裕地區癌症發生率更高」這個完全錯誤的結論。

在技術領域：如果你只對付費用戶做詳細的錯誤追蹤，而免費用戶只有基本日誌，你會發現付費用戶遇到的 Bug「更多」。實際上是因為你在更認真地追蹤他們。把這個差異當作「付費用戶有更多問題需要解決」的依據，會導致資源錯誤分配。

50. 排除偏差（Exclusion Bias）：把異常值刪掉，可能刪掉了最重要的信號

在數據清理階段，「把明顯的異常值刪掉」聽起來合理。但那些「異常」可能正是你最需要了解的用戶。

如果你在分析用戶行為時，把「使用時間超過 8 小時的用戶」當作異常值刪除，你可能刪掉了你最忠誠的重度用戶，他們的使用模式就是和普通用戶不同，這才是他們的特點，不是數據錯誤。

如果你把「崩潰的 session 數據」當作噪音排除，你排除的正是「App 崩潰了」這個事實本身。用戶因為崩潰離開 App 的行為，不是「不正常」，是你要修的問題。

異常值有兩種：真正的數據錯誤（例如記錄了一個顯然不可能的數值）和真實世界中的極端但真實的情況。前者應該清除，後者需要理解，而不是刪除。

實驗設計的挑戰，幾乎都圍繞著「如何讓你測量到的東西，盡可能接近你真正想知道的東西」。觀察本身會改變被觀察的事物，問題本身會影響答案，排除標準本身會影響你能看到什麼。好的實驗設計，不是找到一個不受這些問題影響的方法，而是把這些問題的影響量化、控制，讓它對你的結論的污染程度是已知的，而不是未知的。