呈現與報告篇 - 用真實的數據說出最大的謊言

statistics selective-reporting data-visualization 2025-10-25

在某次季度會議上，一位產品經理興奮地投出一張投影片，圖表上的線條呈現 45 度角向上飆升。「自從上週更新了深色模式後，用戶活躍度呈現了爆發式的增長！」台下掌聲雷動。

數據是真實的。圖表是軟體自動生成的。沒有人造假。

台下有人注意到了兩個細節：第一，這張圖表的 Y 軸從 95% 開始，而不是從 0 開始。所謂的「爆發式增長」，是活躍度從 95.1% 變成了 95.3%。第二，這張圖表只截取了「上週二到上週四」的數據，如果拉長到一個月，那條陡峭的線就是正常的波動噪音。

這就是**選擇性報告（Selective Reporting）**的本質：說真話，但只說一半。它比造假更危險，因為它披著「科學」與「客觀」的外衣。數據沒有問題，圖表沒有問題，選擇和你分享哪些數據的人，才是問題所在。

51. 截斷 Y 軸（Truncated Y-Axis）：用比例感欺騙你的眼睛

當數據的絕對變化很小，但製圖者想讓它看起來「有故事性」，最簡單的方法是讓 Y 軸不從 0 開始。

CPU 使用率從 82% 波動到 84%，Y 軸如果從 0 到 100%，是一條幾乎平坦的線。如果 Y 軸從 80% 到 85%，那 2% 的變化就佔滿了整個圖表高度，看起來像火箭升空。數字沒有變，只是比例尺變了，但你的大腦對斜率的直覺反應覆蓋了對數值的理性判斷。

有時截斷 Y 軸是合理的：體溫圖表從 35°C 開始，而不是從 0°C，是因為 0°C 的體溫對醫療決策毫無意義。問題不是「Y 軸是否從 0 開始」，而是「截斷 Y 軸是否改變了數據的實質意義，讓細微的差距看起來是巨大的差距」。

看圖表的第一動作：看 Y 軸的起點和終點，然後問自己「如果 Y 軸從 0 開始，這條線還有故事嗎？」

52. 雙軸圖表誤導（Dual-Axis Manipulation）：兩條「完美同步」的線，差了十倍

在同一張圖表上，用兩個不同刻度的 Y 軸分別呈現兩個變數，讓兩條線的視覺走勢看起來一致，暗示它們之間有強烈關聯。

某公司報告：「營收」和「用戶數」的增長曲線在圖表上完美重疊，看起來像是「用戶增長帶動了營收增長」的完美故事。但仔細看刻度：左軸（營收）是 0 到 1,000 萬，右軸（用戶數）是 0 到 100 萬。如果把兩者放在同一刻度下，營收線幾乎是平的，用戶線則急劇上升。它們的走勢根本不像，只是製圖者把刻度調整到讓它們「視覺上對齊」。

雙軸圖表本身不是問題，問題是用它來暗示兩個變數之間有你沒有論證的因果關係，或者刻意把刻度對齊以製造視覺上的「同步感」。

53. 櫻桃挑選（Cherry-Picking）/ 德州神槍手謬誤

一個德州人朝著穀倉牆壁亂開了好幾槍，然後在彈孔最密集的地方畫了一個靶心。於是，每個人都讚嘆他是個神槍手。

在 A/B 測試中，如果你同時測試了 20 種不同的設計變化，純粹基於機率，很可能會有 1 種「剛好」呈現出統計顯著的提升（p < 0.05）。如果你只報告這一次「成功」的實驗，隱藏了其他 19 次沒有效果的實驗，你就在靶心周圍畫了圈，不是因為你的設計有效，是因為你跑了夠多次。

這和多重比較謬誤（統計方法篇）密切相關：機制上是同一個問題，只是前者更多是「選擇性展示」的問題，後者更多是「統計解讀」的問題。

識別的關鍵問題：「這些結果代表了所有的嘗試，還是只代表被選出來呈現的嘗試？在這些成功案例背後，有多少個沒有被報告的失敗？」

54. 文件抽屜問題（File Drawer Problem）：沉默是一種有組織的謊言

全球有 50 個實驗室同時測試「某種維他命能否預防感冒」。純粹基於機率，大約有 2–3 個實驗室會跑出顯著的正向結果（p < 0.05），即使這種維他命完全沒有效。其他 47 個實驗室得到了「無顯著差異」的結果，然後把報告鎖進抽屜，因為期刊不愛發表「沒有發現什麼」的研究。

幾年後，你看到文獻上有三篇論文顯示這種維他命有效，你以為這是科學的共識。但你永遠不知道那 47 個抽屜裡裝了什麼。

這不是個別研究者的道德問題，這是一個整個知識生產系統的結構性偏差。個人版本的文件抽屜問題出現在公司裡：每季每個團隊跑了 20 個實驗，只有成功的 3 個進了季報，其餘 17 個被默默取消。隨著時間累積，產品決策的知識庫裡充滿的全是「成功案例」，而那些反覆失敗的方向，沒有人記錄，也沒有人知道。下一個新人來，可能用不同的形式重蹈同樣的覆轍。

55. 發表偏差（Publication Bias）：期刊是一個只選好消息的過濾器

發表偏差是文件抽屜問題的制度版本，規模從「個人選擇不報告」擴大到「整個出版業系統性偏向正向結果」。

相同品質的研究，發現「有效果」的比發現「無效果」的更容易被期刊接受。這不是邪惡，這是期刊的激勵結構：「無效果」的研究看起來沒有「故事性」，讀者不感興趣，期刊引用率也不好。

結果是：我們所能讀到的科學文獻，系統性地過度呈現了正向結果。一個療法看起來有效，可能只是因為無效的研究都沒有被發表，而有效的那幾個研究恰好通過了過濾器。這是醫學中「複製危機（Replication Crisis）」的重要原因之一。

文件抽屜問題和發表偏差的區別：前者是個人或團隊層面的選擇性沉默（「我選擇不把這個結果公開」），後者是出版系統層面的結構性過濾（「期刊選擇不發表這類結果」）。兩者共同作用，讓已發表的文獻不能代表所有已完成的研究。

呈現與報告的陷阱有一個特別之處：它不需要任何謊言。不說出失敗的實驗，不呈現不方便的比較，不提那 47 個鎖進抽屜的研究，每一步都是合法的選擇，但整體效果是系統性的誤導。

在接受任何圖表或結論之前，最重要的問題不是「這個數字對嗎」，而是「我看到的是所有的嘗試，還是被選出來的嘗試」。

51. 截斷 Y 軸（Truncated Y-Axis）：用比例感欺騙你的眼睛

52. 雙軸圖表誤導（Dual-Axis Manipulation）：兩條「完美同步」的線，差了十倍

53. 櫻桃挑選（Cherry-Picking）/ 德州神槍手謬誤

54. 文件抽屜問題（File Drawer Problem）：沉默是一種有組織的謊言

55. 發表偏差（Publication Bias）：期刊是一個只選好消息的過濾器

Owen Hsiao (蕭為謙)