呈現與報告篇 - 用真實的數據說出最大的謊言

在某次季度會議上,一位產品經理興奮地投出一張投影片,圖表上的線條呈現 45 度角向上飆升。「自從上週更新了深色模式後,用戶活躍度呈現了爆發式的增長!」台下掌聲雷動。

數據是真實的。圖表是軟體自動生成的。沒有人造假。

台下有人注意到了兩個細節:第一,這張圖表的 Y 軸從 95% 開始,而不是從 0 開始。所謂的「爆發式增長」,是活躍度從 95.1% 變成了 95.3%。第二,這張圖表只截取了「上週二到上週四」的數據,如果拉長到一個月,那條陡峭的線就是正常的波動噪音。

這就是**選擇性報告(Selective Reporting)**的本質:說真話,但只說一半。它比造假更危險,因為它披著「科學」與「客觀」的外衣。數據沒有問題,圖表沒有問題,選擇和你分享哪些數據的人,才是問題所在。


51. 截斷 Y 軸(Truncated Y-Axis):用比例感欺騙你的眼睛

當數據的絕對變化很小,但製圖者想讓它看起來「有故事性」,最簡單的方法是讓 Y 軸不從 0 開始。

CPU 使用率從 82% 波動到 84%,Y 軸如果從 0 到 100%,是一條幾乎平坦的線。如果 Y 軸從 80% 到 85%,那 2% 的變化就佔滿了整個圖表高度,看起來像火箭升空。數字沒有變,只是比例尺變了,但你的大腦對斜率的直覺反應覆蓋了對數值的理性判斷。

有時截斷 Y 軸是合理的:體溫圖表從 35°C 開始,而不是從 0°C,是因為 0°C 的體溫對醫療決策毫無意義。問題不是「Y 軸是否從 0 開始」,而是「截斷 Y 軸是否改變了數據的實質意義,讓細微的差距看起來是巨大的差距」。

看圖表的第一動作:看 Y 軸的起點和終點,然後問自己「如果 Y 軸從 0 開始,這條線還有故事嗎?」

52. 雙軸圖表誤導(Dual-Axis Manipulation):兩條「完美同步」的線,差了十倍

在同一張圖表上,用兩個不同刻度的 Y 軸分別呈現兩個變數,讓兩條線的視覺走勢看起來一致,暗示它們之間有強烈關聯。

某公司報告:「營收」和「用戶數」的增長曲線在圖表上完美重疊,看起來像是「用戶增長帶動了營收增長」的完美故事。但仔細看刻度:左軸(營收)是 0 到 1,000 萬,右軸(用戶數)是 0 到 100 萬。如果把兩者放在同一刻度下,營收線幾乎是平的,用戶線則急劇上升。它們的走勢根本不像,只是製圖者把刻度調整到讓它們「視覺上對齊」。

雙軸圖表本身不是問題,問題是用它來暗示兩個變數之間有你沒有論證的因果關係,或者刻意把刻度對齊以製造視覺上的「同步感」。

53. 櫻桃挑選(Cherry-Picking)/ 德州神槍手謬誤

一個德州人朝著穀倉牆壁亂開了好幾槍,然後在彈孔最密集的地方畫了一個靶心。於是,每個人都讚嘆他是個神槍手。

在 A/B 測試中,如果你同時測試了 20 種不同的設計變化,純粹基於機率,很可能會有 1 種「剛好」呈現出統計顯著的提升(p < 0.05)。如果你只報告這一次「成功」的實驗,隱藏了其他 19 次沒有效果的實驗,你就在靶心周圍畫了圈,不是因為你的設計有效,是因為你跑了夠多次。

這和多重比較謬誤(統計方法篇)密切相關:機制上是同一個問題,只是前者更多是「選擇性展示」的問題,後者更多是「統計解讀」的問題。

識別的關鍵問題:「這些結果代表了所有的嘗試,還是只代表被選出來呈現的嘗試?在這些成功案例背後,有多少個沒有被報告的失敗?」

54. 文件抽屜問題(File Drawer Problem):沉默是一種有組織的謊言

全球有 50 個實驗室同時測試「某種維他命能否預防感冒」。純粹基於機率,大約有 2–3 個實驗室會跑出顯著的正向結果(p < 0.05),即使這種維他命完全沒有效。其他 47 個實驗室得到了「無顯著差異」的結果,然後把報告鎖進抽屜,因為期刊不愛發表「沒有發現什麼」的研究。

幾年後,你看到文獻上有三篇論文顯示這種維他命有效,你以為這是科學的共識。但你永遠不知道那 47 個抽屜裡裝了什麼。

這不是個別研究者的道德問題,這是一個整個知識生產系統的結構性偏差。個人版本的文件抽屜問題出現在公司裡:每季每個團隊跑了 20 個實驗,只有成功的 3 個進了季報,其餘 17 個被默默取消。隨著時間累積,產品決策的知識庫裡充滿的全是「成功案例」,而那些反覆失敗的方向,沒有人記錄,也沒有人知道。下一個新人來,可能用不同的形式重蹈同樣的覆轍。

55. 發表偏差(Publication Bias):期刊是一個只選好消息的過濾器

發表偏差是文件抽屜問題的制度版本,規模從「個人選擇不報告」擴大到「整個出版業系統性偏向正向結果」。

相同品質的研究,發現「有效果」的比發現「無效果」的更容易被期刊接受。這不是邪惡,這是期刊的激勵結構:「無效果」的研究看起來沒有「故事性」,讀者不感興趣,期刊引用率也不好。

結果是:我們所能讀到的科學文獻,系統性地過度呈現了正向結果。一個療法看起來有效,可能只是因為無效的研究都沒有被發表,而有效的那幾個研究恰好通過了過濾器。這是醫學中「複製危機(Replication Crisis)」的重要原因之一。

文件抽屜問題和發表偏差的區別:前者是個人或團隊層面的選擇性沉默(「我選擇不把這個結果公開」),後者是出版系統層面的結構性過濾(「期刊選擇不發表這類結果」)。兩者共同作用,讓已發表的文獻不能代表所有已完成的研究。


呈現與報告的陷阱有一個特別之處:它不需要任何謊言。不說出失敗的實驗,不呈現不方便的比較,不提那 47 個鎖進抽屜的研究,每一步都是合法的選擇,但整體效果是系統性的誤導。

在接受任何圖表或結論之前,最重要的問題不是「這個數字對嗎」,而是「我看到的是所有的嘗試,還是被選出來的嘗試」。