第 4 / 5 課

正在準備工作環境...

指標解讀的陷阱：數字漂亮不代表業務好

2026 年，Meta 內部傳出一個讓業界笑不出來的故事：他們把「AI token 消耗量」綁進員工 KPI——你用了多少 AI、公司花了多少 token，進你的績效。結果呢？員工為了達成 KPI，開始狂燒 token：把可以一次問完的問題拆成五次問、把本來能用簡單指令完成的任務故意繞遠路。指標達成率 100%，token 費暴增，真實產出沒長。這是 2026 最新鮮的一個 Goodhart's Law 案例。

你可能會說這是大公司笑話。但同樣的事情，每天在你身邊的公司用更小的規模重演：把粉絲數當 KPI，結果有人花錢買假粉；把客訴解決數當 KPI，結果客服狂關單、用戶週後回頭找；把 PR 稿曝光當 KPI，結果公司花錢買媒體版面，實際品牌搜尋量沒漲。你的指標看起來漂亮，不代表業務真的好。

這一課是整門課的差異化護城河。市面上 KPI 課 90% 教你怎麼定指標、怎麼算，幾乎沒有人認真教你指標會怎麼騙你。這一課要教四個最危險的陷阱——Goodhart's Law、Simpson's Paradox、Survivorship Bias、Cohort 切片——每個都配你能代入的案例，學完後你看任何「指標達標」的報告都會多一層警覺。

開場 callout：RARRA 是 2026 的主流認知

上一課提過 AARRR 和 RARRA。這裡補一句具體的：2026 的業界共識是——CAC 在過去 8 年漲了 222%，你不能再假設「拉進來就會買」。AARRR 以 Acquisition 起點的線性邏輯，適用於產品早期；產品一旦進入成長期，RARRA（留存優先）更合現實。留存是真正的漏斗起點，你留得住人，後面的活化、推薦、收入、獲客才有槓桿。這不是說 AARRR 錯了，是時代不一樣了。接下來講的很多陷阱，核心都是同一件事——看起來贏的那個指標，可能在另一個指標上默默在輸。

Goodhart's Law：當指標變成目標，它就不再是好指標

這是四個陷阱裡最重要的一個。原文是 Charles Goodhart 1975 年一篇經濟學論文裡講的：「When a measure becomes a target, it ceases to be a good measure.」

翻成人話：你越認真盯一個指標，那個指標越容易被玩壞，最終變得不能代表你原本想衡量的東西。

這個法則殺傷力之大，在於它不是偶爾發生、而是系統性必然。只要指標成為 KPI、綁到績效或預算，團隊就會找到路徑優化那個數字——包括路徑是真實改善、也包括路徑是旁門左道。而一個夠聰明的組織，會把兩條路都走。

下面這幾個是 2024-2026 年討論最多的教科書級案例：

案例一：Meta 的 AI token 消耗 KPI（2026）

本課開頭的故事。Meta 把 token 用量綁 KPI，員工為達標開始把簡單任務拆成多次呼叫、刻意用長 prompt、讓 AI 回答越囉嗦越好。這直接展示了 Goodhart 的核心——指標測的不再是「AI 帶來多少效益」，而是「員工多會玩 token」。

防法：如果真的要衡量 AI 採用，要測的是「解決問題的效率提升」，不是 token 數量。配 counter metric：專案完成時間、結果品質評分、用戶滿意度。

案例二：Wells Fargo 的 products per household（2016 爆發，2026 仍是教科書）

Wells Fargo 以「每個家庭平均持有的產品數」當 KPI，要求員工推動既有客戶多買理財、信用卡、貸款。結果員工為了達標，開假帳戶——幫客戶偷偷開戶、買自己不知道的產品。爆發後公司付了數十億美元罰款，CEO 下台。LinkedIn 2026 年 3 月一篇文章把這個 case 稱為「教科書級 Goodhart 案例」。

核心在於：products per household 這個指標本身並不壞——更深的客戶關係確實代表更高價值。壞在於，一旦它變成硬性目標，而員工沒有合理的合規管道達成，他們就會找不合理的管道。

防法：高壓力 KPI 一定要配 counter metric。products per household 的 counter 應該是「客戶申訴率」「產品實際啟用率」「合規稽核抽樣」。沒有 counter，就是邀請別人作弊。

案例三：Uber 司機評分系統

前一課提過。Uber 用乘客星級評分當司機績效 KPI，評分太低會被停權。結果司機發展出一整套追評分的策略：上車送糖果、強迫閒聊、送行前拜託「5 星好評」、遇到爭議直接免費退費求好評。評分數字上升了，但服務品質沒變——指標在測的是司機多會哄人，不是多會開車。

防法：不要用單一評分當績效 KPI。配多維指標：完單率、抱怨率、取消率、重複乘車率（真正喜歡這位司機的指標）。

案例四：Shopify CEO Tobi Lütke 公開批評 KPI

2025 年 2 月，Shopify 執行長 Tobi Lütke 在 YouTube 採訪中直接說「我不喜歡 KPI，也不喜歡 OKR」。他引用的就是 Goodhart's Law——當量測變成目標，它就不再是好量測。他的替代方案是：讓團隊理解公司要創造什麼價值，而不是追著某個數字跑。

這不代表 Tobi 是對的、也不代表你該廢掉公司所有 KPI。但這是一個值得警惕的聲音：如果你們公司的 KPI 系統讓大家在追數字，不在創造價值，問題不在團隊，問題在 KPI 架構。

如何防 Goodhart：三個實用原則

Goodhart 不是可以完全消除的病，是要一直管理的風險。你越認真盯一個指標，越要同時警惕它正在被優化掉。

Simpson's Paradox：整體和分組可能完全相反

第二個陷阱比較反直覺。Simpson's Paradox 指的是：同一份資料，整體看和分組看，可能得到完全相反的結論。

它不是靠數學公式記住的，是靠你看過一次就不會忘的案例。來看 RetentionX 電商電子報 2025 年 2 月登的一個真實案例：

整體指標說「生意在衰退」，分層指標說「生意在成長」。兩個結論剛好相反，但資料是同一份。這就是 Simpson's Paradox。

中文圈更日常的例子：你看公司「整體 FB 廣告轉化率 2.5%」——但如果拆開：

當你看到「FB 整體 CVR 2.5%」，完全看不出其中一個 channel 表現是另一個的三倍。如果公司想把 CVR 拉到 3%，最有效的不是全面優化，是把低 CVR 通路的花費比例往高 CVR 通路搬——這只有分層看才看得出來。

Simpson 的實務教訓

教訓一：平均值 without context 沒意義。聽到「整體轉換率」「平均客單價」「整體留存率」，下意識應該問一句：切開是什麼樣子？

教訓二：分層切片是基本動作，不是進階技巧。不要覺得「要分層看太麻煩」，這是你避開誤判的最低成本保險。

教訓三：權重改變會騙過你。如果新客佔比、通路比例、商品組合改變了，不要把整體指標的變化當成「效率變化」——它可能只是 mix 變了。

你不用學公式。你只要養成一個習慣：看到整體指標異動，先問「這是不是 mix 效應？把它切開還是同一個結論嗎？」

Survivorship Bias：你看不到死掉的那些

第三個陷阱是倖存者偏差。標準定義是「只觀察活下來的樣本，會誤判整體規律」。但你要記住的版本更直白：

為什麼你不該學競品成功的指標？因為那些採用一樣指標但倒掉的公司，你看不到。

這個概念最早的有名案例是二戰：美軍統計被打後飛回來的飛機中彈位置，原本打算把中彈最多的地方加強裝甲——但一位統計學家 Abraham Wald 指出：你看到的是飛回來的飛機，中彈沒打到致命位置才飛得回來；真正該加強的是飛回來的飛機上「沒中彈」的地方——因為被打中那些地方的飛機，根本沒飛回來。

用在指標設計上，至少有三個常見錯誤：

錯誤一：學成功品牌的 NSM

很多行銷人看到 Airbnb 用「訂房夜數」、Slack 用「週活躍工作區」、Spotify 用「播放時長」，就想把這套邏輯直接套到自己公司。問題是：你只看到了 Airbnb、Slack、Spotify，沒看到用同樣邏輯的 50 個倒掉的公司。或許對有些產品，「使用時長」根本不是對的 NSM。Meta 也用「使用時長」當 NSM，代價是後來被批評讓用戶上癮、傷害心理健康——現在他們已經改指標了。

教訓：看成功案例的 NSM，你只能當靈感，不能當作業。你要回到前兩課的三條件（單一、長期、用戶價值）去驗證，看它是否適合你的業務本質。

錯誤二：只看「還在投的客戶」算 LTV

電商和 SaaS 最容易犯的錯。你算 LTV 時，如果只用「目前還是活躍的客戶」，你算出來的會是被倖存者篩選過的理想值——那些進來就走的、30 天就流失的，根本不在你的樣本裡。結果是：你以為 LTV 是 5,000 元，實際上「隨機一個新客進來」的期望 LTV 可能只有 2,000 元。

防法：算 LTV 時要用 cohort 視角——挑一批「同期進來的新客」，追蹤他們在之後 N 個月的累計消費，包含中途走掉的（算 0 也算）。

錯誤三：看投報最好的廣告素材就加碼

行銷投放人常犯的錯。你看到「這支素材 ROAS 5.0」，立刻加預算。但你沒看到的是：高 ROAS 的素材可能只在某個特定受眾群裡有效，加預算後演算法被迫把素材推給更廣的族群，ROAS 就崩了。你看到的 5.0，是小樣本加窄受眾的倖存者。

防法：加碼前先看這支素材的覆蓋範圍和漸近規模。小樣本 ROAS 不能外推，要看多規模、多時段、多受眾的穩定性。

Cohort 切片：為什麼同期群才能看出真相

最後一個工具是 cohort。這個不是陷阱，是破解前面三個陷阱的共同武器。

一個 cohort 是「在同一時間點、進入系統的一批用戶」。例如「2026 年 3 月註冊的所有新會員」「從 FB 廣告 A 素材進來的首訪者」「在 LINE 聯名活動期間的新客」。你要看留存、LTV、回購這些長尾指標時，幾乎永遠要用 cohort，而不是用整體平均。

為什麼？看一個對照：

整體平均會把趨勢藏住，cohort 切片會把趨勢露出來。

常用切法有三種：

這一課後的第 5 課，你設計儀表板時會至少用到一種 cohort 切法——一個儀表板如果沒有 cohort 切片，基本上都在提供被平均扭曲的資訊。

電商三個典型陷阱案例

把四個工具串起來，看三個日常場景你會怎麼用：

每一個都是真實會在公司會議上出現的情境。你學會的四個工具——Goodhart / Simpson / Survivorship / Cohort——會讓你成為會議上那個先舉手說「等一下，我們再看深一點」的人。

三原則 rubric 回扣

這一課要特別強調 rubric 中的能比較。很多陷阱本質上是「比錯了」——比了整體不該比、沒配對應 cohort、沒 baseline。

能決策：你看到陷阱後，要能說出「所以下一步該查什麼」，不只是「這數字可疑」。

能歸因：陷阱案例的價值就是告訴你「別下錯結論」，因為錯的結論會歸因到錯的原因上。

能比較：這一課最核心。看任何指標變動，習慣問「比什麼？為什麼這個比是合理的？權重有沒有變？」

AI 協作：學了這個，跟 AI 怎麼配合？

AI 最會做的事，是幫你產生「可能的解釋」。當你看到一個異常數字，AI 能在 30 秒內給你 10 個可能原因。但 AI 不會主動提醒你這可能是 Goodhart 或 Simpson——除非你叫它檢查。

你的人類優勢：

你知道公司內部哪些 KPI 是硬性綁獎懲的（Goodhart 風險最高）
你知道公司最近什麼改變會影響 mix（新檔期、通路調整、客群擴張）
你能判斷給你指標報告的人，是不是只給你看 cohort 的一部分

可以這樣跟 AI 說：

我是電商 PM。看到以下數字異動：「加購率從 15% 升到 22%，但訂單數持平，營收 -3%」。請你：一，列 8 個可能解釋；二，把它們分成「Goodhart 風險」「Simpson 風險」「資料陷阱」「真實營運問題」四類；三，每類建議要看哪個配對指標或 cohort 切片才能驗證；四，最後告訴我：如果我下週只能 follow up 3 件事，該查哪 3 件。提醒我有什麼業務脈絡如果不補，我可能誤判。

練習題

本課重點回顧

Goodhart's Law：指標變成目標，就不再能代表你想衡量的東西——配 counter metric 是基本要求
Simpson's Paradox：整體和分組可能結論相反——看整體指標動，先問「這是 mix 效應嗎？」
Survivorship Bias：你看不到死掉的樣本——學成功 NSM 要回到三條件驗證，不要照抄
Cohort 切片：破解前三個陷阱的共同武器——儀表板沒有 cohort，幾乎都在報告被平均扭曲的數字
2026 新鮮案例：Meta 的 AI token KPI、Wells Fargo 的假帳戶、Uber 評分遊戲——全部 Goodhart
你的角色：成為會議上先舉手說「等一下，我們再看深一點」的那個人
下一課把所有工具整合：從業務模式到完整儀表板，一次跑完

互動示範

DEMO 1可以修改程式碼試玩

DEMO 2可以修改程式碼試玩

DEMO 3可以修改程式碼試玩

DEMO 4可以修改程式碼試玩

DEMO 5可以修改程式碼試玩

DEMO 6可以修改程式碼試玩

DEMO 7可以修改程式碼試玩

DEMO 8可以修改程式碼試玩

挑戰任務

Task 1

以下三個「看起來變好」的指標結果，請分別判斷最可能是哪種陷阱（Goodhart / Simpson / Survivorship / 其他），並寫出：(A) 要看哪個配對指標或 cohort 切片才能驗證真相；(B) 如果確認是陷阱，要配什麼 counter metric 預防未來重犯。案例 1：加購率從 15% 升到 22%，但訂單數持平、營收 -3%。案例 2：AI 內容產出量 KPI 達標 150%，但 NPS 下降 10 分。案例 3：FB 整體 CVR 從 2.5% 升到 3.1%，但 LTV:CAC 從 3.2 掉到 2.1。

Task 2

選一個 Goodhart 經典案例（Meta token / Wells Fargo / Uber 評分任選一個），分析：(A) 這個 KPI 原本想衡量什麼？(B) 它實際上被優化成什麼？(C) 如果你是當時的主管，會怎麼改 KPI 架構（不一定是廢掉，可能是加 counter metric、改用多指標、改評估週期）？

Task 3

找一個你公司（或你熟悉的公司）正在盯的指標，分析它是否有 Goodhart / Simpson / Survivorship 風險。如果有，具體寫出：(A) 風險來自哪個機制；(B) 你會建議新增哪個 cohort 切片或 counter metric；(C) 如果要說服主管調整，你會怎麼講這個故事讓他/她願意改。

← BackNext Lesson →