跳到主要內容
判斷力實驗室 · Judgment Lab
正在準備工作環境...

指標解讀的陷阱:數字漂亮不代表業務好

2026 年,Meta 內部傳出一個讓業界笑不出來的故事:他們把「AI token 消耗量」綁進員工 KPI——你用了多少 AI、公司花了多少 token,進你的績效。結果呢?員工為了達成 KPI,開始狂燒 token:把可以一次問完的問題拆成五次問、把本來能用簡單指令完成的任務故意繞遠路。指標達成率 100%,token 費暴增,真實產出沒長。這是 2026 最新鮮的一個 Goodhart's Law 案例。

你可能會說這是大公司笑話。但同樣的事情,每天在你身邊的公司用更小的規模重演:把粉絲數當 KPI,結果有人花錢買假粉;把客訴解決數當 KPI,結果客服狂關單、用戶週後回頭找;把 PR 稿曝光當 KPI,結果公司花錢買媒體版面,實際品牌搜尋量沒漲。你的指標看起來漂亮,不代表業務真的好

這一課是整門課的差異化護城河。市面上 KPI 課 90% 教你怎麼定指標、怎麼算,幾乎沒有人認真教你指標會怎麼騙你。這一課要教四個最危險的陷阱——Goodhart's Law、Simpson's Paradox、Survivorship Bias、Cohort 切片——每個都配你能代入的案例,學完後你看任何「指標達標」的報告都會多一層警覺。


開場 callout:RARRA 是 2026 的主流認知

上一課提過 AARRR 和 RARRA。這裡補一句具體的:2026 的業界共識是——CAC 在過去 8 年漲了 222%,你不能再假設「拉進來就會買」。AARRR 以 Acquisition 起點的線性邏輯,適用於產品早期;產品一旦進入成長期,RARRA(留存優先)更合現實。留存是真正的漏斗起點,你留得住人,後面的活化、推薦、收入、獲客才有槓桿。這不是說 AARRR 錯了,是時代不一樣了。接下來講的很多陷阱,核心都是同一件事——看起來贏的那個指標,可能在另一個指標上默默在輸


Goodhart's Law:當指標變成目標,它就不再是好指標

這是四個陷阱裡最重要的一個。原文是 Charles Goodhart 1975 年一篇經濟學論文裡講的:「When a measure becomes a target, it ceases to be a good measure.」

翻成人話:你越認真盯一個指標,那個指標越容易被玩壞,最終變得不能代表你原本想衡量的東西

這個法則殺傷力之大,在於它不是偶爾發生、而是系統性必然。只要指標成為 KPI、綁到績效或預算,團隊就會找到路徑優化那個數字——包括路徑是真實改善、也包括路徑是旁門左道。而一個夠聰明的組織,會把兩條路都走。

下面這幾個是 2024-2026 年討論最多的教科書級案例:

案例一:Meta 的 AI token 消耗 KPI(2026)

本課開頭的故事。Meta 把 token 用量綁 KPI,員工為達標開始把簡單任務拆成多次呼叫、刻意用長 prompt、讓 AI 回答越囉嗦越好。這直接展示了 Goodhart 的核心——指標測的不再是「AI 帶來多少效益」,而是「員工多會玩 token」

防法:如果真的要衡量 AI 採用,要測的是「解決問題的效率提升」,不是 token 數量。配 counter metric:專案完成時間、結果品質評分、用戶滿意度。

案例二:Wells Fargo 的 products per household(2016 爆發,2026 仍是教科書)

Wells Fargo 以「每個家庭平均持有的產品數」當 KPI,要求員工推動既有客戶多買理財、信用卡、貸款。結果員工為了達標,開假帳戶——幫客戶偷偷開戶、買自己不知道的產品。爆發後公司付了數十億美元罰款,CEO 下台。LinkedIn 2026 年 3 月一篇文章把這個 case 稱為「教科書級 Goodhart 案例」。

核心在於:products per household 這個指標本身並不壞——更深的客戶關係確實代表更高價值。壞在於,一旦它變成硬性目標,而員工沒有合理的合規管道達成,他們就會找不合理的管道。

防法:高壓力 KPI 一定要配 counter metric。products per household 的 counter 應該是「客戶申訴率」「產品實際啟用率」「合規稽核抽樣」。沒有 counter,就是邀請別人作弊。

案例三:Uber 司機評分系統

前一課提過。Uber 用乘客星級評分當司機績效 KPI,評分太低會被停權。結果司機發展出一整套追評分的策略:上車送糖果、強迫閒聊、送行前拜託「5 星好評」、遇到爭議直接免費退費求好評。評分數字上升了,但服務品質沒變——指標在測的是司機多會哄人,不是多會開車

防法:不要用單一評分當績效 KPI。配多維指標:完單率、抱怨率、取消率、重複乘車率(真正喜歡這位司機的指標)。

案例四:Shopify CEO Tobi Lütke 公開批評 KPI

2025 年 2 月,Shopify 執行長 Tobi Lütke 在 YouTube 採訪中直接說「我不喜歡 KPI,也不喜歡 OKR」。他引用的就是 Goodhart's Law——當量測變成目標,它就不再是好量測。他的替代方案是:讓團隊理解公司要創造什麼價值,而不是追著某個數字跑

這不代表 Tobi 是對的、也不代表你該廢掉公司所有 KPI。但這是一個值得警惕的聲音:如果你們公司的 KPI 系統讓大家在追數字,不在創造價值,問題不在團隊,問題在 KPI 架構

如何防 Goodhart:三個實用原則

Goodhart 不是可以完全消除的病,是要一直管理的風險。你越認真盯一個指標,越要同時警惕它正在被優化掉。

Simpson's Paradox:整體和分組可能完全相反

第二個陷阱比較反直覺。Simpson's Paradox 指的是:同一份資料,整體看和分組看,可能得到完全相反的結論

它不是靠數學公式記住的,是靠你看過一次就不會忘的案例。來看 RetentionX 電商電子報 2025 年 2 月登的一個真實案例:

整體指標說「生意在衰退」,分層指標說「生意在成長」。兩個結論剛好相反,但資料是同一份。這就是 Simpson's Paradox。

中文圈更日常的例子:你看公司「整體 FB 廣告轉化率 2.5%」——但如果拆開:

當你看到「FB 整體 CVR 2.5%」,完全看不出其中一個 channel 表現是另一個的三倍。如果公司想把 CVR 拉到 3%,最有效的不是全面優化,是把低 CVR 通路的花費比例往高 CVR 通路搬——這只有分層看才看得出來。

Simpson 的實務教訓

教訓一:平均值 without context 沒意義。聽到「整體轉換率」「平均客單價」「整體留存率」,下意識應該問一句:切開是什麼樣子?

教訓二:分層切片是基本動作,不是進階技巧。不要覺得「要分層看太麻煩」,這是你避開誤判的最低成本保險。

教訓三:權重改變會騙過你。如果新客佔比、通路比例、商品組合改變了,不要把整體指標的變化當成「效率變化」——它可能只是 mix 變了。

你不用學公式。你只要養成一個習慣:看到整體指標異動,先問「這是不是 mix 效應?把它切開還是同一個結論嗎?」

Survivorship Bias:你看不到死掉的那些

第三個陷阱是倖存者偏差。標準定義是「只觀察活下來的樣本,會誤判整體規律」。但你要記住的版本更直白:

為什麼你不該學競品成功的指標?因為那些採用一樣指標但倒掉的公司,你看不到。

這個概念最早的有名案例是二戰:美軍統計被打後飛回來的飛機中彈位置,原本打算把中彈最多的地方加強裝甲——但一位統計學家 Abraham Wald 指出:你看到的是飛回來的飛機,中彈沒打到致命位置才飛得回來;真正該加強的是飛回來的飛機上「沒中彈」的地方——因為被打中那些地方的飛機,根本沒飛回來。

用在指標設計上,至少有三個常見錯誤:

錯誤一:學成功品牌的 NSM

很多行銷人看到 Airbnb 用「訂房夜數」、Slack 用「週活躍工作區」、Spotify 用「播放時長」,就想把這套邏輯直接套到自己公司。問題是:你只看到了 Airbnb、Slack、Spotify,沒看到用同樣邏輯的 50 個倒掉的公司。或許對有些產品,「使用時長」根本不是對的 NSM。Meta 也用「使用時長」當 NSM,代價是後來被批評讓用戶上癮、傷害心理健康——現在他們已經改指標了。

教訓:看成功案例的 NSM,你只能當靈感,不能當作業。你要回到前兩課的三條件(單一、長期、用戶價值)去驗證,看它是否適合你的業務本質。

錯誤二:只看「還在投的客戶」算 LTV

電商和 SaaS 最容易犯的錯。你算 LTV 時,如果只用「目前還是活躍的客戶」,你算出來的會是被倖存者篩選過的理想值——那些進來就走的、30 天就流失的,根本不在你的樣本裡。結果是:你以為 LTV 是 5,000 元,實際上「隨機一個新客進來」的期望 LTV 可能只有 2,000 元

防法:算 LTV 時要用 cohort 視角——挑一批「同期進來的新客」,追蹤他們在之後 N 個月的累計消費,包含中途走掉的(算 0 也算)。

錯誤三:看投報最好的廣告素材就加碼

行銷投放人常犯的錯。你看到「這支素材 ROAS 5.0」,立刻加預算。但你沒看到的是:高 ROAS 的素材可能只在某個特定受眾群裡有效,加預算後演算法被迫把素材推給更廣的族群,ROAS 就崩了。你看到的 5.0,是小樣本加窄受眾的倖存者。

防法:加碼前先看這支素材的覆蓋範圍和漸近規模。小樣本 ROAS 不能外推,要看多規模、多時段、多受眾的穩定性。

Cohort 切片:為什麼同期群才能看出真相

最後一個工具是 cohort。這個不是陷阱,是破解前面三個陷阱的共同武器

一個 cohort 是「在同一時間點、進入系統的一批用戶」。例如「2026 年 3 月註冊的所有新會員」「從 FB 廣告 A 素材進來的首訪者」「在 LINE 聯名活動期間的新客」。你要看留存、LTV、回購這些長尾指標時,幾乎永遠要用 cohort,而不是用整體平均

為什麼?看一個對照:

整體平均會把趨勢藏住,cohort 切片會把趨勢露出來

常用切法有三種:

這一課後的第 5 課,你設計儀表板時會至少用到一種 cohort 切法——一個儀表板如果沒有 cohort 切片,基本上都在提供被平均扭曲的資訊

電商三個典型陷阱案例

把四個工具串起來,看三個日常場景你會怎麼用:

每一個都是真實會在公司會議上出現的情境。你學會的四個工具——Goodhart / Simpson / Survivorship / Cohort——會讓你成為會議上那個先舉手說「等一下,我們再看深一點」的人。

三原則 rubric 回扣

這一課要特別強調 rubric 中的能比較。很多陷阱本質上是「比錯了」——比了整體不該比、沒配對應 cohort、沒 baseline。

能決策:你看到陷阱後,要能說出「所以下一步該查什麼」,不只是「這數字可疑」。

能歸因:陷阱案例的價值就是告訴你「別下錯結論」,因為錯的結論會歸因到錯的原因上。

能比較:這一課最核心。看任何指標變動,習慣問「比什麼?為什麼這個比是合理的?權重有沒有變?」

AI 協作:學了這個,跟 AI 怎麼配合?

AI 最會做的事,是幫你產生「可能的解釋」。當你看到一個異常數字,AI 能在 30 秒內給你 10 個可能原因。但 AI 不會主動提醒你這可能是 Goodhart 或 Simpson——除非你叫它檢查。

你的人類優勢:

  • 你知道公司內部哪些 KPI 是硬性綁獎懲的(Goodhart 風險最高)
  • 你知道公司最近什麼改變會影響 mix(新檔期、通路調整、客群擴張)
  • 你能判斷給你指標報告的人,是不是只給你看 cohort 的一部分

可以這樣跟 AI 說:

我是電商 PM。看到以下數字異動:「加購率從 15% 升到 22%,但訂單數持平,營收 -3%」。請你:一,列 8 個可能解釋;二,把它們分成「Goodhart 風險」「Simpson 風險」「資料陷阱」「真實營運問題」四類;三,每類建議要看哪個配對指標或 cohort 切片才能驗證;四,最後告訴我:如果我下週只能 follow up 3 件事,該查哪 3 件。提醒我有什麼業務脈絡如果不補,我可能誤判。

練習題

本課重點回顧

  • Goodhart's Law:指標變成目標,就不再能代表你想衡量的東西——配 counter metric 是基本要求
  • Simpson's Paradox:整體和分組可能結論相反——看整體指標動,先問「這是 mix 效應嗎?」
  • Survivorship Bias:你看不到死掉的樣本——學成功 NSM 要回到三條件驗證,不要照抄
  • Cohort 切片:破解前三個陷阱的共同武器——儀表板沒有 cohort,幾乎都在報告被平均扭曲的數字
  • 2026 新鮮案例:Meta 的 AI token KPI、Wells Fargo 的假帳戶、Uber 評分遊戲——全部 Goodhart
  • 你的角色:成為會議上先舉手說「等一下,我們再看深一點」的那個人
  • 下一課把所有工具整合:從業務模式到完整儀表板,一次跑完

互動示範

DEMO 1可以修改程式碼試玩
DEMO 2可以修改程式碼試玩
DEMO 3可以修改程式碼試玩
DEMO 4可以修改程式碼試玩
DEMO 5可以修改程式碼試玩
DEMO 6可以修改程式碼試玩
DEMO 7可以修改程式碼試玩
DEMO 8可以修改程式碼試玩

挑戰任務

Task 1

以下三個「看起來變好」的指標結果,請分別判斷最可能是哪種陷阱(Goodhart / Simpson / Survivorship / 其他),並寫出:(A) 要看哪個配對指標或 cohort 切片才能驗證真相;(B) 如果確認是陷阱,要配什麼 counter metric 預防未來重犯。案例 1:加購率從 15% 升到 22%,但訂單數持平、營收 -3%。案例 2:AI 內容產出量 KPI 達標 150%,但 NPS 下降 10 分。案例 3:FB 整體 CVR 從 2.5% 升到 3.1%,但 LTV:CAC 從 3.2 掉到 2.1。

Task 2

選一個 Goodhart 經典案例(Meta token / Wells Fargo / Uber 評分任選一個),分析:(A) 這個 KPI 原本想衡量什麼?(B) 它實際上被優化成什麼?(C) 如果你是當時的主管,會怎麼改 KPI 架構(不一定是廢掉,可能是加 counter metric、改用多指標、改評估週期)?

Task 3

找一個你公司(或你熟悉的公司)正在盯的指標,分析它是否有 Goodhart / Simpson / Survivorship 風險。如果有,具體寫出:(A) 風險來自哪個機制;(B) 你會建議新增哪個 cohort 切片或 counter metric;(C) 如果要說服主管調整,你會怎麼講這個故事讓他/她願意改。

BackNext Lesson →