如何衡量 GenAI 功能的 ROI?我用的 4 個指標
每一個做 GenAI 的 PM 都會遇到這個問題:
「AI 很好,但怎麼證明它值得投資?」
在銀行,這個問題更尖銳。因為每一筆 AI 的投資都需要和傳統 IT 項目競爭預算——而傳統項目的 ROI 已經有成熟的計算方式。
這篇分享我實際使用的四個 GenAI ROI 衡量指標。
指標 #1:效率提升率(Efficiency Gain)
定義: 使用 AI 前後,完成同一項任務所需時間的變化。
範例: 理財專員在「準備客戶面談資料」這個任務上:
-
AI 前:平均 25 分鐘(開五個系統、手動彙整)
-
AI 後:平均 3 分鐘(一個查詢取得整合建議)
效率提升率 = (25 - 3) / 25 = 88%
這個數字在跟主管報告時非常有力。但要注意:不要只量「最佳情境」。你需要取樣足夠大,涵蓋不同類型的查詢和不同經驗層級的使用者。
衡量方式:
-
系統端:記錄每次查詢的回應時間
-
使用者端:定期問卷 + 隨機訪談
-
對照組:留一群人不用 AI,做對照比較
指標 #2:品質提升率(Quality Improvement)
定義: 使用 AI 前後,回覆/建議的品質變化。
這個指標比效率更難量化,但更重要。
我們的做法:
建立一個「品質評分卡」,由業務專家每週抽檢 50 筆 AI 回覆,根據以下維度打分(1-5 分):
| 維度 | 說明 |
|---|---|
| 正確性 | 回覆的內容是否正確? |
| 完整性 | 是否涵蓋了所有相關面向? |
| 可讀性 | 語言是否流暢易懂? |
| 合規性 | 是否符合法規要求? |
| 實用性 | 對理財專員是否有實際幫助? |
結果: AI 回覆的平均品質分數從上線初期的 3.2 提升到穩定運行後的 4.1(滿分 5)。
指標 #3:採用率與黏著度(Adoption & Retention)
定義: 目標使用者中,有多少人在用 AI 功能?用了多久之後還繼續用?
這是最能反映 AI 產品是否真正解決痛點的指標。
我們追蹤的數據:
-
DAU/MAU(Daily / Monthly Active Users)
-
功能使用頻率:每週平均查詢次數
-
留存率:第一次使用後,第 7 天、第 30 天、第 90 天的留存
-
主動回訪率:使用者是否主動回來用(vs. 被要求使用)
我們的數據:
-
首月採用率:72%
-
第 90 天留存率:65%
-
週均查詢次數:12 次/人
關鍵洞察: 如果採用率高但留存率低,代表你的 AI 解決的不是真正的痛點——或者使用者試了之後覺得不夠好。
指標 #4:機會成本節省(Opportunity Cost Savings)
定義: AI 釋放出的人力時間,可以被重新配置到哪些更高價值的活動?
這是最容易被忽略、但往往最有說服力的指標。
邏輯:
如果 100 個理財專員每天各省下 20 分鐘,一年就省下:
- 100 人 × 20 分鐘 × 250 工作天 = 8,333 小時
這 8,333 小時如果被用於:
-
更多的客戶面談 → 潛在營收增加
-
進階客戶經營 → 客戶留存率提升
-
學習新產品知識 → 服務品質提升
把時間轉換成金額: 假設理財專員的時薪成本是 NT$800,8,333 小時 = NT$ 6,666,400。
這就是你可以跟主管說的數字。
如何呈現
最後,資料的呈現方式和資料本身一樣重要。我的建議:
-
一頁式 Dashboard:用四象限圖(效率 / 品質 / 採用 / 成本)一頁看完
-
趨勢線,不只看數字:主管想看的是「持續改善的方向」,不只是一個靜態數字
-
對比基期:永遠要有一個「AI 前」的基線數據
-
附上使用者回饋:數據配上一兩句真實用戶的回饋,說服力翻倍
這是「GenAI 產品實戰筆記」系列的第三篇。
💬 延伸閱讀: 2025 年度回顧與未來展望
Prompt Engineering 在企業場景的眉眉角角
企業級 prompt 跟個人使用完全不同。結構化、版本控制、多角色設計——這些是我踩過的坑。 個人用 ChatGPT 寫 prompt,最多就是「幫我寫一封信」。 企業用 LLM 寫 prompt,是一整套工程實踐。 這篇分享我在企業場景中做 prompt engineering 時,累積的幾個...
RAG 系統設計:金融知識庫的 3 個關鍵決策
在銀行建 RAG 系統,chunk 策略、embedding 模型、retrieval pipeline 三個決策點怎麼選?實戰經驗分享。 RAG(Retrieval-Augmented Generation)是 2024-2025 最熱門的企業 AI 架構。但真正在企業環境中建過 RAG 系統...
Prompt Engineering 在企業場景的眉眉角角
企業級 prompt 跟個人使用完全不同。結構化、版本控制、多角色設計——這些是我踩過的坑。 個人用 ChatGPT 寫 prompt,最多就是「幫我寫一封信」。 企業用 LLM 寫 prompt,是一整套工程實踐。 這篇分享我在企業場景中做 prompt engineering 時,累積的幾個...
RAG 系統設計:金融知識庫的 3 個關鍵決策
在銀行建 RAG 系統,chunk 策略、embedding 模型、retrieval pipeline 三個決策點怎麼選?實戰經驗分享。 RAG(Retrieval-Augmented Generation)是 2024-2025 最熱門的企業 AI 架構。但真正在企業環境中建過 RAG 系統...