AI 的使用成本在今年悄悄爬升,讓許多以工程團隊為主導的公司措手不及。它看起來不像典型的雲成本增長方式:來自 Bedrock 的幾筆“神秘”賬單、Azure Cognitive Services 的一筆大額收費,再加上幾項 Vertex AI 服務 —— 總和突然變得讓人不太舒服。
如果你是一個快速迭代的小型或中型團隊,你沒有時間去精通每一家雲廠商的計費細節。你真正需要的只有兩件事:
- 清楚瞭解是誰在用哪些模型、在哪兒用、為什麼用。
- 建立緊緻但輕量的護欄,讓成本保持可控,同時不拖慢交付速度。
這篇文章就是一份簡明的行動手冊,幫你同時做到這兩點。
為什麼 AI 成本讓人感覺“不透明”(尤其在多雲環境中)
AI 成本之所以格外“難以看清”,主要源於以下三種模式:
1. 不同封裝方式導致的 Token 計費混亂
同樣的 Prompt,在不同平台會以完全不同的計費方式出現:
- 在 AWS 中以 Marketplace 的 “units” 出現
- 在 Azure 中是 Token Bundles
- 在 GCP 中則是 “按調用 + 按字符數” 的組合計費
結果就是:沒有辦法做成本對比。
2. 默認歸因(Attribution)能力薄弱
大多數 LLM 調用如果你不主動傳參,是不會帶上團隊、服務或用户標識的。
因此:
- CUR(成本使用報告)和賬單隻會告訴你“用了什麼”
- 卻不會告訴你“為什麼 / 誰用的”
3. 商業模式混雜,難以統一理解
常見的計費方式會並存於同一個組織裏:
- 席位位制(如 Copilot、Chat Enterprise)
- 預付額度(如 Snowflake、Databricks 的 AI Credits)
- 按量計費的 API(LLM 推理、Embedding、Reranker)
有些是預付,有些是按需,全都混在同一張賬單上。
最終結果:總成本在增長,但可解釋性卻很低。
而你永遠無法控制那些你看不清的東西。
Step 1:把一切標準化為 Token
在開始優化之前,先統一計量單位。選擇 token 作為唯一度量標準,並將所有云廠商的 AI 使用量都轉換為 token。
當所有內容都統一到 token 之後,趨勢立刻變得清晰可見:
- 各模型的 每百萬 token 成本(以及隨時間的變化)
- 不同環境的 token 分佈(生產 vs. 沙盒)
- 按團隊 / 功能劃分的 token 佔比
Step 2:在源頭綁定身份信息
如果一次調用無法關聯到團隊、服務、環境,以及(在合適場景下)用户,那麼它就是一筆“幽靈成本”。
解決方式是 在最邊緣的調用處添加元數據:
- OpenAI:
使用 Project 表示具體服務或功能;若你控制客户端,通過代理傳遞用户上下文。 - AWS Bedrock:
優先使用 Inference Profiles 而不是直接調用模型 ARN,並在 Profile 上添加團隊、服務、環境等標籤。
(Profiles 在客户端裏可與模型 ID 互換,並且能承載標籤。) - GCP Vertex AI:
在 endpoints 或 batch jobs 上使用labels(包括 team、service、env、model)。 - Azure AI(Cognitive Services / Azure OpenAI):
為 Azure 資源添加標籤;按團隊/服務統一部署名稱;若你使用代理或 Function App,可在其中向下遊傳遞用户上下文。 - Gateways / Proxies:
若你運行自己的 AI 網關,請在每次調用中注入相同的標識鍵,並將它們與 token 數量一起記錄。
Step 3: 構建統一 AI 成本視圖
創建一個統一的 AI 成本視圖,應包含以下內容:
- 按模型(已歸一化)的花費與 Token 使用量
- 按團隊 / 功能的 Token 與成本 Top 列表
- 環境拆分(生產 vs. 非生產)
- 席位成本 vs. API 成本:例如開發者工具(如 Copilot)與實際運行時調用
- 趨勢線:7 / 30 / 90 天,便於發現增長斜率變化
這不是為了畫好看的圖,而是為了在 一頁內回答三個關鍵問題:
- 什麼增長了?
- 誰導致它增長?
- 我們可以調哪一個“成本控制旋鈕”?
Step 4: 將可見性轉化為責任制
從可見性走向責任制:先 Showback,再 Chargeback。
一開始先做 showback:
每月向各團隊發送其 Token 用量、成本、以及“每百萬 Tokens 成本”的報告。
當數據穩定、團隊信任指標之後,再對可變 API 使用量實行 chargeback(按需計費)。
兩條簡單而有效的規則:
- 按環境設置預算
- 非生產環境(non-prod)→ 固定的月度上限
- 生產環境(prod) → 設置閾值 + 告警機制
- 成本隨使用歸屬
- 各團隊為自己消耗的 Tokens 買單
- 他們也能從自己的優化中直接獲得節省
小團隊指南
你不需要 20 人的平台團隊,也能控制 AI 費用。下面這四條措施,投入小但價值大。
1. 預算上限和提醒(按團隊/環境)
- 沙箱和筆記本:設硬性預算上限,超了就不能用。
- 生產環境:設軟性閾值,達到 50% / 80% / 100% 月度預算時,通過 Slack 提醒。
- 每日增量提醒:比如當天比昨天多花 30%,及時發現異常。
- 檢測:預算和異常檢測可以跨多個雲服務商,並按標籤(團隊/服務/環境)彙總。
2. 邊緣策略(低成本、好執行)
- 客户端或網關強制要求打標籤(團隊/服務/環境),沒有標籤的請求直接拒絕。
- 默認緩存可重複使用的 Prompt,生產環境禁止禁用緩存,除非在白名單裏。
- 模型選擇:默認用“夠用”的模型,特殊情況可以升級。
- 上下文窗口限制:Token 數有上限,必須得到明確批准才能加大。
- 這些都是在網關、SDK 或中間件就能輕鬆實現的小檢查。
3. 沙箱安全措施
- 實驗用 API Key 設置過期時間(TTL)。
- 空閒的 GPU 和筆記本自動關機。
- 非生產環境的臨時堆棧,每晚自動清理。
- 這些操作能省下真金白銀,而且不會影響生產。
4. CI/CD 中的成本門控(不僅僅是性能檢查)
阻止以下操作:
- 高流量路徑上取消緩存
- 超過策略規定的默認上下文窗口
- 未打標籤或未批准就使用高級模型
- 工程師可以 override,但必須填寫理由,確保是有意識的選擇
90 天計劃
1. 第 1–30 天:讓成本可見
- 統一計量單位:把 AWS、Azure、GCP 的消耗統一成 Token。
- 添加標籤:團隊/服務/環境(通過配置文件、標籤或網關)。
- 建立成本儀表盤:搭建一個 AI 成本看板,開始每月展示(Showback)。
2. 第 31–60 天:讓成本可操作
- 設定預算:按團隊區分生產/非生產環境,開啓異常提醒。
- 執行策略:客户端或網關強制打標籤並啓用緩存。
- 追蹤成本:按模型計算每 100 萬 Token 成本,選擇一個默認“夠用”的模型。
3. 第 61–90 天:讓成本可持續
- 沙箱安全措施:TTL 過期、空閒資源自動關機。
- CI/CD 成本門控:緩存、上下文窗口和模型變更都加成本檢查。
- 優化使用方式:把可變 API 調用改為內部計費(Chargeback),如果能降低阻力,保留集中管理的座位。
“好”的標準
- ≥95% 的 AI 費用可以歸因到具體的團隊/服務/環境
- 異常 Token 或成本峯值在 24 小時內被發現
- ≥80% 的生產流量可使用緩存,並且緩存命中率持續上升
- 每 100 萬 Token 成本在保證用户體驗的前提下呈下降趨勢
- 沙箱消耗佔總 Token 的 <15%(或呈下降趨勢)
- 月末賬單無驚喜(實際成本與預算偏差在 ±10% 以內)
如果能達到這些指標,你就從“賬單迷霧”走向了“可管理的成本效益型系統”。