2026-06-01_SNOW--Anthropic--OpenAI_如何控制大規模AI推論成本
How Does Snowflake Handle the Cost of Anthropic OpenAI Inference at Scale
☘️ Article
孟恭觀點
- Snowflake Cortex 做的是 AI 推論的轉售包裝生意,把 Anthropic、OpenAI、Mistral 等第三方模型的推論能力,包進自家的編排、治理與無伺服器運算層,再以 credit 形式賣給客戶 (每 credit 約 $2–4,依版本而定)
- 成本架構分五層:最底是模型原始 token 成本 (如 Claude Opus 4 約 $15/$75 每百萬 token),這是包底無法壓價的地板。往上依序是 AWS Bedrock 過路費、Snowflake 自家編排運算費、客戶 credit 費率,以及治理/可觀測性的微量成本
- 模型供應商拿走最多 (約 80–90%),Snowflake 編排層只留 10-20% 毛利
- Snowflake 四招護毛利:a) 用大買家身分跟模型商談量價折扣、b) 用路由層把低風險任務導向便宜模型、c) 主推自家 Arctic 模型 (跑自家基礎設施、無第三方成本,毛利回到 50-70%)、d) 用預算護欄避免客戶被鉅額帳單嚇跑
- https://pulserevops.com/knowledge/q1606/reviews
✍️ Abstract
How Does Snowflake Handle the Cost of Anthropic + OpenAI Inference at Scale?
- 營運模式:Snowflake Cortex 整合 Anthropic、OpenAI 等多種 LLM,將底層 Token 成本轉化為 Credits 向客戶收費 (單價約 2~4 美元)。
- 成本結構:由下而上堆疊 原始 Token 費用、AWS Bedrock 加成、Cortex 運算消耗、實際 Credit 費率、治理、觀測 (如:RBAC、PII Masking) 消耗。
- 毛利現況:模型供應商獲取 (80~90)% 利潤,Snowflake 編排層僅保留 (10~20)% 毛利,遠低於傳統 儲存、運算 業務的 75%。
- 成本壓力:長上下文查詢、多步驟代理迴圈 (Agent Loop)、高 k 值 RAG,以及尚未最佳化的提示詞 (Prompt) 皆會大幅墊高成本。
- 防禦策略:
- 採購折扣:以企業大客戶身分向 Anthropic、OpenAI 爭取低於牌價的進貨折扣,賺取基本價差。
- 智慧路由:將 低風險/低複雜度 任務導向便宜模型 (如:Haiku、Mistral Large),換取 5~15 倍成本差異。
- 主推自家模型:推廣 Arctic/Arctic-Embed 處理 高頻/低風險 任務,免除第三方 Token 費,毛利可高達 (50~70)%。
- 預算護欄:提供資源監控、消費上限 等防護機制,避免突發鉅額帳單導致 客訴/流失。
- 營收動能:Cortex 已獲 Bayer、Siemens 等企業採用,為既有 倉儲、運算 之上的增量營收。
- 觀察指標:Cortex 屬結構性薄利業務,未來財報應關注 Arctic 工作量占比,以確認是否有效拉高整體毛利率。
孟恭觀點分析
- 轉售模式:Snowflake Cortex 將第三方模型推論能力包裝進自家平台,以 Credits 形式販售。
- 五層成本:最底層為無法壓價的原始代幣成本,依序往上為 雲端過路費、運算費、Credits 費率、治理成本。
- 毛利分配:模型供應商獲取 (80~90)% 利潤,Snowflake 編排層僅保留 (10~20)% 毛利。
- 護毛利手段:採行 大宗採購折扣、便宜模型路由、主推自家模型、設置預算護欄 等 4 大策略。
專有名詞
- Snowflake Cortex:Snowflake 提供的託管 AI 服務,支援企業安全 調用/編排 多種 LLM。
- Credit:Snowflake 平台的計費點數,客戶消耗點數支付 運算、儲存、AI 服務 費用。
- Token:AI 模型處理文字的基本單位,單字/字元拆分後作為 計費、運算 基準。
- Arctic:Snowflake 自研的開源 LLM,專注於 高效/低成本 的企業級 AI 推論解決方案。
- AWS Bedrock:Amazon 雲端服務平台,提供單一 API 存取/管理 多個頂尖 AI 基礎模型。
