2025-12-30_AI 模型性能與成本的演進趨勢
AI 模型性能與成本的演進趨勢
☘️ Article

- 一年多前一億個 token 要價 3000 美元,現在只要 10 美元,讚嘆生產效率提升和科技滲透的美好
- 但
- agentic workflow, reasoning 的 token 數量比之前一問一答那種高很多,也就是說雖然算力變便宜,但付出去的可能不減反增,傑文斯悖論
- 軟體提供者兩種加分,a) 本身 AI 軟體降本增效加速開發,和 b) 一口價收入可能在部分應用拉高獲利表現
- 不過這要注意定價策略,哪些是一包賣,哪些是要 token based 算價格,免得遇到大胃王客戶被吃爆
- 看起來跟 cloud 的發展類似,名目上便宜了,但大量的應用和複雜度的提升,付出去的錢會更多。只有那些需求 " 完全不變 " 的會受惠,成本長期理論會是趨近於零。但現實世界的運作是應用越做越好,越用越上癮,開銷越來越大
✍️ Abstract
成本與性能的變動圖表分析
- 自 2023 年 3 月 GPT-4 發布以來,AI 模型的推理成本呈現斷崖式下跌。根據資料顯示,DeepSeek r1 在 2025 年 1 月的成本較 GPT-4 降低了 99.4 個百分點。
- 性能前沿線:代表不計成本追求最強性能的模型,如 2025 年 8 月的 GPT-5 High,其 GPQA 分數達到 0.8,已與人類博士水平相當。
- 平衡前沿線:代表性能與成本取得最佳平衡的模型,例如 2025 年 9 月的 Grok 4,其 GPQA 分數為 0.76,每百萬 token 僅需 0.28 美元。
- 成本效率前沿線:旨在提供最廉價的強大推理能力,如 GPT-5 Nano 每百萬 token 僅需 0.14 美元,較 GPT-4 成本降低 99.7 個百分點。
效率提升與市場現狀
- 在短短一年多時間內,處理一億個 token 的成本從 3000 美元下降至 10 美元。這種生產效率的提升極大加速了科技滲透。
- 軟體開發商可以從兩個面向獲利:
- 一是透過 AI 降本增效來加速軟體開發過程
- 二是透過一口價的訂閱制收入,在成本下降的過程中拉高獲利表現。
未來挑戰與定價策略
- 儘管單位算力變得便宜,但由於代理型工作流和複雜推理需求的增加,用戶付出的總金額可能不減反增。
- 這與雲端運算的發展軌跡類似,名義價格下降,但隨著應用複雜度提升,開銷反而越來越大。
- 企業需要注意定價策略。必須區分哪些服務是打包銷售,哪些是按量計費 (token-based),以避免遇到使用量極大的客戶導致虧損。
- 長期來看,只有那些需求完全固定且不變的應用場景能真正節省成本,但在現實世界中,隨著應用變得更好用、更具成癮性,整體的開銷往往會隨之增長。
專有名詞
- GPQA (Diamond):全稱為 Graduate-Level Google-Proof Q&A Benchmark,是一套極具挑戰性的數據集,用於測試 AI 的科學推理能力。Diamond 版本是指該數據集中最難且經過專家驗證的題目,目前人類博士在該領域的基準得分約為 0.8。
- Token:AI 處理文本的基本單位。在大型語言模型中,文字會被切分為 token 進行運算,100 萬個 token 約等於 75 萬個英文單字。
- 成本效率前沿 (Cost efficiency frontier):指在特定的性能水平下,能夠提供最強大功能且成本最低的模型組合,旨在將單位性能的支出最小化。
- 能力前沿 (Capability frontier):指不計成本、追求最強大運算能力與表現的模型,通常這類模型需要極高的計算資源。
- 平衡前沿 (Balanced frontier):指在推理能力與使用成本之間取得最佳平衡的模型,適合需要高效能但預算有限的應用場景。
- 傑文斯悖論 (Jevons Paradox):這是一種經濟學現象,指技術進步提高了資源的使用效率,照理說會減少資源消耗,但實際上卻因為使用成本降低而誘發更多需求,導致總消耗量反而增加。
- 代理型工作流 (Agentic Workflow):指 AI 不再僅是簡單的一問一答,而是能像代理人一樣進行自主規劃、執行任務、自我修正並多次迭代。這種模式雖然強大,但會消耗比傳統對話多出數倍甚至數百倍的 token。