TPU
Tensor Processing Unit
時間軸
| 年份 | 版本 | 主要特色 |
|---|---|---|
| 2025 | TPU v7 (Ironwood) | 專為推論設計,強調即時生成與能效比;支援大規模任務並提升擴展性 |
| 2024 | TPU v6 (Trillium) | 計算力為前代 4.7 倍;記憶體頻寬加倍;最佳化大型模型訓練與雲端部署 |
| 2021–2023 | TPU v5 系列 | 加強矩陣運算 (MXU) 與頻寬,專攻生成式 AI;Pod 部署大規模化 |
| 2019 | TPU v4 | 採 7 奈米製程、3D torus 互連;單 Pod 達 1.1 exaflops;雲端可用 |
| 2018 | TPU v3 | 引入液冷散熱;Pod 規模擴大至 1,024 顆;提升大型模型訓練效能 |
| 2017 | TPU v2 | 支援訓練與推論;導入 HBM;首次引入 TPU Pod 設計 |
| 2016 | TPU v1 公開 | Google I/O 首次對外公開 TPU,引起 AI 硬體關注 |
| 2015 | TPU v1 內部部署 | 初步部署於語音辨識、搜尋等推論任務,於 Google 內部廣泛應用 |
| 2013 | TPU 研發啟動 | 預判 AI 將造成運算壓力;自研 ASIC 作為 CPU/GPU 替代方案 |
定義
- 全名:Tensor Processing Unit,中文稱為張量處理器。
- 本質:Google 專為機器學習 (Machine Learning) 量身打造的特殊應用積體電路 (ASIC)。
- 定位:專攻深度學習中的大量矩陣運算,犧牲通用性以換取極致的 AI 運算效能、能耗比。
- 淵源:為了應對 Google 龐大的 AI 運算需求 (如:語音搜尋、翻譯、AlphaGo) 而誕生,於 2016 年正式對外公佈。
- 最初為內部服務需求設計,如搜尋、翻譯、影像辨識等。
核心架構特色
- 脈動陣列 (Systolic Array):TPU 的靈魂設計,讓數據像血液般在運算單元陣列中有節奏地流動並被重複利用,大幅減少讀寫記憶體的次數與能耗。
- 高效能與能效:
- 相較於 GPU,提供更高的性能 / 瓦比與推論效能
- 適用於資料中心大規模運算場景
- 低精度運算:廣泛採用 bfloat16 (腦浮點格式),在維持機器學習所需的精確度下,顯著提升運算速度並減少記憶體佔用。
- 軟硬體垂直整合:專為 Google 開源的 TensorFlow 框架進行深度優化,但在 PyTorch 等其他框架上的支援度較依賴轉換工具。
- 確定性 (Determinism):與 GPU 不同,TPU 設計上更強調運算時間的可預測性,有助於大規模模型的同步訓練。
實際應用
- 內部產品:Google Translate、Photos、Search、YouTube 推薦等皆運行於 TPU
- Cloud TPU:提供開發者於 Google Cloud 上使用 TPU 訓練與部署模型
- Edge TPU:提供 IoT 裝置上的 AI 推論功能,如攝影機、智慧家電
優勢
- 為 AI 計算設計,提供特定任務上的高效率
- 緊密整合 TensorFlow,簡化開發與部署流程
- 支援大規模模型訓練與低功耗部署
限制與挑戰
- 對 TensorFlow 以外框架支援有限
- 主要綁定 Google 生態系,難以獨立部署
- 與 GPU 相比,彈性與通用性不足