TPU
Tensor Processing Unit
發展歷程
年份 | 版本 | 主要特色 |
---|---|---|
2025 | TPU v7 (Ironwood) | 專為推論設計,強調即時生成與能效比;支援大規模任務並提升擴展性 |
2024 | TPU v6 (Trillium) | 計算力為前代 4.7 倍;記憶體頻寬加倍;最佳化大型模型訓練與雲端部署 |
2021–2023 | TPU v5 系列 | 加強矩陣運算 (MXU) 與頻寬,專攻生成式 AI;Pod 部署大規模化 |
2019 | TPU v4 | 採 7 奈米製程、3D torus 互連;單 Pod 達 1.1 exaflops;雲端可用 |
2018 | TPU v3 | 引入液冷散熱;Pod 規模擴大至 1,024 顆;提升大型模型訓練效能 |
2017 | TPU v2 | 支援訓練與推論;導入 HBM;首次引入 TPU Pod 設計 |
2016 | TPU v1 公開 | Google I/O 首次對外公開 TPU,引起 AI 硬體關注 |
2015 | TPU v1 內部部署 | 初步部署於語音辨識、搜尋等推論任務,於 Google 內部廣泛應用 |
2013 | TPU 研發啟動 | 預判 AI 將造成運算壓力;自研 ASIC 作為 CPU/GPU 替代方案 |
定義與用途
- TPU (Tensor Processing Unit) 是 Google 設計與製造的專用 ASIC 晶片
- 用於加速機器學習與深度學習任務,特別是神經網絡訓練與推理
- 最初為內部服務需求設計,如搜尋、翻譯、影像辨識等
技術特性
- 專注於矩陣運算:
- 採用脈動陣列 (systolic array) 架構,高效處理矩陣乘法
- 高效能與能效:
- 相較於 GPU,提供更高的性能 / 瓦比與推論效能
- 適用於資料中心大規模運算場景
- TensorFlow 相容:
- 與 Google 開發的 TensorFlow 框架整合,可自動轉換模型運行於 TPU
- 混合精度支援:
- 採用 bfloat16 與 int8 提升效能並降低記憶體需求
- 保持準確度的同時提高計算效率
實際應用
- 內部產品:Google Translate、Photos、Search、YouTube 推薦等皆運行於 TPU
- Cloud TPU:提供開發者於 Google Cloud 上使用 TPU 訓練與部署模型
- Edge TPU:提供 IoT 裝置上的 AI 推論功能,如攝影機、智慧家電
優勢
- 為 AI 計算設計,提供特定任務上的高效率
- 緊密整合 TensorFlow,簡化開發與部署流程
- 支援大規模模型訓練與低功耗部署
限制與挑戰
- 對 TensorFlow 以外框架支援有限
- 主要綁定 Google 生態系,難以獨立部署
- 與 GPU 相比,彈性與通用性不足