TPU
張量處理器 (Tensor Processing Unit)
概念股
| 供應鏈環節 | 概念股 |
|---|---|
| 晶片設計、協作 | 聯發科 (2454)、創意電子 (3443) |
| 晶圓製造 | 台積電 (2330) |
| 封裝測試 | 日月光投控 (3711)、京元電子 (2449) |
| 高階板材、載板 | 金像電 (2368)、台光電 (2383)、欣興 (3037) |
| AI 伺服器整合 | 鴻海 (2317)、廣達 (2382)、英業達 (2356)、緯穎 (6669) |
| 機構件 | 勤誠 (8210) |
| 散熱、液冷 | 奇鋐 (3017)、邁科 (6831) |
| 電源供應 | 台達電 (2308) |
| 光通訊 | 光聖 (6442)、聯亞 (3081)、華星光 (4979)、光環 (3234) |
| 測試驗證 | 旺矽 (6223)、精測 (6510) |
- 晶片設計、協作:聯發科、創意電子
- 晶圓製造:台積電
- 封裝測試:日月光投控、京元電子
- 高階板材、載板:金像電、台光電、欣興
- AI 伺服器整合:鴻海、廣達、英業達、緯穎
- 機構件:勤誠
- 散熱、液冷:奇鋐、邁科
- 電源供應:台達電
- 光通訊:光聖、聯亞、華星光、光環
- 測試驗證:旺矽、精測
TPU 世代
| 年份 | 世代 | 代號 | 主要角色 | 供應鏈 | 觀察重點 |
|---|---|---|---|---|---|
| 2027E–2028E | TPUv9x | Humufish | Inference | MTK、Intel EMIB-T、台積電 CoWoS | 市場消息稱為次世代推論用客製 ASIC,可能評估 台積電 CoWoS、Intel EMIB-T 兩種封裝路線 |
| 2026E–2027E | TPU 8t | Zebrafish | Training | Google、MTK、CoWoS | 4Q26; 運算設計服務由 Google,I/O 與後段設計服務由聯發科; 運算與 I/O 晶粒各 1 × N3P |
| 2026E | TPU 8i | Sunfish | Inference | Broadcom、CoWoS | 3Q26;運算、I/O、後段設計服務由 Broadcom;運算與 I/O 晶粒各 2 × N3P |
| 2025 | TPU7x | Ironwood | Inference | Broadcom | Google TPU 既有主力推論產品線,強調即時生成與能效比 |
| 2025 | TPU7ax | Ironwood | Training | Broadcom | Google TPU 既有主力訓練產品線,支援大規模任務並提升擴展性 |
| 2024 | TPU v6 | Trillium | - | - | 計算力為前代 4.7 倍;記憶體頻寬加倍;最佳化大型模型訓練與雲端部署 |
| 2021–2023 | TPU v5 系列 | - | - | - | 加強矩陣運算 (MXU) 與頻寬,專攻生成式 AI;Pod 部署大規模化 |
| 2019 | TPU v4 | - | - | - | 採 7 奈米製程、3D torus 互連;單 Pod 達 1.1 exaflops;雲端可用 |
| 2018 | TPU v3 | - | - | - | 引入液冷散熱;Pod 規模擴大至 1,024 顆;提升大型模型訓練效能 |
| 2017 | TPU v2 | - | - | - | 支援 訓練、推論 導入 HBM 首次引入 TPU Pod 設計 |
| 2016 | TPU v1 公開 | - | - | - | Google I/O 首次對外公開 TPU,引起 AI 硬體關注 |
| 2015 | TPU v1 內部部署 | - | - | - | 初步部署於 語音辨識、搜尋 等推論任務,於 Google 內部廣泛應用 |
| 2013 | TPU 研發啟動 | - | - | - | 預判 AI 將造成運算壓力 自研 ASIC 作為 CPU/GPU 替代方案 |
未知
| 2027E | TPU v8p (TBD) | - | TBD | Broadcom、CoWoS / SoIC | 4Q27 運算、I/O、後段設計服務由 Broadcom 運算晶粒 2 奈米,I/O 晶粒 3 奈米 |
|---|---|---|---|---|---|
| 2027E | TPU v8e (TBD) | - | TBD | Google、MTK、EMIB | 4Q27 運算設計服務由 Google,I/O 與後段設計服務由聯發科 運算晶粒 2 奈米,I/O 晶粒為 3 奈米 336G SerDes |
第九代
第八代
- Google 官方於 2026-04-22 公布第八代 TPU 時,採用 TPU 8t (training) 與 TPU 8i (inference) 兩個名稱。
- TPU v8p、TPU v8e:仍偏券商、供應鏈或市場稱法,與 8t / 8i 不宜直接畫等號,後續若 Google 正式揭露對應關係,再更新表格。
- TPU v8p:4Q27,供應鏈線索顯示 Broadcom 負責運算、I/O、後段設計服務,封裝可能採 CoWoS / SoIC。
- TPU v8e:4Q27,供應鏈線索顯示運算設計服務由 Google 負責,I/O 與後段設計服務由 聯發科 切入,封裝可能採 EMIB。
- TPU 8t:Zebrafish,定位為 training,4Q26,供應鏈線索為 Google、MTK、CoWoS,重點是聯發科切入 Google TPU 的 I/O 與後段設計服務。
- TPU 8i:Sunfish,定位為 inference,3Q26,供應鏈線索為 Broadcom、CoWoS,重點是 Broadcom 維持 Google TPU inference 份額。
第七代
- TPU7x:Ironwood,定位為 inference,供應鏈線索為 Broadcom,重點是 Google 既有主力推論產品線。
- TPU7ax:Ironwood,定位為 training,供應鏈線索為 Broadcom,重點是 Google 既有主力訓練產品線。
第六代
- TPU v6:Trillium,重點是算力達前代 4.7 倍、記憶體頻寬加倍、最佳化大型模型訓練與雲端部署。
第五代
- TPU v5:重點是強化 MXU (Matrix Multiply Unit)、記憶體頻寬、生成式 AI、Pod 規模化。
第四代
- TPU v4:重點是 7 奈米製程、3D torus 互連、單 Pod 達 1.1 exaflops。
第三代
- TPU v3:重點是導入液冷散熱、Pod 規模擴大至 1,024 顆、提升大型模型訓練效能。
第二代
- TPU v2:重點是支援訓練與推論、導入 HBM (High Bandwidth Memory)、首次引入 TPU Pod 設計。
第一代與早期研發
- TPU v1:重點是從 2015 年內部部署走向 2016 年公開,初期服務語音辨識、搜尋等 Google 內部推論任務。
- TPU 研發啟動:2013 年 Google 預判 AI 將造成運算壓力,開始自研 ASIC 作為 CPU/GPU 替代方案。
定義
- 全名:Tensor Processing Unit,中文稱為張量處理器。
- 本質:Google 專為機器學習量身打造的特殊應用積體電路 (ASIC)。
- 定位:專攻深度學習中的大量矩陣運算,犧牲通用性以換取極致的 AI 運算效能、能耗比。
- 淵源:為了應對 Google 龐大的 AI 運算需求 (如:語音搜尋、翻譯、AlphaGo) 而誕生,於 2016 年正式對外公佈。
- 最初為內部服務需求設計,如:搜尋、翻譯、影像辨識 等。
核心架構
- 脈動陣列 (Systolic Array):TPU 的靈魂設計,讓數據像血液般在運算單元陣列中有節奏地流動並被重複利用,大幅減少讀寫記憶體的次數與能耗。
- 高效能與能效:
- 相較於 GPU,提供更高的性能 / 瓦比與推論效能
- 適用於資料中心大規模運算場景
- 低精度運算:廣泛採用 bfloat16 (腦浮點格式),在維持機器學習所需的精確度下,顯著提升運算速度並減少記憶體佔用。
- 軟硬體垂直整合:專為 Google 開源的 TensorFlow 框架進行深度優化,但在 PyTorch 等其他框架上的支援度較依賴轉換工具。
- 確定性 (Determinism):與 GPU 不同,TPU 設計上更強調運算時間的可預測性,有助於大規模模型的同步訓練。
實際應用
- 內部產品:Google Translate、Photos、Search、YouTube 推薦等皆運行於 TPU
- Cloud TPU:提供開發者於 Google Cloud 上使用 TPU 訓練與部署模型
- Edge TPU:提供 IoT 裝置上的 AI 推論功能,如攝影機、智慧家電
優勢
- 為 AI 計算設計,提供特定任務上的高效率
- 緊密整合 TensorFlow,簡化開發與部署流程
- 支援大規模模型訓練與低功耗部署
限制與挑戰
- 對 TensorFlow 以外框架支援有限
- 主要綁定 Google 生態系,難以獨立部署
- 與 GPU 相比,彈性與通用性不足