TPU

張量處理器 (Tensor Processing Unit)

概念股

供應鏈環節	概念股
晶片設計、協作	聯發科 (2454)、創意電子 (3443)
晶圓製造	台積電 (2330)
封裝測試	日月光投控 (3711)、京元電子 (2449)
高階板材、載板	金像電 (2368)、台光電 (2383)、欣興 (3037)
AI 伺服器整合	鴻海 (2317)、廣達 (2382)、英業達 (2356)、緯穎 (6669)
機構件	勤誠 (8210)
散熱、液冷	奇鋐 (3017)、邁科 (6831)
電源供應	台達電 (2308)
光通訊	光聖 (6442)、聯亞 (3081)、華星光 (4979)、光環 (3234)
測試驗證	旺矽 (6223)、精測 (6510)

- 晶片設計、協作：聯發科、創意電子
- 晶圓製造：台積電
- 封裝測試：日月光投控、京元電子
- 高階板材、載板：金像電、台光電、欣興
- AI 伺服器整合：鴻海、廣達、英業達、緯穎
- 機構件：勤誠
- 散熱、液冷：奇鋐、邁科
- 電源供應：台達電
- 光通訊：光聖、聯亞、華星光、光環
- 測試驗證：旺矽、精測

TPU 世代

年份	世代	代號	主要角色	供應鏈	觀察重點
2027E–2028E	TPUv9x	Humufish	Inference	MTK、Intel EMIB-T、台積電 CoWoS	市場消息稱為次世代推論用客製 ASIC，可能評估台積電 CoWoS、Intel EMIB-T 兩種封裝路線
2026E–2027E	TPU 8t	Zebrafish	Training	Google、MTK、CoWoS	4Q26；運算設計服務由 Google，I/O 與後段設計服務由聯發科；運算與 I/O 晶粒各 1 × N3P
2026E	TPU 8i	Sunfish	Inference	Broadcom、CoWoS	3Q26；運算、I/O、後段設計服務由 Broadcom；運算與 I/O 晶粒各 2 × N3P
2025	TPU7x	Ironwood	Inference	Broadcom	Google TPU 既有主力推論產品線，強調即時生成與能效比
2025	TPU7ax	Ironwood	Training	Broadcom	Google TPU 既有主力訓練產品線，支援大規模任務並提升擴展性
2024	TPU v6	Trillium	-	-	計算力為前代 4.7 倍；記憶體頻寬加倍；最佳化大型模型訓練與雲端部署
2021–2023	TPU v5 系列	-	-	-	加強矩陣運算 (MXU) 與頻寬，專攻生成式 AI；Pod 部署大規模化
2019	TPU v4	-	-	-	採 7 奈米製程、3D torus 互連；單 Pod 達 1.1 exaflops；雲端可用
2018	TPU v3	-	-	-	引入液冷散熱；Pod 規模擴大至 1,024 顆；提升大型模型訓練效能
2017	TPU v2	-	-	-	支援訓練、推論導入 HBM 首次引入 TPU Pod 設計
2016	TPU v1 公開	-	-	-	Google I/O 首次對外公開 TPU，引起 AI 硬體關注
2015	TPU v1 內部部署	-	-	-	初步部署於語音辨識、搜尋等推論任務，於 Google 內部廣泛應用
2013	TPU 研發啟動	-	-	-	預判 AI 將造成運算壓力自研 ASIC 作為 CPU/GPU 替代方案

未知

2027E	TPU v8p (TBD)	-	TBD	Broadcom、CoWoS / SoIC	4Q27 運算、I/O、後段設計服務由 Broadcom 運算晶粒 2 奈米，I/O 晶粒 3 奈米
2027E	TPU v8e (TBD)	-	TBD	Google、MTK、EMIB	4Q27 運算設計服務由 Google，I/O 與後段設計服務由聯發科運算晶粒 2 奈米，I/O 晶粒為 3 奈米 336G SerDes

第九代

TPU v9x：Humufish，定位為 inference，供應鏈線索包含 MTK、Intel EMIB-T、台積電 CoWoS，重點是次世代推論 ASIC 與雙封裝路線。

第八代

Google 官方於 2026-04-22 公布第八代 TPU 時，採用 TPU 8t (training) 與 TPU 8i (inference) 兩個名稱。
- TPU v8p、TPU v8e：仍偏券商、供應鏈或市場稱法，與 8t / 8i 不宜直接畫等號，後續若 Google 正式揭露對應關係，再更新表格。
TPU v8p：4Q27，供應鏈線索顯示 Broadcom 負責運算、I/O、後段設計服務，封裝可能採 CoWoS / SoIC。
TPU v8e：4Q27，供應鏈線索顯示運算設計服務由 Google 負責，I/O 與後段設計服務由聯發科切入，封裝可能採 EMIB。
TPU 8t：Zebrafish，定位為 training，4Q26，供應鏈線索為 Google、MTK、CoWoS，重點是聯發科切入 Google TPU 的 I/O 與後段設計服務。
TPU 8i：Sunfish，定位為 inference，3Q26，供應鏈線索為 Broadcom、CoWoS，重點是 Broadcom 維持 Google TPU inference 份額。

第七代

TPU7x：Ironwood，定位為 inference，供應鏈線索為 Broadcom，重點是 Google 既有主力推論產品線。
TPU7ax：Ironwood，定位為 training，供應鏈線索為 Broadcom，重點是 Google 既有主力訓練產品線。

第六代

TPU v6：Trillium，重點是算力達前代 4.7 倍、記憶體頻寬加倍、最佳化大型模型訓練與雲端部署。

第五代

TPU v5：重點是強化 MXU (Matrix Multiply Unit)、記憶體頻寬、生成式 AI、Pod 規模化。

第四代

TPU v4：重點是 7 奈米製程、3D torus 互連、單 Pod 達 1.1 exaflops。

第三代

TPU v3：重點是導入液冷散熱、Pod 規模擴大至 1,024 顆、提升大型模型訓練效能。

第二代

TPU v2：重點是支援訓練與推論、導入 HBM (High Bandwidth Memory)、首次引入 TPU Pod 設計。

第一代與早期研發

TPU v1：重點是從 2015 年內部部署走向 2016 年公開，初期服務語音辨識、搜尋等 Google 內部推論任務。
TPU 研發啟動：2013 年 Google 預判 AI 將造成運算壓力，開始自研 ASIC 作為 CPU／GPU 替代方案。

定義

全名：Tensor Processing Unit，中文稱為張量處理器。
本質：Google 專為機器學習量身打造的特殊應用積體電路 (ASIC)。
定位：專攻深度學習中的大量矩陣運算，犧牲通用性以換取極致的 AI 運算效能、能耗比。
淵源：為了應對 Google 龐大的 AI 運算需求 (如：語音搜尋、翻譯、AlphaGo) 而誕生，於 2016 年正式對外公佈。
最初為內部服務需求設計，如：搜尋、翻譯、影像辨識等。

核心架構

脈動陣列 (Systolic Array)：TPU 的靈魂設計，讓數據像血液般在運算單元陣列中有節奏地流動並被重複利用，大幅減少讀寫記憶體的次數與能耗。
高效能與能效：
- 相較於 GPU，提供更高的性能 / 瓦比與推論效能
- 適用於資料中心大規模運算場景
低精度運算：廣泛採用 bfloat16 (腦浮點格式)，在維持機器學習所需的精確度下，顯著提升運算速度並減少記憶體佔用。
軟硬體垂直整合：專為 Google 開源的 TensorFlow 框架進行深度優化，但在 PyTorch 等其他框架上的支援度較依賴轉換工具。
確定性 (Determinism)：與 GPU 不同，TPU 設計上更強調運算時間的可預測性，有助於大規模模型的同步訓練。

實際應用

內部產品：Google Translate、Photos、Search、YouTube 推薦等皆運行於 TPU
Cloud TPU：提供開發者於 Google Cloud 上使用 TPU 訓練與部署模型
Edge TPU：提供 IoT 裝置上的 AI 推論功能，如攝影機、智慧家電

優勢

為 AI 計算設計，提供特定任務上的高效率
緊密整合 TensorFlow，簡化開發與部署流程
支援大規模模型訓練與低功耗部署

限制與挑戰

對 TensorFlow 以外框架支援有限
主要綁定 Google 生態系，難以獨立部署
與 GPU 相比，彈性與通用性不足