MTIA

Meta Training and Inference Accelerator

定義

全名：Meta Training and Inference Accelerator，Meta 自研 AI 加速器系列。
定位：用於推薦系統、通用 AI 工作負載與生成式 AI 推論。
核心方向：以高頻寬 HBM、低精度算力與 scale-up 架構提升推論效率與長期成本效益。

發展路徑

MTIA 300：工作負載聚焦 R&R Training，scale-up domain size 為 16。
MTIA 400：定位擴展到 General，scale-up domain size 提升到 72。
MTIA 450：明確轉向 GenAI Inference，HBM 頻寬與低精度算力持續拉升。
MTIA 500：延續 GenAI Inference，進一步提高頻寬、容量與算力上限。

規格比較

Metric	MTIA 300	MTIA 400	MTIA 450	MTIA 500
Workload Focus	R&R Training	General	GenAI Inference	GenAI Inference
Module TDP	800 W	1200 W	1400 W	1700 W
HBM Bandwidth	6.1 TB/s	9.2 TB/s	18.4 TB/s	27.6 TB/s
HBM Capacity	216 GB	288 GB	288 GB	384-512 GB
MX4 Performance	—	12 PFLOPs	21 PFLOPs	30 PFLOPs
FP8/MX8 Performance	1.2 PFLOPs	6 PFLOPs	7 PFLOPs	10 PFLOPs
BF16 Performance	0.6 PFLOPs	3 PFLOPs	3.5 PFLOPs	5 PFLOPs
Scale-up Domain Size	16	72	72	72
Scale-up Network	1 TB/s	1.2 TB/s	1.2 TB/s	1.2 TB/s
Scale-out Network	200 GB/s**	100 GB/s	100 GB/s	100 GB/s

觀察重點

架構演進：MTIA 400 之後，scale-up domain size 固定在 72，代表系統級擴展能力已成主軸。
記憶體配置：HBM 頻寬由 6.1 TB/s 提升到 27.6 TB/s，HBM 容量最高擴到 512 GB。
算力方向：MX4、FP8/MX8、BF16 算力皆隨代際上升，明顯偏向低精度推論場景。
商業意義：這條路線反映 Meta 將自研晶片價值放在推論優化，而不是全面取代 NVIDIA 的訓練 GPU。
軟體堆疊：Meta 具備 PyTorch 生態優勢，有利於自研加速器的軟硬整合。