HGX 與 GB 架構下 racks、system、node 關係
HGX 與 GB 架構下 racks、system、node 關係
HGX 架構
- HGX 是 NVIDIA 提供的 GPU 加速平台,常見規格有 4-GPU 或 8-GPU baseboard (如 HGX A100/H100/Blackwell)。
- 一台伺服器 (system) 通常搭載一塊 HGX baseboard,即包含 4 或 8 顆 GPU。
- 一個 rack (機櫃) 內可容納多台伺服器,例如 4 台,每台 system 各有 4 或 8 顆 GPU,總計 16 至 32 顆 GPU。
GB200 NVL72 架構:
- GB200 NVL72 是 NVIDIA 的新一代 AI 超級電腦架構,採用液冷設計,將 36 顆 Grace CPU 和 72 顆 Blackwell GPU 整合於單一機櫃中。NVIDIA
- 整個系統由 18 個 compute node (運算節點) 組成,每個 node 包含 2 顆 Grace CPU 和 4 顆 Blackwell GPU。
- 所有 72 顆 GPU 透過 NVLink 交換器全速互聯,形成一個高效能的運算叢集。
對應關係整理
架構 |
rack (櫃) |
system (台) /node (節點) |
GPU 數量 (每 rack) |
HGX |
1 |
約 4 台 system |
16~32 顆 (4~8 顆/台) |
GB200 NVL72 |
1 |
18 個 node (system) |
72 顆 |
小結
- HGX 架構下,一個 rack 通常包含多台 system,例如 4 台,每台 system 搭載 4 或 8 顆 GPU,總計 16 至 32 顆 GPU。
- GB200 NVL72 架構下,一個 rack 包含 18 個 node (system),每個 node 含 2 顆 Grace CPU 和 4 顆 Blackwell GPU,總計 72 顆 GPU。
- 實際配置可能因廠商設計與機櫃空間而有所不同。