Tray (運算托盤、計算模組)
- tray 在 NVIDIA GB200/GB300 NVL72 等 AI 伺服器系統中,指的是運算托盤或計算模組,是伺服器機櫃 (rack) 中的最小運算單元。
主要特點
- 組成:
- 每個 tray 通常包含多個運算板 (compute board)。
- 每個運算板上安裝多顆 GPU 與 CPU。
- 例如 GB200 NVL72,每個 compute tray 包含 2 片 compute board。
- 每片 compute board 含 2 顆 Blackwell GPU + 1 顆 Grace CPU。
- 功能:
- tray 承載與執行 AI 運算。
- 是整個 AI 伺服器的核心運算單元。
- 排列方式:
- 在標準 NVIDIA NVL72 機櫃中,通常有 18 個 compute tray。
- 每個 tray 以 1U 高度堆疊安裝於 rack 中。
- 維護與擴充:
- tray 為可抽換模組設計,方便資料中心維護、升級或更換。
例子
- GB200 NVL72 實例:
- 一個 compute tray:
- 含 2 片 compute board
- 共 4 顆 GPU + 2 顆 CPU
- 一個 rack (機櫃):
- 含 18 個 compute tray
- 共 72 顆 GPU + 36 顆 CPU
總結
- tray 即 AI 伺服器內的運算托盤或計算模組,可獨立抽換維護,每個 tray 內部包含多顆 GPU 與 CPU,是建構高密度 AI 運算系統的基本單元。