2026-04-05_NVDA_Vera-CPU與Agentic時代運算變革

NVIDIA Vera CPU 與 Agentic 時代的運算變革

☘️ Article

癌大觀點

cpu 近期回到主舞台，訓練時代 gpu 為王是不爭的共識。但走到 agentic 應用，流程、協調、i/o 密集、分支判斷，都是 cpu 發力的地方
arm, amd, intel 最近的股價也相對硬，不知道東風是否往 cpu 的方向吹了
---
"Chatbot 的工作流程比較簡單：使用者輸入，模型推理，回傳結果。GPU 確實是瓶頸。但在生產環境裡跑的 Agent 是另一回事：接收任務，載入上下文，呼叫模型推理，解析輸出，判斷下一步，呼叫工具 (執行程式碼、查資料庫、發 API 請求)，等待工具返回，處理回傳結果，準備下一輪 prompt，再次呼叫模型。如此循環，可能跑幾十輪甚至上百輪。
在這個循環裡，模型推理只是其中一個環節，其餘環節全部跑在 CPU 上。
訓練和推理是運算密集型任務，天然適合 GPU 的大規模平行架構。但 Agent 的執行邏輯完全不同。
Agent 本質上是一個長期運作的狀態機。每一步都涉及條件判斷、分支跳轉、外部 I/O、狀態持久化。這些操作有個共同特點：串列的，I/O 密集的，涉及大量小資料搬運而非大矩陣運算。這正好是 CPU 擅長但也容易卡住的領域。
用 Amdahl 定律來理解：當 GPU 推理速度提升了一個數量級，整個 pipeline 中 GPU 計算的佔比被急劇壓縮。剩下的串列部分，也就是 CPU 負責的調度、資料預處理、工具呼叫、上下文管理，就成了延遲的主要來源。GPU 越快，這個問題越明顯。
軟體層面也在放大這個問題。Python 寫的 Agent 框架 (LangChain、LlamaIndex) 比 Rust 實現的等價方案記憶體消耗高 5 倍，CPU 佔用高 2-3 倍，冷啟動慢 14-34 倍 (source: Benchmark from Saivishwak)。多 Agent 系統更糟：主流框架的 token 重複率在 53%-86% 之間，協調開銷隨 Agent 數量呈現 O(n²) 成長。O'Reilly 的分析是多 Agent 系統的 token 消耗大約是單 agent 的 15 倍，大部分花在了協調上而非實際推理上。
GPU 是思考引擎，CPU 是執行調度中心。業界把幾乎所有資源都押在思考引擎上，但執行調度中心正在拖後腿了。"
https://zhuanlan.zhihu.com/p/2017786330097164760

✍️ Abstract

NVIDIA Vera CPU 與 Agentic 時代的運算變革

NVIDIA 發表全新 Vera CPU，專為資料傳輸與代理程式處理 (Agentic Processing) 設計。
硬體配置 88 個 NVIDIA 自研 Olympus 核心與 176 個執行緒，支援 NVIDIA 空間多執行緒技術。
搭載 1.8 TB/s 的 NVLink-C2C 技術，實現 CPU 與 GPU 之間的快取一致性記憶體存取。
提供 1.5 TB 系統記憶體，容量達前代 Grace CPU 的 3 倍，並透過 SOCAMM LPDDR5X 達成 1.2 TB/s 的記憶體頻寬。
效能表現上，在資料處理、資料壓縮以及 CI/CD 流程中皆取得 2 倍的提升。
支援機櫃級機密運算，強化資料處理安全性。

癌大觀點分析

時代切換：訓練時代 GPU 為王，Agentic 應用更吃流程、協調、I/O、分支判斷，CPU 回到主舞台。
任務差異：Chatbot 流程短，瓶頸偏 GPU；Agent 流程長，推理只是其中一環。
Agent 迴圈：接收任務、載入上下文、推理、解析輸出、判斷下一步、呼叫工具、等待回傳、整理結果、組下一輪 Prompt，可能跑數十輪~上百輪。
CPU 工作：調度、資料預處理、工具呼叫、上下文管理、狀態持久化，幾乎全在 CPU 上跑。
工作負載：串列、小資料搬運、外部 I/O 密集，非大矩陣運算，正好對上 CPU 擅長／也容易卡住的區域。
Amdahl 定律：GPU 推理越快，GPU 佔比越被壓縮，剩下 CPU 串列部分變成主要延遲來源。
軟體放大：Python Agent 框架 (LangChain、LlamaIndex) 相對 Rust 等價方案，記憶體消耗高、CPU 佔用高、冷啟動慢。
多 Agent 代價：Token 重複率 53%~86%，協調開銷隨 Agent 數量呈 O(n²) 成長，token 消耗可到單 Agent 的 15 倍，主要花在協調。
角色比喻：GPU 是思考引擎，CPU 是執行調度中心，資源押注思考引擎過重，調度中心正在拖後腿。
市場觀察：Arm、AMD、Intel 股價相對硬，資金風向可能往 CPU 題材靠攏。

專有名詞

Agentic：代理式應用型態，重點在流程拆解、協調調度、分支判斷、外部 I/O。
Agent：長期運作的狀態機 (狀態持久化)，循環執行任務接收、工具呼叫、結果解析、下一步決策。
Chatbot：單輪流程，使用者輸入、模型推理、回傳結果，瓶頸更集中在 GPU 推理。
Workflow (工作流程)：多步驟任務鏈，包含上下文載入、Prompt 組裝、工具呼叫、等待回傳、迭代多輪。
I/O：外部資料交換，如：查資料庫、發 API 請求、檔案讀寫，特性偏串列、小資料搬運。
GPU：運算加速器，擅長大規模平行、矩陣運算，常是訓練、推理階段的核心瓶頸。
CPU：執行調度中心，擅長條件判斷、分支跳轉、外部 I/O、狀態管理，但也最容易卡延遲。
Amdahl 定律：加速某段計算後，整體提升受限於剩餘串列部分，GPU 越快，CPU 調度越像主要延遲來源。
Pipeline：端到端執行鏈，包含推理、資料預處理、工具呼叫、上下文管理，延遲由最慢環節主導。
LangChain、LlamaIndex：Python Agent 框架，常見問題是記憶體消耗高、CPU 佔用高、冷啟動慢。
Rust：系統程式語言，常被拿來對照 Python，在同等功能下更省資源、更利於低延遲。
Cold Start (冷啟動)：從啟動到可服務的時間，Agent 系統常因依賴多、初始化重而放大。
Token：模型輸入輸出單位，多 Agent 場景常出現重複 Token，協調成本壓過實際推理。
O(n²)：協調成本隨 Agent 數量平方成長，Agent 越多，管理開銷越快失控。
Agentic Processing：代理程式處理，指 Agent 在生產環境中反覆進行推理、解析輸出、決策下一步、呼叫工具的處理模式。
NVLink-C2C (Chip-to-Chip)：晶片對晶片互連，提供高頻寬、低延遲，支援 CPU、GPU 快取一致性記憶體存取。
SOCAMM (Server Compression Attached Memory Module)：伺服器壓縮附加記憶體模組，主打更高頻寬、更高效能的記憶體封裝路徑。
CI/CD (Continuous Integration／Continuous Deployment)：持續整合／持續部署，自動化整合程式碼、發佈到生產環境的工作流程。
TEE (Trusted Execution Environment)：受信任執行環境，在硬體隔離區執行敏感工作負載，降低未授權存取風險。
Confidential Compute (機密運算)：以 TEE 為核心，讓資料在處理過程中維持保護狀態，提高雲端運算安全性。
Olympus Cores：NVIDIA 基於 Arm 架構客製化的 CPU 核心，用於提升 CPU 端的調度、資料搬運能力。