NVIDIA 以 200 億美元收購 Groq 推論架構，推出 Groq 3 LPU：每瓦推論效能提升 35 倍

GPU 加 LPU：推論架構的根本性分工

NVIDIA 在 GTC 2026 大會上發布 Groq 3 LPX 語言處理單元（LPU），這是其去年底以 200 億美元授權協議取得 Groq 技術後推出的首款晶片，也是 NVIDIA 首款以非 GPU 矽晶片為核心的機架級產品。

Groq 3 LPU 的核心設計理念是：將大型語言模型推論中的兩個截然不同的工作負載徹底分離。Vera Rubin GPU 繼續負責算力密集的「預填充」（prefill）階段——處理長上下文輸入；Groq 3 LPU 則接管延遲敏感的「解碼」（decode）階段——逐詞元生成輸出。這一分工讓系統整體推論效率大幅提升。

技術規格與性能突破

Groq 3 LPU 採用 500 MB 片上 SRAM（靜態隨機存取記憶體）設計，記憶體頻寬達 150 TB/s，約為 H100 的 45 倍。由於模型權重與 KV 快取完全常駐片上，解碼阶段無需存取片外記憶體，延遲降至接近零。NVIDIA 表示，每兆瓦推論吞吐量較 Blackwell NVL72 提升 35 倍，推論每瓦效能約為 150 tokens/watt，是傳統 GPU 的 35 倍。

NVIDIA 建議的部署比例為 3:1（GPU 對 LPU），即每三個 GPU 單元配一個 LPU，適合以大型語言模型推論為主的工作負載。Groq 3 LPU 目前處於早期存取預覽階段，廣泛雲端部署預計 2026 年底前開放。