AI硬體

NVIDIA 以 200 億美元收購 Groq 推論架構,推出 Groq 3 LPU:每瓦推論效能提升 35 倍

NVIDIA 在 GTC 2026 發布 Groq 3 語言處理單元(LPU),這是其以 200 億美元授權協議獲得 Groq 技術後的首款晶片,與 Vera Rubin GPU 協同運作,推論每兆瓦吞吐量較 Blackwell NVL72 提升 35 倍,預計 2026 年下半年供貨。

GPU 加 LPU:推論架構的根本性分工

NVIDIA 在 GTC 2026 大會上發布 Groq 3 LPX 語言處理單元(LPU),這是其去年底以 200 億美元授權協議取得 Groq 技術後推出的首款晶片,也是 NVIDIA 首款以非 GPU 矽晶片為核心的機架級產品。

Groq 3 LPU 的核心設計理念是:將大型語言模型推論中的兩個截然不同的工作負載徹底分離。Vera Rubin GPU 繼續負責算力密集的「預填充」(prefill)階段——處理長上下文輸入;Groq 3 LPU 則接管延遲敏感的「解碼」(decode)階段——逐詞元生成輸出。這一分工讓系統整體推論效率大幅提升。

技術規格與性能突破

Groq 3 LPU 採用 500 MB 片上 SRAM(靜態隨機存取記憶體)設計,記憶體頻寬達 150 TB/s,約為 H100 的 45 倍。由於模型權重與 KV 快取完全常駐片上,解碼阶段無需存取片外記憶體,延遲降至接近零。NVIDIA 表示,每兆瓦推論吞吐量較 Blackwell NVL72 提升 35 倍,推論每瓦效能約為 150 tokens/watt,是傳統 GPU 的 35 倍。

NVIDIA 建議的部署比例為 3:1(GPU 對 LPU),即每三個 GPU 單元配一個 LPU,適合以大型語言模型推論為主的工作負載。Groq 3 LPU 目前處於早期存取預覽階段,廣泛雲端部署預計 2026 年底前開放。