NVIDIA Blackwell Ultra登場：50倍性能飛躍，AI推理成本暴跌至十分之一

文章重點

NVIDIA Blackwell Ultra（GB300）實現每兆瓦50倍吞吐量提升，每token成本較Hopper降低35倍
Blackwell B200和GB200已進入大規模量產，B300首批出貨啟動
Baseten、DeepInfra、Together AI等推理服務商利用Blackwell將成本降低4-10倍
醫療AI公司Sully.ai在Blackwell平台上實現推理成本下降90%
下一代Vera Rubin架構預告性能將是Blackwell的5倍，預計2026年底至2027年初推出

當硬件成為AI民主化的推手

AI模型的能力再強，如果推理成本高不可攀，就只能是少數巨頭的專利。NVIDIA最新的Blackwell Ultra晶片正在改變這一局面。根據NVIDIA公布的數據，GB300 NVL72系統相比上一代Hopper平台，每兆瓦吞吐量提升高達50倍，每token成本降低35倍。

這些數字意味著什麼？簡單來說，曾經需要花費100美元的AI推理任務，現在只需不到3美元。這不是漸進式改進，而是質的飛躍。

50x

每兆瓦吞吐量提升

35x

每token成本降低

15 PFLOPS

NVFP4峰值算力

288GB

HBM3e記憶體容量

技術解析：Blackwell Ultra的突破

Blackwell Ultra是Blackwell架構的升級版，在多個關鍵維度實現了顯著提升：

算力提升1.5倍：NVFP4性能從10 petaFLOPS提升至15 petaFLOPS，較Hopper H100/H200更是提升7.5倍
注意力層加速翻倍：Transformer架構中最耗資源的注意力計算速度提升2倍
記憶體容量大增：配備288GB HBM3e高帶寬記憶體，支持更大模型的推理
更快的互聯：記憶體和連接帶寬均有顯著提升，適合大規模分佈式推理

推理成本雪崩：真實案例

NVIDIA的硬件突破搭配優化的軟件堆疊和開源模型，正在推動推理成本的全面下降：

行業實例

醫療：AI醫療公司Sully.ai遷移到Baseten的Blackwell基礎設施後，推理成本降低90%。
遊戲：每百萬token的成本從Hopper上的20美分降至Blackwell的10美分，再通過NVFP4低精度格式進一步降至5美分。
客服：AI客服公司Decagon在Together AI的Blackwell基礎設施上實現每次查詢成本降低6倍。

這些4-10倍的成本削減需要三個要素同時具備：Blackwell硬件、優化的軟件堆疊、以及已達到前沿水平的開源模型。這三者的交匯正在從根本上改變AI的經濟學。

MLPerf稱霸與產業部署

在最權威的AI性能基準測試MLPerf中，Blackwell Ultra在兩項最大規模的測試——Llama 3.1-405B和DeepSeek-R1推理——中均拿下榜首。Microsoft、CoreWeave和OCI等雲端服務商已開始部署GB300 NVL72系統，主要用於低延遲和長上下文場景，如代理式編碼和編碼助手。

展望：Vera Rubin架構

Blackwell Ultra只是中期升級。NVIDIA已預告下一代Vera Rubin平台將提供Blackwell旗艦晶片5倍的AI算力，預計2026年底至2027年初推出。這意味著AI推理成本的下降趨勢不會停歇，反而會加速。

對香港數據中心產業的影響

香港正積極發展成為亞太區數據中心樞紐，Blackwell系列的高能效比對這一戰略至關重要。GB300的液冷設計和每兆瓦50倍的吞吐量意味著，在香港有限且昂貴的數據中心空間內，能夠部署的AI算力將大幅提升。對於正在評估AI基礎設施投資的本地企業和雲服務商來說，Blackwell Ultra的性能經濟學令人無法忽視。