NVIDIA Blackwell Ultra登場:50倍性能飛躍,AI推理成本暴跌至十分之一

文章重點

  • NVIDIA Blackwell Ultra(GB300)實現每兆瓦50倍吞吐量提升,每token成本較Hopper降低35倍
  • Blackwell B200和GB200已進入大規模量產,B300首批出貨啟動
  • Baseten、DeepInfra、Together AI等推理服務商利用Blackwell將成本降低4-10倍
  • 醫療AI公司Sully.ai在Blackwell平台上實現推理成本下降90%
  • 下一代Vera Rubin架構預告性能將是Blackwell的5倍,預計2026年底至2027年初推出

當硬件成為AI民主化的推手

AI模型的能力再強,如果推理成本高不可攀,就只能是少數巨頭的專利。NVIDIA最新的Blackwell Ultra晶片正在改變這一局面。根據NVIDIA公布的數據,GB300 NVL72系統相比上一代Hopper平台,每兆瓦吞吐量提升高達50倍,每token成本降低35倍。

這些數字意味著什麼?簡單來說,曾經需要花費100美元的AI推理任務,現在只需不到3美元。這不是漸進式改進,而是質的飛躍。

50x
每兆瓦吞吐量提升
35x
每token成本降低
15 PFLOPS
NVFP4峰值算力
288GB
HBM3e記憶體容量

技術解析:Blackwell Ultra的突破

Blackwell Ultra是Blackwell架構的升級版,在多個關鍵維度實現了顯著提升:

  • 算力提升1.5倍:NVFP4性能從10 petaFLOPS提升至15 petaFLOPS,較Hopper H100/H200更是提升7.5倍
  • 注意力層加速翻倍:Transformer架構中最耗資源的注意力計算速度提升2倍
  • 記憶體容量大增:配備288GB HBM3e高帶寬記憶體,支持更大模型的推理
  • 更快的互聯:記憶體和連接帶寬均有顯著提升,適合大規模分佈式推理

推理成本雪崩:真實案例

NVIDIA的硬件突破搭配優化的軟件堆疊和開源模型,正在推動推理成本的全面下降:

行業實例

醫療:AI醫療公司Sully.ai遷移到Baseten的Blackwell基礎設施後,推理成本降低90%。
遊戲:每百萬token的成本從Hopper上的20美分降至Blackwell的10美分,再通過NVFP4低精度格式進一步降至5美分。
客服:AI客服公司Decagon在Together AI的Blackwell基礎設施上實現每次查詢成本降低6倍。

這些4-10倍的成本削減需要三個要素同時具備:Blackwell硬件、優化的軟件堆疊、以及已達到前沿水平的開源模型。這三者的交匯正在從根本上改變AI的經濟學。

MLPerf稱霸與產業部署

在最權威的AI性能基準測試MLPerf中,Blackwell Ultra在兩項最大規模的測試——Llama 3.1-405B和DeepSeek-R1推理——中均拿下榜首。Microsoft、CoreWeave和OCI等雲端服務商已開始部署GB300 NVL72系統,主要用於低延遲和長上下文場景,如代理式編碼和編碼助手。

展望:Vera Rubin架構

Blackwell Ultra只是中期升級。NVIDIA已預告下一代Vera Rubin平台將提供Blackwell旗艦晶片5倍的AI算力,預計2026年底至2027年初推出。這意味著AI推理成本的下降趨勢不會停歇,反而會加速。

對香港數據中心產業的影響

香港正積極發展成為亞太區數據中心樞紐,Blackwell系列的高能效比對這一戰略至關重要。GB300的液冷設計和每兆瓦50倍的吞吐量意味著,在香港有限且昂貴的數據中心空間內,能夠部署的AI算力將大幅提升。對於正在評估AI基礎設施投資的本地企業和雲服務商來說,Blackwell Ultra的性能經濟學令人無法忽視。