文章重點
- NVIDIA Blackwell Ultra(GB300)實現每兆瓦50倍吞吐量提升,每token成本較Hopper降低35倍
- Blackwell B200和GB200已進入大規模量產,B300首批出貨啟動
- Baseten、DeepInfra、Together AI等推理服務商利用Blackwell將成本降低4-10倍
- 醫療AI公司Sully.ai在Blackwell平台上實現推理成本下降90%
- 下一代Vera Rubin架構預告性能將是Blackwell的5倍,預計2026年底至2027年初推出
當硬件成為AI民主化的推手
AI模型的能力再強,如果推理成本高不可攀,就只能是少數巨頭的專利。NVIDIA最新的Blackwell Ultra晶片正在改變這一局面。根據NVIDIA公布的數據,GB300 NVL72系統相比上一代Hopper平台,每兆瓦吞吐量提升高達50倍,每token成本降低35倍。
這些數字意味著什麼?簡單來說,曾經需要花費100美元的AI推理任務,現在只需不到3美元。這不是漸進式改進,而是質的飛躍。
技術解析:Blackwell Ultra的突破
Blackwell Ultra是Blackwell架構的升級版,在多個關鍵維度實現了顯著提升:
- 算力提升1.5倍:NVFP4性能從10 petaFLOPS提升至15 petaFLOPS,較Hopper H100/H200更是提升7.5倍
- 注意力層加速翻倍:Transformer架構中最耗資源的注意力計算速度提升2倍
- 記憶體容量大增:配備288GB HBM3e高帶寬記憶體,支持更大模型的推理
- 更快的互聯:記憶體和連接帶寬均有顯著提升,適合大規模分佈式推理
推理成本雪崩:真實案例
NVIDIA的硬件突破搭配優化的軟件堆疊和開源模型,正在推動推理成本的全面下降:
行業實例
醫療:AI醫療公司Sully.ai遷移到Baseten的Blackwell基礎設施後,推理成本降低90%。
遊戲:每百萬token的成本從Hopper上的20美分降至Blackwell的10美分,再通過NVFP4低精度格式進一步降至5美分。
客服:AI客服公司Decagon在Together AI的Blackwell基礎設施上實現每次查詢成本降低6倍。
這些4-10倍的成本削減需要三個要素同時具備:Blackwell硬件、優化的軟件堆疊、以及已達到前沿水平的開源模型。這三者的交匯正在從根本上改變AI的經濟學。
MLPerf稱霸與產業部署
在最權威的AI性能基準測試MLPerf中,Blackwell Ultra在兩項最大規模的測試——Llama 3.1-405B和DeepSeek-R1推理——中均拿下榜首。Microsoft、CoreWeave和OCI等雲端服務商已開始部署GB300 NVL72系統,主要用於低延遲和長上下文場景,如代理式編碼和編碼助手。
展望:Vera Rubin架構
Blackwell Ultra只是中期升級。NVIDIA已預告下一代Vera Rubin平台將提供Blackwell旗艦晶片5倍的AI算力,預計2026年底至2027年初推出。這意味著AI推理成本的下降趨勢不會停歇,反而會加速。
對香港數據中心產業的影響
香港正積極發展成為亞太區數據中心樞紐,Blackwell系列的高能效比對這一戰略至關重要。GB300的液冷設計和每兆瓦50倍的吞吐量意味著,在香港有限且昂貴的數據中心空間內,能夠部署的AI算力將大幅提升。對於正在評估AI基礎設施投資的本地企業和雲服務商來說,Blackwell Ultra的性能經濟學令人無法忽視。