Baseten獲3億美元融資估值50億：NVIDIA Blackwell GPU如何將AI推理成本壓低10倍

文章重點

三藩市AI推理基建公司Baseten完成3億美元新一輪融資，估值達50億美元，由IVP、CapitalG（Alphabet旗下風投基金）及NVIDIA共同領投，標誌着資本市場對AI推理基礎設施的重視程度已與模型訓練並駕齊驅
Baseten成立7年，專注解決AI部署的「最後一哩路」——幫助企業在NVIDIA GPU上高效部署Llama、Mistral等開源模型，其核心價值在於利用NVIDIA最新Blackwell架構GPU將推理成本降低高達10倍
AI行業正經歷從「訓練為王」到「推理主導」的結構性轉變：模型訓練屬一次性投資，而推理則是持續性開支，隨着企業大規模部署AI，推理成本已成為營運支出中增長最快的項目
競爭格局日趨白熱化，DeepInfra、Together AI、Replicate等公司均在搶佔推理基建市場，皆以Blackwell GPU為基礎大幅壓縮成本，醫療AI公司Sully.ai等早期客戶已實現推理成本的顯著下降
對香港AI初創及企業而言，推理基建成本的急劇下降意味着部署大型開源模型的門檻正在瓦解，中小型企業不再需要自建GPU集群，即可獲得與科技巨頭相當的AI推理能力

一、3億美元融資背後：資本為何押注AI的「最後一哩路」

2026年初，三藩市AI基建公司Baseten宣佈完成3億美元新一輪融資，估值躍升至50億美元。這輪融資由頂級風投機構IVP領投，Alphabet旗下風險投資基金CapitalG及GPU巨頭NVIDIA共同參與。對於一家專注於AI推理基礎設施——而非開發前沿大型語言模型——的公司而言，這一估值水平傳遞了一個清晰的市場信號：資本市場的關注焦點，正從AI模型的「研發端」加速轉向「部署端」。

Baseten成立於2019年，至今已有7年歷史，遠早於2022年底ChatGPT引爆的生成式AI熱潮。公司的創辦團隊在早期便預判到一個產業痛點：即使AI模型的研發取得突破，企業在將這些模型實際部署至生產環境時，仍面臨巨大的工程和成本挑戰。事實證明，這一判斷具有前瞻性——如今，幾乎每一家導入AI的企業都在為推理成本的持續攀升而頭痛。NVIDIA的直接投資尤其值得關注，這不僅是財務投資，更代表晶片巨頭對推理基建生態的戰略佈局，確保其GPU硬件在推理市場的主導地位得以延續。

$3億

二、Baseten做什麼：AI推理基建的核心價值

要理解Baseten的商業模式，首先需要釐清AI部署流程中的一個關鍵環節——推理（Inference）。簡而言之，當用戶向ChatGPT提出問題、當醫療AI系統分析X光影像、當自動駕駛汽車的視覺模型辨識行人時，這些「模型接收輸入並產生輸出」的過程，即為推理。推理是AI價值的最終交付環節，也是企業AI營運成本的最大組成部分。

Baseten的定位是AI推理的「基礎設施即服務」（Infrastructure-as-a-Service）供應商。具體而言，公司為企業客戶提供一套高度優化的推理服務平台，支援Llama、Mistral、Stable Diffusion等主流開源模型的即時部署。企業無需自行搭建和管理GPU集群，只需通過Baseten的平台上傳模型或選擇預載模型，即可在數分鐘內獲得生產級的推理服務。平台的核心技術優勢在於其推理引擎的極致優化——包括動態批處理（Dynamic Batching）、模型量化（Quantization）、投機解碼（Speculative Decoding）等一系列降低延遲和成本的工程手段。

這種「最後一哩路」的定位，使Baseten在AI產業鏈中佔據了一個獨特的戰略位置：它既不與OpenAI、Anthropic等模型開發商直接競爭，也不與AWS、Azure等雲端巨頭在基礎雲端計算層面正面交鋒，而是專注於模型與終端用戶之間的推理服務層，這恰恰是當前企業AI部署中效率損耗最大、優化空間最廣的環節。

訓練（Training）vs. 推理（Inference）：成本結構的根本差異

訓練：一次性投資。企業或研究機構使用大量GPU和海量數據，花費數週至數月「教會」模型特定能力。例如，訓練一個大型語言模型可能耗費數千萬至數億美元的GPU算力成本，但這是一次性的資本支出。

推理：持續性開支。模型訓練完成後，每一次用戶查詢、每一張影像分析、每一段語音辨識，都需要GPU算力來執行推理。隨着AI應用的用戶規模擴大，推理成本以線性甚至超線性的方式增長，迅速超越初始訓練投資。

核心啟示：業界估計，AI的全生命周期成本中，推理佔比已從兩年前的約60%攀升至如今的80%以上。這正是Baseten等推理基建公司估值暴漲的根本原因——它們解決的是一個規模不斷膨脹的持續性問題，而非一次性的工程挑戰。

三、NVIDIA Blackwell的推理革命：為何能做到10倍成本壓縮

Baseten此輪融資的技術核心，在於全面轉向NVIDIA最新的Blackwell架構GPU。Blackwell系列（包括B200及GB200等型號）相較於上一代Hopper架構（如H100），在推理工作負載上實現了質的飛躍。根據NVIDIA官方數據及多家獨立評測機構的結果，Blackwell在大型語言模型推理場景中的性能功耗比（Performance-per-Watt）較H100提升約4至5倍，結合Baseten自研的推理優化軟件棧，綜合成本降幅可達10倍。

這一成本壓縮並非來自單一技術突破，而是多個層面的協同效應。在硬件層面，Blackwell採用了全新的Transformer Engine設計，專門針對大型語言模型的注意力機制（Attention Mechanism）進行硬件加速，並支援FP4（4位元浮點數）精度計算，在精度損失可控的前提下大幅提升吞吐量。在互聯層面，GB200的NVLink 5.0技術實現了晶片間900 GB/s的雙向頻寬，有效消除了多GPU推理時的通訊瓶頸。在軟件層面，Baseten的推理引擎能夠根據即時負載動態調整批處理大小和計算精度，確保GPU利用率始終維持在最佳水平。

10倍的成本降幅意味着什麼？以一個典型的企業級AI客服系統為例，若此前每月推理成本為50萬美元，在遷移至Baseten的Blackwell平台後，相同服務質量下的月度成本可降至約5萬美元。這種量級的成本變化，足以從根本上改變企業是否值得大規模部署AI的商業決策邏輯。

「推理成本是AI規模化的最大障礙。當成本降低10倍，原本不可行的應用場景突然變得具備商業可行性——這才是真正的產業變革。」——Baseten管理層

四、競爭格局：DeepInfra、Together AI與推理基建的軍備競賽

Baseten並非推理基建賽道的唯一玩家。事實上，隨着推理成本成為AI行業的核心議題，多家公司正在這一領域展開激烈競爭。DeepInfra是最具代表性的直接競爭對手之一，同樣以開源模型推理服務為核心業務，並已率先部署Blackwell GPU以壓縮成本。DeepInfra的定價策略極為激進，多次以「業界最低價」為賣點發起價格戰，迫使整個市場的推理服務單價持續走低。

Together AI則從另一個角度切入市場——除了推理服務外，還提供分散式訓練和微調（Fine-tuning）能力，試圖覆蓋AI部署的更完整流程。Together AI同樣在大規模採購Blackwell GPU，並以其開源友好的定位吸引了大量中小型AI團隊。Replicate則以其極致簡化的開發者體驗著稱，讓開發者以幾行代碼即可部署和調用開源模型，雖然在大規模企業部署方面的能力不及Baseten，但在快速原型開發和中小規模應用場景中佔有一席之地。

值得注意的是，這場競爭並非零和博弈。推理基建市場的總量正在以驚人速度膨脹——隨着越來越多的企業從AI實驗階段進入生產部署階段，市場需求的增長速度遠超現有供應商的產能擴張速度。從投資者的角度看，這意味着多家推理基建公司有可能在未來數年內同時實現高速增長，正如十年前的雲端計算市場同時容納了AWS、Azure和GCP三大巨頭一樣。

五、醫療AI實證：Sully.ai的成本革命

推理成本的下降並非停留在技術白皮書和投資者簡報上的抽象數字，而是已在真實業務場景中產生了可量化的影響。醫療AI公司Sully.ai便是一個引人注目的早期案例。Sully.ai開發的AI系統用於協助醫生分析病歷、生成臨床筆記及進行初步診斷建議，這類應用對推理延遲和成本極為敏感——每一次醫患互動都需要即時的AI推理，而醫療機構的IT預算增長遠遠追不上AI推理需求的擴張速度。

在遷移至基於Blackwell GPU的推理基建平台後，Sully.ai實現了推理成本的顯著下降，同時將模型響應延遲壓縮至臨床可接受的範圍內。這一變化的實際意義在於：此前因成本而無法覆蓋的中小型診所和社區醫療中心，現在也能負擔得起AI輔助診療系統。推理成本的降低直接擴大了AI醫療服務的可及性，讓更多病患能夠受惠於AI技術。

Sully.ai的案例具有普遍性意義。在金融風控、法律文書分析、供應鏈優化等同樣對推理成本敏感的行業，類似的成本革命正在發生。每當推理成本出現一個數量級的下降，便會有一批此前被成本門檻擋在門外的應用場景突然變得可行——這種「成本觸發的應用擴散」效應，是推理基建市場成長的核心驅動力。

六、企業採用趨勢：開源模型部署的爆發式增長

Baseten的崛起與另一個宏觀趨勢密不可分——開源AI模型的爆發式增長。Meta的Llama系列、Mistral AI的Mistral及Mixtral系列、Stability AI的Stable Diffusion，以及眾多學術界和開源社區開發的模型，為企業提供了一個無需支付模型授權費用的AI部署路徑。然而，「免費的模型」並不等於「免費的部署」——模型本身是開源的，但將其高效、穩定地運行在生產環境中所需的GPU算力、推理優化和運維管理，仍然是實打實的成本。

這正是Baseten等推理基建公司的價值所在。對於一家希望部署Llama 3的企業而言，自行搭建GPU集群不僅需要數百萬美元的硬件投資，還需要一支精通CUDA編程、模型量化和分散式系統的專業工程團隊。而通過Baseten的平台，同一家企業可以在無需管理任何硬件的情況下，以按需付費的方式獲得同等甚至更優的推理性能。這種「去硬件化」的趨勢，正在徹底改變中小型企業部署AI的可行性計算。

從市場數據來看，企業對開源模型推理服務的需求增長令人矚目。根據多家市場研究機構的估計，2026年全球AI推理基建市場規模已超過300億美元，預計至2028年將突破1,000億美元。這一增長軌跡的背後，是一個簡單但強大的邏輯：AI不再是少數科技巨頭的專利，而是正在成為每一家企業的基礎設施需求，就如同十年前的雲端計算和二十年前的互聯網接入一樣。

七、香港AI初創的機遇：推理成本下降如何重塑競爭格局

對於香港的AI初創企業和正在推進數碼轉型的傳統企業而言，Baseten的融資及推理成本的結構性下降，帶來了直接且深刻的啟示。長期以來，香港AI初創面臨的最大挑戰之一是算力成本——在缺乏本地大規模GPU集群的環境下，企業只能依賴海外雲端服務，推理成本高昂且受匯率和跨境數據傳輸延遲的雙重制約。

推理成本降低10倍，意味着一家香港金融科技初創現在能夠以過去十分之一的價格部署同等規模的AI風控或智能客服系統。一家醫療科技公司可以以可負擔的成本為本港數百間私家診所提供AI輔助診療服務。一家法律科技初創可以讓中小型律師事務所也用得起AI合約分析工具。成本的階梯式下降，從根本上改變了「哪些AI應用在香港市場具備商業可行性」的答案。

更重要的是，開源模型加上低成本推理基建的組合，令香港企業不再需要依賴單一的AI模型供應商。企業可以根據不同應用場景靈活選擇最適合的開源模型——例如用Llama處理通用語言任務、用Mistral處理多語言場景、用專門微調的模型處理廣東話及繁體中文特定需求——而這一切都可以在統一的推理基建平台上實現。對於一個本身市場規模有限但創新能力不俗的城市而言，這種靈活性就是競爭力。

八、展望：推理基建是AI產業化的終極戰場

Baseten的3億美元融資及50億美元估值，折射的是一個更宏觀的產業趨勢：AI行業的價值重心正在從模型開發向基礎設施層遷移。在過去三年的AI競賽中，最引人注目的是模型能力的突破——GPT-4、Claude、Gemini等前沿模型的發佈，每一次都引發全球關注。但隨着模型能力逐漸趨同、開源替代品日趨成熟，真正決定企業AI部署成敗的，不再是「用哪個模型」，而是「以多低的成本、多快的速度、多穩定的品質來運行這個模型」。

這種轉變對AI產業的長期格局具有深遠影響。未來的AI競爭，將越來越像雲端計算行業的發展路徑：勝出者不是技術最前沿的研究機構，而是能夠以最高效率、最低成本提供穩定服務的基礎設施供應商。Baseten、DeepInfra、Together AI、Replicate等公司的融資和估值飆升，正是這一結構性轉變的早期信號。而NVIDIA對Baseten的直接投資，更說明了晶片巨頭對推理市場的戰略判斷——推理，而非訓練，才是GPU算力的長期最大市場。

對於關注AI行業的香港投資者和企業決策者而言，這場推理基建的競賽值得高度關注。當推理成本以每年數倍的速度下降時，它釋放的不僅是新的商業機會，更是一場關於誰能最快將AI從實驗室帶入生產線的全球競速。而在這場競速中，真正的贏家或許不是擁有最強模型的公司，而是讓最多人用得起AI的那一方。

Baseten AI推理 NVIDIA Blackwell IVP CapitalG 開源模型 Llama Mistral DeepInfra Together AI Replicate Sully.ai AI醫療推理基建香港AI