文章重點
- World Labs於2026年2月18日完成10億美元融資,投資者包括AMD、NVIDIA、Autodesk(投入2億美元並擔任顧問)、Emerson Collective、Fidelity、Sea及a16z,累計融資超過12億美元,估值約50億美元
- 公司由「AI教母」李飛飛(Fei-Fei Li)共同創辦,她是史丹福大學教授暨ImageNet的締造者,主張「AI若要真正有用,必須理解世界,而非僅僅理解文字」
- 旗艦產品Marble是一套生成式世界模型,能從文字、圖像或影片輸入生成持久性3D環境,支援網格(mesh)及影片輸出,2025年11月結束測試正式上線,提供免費及付費方案
- 空間智能代表AI範式的根本轉向——從處理2D文字和圖像,邁向理解受幾何、物理和動力學支配的3D世界,應用場景涵蓋遊戲、視覺特效、VR、機械人及科學研究
- World Labs正與Google DeepMind的Genie系列模型展開正面競爭,「物理AI」趨勢正推動AI與3D空間理解的深度融合,對香港遊戲、創意產業及VR生態帶來深遠影響
一、10億美元的信號:為何資本瘋狂湧入空間智能
2026年2月18日,World Labs宣佈完成10億美元的最新融資輪次。這一數字本身已足夠震撼——即使在AI領域融資紀錄不斷被刷新的今天,一家專注於「空間智能」的初創企業能在單輪中吸引如此體量的資本,仍然是一個值得深思的信號。加上此前的2.3億美元融資,World Labs的累計融資規模已超過12億美元,彭博社報導的估值約為50億美元。
但比融資金額更值得關注的,是這份投資者名單的構成。AMD和NVIDIA——全球兩大GPU巨頭同時入股一家AI初創公司,這在業界極為罕見。通常,這兩家公司在投資組合中會刻意保持差異化以避免利益衝突,但它們在World Labs身上的罕見共識,暗示着一個判斷:空間智能所代表的計算範式,將成為下一代GPU架構和算力需求的核心驅動力。
Autodesk的2億美元投資加顧問角色則揭示了另一層戰略考量。作為全球建築、工程和設計軟件的龍頭,Autodesk深知3D內容創建流程的痛點——專業3D建模耗時數週乃至數月,是制約整個創意產業產能的最大瓶頸。如果World Labs的Marble能將這一流程從數週壓縮到數分鐘,Autodesk不是要對抗這項技術,而是要確保自己站在變革的正確一側。
Fidelity、Emerson Collective和a16z的加入,則代表了從傳統資產管理到矽谷頂級風投的廣泛共識。值得一提的是,Sea(東南亞科技巨頭)的參與暗示了空間智能在亞洲市場——尤其是遊戲和電商領域——的巨大潛力。
二、李飛飛的知識譜系:從ImageNet到空間智能的思想脈絡
要理解World Labs的戰略方向,必須先理解其共同創辦人李飛飛(Fei-Fei Li)的學術軌跡和思想演變。李飛飛被業界尊稱為「AI教母」,這個稱號並非客套——她在2009年主導建立的ImageNet資料庫,直接催生了2012年深度學習革命的導火索。當Alex Krizhevsky的AlexNet在ImageNet挑戰賽中一鳴驚人時,改變的不僅是計算機視覺這一個領域,而是整個AI產業的發展軌跡。
但李飛飛從未滿足於讓AI停留在「辨識圖像中的物體」這個層面。從她近年來的學術著作和公開演講中,可以清晰地追溯出一條思想脈絡:從2D影像辨識到3D場景理解,從靜態感知到動態推理,從被動觀察到主動互動。這條脈絡的終點,正是World Labs所定義的「空間智能」。
她那句廣為流傳的宣言——「AI若要真正有用,必須理解世界,而非僅僅理解文字」——不是一句行銷口號,而是對當前AI發展路線的一次根本性批判。過去三年,AI領域幾乎所有的資本和注意力都集中在大型語言模型(LLM)上,從GPT到Claude到Gemini,進步的衡量標準幾乎清一色是「文字處理能力」。但李飛飛指出了一個被大多數人忽視的事實:人類的認知能力中,語言只佔很小一部分。我們對世界的理解,主要依賴的是空間感知、物理直覺和動態推理——這些能力是嬰兒在學會說第一個字之前就已經具備的。
「世界受幾何、物理和動力學支配」——李飛飛的這句話精確地定義了空間智能的技術邊界。這不是要讓AI「畫出漂亮的3D圖像」,而是要讓AI真正理解三維空間中物體的形狀、相對位置、物理屬性以及它們在時間維度上的運動規律。這是一個比語言理解更加困難、也更加根本的AI挑戰。
「如果AI要真正有用,它必須理解世界,而非僅僅理解文字。世界受幾何、物理和動力學支配。」——李飛飛(Fei-Fei Li),World Labs共同創辦人、史丹福大學教授
三、Marble:生成式世界模型的技術突破與產品邏輯
World Labs的旗艦產品Marble,是一套「生成式世界模型」——這個名稱本身就暗示了它與當前主流生成式AI產品的根本差異。Midjourney、DALL-E、Stable Diffusion等工具生成的是2D圖像;Sora、Runway等生成的是2D影片;而Marble生成的是持久性的3D環境——一個具有空間縱深、可以從不同角度觀察、且物體之間存在合理物理關係的虛擬世界。
Marble於2025年11月結束beta測試正式上線,提供免費和付費兩種方案。用戶可以通過文字描述、上傳圖像或影片來啟動3D場景生成。系統會根據輸入自動推斷場景的三維結構、光照條件、材質屬性和空間佈局,輸出一個可互動的3D環境。關鍵的是,這些環境是「持久性」的——它們不是一次性渲染的靜態畫面,而是可以被後續修改、擴展和組合的完整3D資產。
在輸出格式方面,Marble支援網格(mesh)匯出和影片渲染。網格匯出意味着生成的3D內容可以直接導入Unity、Unreal Engine、Blender等主流3D工具鏈中使用——這是Marble與純粹的「AI生圖」工具最重要的區別。它不是一個獨立的創意玩具,而是可以無縫嵌入現有專業工作流的生產力工具。
從技術架構的角度看,Marble的核心挑戰在於「幾何一致性」和「物理合理性」。生成一張好看的3D渲染圖並不難,難的是確保場景中每一個物體的幾何比例正確、相互遮擋關係合理、光影投射符合物理定律、材質反射遵循真實世界的光學特性。這些看似細微的技術細節,恰恰是決定生成內容能否從「演示demo」跨越到「生產可用」的關鍵門檻。
World Labs在這方面的技術積累,直接受益於李飛飛在史丹福AI實驗室多年的3D場景理解研究。從NeRF(神經輻射場)到3D高斯濺射(Gaussian Splatting),再到基於擴散模型的3D生成,學術界在過去三年積累了大量的技術突破。World Labs的獨特優勢在於能夠將這些分散的學術成果整合為一個統一的、可大規模部署的產品系統。
什麼是空間智能(Spatial Intelligence)?
空間智能是指AI系統理解和推理三維物理世界的能力。與傳統AI側重處理文字和2D圖像不同,空間智能要求AI能夠:
幾何理解:辨識和推斷物體的三維形狀、大小比例及空間位置關係
物理推理:預測物體在重力、碰撞、流體等物理力作用下的行為
動態建模:理解和模擬場景隨時間變化的動態過程
跨模態融合:將文字描述、2D圖像和3D空間資訊統一映射到同一個表徵空間
空間智能被視為實現通用人工智能(AGI)的關鍵缺失拼圖之一,也是機械人、自動駕駛、虛擬實境等領域的核心技術基礎。
四、應用版圖:從遊戲到機械人的產業衝擊波
Marble的應用場景遠比「生成好看的3D場景」寬廣得多。World Labs正在繪製的應用版圖,橫跨了從娛樂創意到工業科學的多個高價值領域。
遊戲開發:這是空間智能最直接、最具商業潛力的應用場景。當前,一款3A級遊戲的環境美術製作通常佔據總開發預算的30-40%,耗時往往超過一年。如果Marble能夠將環境生成從手工建模轉變為AI輔助生成——即使僅覆蓋初始原型和基礎場景——也足以將開發週期壓縮數月、節省數千萬美元的成本。更重要的是,這將降低獨立遊戲開發者的進入門檻,催生更多元化的遊戲創意。
視覺特效(VFX):電影和電視劇的視覺特效行業正面臨嚴峻的產能瓶頸。全球VFX產業規模約350億美元,但熟練的3D藝術家供不應求,大型項目的後期製作排期往往長達18個月。Marble的3D場景生成能力,可以作為VFX前期視覺化(previs)和概念設計的加速工具,讓導演和美術總監在項目早期就能快速迭代視覺方案,而非等待數週才能看到第一版粗略渲染。
虛擬實境(VR)和元宇宙:VR內容匱乏一直是制約頭戴設備普及的最大瓶頸。Apple Vision Pro和Meta Quest的硬件已經足夠成熟,但缺乏足夠豐富和高品質的沉浸式內容。Marble的持久性3D環境生成,恰恰可以填補這個缺口——想像一下,用戶只需描述一個場景,就能生成一個可以在VR中自由探索的空間。這將從根本上改變VR內容的生產模式。
機械人與自動化:這是World Labs明確表示正在拓展的方向,也是空間智能最具長遠價值的應用領域。機械人要在現實世界中有效操作,必須理解周圍環境的三維結構和物理屬性。World Labs的空間智能技術,可以為機械人提供「數字孿生」式的環境理解能力,讓它們在虛擬環境中進行大規模訓練後再部署到真實世界。這是所謂「Sim-to-Real」(從模擬到現實)技術路線的核心基礎。
科學研究:從分子結構視覺化到天文觀測數據的3D重建,從蛋白質摺疊模擬到地質勘探的地下結構建模,科學研究中存在大量需要3D空間理解和生成的場景。World Labs表示正在探索這些方向,雖然目前尚處早期,但長遠潛力不容忽視。
五、競爭格局:與Google DeepMind Genie的正面交鋒
World Labs並不是空間智能賽道上的唯一玩家。Google DeepMind的Genie系列模型是其最直接的競爭對手,而整個「物理AI」(Physical AI)領域正在吸引越來越多的重量級參與者。
Google DeepMind的Genie最初專注於從2D影片自動學習遊戲環境的物理規則,能夠生成可互動的2D遊戲世界。隨後的Genie 2將這一能力擴展到了3D領域,展示了從單張圖像生成可探索3D環境的能力。Google的優勢在於其龐大的計算資源和數據資產——YouTube上數十億小時的影片為訓練世界模型提供了近乎無限的數據供給。
但World Labs相比DeepMind有一個關鍵的差異化優勢:產品化速度和商業化路徑的清晰度。Marble已經是一個可供用戶使用的產品,具備明確的免費和付費方案以及專業級的匯出功能。而DeepMind的Genie系列目前更多停留在研究展示階段,尚未形成面向終端用戶的成熟產品。在AI領域,「做出demo」和「做出產品」之間的距離,往往比外界想像的要遠得多。
NVIDIA在這場競爭中扮演着獨特的「雙重角色」。一方面,NVIDIA的Omniverse平台本身就是一個3D模擬和數字孿生平台,與World Labs存在一定程度的業務重疊。另一方面,NVIDIA作為World Labs的投資者,顯然認為空間智能的市場足夠大,容得下多個玩家共存——而且每一個空間智能的應用場景都意味着更多的GPU需求。對NVIDIA而言,World Labs的成功等於GPU銷量的增長,這個投資邏輯清晰而務實。
「物理AI」這一概念正在成為AI產業的下一個主戰場。它代表的不僅是3D內容生成這一個垂直場景,而是AI能力從「數字世界」向「物理世界」延伸的根本性轉變。從自動駕駛到工業機械人,從增強現實到智能建築,任何需要AI理解和操控物理空間的應用,都屬於物理AI的範疇。World Labs在這個廣闘賽道中佔據了一個獨特且有利的位置——它既不是做硬件的(如NVIDIA),也不是做通用AI的(如Google),而是專注於「空間理解」這一關鍵的能力層。
六、香港視角:創意產業、遊戲開發與VR生態的轉型契機
World Labs的空間智能突破,對香港的創意產業和科技生態具有特殊的戰略意義。香港雖然不是傳統意義上的遊戲開發重鎮,但其獨特的地理位置和產業結構,使其有可能在空間智能的應用浪潮中找到獨特的切入點。
首先是遊戲和互動娛樂領域。香港擁有一批高水準的獨立遊戲工作室和互動媒體公司,但長期受限於3D內容製作的高成本。一個典型的3D遊戲場景,由專業美術團隊從概念設計到最終資產製作,往往需要數週時間和數十萬港幣的投入。Marble這類工具的出現,可以將原型階段的時間和成本降低一個數量級。對於資金有限但創意豐富的香港獨立遊戲開發者而言,這是一個真正的賦能工具,而非威脅。
其次是VR和沉浸式體驗。香港在文化旅遊、主題展覽和零售體驗方面有着豐富的經驗和強勁的市場需求。從西九文化區的數碼藝術展到尖沙咀的沉浸式體驗館,市場對高品質VR內容的需求持續增長。但目前的瓶頸正是3D內容的製作成本和週期。如果Marble能夠快速生成可用於VR環境的3D場景,將大幅降低香港沉浸式體驗產業的內容生產門檻。
第三是建築和房地產視覺化。香港作為全球地價最高的城市之一,房地產開發商對建築視覺化的投入向來毫不吝嗇。從樓盤銷售的VR看樓體驗到建築設計的概念視覺化,3D內容在這個行業中扮演着關鍵角色。Autodesk作為World Labs的重要投資者和顧問,暗示了空間智能技術與建築設計工具鏈整合的可能性——這對香港的建築和室內設計行業具有直接的實用價值。
不過,香港要抓住這一機遇也面臨挑戰。空間智能的應用需要具備3D技術基礎的人才——既懂AI又懂3D圖形學的複合型專業人士在全球範圍內都極為稀缺。香港的大學和培訓機構需要迅速調整課程設置,將AI與3D圖形學的交叉學科納入教學體系。此外,香港政府推動的數碼經濟和Web3政策,也應將空間智能納入支持範圍——這是一個具有明確產業化前景的技術方向,值得政策層面的關注和投入。
「空間智能不只是讓AI生成漂亮的3D畫面。它是讓AI理解我們所生活的物理世界——理解空間、物體和物理定律之間的關係。這是AI從數字世界走向現實世界的橋梁。」
七、從語言到空間:AI範式轉移的深層含義
如果將視野拉得更高一些,World Labs的崛起反映的是AI產業正在經歷的一次根本性範式轉移——從「語言中心」到「世界中心」。
過去三年,大型語言模型(LLM)是AI產業的絕對主角。從GPT-4到Claude到Gemini,每一次模型升級的核心指標都是「語言能力」——更精確的推理、更流暢的寫作、更豐富的知識。這條路線取得了令人矚目的成就,但也逐漸暴露出一個根本性局限:語言模型只能理解語言能夠描述的世界,而世界的大部分是語言無法精確描述的。
試想,你如何用文字精確描述一個房間的空間佈局?你如何用語言傳達一個物體在拋出後的運動軌跡?你如何用文字解釋為什麼一疊不穩定的積木會向左而非向右倒塌?這些問題對於一個三歲的人類幼兒來說是直覺性的知識,但對於即使是最先進的語言模型來說也是巨大的挑戰。原因在於,這些知識根植於空間感知和物理直覺,而非語言邏輯。
World Labs的「空間智能」正是試圖填補這一認知缺口。Marble所做的不僅是「從文字生成3D場景」這麼簡單——在技術層面,它需要模型真正「理解」三維空間中物體之間的幾何關係、光照的物理行為、材質的視覺特性。這種理解能力一旦建立,其應用範圍將遠遠超出3D內容生成本身。
從更長遠的角度看,空間智能可能是實現通用人工智能(AGI)的一塊關鍵拼圖。人類的認知能力並非建立在語言之上——嬰兒在學會語言之前就已經具備了對空間、因果和物理規律的基本理解。如果AI要達到真正的「通用」智能,它也需要建立起這種「前語言」的空間認知能力。李飛飛選擇在這個方向投入,與其說是在做一家AI初創公司,不如說是在延續她畢生的學術追問:機器如何像人類一樣理解視覺世界?
當然,我們也不應過分浪漫化空間智能的短期前景。從demo到產品、從產品到大規模採用之間,存在着漫長的技術成熟和市場教育過程。Marble目前生成的3D環境在幾何精度和物理準確性方面仍有明顯的改進空間。但方向已經明確:AI的下一個前沿,不在更大的語言模型中,而在理解我們所生活的這個三維物理世界中。
八、前瞻:50億美元估值的兌現路徑
50億美元的估值對於一家成立不到三年的初創公司而言,是一個極高的期望值。World Labs要兌現這一估值,需要在以下幾個維度展示持續的進展。
第一是技術護城河的深化。空間智能的技術門檻雖然很高,但隨着開源社區的快速發展和Google等巨頭的持續投入,技術領先優勢可能會被逐步侵蝕。World Labs需要保持在模型架構和訓練方法上的持續創新,同時積累大量的專有3D數據和用戶反饋數據,建立起難以複製的數據飛輪。
第二是商業化路徑的拓寬。目前Marble的免費加付費模式是一個合理的起步策略,但要支撐50億美元的估值,World Labs需要找到更高價值的企業級應用場景——遊戲工作室的批量授權、VFX公司的定制化方案、建築設計事務所的專業版工具。Autodesk的顧問角色暗示了這一方向,但具體的企業級產品形態和定價策略仍待明確。
第三是機械人和科學應用的突破。如果World Labs的空間智能技術能夠成功應用於機械人訓練和科學模擬,其市場空間將從目前的創意產業擴展到整個製造業和研究領域——這是一個數萬億美元的終極市場。但這一路徑的技術挑戰極為艱鉅,時間線也更加不確定。
無論最終結果如何,World Labs的10億美元融資已經發出了一個清晰的信號:AI產業正在從「語言時代」邁向「空間時代」。這不是對語言模型的否定,而是AI能力邊界的一次重大擴展。對於遊戲開發者、3D藝術家、VR創業者、機械人工程師,乃至每一個關心AI未來走向的觀察者而言,World Labs和Marble都值得密切關注。李飛飛用她的學術聲譽和創業行動,押注了一個大膽的命題:AI的未來不僅在雲端的文字中,更在我們腳下這個由幾何、物理和動力學構成的真實世界中。