文章重點
- 世界模型(World Models)成為2026年AI領域最受關注的新賽道,被視為通向AGI的關鍵路徑
- 李飛飛創辦的World Labs估值達50億美元,推出首個商業化「大型世界模型」API
- Yann LeCun創辦AMI Labs尋求30億歐元估值,DeepMind推出Genie 3
- 2026年初超過13億美元融資湧入世界模型相關初創企業
- 應用場景涵蓋機器人訓練、自動駕駛、遊戲開發、手術機器人等領域
從文字到世界:AI的維度升級
過去三年,大型語言模型(LLM)主導了AI的發展方向。從GPT-4到Claude,從Gemini到DeepSeek,這些模型越來越擅長理解和生成文字。但一個根本性的問題始終存在:它們對物理世界一無所知。
2026年,許多頂尖研究者相信,下一個重大突破將來自「世界模型」——能夠學習事物如何在三維空間中移動和互動的AI系統。這不僅僅是從2D到3D的技術升級,而是AI從「理解語言」到「理解現實」的根本性飛躍。
三大陣營,三條路徑
世界模型賽道已形成三股主要力量,各自代表不同的技術路線和商業策略:
World Labs:空間智能的先驅
AI領域的教母級人物李飛飛(Fei-Fei Li)創辦的World Labs,是這場競賽中跑得最快的選手。公司在2024年以10億美元估值的隱身模式起步,到2026年1月已攀升至50億美元,投資者包括Andreessen Horowitz、NEA、Radical Ventures和NVIDIA旗下風投部門。
2025年11月,World Labs推出了首個商業化產品Marble——用戶可以通過文字提示、照片、影片或3D佈局生成可編輯的三維環境。2026年1月,公司更進一步發布了「World API」,讓開發者和機器人公司能夠接入「大型世界模型」(Large World Models),理解物理定律和幾何結構。業內人士稱此為空間AI的「GPT-2時刻」。
AMI Labs:LeCun的學術願景
圖靈獎得主Yann LeCun創辦的AMI Labs正以5億歐元的融資目標、30億歐元的估值尋求資金。LeCun長期主張,語言模型不足以實現通用人工智能,必須讓AI學會像嬰兒一樣通過觀察和互動來理解世界。AMI Labs的技術路線更偏學術和基礎研究。
DeepMind:Genie 3與Project Genie
Google DeepMind則依託其強大的研究資源,推出了Genie 3世界模型。與World Labs的商業化路線不同,DeepMind更注重將世界模型整合到其現有的Gemini生態系統中,特別是在機器人和遊戲領域。
什麼是「空間智能」?
李飛飛在其宣言中指出,建構空間智能AI需要的是比LLM更宏大的目標:世界模型是一種全新的生成模型,其理解、推理、生成和與複雜世界互動的能力——無論是語義的、物理的、幾何的還是動態的——都遠遠超出了今天LLM的能力範圍。簡言之,空間智能讓AI不僅能「讀懂文字」,更能「看懂世界」。
從實驗室到工廠:世界模型的落地場景
世界模型並非純粹的學術概念。2026年,它已經開始在多個行業找到實際應用:
- 機器人訓練:在虛擬3D環境中訓練機器人,大幅降低真實世界測試的成本和風險
- 自動駕駛驗證:生成無限量的真實感3D駕駛場景用於測試
- 遊戲開發與視效:自動生成遊戲關卡和電影場景
- 手術機器人:在模擬人體環境中訓練微創手術機器人
- 工業模擬:為製造業提供數位孿生解決方案
專家預測,到2026年底可能出現首個「閉環」機器人系統——利用World Labs的模型即時導航陌生環境。
文字智能的巔峰已過?
多方消息源達成的共識非常明確:純文字智能的時代已經見頂,下一個前沿屬於能夠看見、模擬和理解物理現實的AI系統。這對整個AI產業的投資方向、研究重點和人才流動都將產生深遠影響。
對香港科技業的啟示
世界模型技術的崛起為香港的智慧城市和建築科技(ConTech)領域帶來新機遇。香港密集的城市環境恰好是3D空間智能的理想測試場。理工大學和科技大學在計算機視覺和3D重建領域已有紮實的研究基礎,若能及時與World Labs或DeepMind建立合作,有望在亞太區的空間AI應用中搶佔先機。