文章重點
- Google DeepMind發布Genie 3,首個能即時生成持久3D環境的互動世界模型
- 以24fps(每秒24幀)即時生成可互動的3D場景,用戶可自由探索AI創造的虛擬世界
- 被DeepMind描述為「邁向AGI的重大飛躍」,標誌AI從理解語言擴展到理解物理世界
- 環境具有「持久性」——AI生成的物體和場景在用戶離開後仍然存在
- 對遊戲開發、機器人訓練、建築設計和教育等領域具有深遠影響
從文字到世界:AI的維度跳躍
如果說大型語言模型讓AI學會了理解和生成文字,影像生成模型讓AI學會了「看見」世界,那麼Google DeepMind最新發布的Genie 3則代表了一個全新的維度:AI學會了「構建」世界。
Genie 3是首個能夠即時生成持久3D環境的互動式世界模型。用戶只需提供文字描述或參考圖像,Genie 3就能生成一個完整的3D場景,並允許用戶以24fps的流暢幀率在其中自由移動和互動。
什麼是「世界模型」?
世界模型(World Model)是AI研究中一個越來越重要的概念。簡單來說,它是一種AI系統,能夠理解物理世界的基本規律——物體如何移動、碰撞、受重力影響——並基於這種理解生成逼真的環境。
世界模型的演進
DeepMind的Genie系列代表了世界模型的快速演進:Genie 1(2024年)只能生成簡單的2D平台遊戲場景;Genie 2(2025年)將能力擴展到了3D環境,但仍有明顯的延遲和品質限制;Genie 3(2026年)則實現了即時、流暢、持久的3D世界生成,被認為是該領域的「ChatGPT時刻」。
核心技術突破
Genie 3的技術突破主要體現在三個方面:
- 即時性:以24fps的幀率生成3D場景,達到了人眼感知流暢運動的基本門檻。這意味著用戶體驗接近於在傳統3D遊戲中的流暢度。
- 持久性:與之前的世界模型不同,Genie 3生成的環境是「持久」的——AI創建的物體、地形和結構在用戶離開視野後仍然存在,回來時還能看到。這一特性對於構建有意義的虛擬體驗至關重要。
- 物理一致性:Genie 3內建了對基本物理規律的理解。物體會受重力影響、會發生碰撞、會產生陰影。雖然還不如專業物理引擎精確,但已足以創造令人信服的虛擬環境。
應用場景:遊戲之外的想像力
雖然遊戲是最直觀的應用場景,但Genie 3的潛力遠不止於此:
- 機器人訓練:在AI生成的虛擬環境中訓練機器人,比在真實世界中更安全、更快速、更便宜。Genie 3的物理模擬能力使其成為理想的「機器人健身房」。
- 建築與設計:建築師可以用自然語言描述建築概念,Genie 3即時生成可走動的3D模型,大幅縮短設計迭代周期。
- 教育:歷史教師可以生成古代城市的互動3D模型,讓學生「走進」歷史;科學教師可以生成分子結構的互動環境。
- 電影預覽:導演可以快速生成場景原型,在拍攝前預覽不同的場景設計。
Yann LeCun的世界模型願景
世界模型的崛起與Meta前首席AI科學家Yann LeCun的長期主張不謀而合。LeCun多年來一直倡導「世界模型」是通往真正AI智能的關鍵路徑,認為AI必須學會理解物理世界的因果關係,而非僅僅進行語言模式匹配。
據報導,LeCun離開Meta後正在創建自己的世界模型實驗室,據稱尋求50億美元的估值。DeepMind的Genie 3無疑為LeCun的理論提供了強有力的實證支持。
AGI之路的關鍵拼圖
DeepMind CEO Demis Hassabis將Genie 3描述為「邁向AGI的重大飛躍」。這一說法並非空穴來風。通用人工智慧(AGI)的一個核心要求是AI能夠理解和推理物理世界——而這正是世界模型所提供的能力。
結合DeepMind同期發布的Aletheia(數學研究AI代理)和其在機器人領域與Boston Dynamics的合作,可以看出DeepMind正在構建一個涵蓋語言理解、物理推理和自主研究的完整AI能力堆疊。