DeepMind Genie 3：首個即時互動世界模型，24fps生成3D世界的AGI里程碑

文章重點

Google DeepMind發布Genie 3，首個能即時生成持久3D環境的互動世界模型
以24fps（每秒24幀）即時生成可互動的3D場景，用戶可自由探索AI創造的虛擬世界
被DeepMind描述為「邁向AGI的重大飛躍」，標誌AI從理解語言擴展到理解物理世界
環境具有「持久性」——AI生成的物體和場景在用戶離開後仍然存在
對遊戲開發、機器人訓練、建築設計和教育等領域具有深遠影響

從文字到世界：AI的維度跳躍

如果說大型語言模型讓AI學會了理解和生成文字，影像生成模型讓AI學會了「看見」世界，那麼Google DeepMind最新發布的Genie 3則代表了一個全新的維度：AI學會了「構建」世界。

Genie 3是首個能夠即時生成持久3D環境的互動式世界模型。用戶只需提供文字描述或參考圖像，Genie 3就能生成一個完整的3D場景，並允許用戶以24fps的流暢幀率在其中自由移動和互動。

什麼是「世界模型」？

世界模型（World Model）是AI研究中一個越來越重要的概念。簡單來說，它是一種AI系統，能夠理解物理世界的基本規律——物體如何移動、碰撞、受重力影響——並基於這種理解生成逼真的環境。

世界模型的演進

DeepMind的Genie系列代表了世界模型的快速演進：Genie 1（2024年）只能生成簡單的2D平台遊戲場景；Genie 2（2025年）將能力擴展到了3D環境，但仍有明顯的延遲和品質限制；Genie 3（2026年）則實現了即時、流暢、持久的3D世界生成，被認為是該領域的「ChatGPT時刻」。

核心技術突破

Genie 3的技術突破主要體現在三個方面：

24fps

即時3D場景生成幀率

持久性

環境在離開後仍存在

互動式

用戶可自由探索場景

物理模擬

理解重力、碰撞等規律

即時性：以24fps的幀率生成3D場景，達到了人眼感知流暢運動的基本門檻。這意味著用戶體驗接近於在傳統3D遊戲中的流暢度。
持久性：與之前的世界模型不同，Genie 3生成的環境是「持久」的——AI創建的物體、地形和結構在用戶離開視野後仍然存在，回來時還能看到。這一特性對於構建有意義的虛擬體驗至關重要。
物理一致性：Genie 3內建了對基本物理規律的理解。物體會受重力影響、會發生碰撞、會產生陰影。雖然還不如專業物理引擎精確，但已足以創造令人信服的虛擬環境。

應用場景：遊戲之外的想像力

雖然遊戲是最直觀的應用場景，但Genie 3的潛力遠不止於此：

機器人訓練：在AI生成的虛擬環境中訓練機器人，比在真實世界中更安全、更快速、更便宜。Genie 3的物理模擬能力使其成為理想的「機器人健身房」。
建築與設計：建築師可以用自然語言描述建築概念，Genie 3即時生成可走動的3D模型，大幅縮短設計迭代周期。
教育：歷史教師可以生成古代城市的互動3D模型，讓學生「走進」歷史；科學教師可以生成分子結構的互動環境。
電影預覽：導演可以快速生成場景原型，在拍攝前預覽不同的場景設計。

Yann LeCun的世界模型願景

世界模型的崛起與Meta前首席AI科學家Yann LeCun的長期主張不謀而合。LeCun多年來一直倡導「世界模型」是通往真正AI智能的關鍵路徑，認為AI必須學會理解物理世界的因果關係，而非僅僅進行語言模式匹配。

據報導，LeCun離開Meta後正在創建自己的世界模型實驗室，據稱尋求50億美元的估值。DeepMind的Genie 3無疑為LeCun的理論提供了強有力的實證支持。

AGI之路的關鍵拼圖

DeepMind CEO Demis Hassabis將Genie 3描述為「邁向AGI的重大飛躍」。這一說法並非空穴來風。通用人工智慧（AGI）的一個核心要求是AI能夠理解和推理物理世界——而這正是世界模型所提供的能力。

結合DeepMind同期發布的Aletheia（數學研究AI代理）和其在機器人領域與Boston Dynamics的合作，可以看出DeepMind正在構建一個涵蓋語言理解、物理推理和自主研究的完整AI能力堆疊。