Google DeepMind Genie 3：首個即時互動世界模型問世，用文字創造可探索的虛擬世界

文章重點

Genie 3是DeepMind首個支援即時互動的世界模型，以24fps和720p解析度運行
Project Genie已向美國Google AI Ultra訂閱用戶開放公開測試
用戶可通過文字描述生成動態環境，並在其中自由導航和互動
世界模型被視為通往AGI的關鍵里程碑，可用於訓練AI代理
當前限制：僅支持數分鐘的連續互動，無法完美模擬真實世界地點

從觀看到探索

Google DeepMind在2024年推出了初代Genie——一個能從圖片和文字生成遊戲般環境的概念驗證。2025年的Genie 2提升了視覺品質和一致性，但本質上仍是一個視頻生成器。Genie 3則實現了質的飛躍：真正的即時互動。

用戶不再只是觀看AI生成的影片，而是可以在AI創造的世界中自由移動、探索和互動。模型根據用戶的輸入和動作逐幀生成環境，以每秒24幀的速度在720p解析度下運行。環境會根據你的導航和操作即時演化——這是一個AI在實時模擬物理世界的行為。

Project Genie：從研究到產品

2026年1月29日，Google將Genie 3的能力封裝為Project Genie，向美國的Google AI Ultra訂閱用戶開放公開測試。這標誌著世界模型從純粹的學術研究走向了面向消費者的產品。

Project Genie的操作極為直觀：輸入一段文字描述——比如「一座被雪覆蓋的中世紀城堡，有吊橋和護城河」——系統就會生成一個可以探索的3D環境。你可以在其中走動、觀察細節、甚至與某些元素互動。

從Genie 1到Genie 3的進化

三代Genie的進化清晰地展示了世界模型技術的成熟路徑：

Genie 1證明了概念可行性——AI可以從圖片和文字生成類似遊戲的環境，但缺乏即時互動能力。Genie 2提升了視覺品質和時間一致性，但主要仍以視頻生成的形式運作，互動能力有限。Genie 3引入了真正的即時互動——用戶自由導航而非觀看生成的序列，模型對移動和動作做出即時回應。

什麼是世界模型？

世界模型是能夠利用對世界的理解來模擬世界某些方面的AI系統。它們使AI代理能夠預測環境將如何演化，以及自己的行動將如何影響環境。世界模型被視為通往通用人工智能（AGI）的關鍵里程碑，因為它們可以在無限豐富的模擬環境中訓練AI代理。

為什麼世界模型對AGI至關重要

世界模型的戰略意義遠超娛樂應用。當前的大型語言模型通過閱讀文字來「理解」世界，但人類的大部分知識是通過觀察和互動獲得的——一個嬰兒在學會說話之前，就已經理解了重力、物體恆存性和因果關係。

世界模型提供了一種不同的路徑：讓AI通過模擬物理世界來學習。更重要的是，世界模型可以為AI代理提供無限的訓練環境——不需要在真實世界中冒風險（想想自動駕駛的模擬訓練），也不受真實數據收集的限制。

當前的局限性

Genie 3仍處於早期階段，存在明顯的限制。它目前只能支持數分鐘的連續互動，而非數小時；無法完美模擬真實世界地點；清晰可讀的文字通常只有在初始描述中指定時才能正確生成。這些限制提醒我們，即時互動世界模型離「完美模擬」仍有相當距離。

競爭白熱化

Project Genie的推出正值世界模型賽道急劇升溫。Yann LeCun離開Meta創立了AMI Labs，專注於世界模型研發；Stanford教授李飛飛的World Labs推出了首個商業化世界模型Marble；OpenAI和Meta也在積極推進動態內容生成系統。

DeepMind CEO Demis Hassabis近期表示，中國AI模型與西方領先者之間的差距僅有「幾個月」，在世界模型領域，這場全球競賽同樣激烈。

對開發者和企業的意義

對於遊戲開發者、建築師、工業設計師和教育工作者而言，世界模型的實用化意味著可以快速原型化3D環境和場景，而不需要傳統3D建模的繁瑣工作流程。對於AI研究者，它提供了訓練具身智能代理的新平台。對於香港的科技企業和創意產業，這項技術可能在虛擬旅遊、房地產展示和教育培訓等領域帶來新的應用機會。