Google DeepMind Genie 3:首個即時互動世界模型問世,用文字創造可探索的虛擬世界

文章重點

  • Genie 3是DeepMind首個支援即時互動的世界模型,以24fps和720p解析度運行
  • Project Genie已向美國Google AI Ultra訂閱用戶開放公開測試
  • 用戶可通過文字描述生成動態環境,並在其中自由導航和互動
  • 世界模型被視為通往AGI的關鍵里程碑,可用於訓練AI代理
  • 當前限制:僅支持數分鐘的連續互動,無法完美模擬真實世界地點

從觀看到探索

Google DeepMind在2024年推出了初代Genie——一個能從圖片和文字生成遊戲般環境的概念驗證。2025年的Genie 2提升了視覺品質和一致性,但本質上仍是一個視頻生成器。Genie 3則實現了質的飛躍:真正的即時互動。

用戶不再只是觀看AI生成的影片,而是可以在AI創造的世界中自由移動、探索和互動。模型根據用戶的輸入和動作逐幀生成環境,以每秒24幀的速度在720p解析度下運行。環境會根據你的導航和操作即時演化——這是一個AI在實時模擬物理世界的行為。

Project Genie:從研究到產品

2026年1月29日,Google將Genie 3的能力封裝為Project Genie,向美國的Google AI Ultra訂閱用戶開放公開測試。這標誌著世界模型從純粹的學術研究走向了面向消費者的產品。

Project Genie的操作極為直觀:輸入一段文字描述——比如「一座被雪覆蓋的中世紀城堡,有吊橋和護城河」——系統就會生成一個可以探索的3D環境。你可以在其中走動、觀察細節、甚至與某些元素互動。

從Genie 1到Genie 3的進化

三代Genie的進化清晰地展示了世界模型技術的成熟路徑:

Genie 1證明了概念可行性——AI可以從圖片和文字生成類似遊戲的環境,但缺乏即時互動能力。Genie 2提升了視覺品質和時間一致性,但主要仍以視頻生成的形式運作,互動能力有限。Genie 3引入了真正的即時互動——用戶自由導航而非觀看生成的序列,模型對移動和動作做出即時回應。

什麼是世界模型?

世界模型是能夠利用對世界的理解來模擬世界某些方面的AI系統。它們使AI代理能夠預測環境將如何演化,以及自己的行動將如何影響環境。世界模型被視為通往通用人工智能(AGI)的關鍵里程碑,因為它們可以在無限豐富的模擬環境中訓練AI代理。

為什麼世界模型對AGI至關重要

世界模型的戰略意義遠超娛樂應用。當前的大型語言模型通過閱讀文字來「理解」世界,但人類的大部分知識是通過觀察和互動獲得的——一個嬰兒在學會說話之前,就已經理解了重力、物體恆存性和因果關係。

世界模型提供了一種不同的路徑:讓AI通過模擬物理世界來學習。更重要的是,世界模型可以為AI代理提供無限的訓練環境——不需要在真實世界中冒風險(想想自動駕駛的模擬訓練),也不受真實數據收集的限制。

當前的局限性

Genie 3仍處於早期階段,存在明顯的限制。它目前只能支持數分鐘的連續互動,而非數小時;無法完美模擬真實世界地點;清晰可讀的文字通常只有在初始描述中指定時才能正確生成。這些限制提醒我們,即時互動世界模型離「完美模擬」仍有相當距離。

競爭白熱化

Project Genie的推出正值世界模型賽道急劇升溫。Yann LeCun離開Meta創立了AMI Labs,專注於世界模型研發;Stanford教授李飛飛的World Labs推出了首個商業化世界模型Marble;OpenAI和Meta也在積極推進動態內容生成系統。

DeepMind CEO Demis Hassabis近期表示,中國AI模型與西方領先者之間的差距僅有「幾個月」,在世界模型領域,這場全球競賽同樣激烈。

對開發者和企業的意義

對於遊戲開發者、建築師、工業設計師和教育工作者而言,世界模型的實用化意味著可以快速原型化3D環境和場景,而不需要傳統3D建模的繁瑣工作流程。對於AI研究者,它提供了訓練具身智能代理的新平台。對於香港的科技企業和創意產業,這項技術可能在虛擬旅遊、房地產展示和教育培訓等領域帶來新的應用機會。