Google Gemini Deep Think解決18個未解研究問題:AI成為科學研究夥伴的歷史時刻

文章重點

  • Gemini Deep Think於2月12日發布,成功解決了18個此前未被任何人或AI解答的開放研究問題
  • 推翻了一個2015年提出的數學猜想,成為AI首次獨立否證已發表數學猜想的案例
  • 基準測試全面突破:Humanity's Last Exam 48.4%、ARC-AGI-2 84.6%、Codeforces達到傳奇大師級別
  • Aletheia計劃評估700個開放Erdős問題,自主解決了其中4個,展現AI在數學前沿的真實攻堅能力
  • 計算效率提升100倍(對比2025年版本),IsoDDE蛋白質設計能力超越AlphaFold 3達2倍

當AI開始「思考」而非「計算」

在AI發展的長河中,有一些時刻具有分水嶺般的意義。2016年AlphaGo擊敗李世石是一個,2022年ChatGPT的面世是一個,而2026年2月12日Google Gemini Deep Think的發布,很可能是又一個。

Gemini Deep Think的核心突破不在於它的模型更大或訓練數據更多,而在於它開創了一種全新的AI推理範式——業界將其稱為「System 2 Thinking」(系統二思維)。這一概念借用了諾貝爾經濟學獎得主丹尼爾.卡尼曼(Daniel Kahneman)的理論框架:人類的思維分為快速直覺的「系統一」和緩慢深思的「系統二」。此前的大型語言模型——無論是GPT、Claude還是Gemini的早期版本——本質上都是「系統一」的模擬:它們根據模式匹配快速生成回答,但缺乏真正的深度推理能力。

Deep Think的不同之處在於,它被設計為能夠在生成回答之前進行延長的「思考」過程。面對一個複雜的數學或科學問題,Deep Think不是立即給出答案,而是先構建問題的形式化表示,然後系統性地探索可能的解題路徑,在遇到死胡同時回溯並嘗試新的方向,最終通過多輪迭代找到解答或證明。這個過程可能需要數分鐘甚至數小時的計算時間——但正是這種「願意慢下來思考」的能力,使其得以攻克真正困難的問題。

結果是驚人的:Deep Think成功解決了18個此前從未被任何人或AI解答的開放研究問題。這些不是教科書習題,也不是基準測試題目,而是活躍在學術前沿的真實研究問題——它們之所以「開放」,正是因為過去沒有人找到答案。

18
新解決的開放研究問題
48.4%
Humanity's Last Exam得分
84.6%
ARC-AGI-2得分
100倍
計算效率提升

推翻數學猜想:AI發現能力的試金石

在Deep Think的18個突破中,最令數學界震動的是它成功推翻了一個2015年提出的數學猜想。這一事件的意義遠超技術層面,因為它觸及了一個根本性的哲學問題:AI能否進行真正的數學發現?

傳統觀點認為,數學發現需要「直覺」和「創造力」——這兩種被認為是人類獨有的認知能力。數學家通常不是通過窮舉搜索來發現新定理的,而是通過對數學結構的深層直覺來「感知」可能的方向,然後通過嚴格的邏輯推導來驗證。長久以來,AI被認為可以進行邏輯驗證(即證明已知定理),但無法產生真正的數學直覺。

Deep Think推翻數學猜想的過程挑戰了這一觀點。根據Google發布的技術細節,Deep Think並非通過暴力搜索找到了反例,而是通過一種類似於「構造性反駁」的方法——它首先分析了猜想成立的必要條件,然後系統性地構造了一個滿足所有前提但違反結論的數學對象。這個過程的邏輯結構與人類數學家的反駁方法高度相似,暗示Deep Think可能已經開始發展出某種形式的「數學直覺」。

當然,關於這究竟是「真正的直覺」還是「極其精密的模式匹配」,學術界的爭論遠未結束。但從實用角度來看,這一區分可能並不重要——重要的是AI已經能夠產出有價值的數學發現。耶魯大學的Lisa Carbone教授利用Deep Think發現了一篇經過同行評審的論文中的缺陷,這一案例進一步證明了AI在專業數學領域的實戰價值。

什麼是System 2 Thinking?

丹尼爾.卡尼曼在其著作《快思慢想》(Thinking, Fast and Slow)中提出,人類大腦有兩種思維模式:System 1(系統一)是快速、直覺、自動的,例如識別人臉或做簡單算術;System 2(系統二)是緩慢、刻意、需要努力的,例如解複雜方程或進行邏輯推理。傳統的大型語言模型本質上是System 1的模擬——它們通過模式匹配快速生成回答。而Deep Think代表了AI向System 2的進化——它能夠進行有意識的、多步驟的深度推理。這一進化的意義在於,它使AI首次能夠處理那些需要真正「思考」而非僅僅「反應」的問題。

基準測試的全面碾壓

除了開放研究問題的突破,Deep Think在一系列高難度基準測試中的表現也令人驚嘆,每一項成績都刷新了AI能力的天花板。

Humanity's Last Exam(48.4%):這是一個被設計為「AI最難考試」的基準測試,包含了來自數學、物理、化學、生物、計算機科學等多個學科的極端困難問題。48.4%的得分意味着Deep Think能夠正確回答這些被認為是「人類最後的堡壘」的問題中的近一半。作為對比,未經特殊優化的GPT-4在同一測試上的得分不到10%。這一成績強有力地暗示,在純粹的知識性和推理性問題上,AI正在接近(在某些領域已經超越)頂尖人類專家的水平。

ARC-AGI-2(84.6%):ARC(Abstraction and Reasoning Corpus)是衡量AI抽象推理能力的黃金標準。與需要大量訓練數據的傳統AI任務不同,ARC測試要求AI解決它從未見過的新型視覺推理問題——本質上測試的是AI的「舉一反三」能力。84.6%的得分表明Deep Think在面對全新問題時,已經具備了強大的抽象思維和知識遷移能力。

Codeforces傳奇大師級:在全球最具競爭力的程式設計競賽平台Codeforces上,Deep Think達到了「傳奇大師」(Legendary Grandmaster)級別。這一等級在全球人類選手中只有不到0.5%的人能夠達到。Codeforces的題目不僅要求深厚的演算法知識,還需要在嚴格的時間限制下進行創造性的問題解決——這是AI長久以來的弱項。Deep Think在這一領域的突破,標誌着AI在競技性智力活動中的能力又邁上了一個新台階。

奧林匹克級別的科學能力:在物理、化學和數學奧林匹克級別的題目上,Deep Think均達到了金牌水平。這些題目通常需要多個知識領域的交叉運用和非常規的解題思路,被認為是檢驗「真正理解」與「表面模仿」的可靠標準。

Aletheia計劃:AI自主攻堅數學前沿

如果說解決18個開放研究問題已經足夠令人印象深刻,那麼Google的Aletheia計劃則將AI的科學發現能力推向了一個更高的層次。

Aletheia(取自古希臘語「真理」之意)是一個雄心勃勃的項目:讓Deep Think自主地、系統性地攻克數學中的開放問題。項目的第一階段聚焦於Erdős問題——由傳奇數學家保羅.厄多斯(Paul Erdős)提出或啟發的一系列著名開放問題。這些問題以其優雅、簡潔但極其困難的特點著稱,許多問題已經開放數十年甚至數百年未得解答。

在Aletheia的第一輪運行中,Deep Think評估了700個開放Erdős問題,並成功自主解決了其中4個。這個「4/700」的比率可能看起來不高,但考慮到這些問題的難度——它們中的每一個都曾讓頂尖數學家們絞盡腦汁多年——這一成果堪稱歷史性的。

Aletheia項目的突破性不僅在於結果,更在於方法。傳統上,AI在數學中的應用集中在兩個方面:一是作為計算工具(執行人類數學家設計的計算步驟),二是作為驗證工具(檢查人類給出的證明是否正確)。而Aletheia代表了第三種角色:AI作為「發現者」——自主地識別有前景的問題、構思解題策略、嘗試多種方法,並在成功時生成完整的證明。

Google DeepMind的研究團隊強調,Aletheia並非簡單地對每個問題嘗試所有可能的解法。它採用了一種被稱為「元認知搜索」(metacognitive search)的方法——Deep Think首先分析每個問題的結構特徵,估算其可解性和所需的方法類型,然後根據這一評估來分配計算資源。對於被評估為高度可解的問題,它投入更多的推理時間;對於被評估為當前能力不足以攻克的問題,則快速跳過。這種「選擇性專注」的能力,使AI的研究效率大幅提升。

700
評估的Erdős問題數
4
自主解決的問題數
2倍
IsoDDE超越AlphaFold 3
64.7%
OSWorld基準得分

科學應用的實戰價值

Deep Think的能力並不局限於純數學領域。在多個科學應用場景中,它已經展現出了改變研究實踐的潛力。

蛋白質設計:Google同時發布的IsoDDE蛋白質設計系統在關鍵指標上超越了AlphaFold 3達2倍。AlphaFold系列是Google在科學AI領域最重要的成就之一——AlphaFold 2在2020年解決了蛋白質結構預測的數十年難題,被認為是AI在科學領域最重大的貢獻。IsoDDE在此基礎上更進一步,不僅能夠預測蛋白質結構,還能設計具有特定功能的全新蛋白質。這對藥物研發、材料科學和合成生物學具有直接的應用價值。

材料科學:杜克大學Wang實驗室利用Deep Think優化了晶體生長的實驗參數。傳統上,晶體生長條件的優化是一個耗時的試錯過程——研究人員需要嘗試數百種不同的溫度、壓力和溶液濃度組合。Deep Think能夠基於已有的實驗數據和物理化學原理,預測最有可能成功的實驗條件,將優化過程從數月縮短到數天。

同行評審支持:耶魯大學的Lisa Carbone教授使用Deep Think來審查一篇經過同行評審的論文,結果發現了論文中一個此前被所有審稿人忽略的邏輯缺陷。這一案例引發了關於AI在學術出版中角色的廣泛討論。如果AI能夠比人類審稿人更可靠地識別論文中的錯誤,那麼AI是否應該成為同行評審流程的標準組成部分?

100倍計算效率提升的意義

Deep Think相比2025年版本實現了100倍的計算效率提升,這意味着同樣質量的推理結果,所需的計算資源只有此前的1%。這一效率提升的實際意義是:Deep Think的使用成本大幅降低,使其從一個只有Google內部研究團隊才能負擔的工具,變成了有望向更廣泛的科研社區開放的資源。按照Google的路線圖,Deep Think將在2026年下半年通過API向學術研究機構提供訪問權限。對於資源有限的亞太地區研究機構而言,這一計劃特別具有吸引力。

AI作為科學研究夥伴:機遇與隱憂

Deep Think的成功引發了一個更深層的問題:AI是否正在成為一個真正的科學研究夥伴,而不僅僅是一個先進的計算工具?

樂觀的觀點認為,Deep Think代表了人類科學能力的重大擴展。在過去,科學研究的速度受限於人類大腦的推理能力和工作時間。即便是最傑出的數學家,每天能夠全神貫注進行深度推理的時間也不超過四至六小時。而Deep Think可以在任何時候、以任何強度進行推理,不受疲勞、分心或認知偏見的干擾。將Deep Think視為「永遠不會累的研究合作者」,對於科學發現的加速效應可能是巨大的。

但隱憂同樣值得正視。首先是「可理解性」問題。Deep Think在解決問題時生成的推理鏈條往往極其冗長和複雜——某些問題的解答過程跨越了數千個推理步驟。人類數學家在審查這些解答時,面臨着理解和驗證的重大挑戰。如果我們無法完全理解AI的推理過程,我們能信任它的結論嗎?

其次是「研究方向偏移」的風險。如果AI能夠快速解決某些類型的問題,研究社區可能會不自覺地將注意力集中在AI擅長的問題上,而忽視那些需要人類獨特直覺和創造力的研究方向。這可能導致科學研究的「同質化」——大量資源湧向AI容易突破的領域,而那些真正需要人類洞察力的前沿問題反而被邊緣化。

第三是學術倫理問題。如果一個數學定理是由AI獨立證明的,那麼發現的功勞應該歸於誰——是AI本身、是開發AI的Google DeepMind團隊、還是提出原始問題的數學家?這些問題在學術界尚無定論,但隨着AI在科學發現中的角色日益重要,亟需建立新的規範框架。

展望:AI驅動的科學新紀元

從更宏觀的歷史視角來看,Gemini Deep Think可能標誌着科學研究範式的一次根本性轉變。

在過去五百年的現代科學史中,科學發現的主要模式是「人類假設+實驗驗證」——由人類科學家基於直覺和理論提出假設,然後通過實驗或數學證明來驗證。AI的角色長期以來被限定為輔助工具——幫助處理數據、進行模擬、自動化重複性工作。

Deep Think和Aletheia暗示了一種新的模式:「AI發現+人類理解」。在這一模式中,AI自主地探索問題空間、發現新的模式和規律、提出假設甚至給出證明,而人類科學家的角色轉向理解、詮釋和引導AI的發現。這不是AI取代科學家,而是人機協作的根本性重組——每一方都在做自己最擅長的事情。

對於香港和亞太的科研機構而言,Deep Think的開放將是一個值得關注的機遇。香港擁有數所世界排名前列的研究型大學,在數學、物理、材料科學和生物醫學等領域有着深厚的積累。如果這些機構能夠率先整合AI驅動的研究方法,可能在競爭日益激烈的全球科研版圖中獲得不對稱的優勢。

同時,Deep Think的成功也為香港的AI產業提供了一個重要的啟示:在AI的商業化競賽之外,AI的科學應用可能是一個同樣巨大但尚未被充分開發的市場。AI輔助藥物設計、AI驅動的材料發現、AI加速的基礎研究——這些應用場景的商業價值在未來十年內可能超越消費者AI應用。

我們正處於一個歷史性的時刻。過去的科學革命——從哥白尼的日心說到達爾文的進化論——都是人類思想的偉大成就。而即將到來的下一波科學革命,可能是人類智慧與人工智慧合作的結晶。Gemini Deep Think不是這場革命的終點,但它讓我們第一次清晰地看到了這個未來的輪廓。