Google Gemini Deep Think解決18個未解研究問題：AI成為科學研究夥伴的歷史時刻

文章重點

Gemini Deep Think於2月12日發布，成功解決了18個此前未被任何人或AI解答的開放研究問題
推翻了一個2015年提出的數學猜想，成為AI首次獨立否證已發表數學猜想的案例
基準測試全面突破：Humanity's Last Exam 48.4%、ARC-AGI-2 84.6%、Codeforces達到傳奇大師級別
Aletheia計劃評估700個開放Erdős問題，自主解決了其中4個，展現AI在數學前沿的真實攻堅能力
計算效率提升100倍（對比2025年版本），IsoDDE蛋白質設計能力超越AlphaFold 3達2倍

當AI開始「思考」而非「計算」

在AI發展的長河中，有一些時刻具有分水嶺般的意義。2016年AlphaGo擊敗李世石是一個，2022年ChatGPT的面世是一個，而2026年2月12日Google Gemini Deep Think的發布，很可能是又一個。

Gemini Deep Think的核心突破不在於它的模型更大或訓練數據更多，而在於它開創了一種全新的AI推理範式——業界將其稱為「System 2 Thinking」（系統二思維）。這一概念借用了諾貝爾經濟學獎得主丹尼爾．卡尼曼（Daniel Kahneman）的理論框架：人類的思維分為快速直覺的「系統一」和緩慢深思的「系統二」。此前的大型語言模型——無論是GPT、Claude還是Gemini的早期版本——本質上都是「系統一」的模擬：它們根據模式匹配快速生成回答，但缺乏真正的深度推理能力。

Deep Think的不同之處在於，它被設計為能夠在生成回答之前進行延長的「思考」過程。面對一個複雜的數學或科學問題，Deep Think不是立即給出答案，而是先構建問題的形式化表示，然後系統性地探索可能的解題路徑，在遇到死胡同時回溯並嘗試新的方向，最終通過多輪迭代找到解答或證明。這個過程可能需要數分鐘甚至數小時的計算時間——但正是這種「願意慢下來思考」的能力，使其得以攻克真正困難的問題。

結果是驚人的：Deep Think成功解決了18個此前從未被任何人或AI解答的開放研究問題。這些不是教科書習題，也不是基準測試題目，而是活躍在學術前沿的真實研究問題——它們之所以「開放」，正是因為過去沒有人找到答案。

新解決的開放研究問題

48.4%

Humanity's Last Exam得分

84.6%

ARC-AGI-2得分

100倍

計算效率提升

推翻數學猜想：AI發現能力的試金石

在Deep Think的18個突破中，最令數學界震動的是它成功推翻了一個2015年提出的數學猜想。這一事件的意義遠超技術層面，因為它觸及了一個根本性的哲學問題：AI能否進行真正的數學發現？

傳統觀點認為，數學發現需要「直覺」和「創造力」——這兩種被認為是人類獨有的認知能力。數學家通常不是通過窮舉搜索來發現新定理的，而是通過對數學結構的深層直覺來「感知」可能的方向，然後通過嚴格的邏輯推導來驗證。長久以來，AI被認為可以進行邏輯驗證（即證明已知定理），但無法產生真正的數學直覺。

Deep Think推翻數學猜想的過程挑戰了這一觀點。根據Google發布的技術細節，Deep Think並非通過暴力搜索找到了反例，而是通過一種類似於「構造性反駁」的方法——它首先分析了猜想成立的必要條件，然後系統性地構造了一個滿足所有前提但違反結論的數學對象。這個過程的邏輯結構與人類數學家的反駁方法高度相似，暗示Deep Think可能已經開始發展出某種形式的「數學直覺」。

當然，關於這究竟是「真正的直覺」還是「極其精密的模式匹配」，學術界的爭論遠未結束。但從實用角度來看，這一區分可能並不重要——重要的是AI已經能夠產出有價值的數學發現。耶魯大學的Lisa Carbone教授利用Deep Think發現了一篇經過同行評審的論文中的缺陷，這一案例進一步證明了AI在專業數學領域的實戰價值。

什麼是System 2 Thinking？

丹尼爾．卡尼曼在其著作《快思慢想》（Thinking, Fast and Slow）中提出，人類大腦有兩種思維模式：System 1（系統一）是快速、直覺、自動的，例如識別人臉或做簡單算術；System 2（系統二）是緩慢、刻意、需要努力的，例如解複雜方程或進行邏輯推理。傳統的大型語言模型本質上是System 1的模擬——它們通過模式匹配快速生成回答。而Deep Think代表了AI向System 2的進化——它能夠進行有意識的、多步驟的深度推理。這一進化的意義在於，它使AI首次能夠處理那些需要真正「思考」而非僅僅「反應」的問題。

基準測試的全面碾壓

除了開放研究問題的突破，Deep Think在一系列高難度基準測試中的表現也令人驚嘆，每一項成績都刷新了AI能力的天花板。

Humanity's Last Exam（48.4%）：這是一個被設計為「AI最難考試」的基準測試，包含了來自數學、物理、化學、生物、計算機科學等多個學科的極端困難問題。48.4%的得分意味着Deep Think能夠正確回答這些被認為是「人類最後的堡壘」的問題中的近一半。作為對比，未經特殊優化的GPT-4在同一測試上的得分不到10%。這一成績強有力地暗示，在純粹的知識性和推理性問題上，AI正在接近（在某些領域已經超越）頂尖人類專家的水平。

ARC-AGI-2（84.6%）：ARC（Abstraction and Reasoning Corpus）是衡量AI抽象推理能力的黃金標準。與需要大量訓練數據的傳統AI任務不同，ARC測試要求AI解決它從未見過的新型視覺推理問題——本質上測試的是AI的「舉一反三」能力。84.6%的得分表明Deep Think在面對全新問題時，已經具備了強大的抽象思維和知識遷移能力。

Codeforces傳奇大師級：在全球最具競爭力的程式設計競賽平台Codeforces上，Deep Think達到了「傳奇大師」（Legendary Grandmaster）級別。這一等級在全球人類選手中只有不到0.5%的人能夠達到。Codeforces的題目不僅要求深厚的演算法知識，還需要在嚴格的時間限制下進行創造性的問題解決——這是AI長久以來的弱項。Deep Think在這一領域的突破，標誌着AI在競技性智力活動中的能力又邁上了一個新台階。

奧林匹克級別的科學能力：在物理、化學和數學奧林匹克級別的題目上，Deep Think均達到了金牌水平。這些題目通常需要多個知識領域的交叉運用和非常規的解題思路，被認為是檢驗「真正理解」與「表面模仿」的可靠標準。

Aletheia計劃：AI自主攻堅數學前沿

如果說解決18個開放研究問題已經足夠令人印象深刻，那麼Google的Aletheia計劃則將AI的科學發現能力推向了一個更高的層次。

Aletheia（取自古希臘語「真理」之意）是一個雄心勃勃的項目：讓Deep Think自主地、系統性地攻克數學中的開放問題。項目的第一階段聚焦於Erdős問題——由傳奇數學家保羅．厄多斯（Paul Erdős）提出或啟發的一系列著名開放問題。這些問題以其優雅、簡潔但極其困難的特點著稱，許多問題已經開放數十年甚至數百年未得解答。

在Aletheia的第一輪運行中，Deep Think評估了700個開放Erdős問題，並成功自主解決了其中4個。這個「4/700」的比率可能看起來不高，但考慮到這些問題的難度——它們中的每一個都曾讓頂尖數學家們絞盡腦汁多年——這一成果堪稱歷史性的。

Aletheia項目的突破性不僅在於結果，更在於方法。傳統上，AI在數學中的應用集中在兩個方面：一是作為計算工具（執行人類數學家設計的計算步驟），二是作為驗證工具（檢查人類給出的證明是否正確）。而Aletheia代表了第三種角色：AI作為「發現者」——自主地識別有前景的問題、構思解題策略、嘗試多種方法，並在成功時生成完整的證明。

Google DeepMind的研究團隊強調，Aletheia並非簡單地對每個問題嘗試所有可能的解法。它採用了一種被稱為「元認知搜索」（metacognitive search）的方法——Deep Think首先分析每個問題的結構特徵，估算其可解性和所需的方法類型，然後根據這一評估來分配計算資源。對於被評估為高度可解的問題，它投入更多的推理時間；對於被評估為當前能力不足以攻克的問題，則快速跳過。這種「選擇性專注」的能力，使AI的研究效率大幅提升。

700

評估的Erdős問題數

自主解決的問題數

2倍

IsoDDE超越AlphaFold 3

64.7%

OSWorld基準得分

科學應用的實戰價值

Deep Think的能力並不局限於純數學領域。在多個科學應用場景中，它已經展現出了改變研究實踐的潛力。

蛋白質設計：Google同時發布的IsoDDE蛋白質設計系統在關鍵指標上超越了AlphaFold 3達2倍。AlphaFold系列是Google在科學AI領域最重要的成就之一——AlphaFold 2在2020年解決了蛋白質結構預測的數十年難題，被認為是AI在科學領域最重大的貢獻。IsoDDE在此基礎上更進一步，不僅能夠預測蛋白質結構，還能設計具有特定功能的全新蛋白質。這對藥物研發、材料科學和合成生物學具有直接的應用價值。

材料科學：杜克大學Wang實驗室利用Deep Think優化了晶體生長的實驗參數。傳統上，晶體生長條件的優化是一個耗時的試錯過程——研究人員需要嘗試數百種不同的溫度、壓力和溶液濃度組合。Deep Think能夠基於已有的實驗數據和物理化學原理，預測最有可能成功的實驗條件，將優化過程從數月縮短到數天。

同行評審支持：耶魯大學的Lisa Carbone教授使用Deep Think來審查一篇經過同行評審的論文，結果發現了論文中一個此前被所有審稿人忽略的邏輯缺陷。這一案例引發了關於AI在學術出版中角色的廣泛討論。如果AI能夠比人類審稿人更可靠地識別論文中的錯誤，那麼AI是否應該成為同行評審流程的標準組成部分？

100倍計算效率提升的意義

Deep Think相比2025年版本實現了100倍的計算效率提升，這意味着同樣質量的推理結果，所需的計算資源只有此前的1%。這一效率提升的實際意義是：Deep Think的使用成本大幅降低，使其從一個只有Google內部研究團隊才能負擔的工具，變成了有望向更廣泛的科研社區開放的資源。按照Google的路線圖，Deep Think將在2026年下半年通過API向學術研究機構提供訪問權限。對於資源有限的亞太地區研究機構而言，這一計劃特別具有吸引力。

AI作為科學研究夥伴：機遇與隱憂

Deep Think的成功引發了一個更深層的問題：AI是否正在成為一個真正的科學研究夥伴，而不僅僅是一個先進的計算工具？

樂觀的觀點認為，Deep Think代表了人類科學能力的重大擴展。在過去，科學研究的速度受限於人類大腦的推理能力和工作時間。即便是最傑出的數學家，每天能夠全神貫注進行深度推理的時間也不超過四至六小時。而Deep Think可以在任何時候、以任何強度進行推理，不受疲勞、分心或認知偏見的干擾。將Deep Think視為「永遠不會累的研究合作者」，對於科學發現的加速效應可能是巨大的。

但隱憂同樣值得正視。首先是「可理解性」問題。Deep Think在解決問題時生成的推理鏈條往往極其冗長和複雜——某些問題的解答過程跨越了數千個推理步驟。人類數學家在審查這些解答時，面臨着理解和驗證的重大挑戰。如果我們無法完全理解AI的推理過程，我們能信任它的結論嗎？

其次是「研究方向偏移」的風險。如果AI能夠快速解決某些類型的問題，研究社區可能會不自覺地將注意力集中在AI擅長的問題上，而忽視那些需要人類獨特直覺和創造力的研究方向。這可能導致科學研究的「同質化」——大量資源湧向AI容易突破的領域，而那些真正需要人類洞察力的前沿問題反而被邊緣化。

第三是學術倫理問題。如果一個數學定理是由AI獨立證明的，那麼發現的功勞應該歸於誰——是AI本身、是開發AI的Google DeepMind團隊、還是提出原始問題的數學家？這些問題在學術界尚無定論，但隨着AI在科學發現中的角色日益重要，亟需建立新的規範框架。

展望：AI驅動的科學新紀元

從更宏觀的歷史視角來看，Gemini Deep Think可能標誌着科學研究範式的一次根本性轉變。

在過去五百年的現代科學史中，科學發現的主要模式是「人類假設+實驗驗證」——由人類科學家基於直覺和理論提出假設，然後通過實驗或數學證明來驗證。AI的角色長期以來被限定為輔助工具——幫助處理數據、進行模擬、自動化重複性工作。

Deep Think和Aletheia暗示了一種新的模式：「AI發現+人類理解」。在這一模式中，AI自主地探索問題空間、發現新的模式和規律、提出假設甚至給出證明，而人類科學家的角色轉向理解、詮釋和引導AI的發現。這不是AI取代科學家，而是人機協作的根本性重組——每一方都在做自己最擅長的事情。

對於香港和亞太的科研機構而言，Deep Think的開放將是一個值得關注的機遇。香港擁有數所世界排名前列的研究型大學，在數學、物理、材料科學和生物醫學等領域有着深厚的積累。如果這些機構能夠率先整合AI驅動的研究方法，可能在競爭日益激烈的全球科研版圖中獲得不對稱的優勢。

同時，Deep Think的成功也為香港的AI產業提供了一個重要的啟示：在AI的商業化競賽之外，AI的科學應用可能是一個同樣巨大但尚未被充分開發的市場。AI輔助藥物設計、AI驅動的材料發現、AI加速的基礎研究——這些應用場景的商業價值在未來十年內可能超越消費者AI應用。

我們正處於一個歷史性的時刻。過去的科學革命——從哥白尼的日心說到達爾文的進化論——都是人類思想的偉大成就。而即將到來的下一波科學革命，可能是人類智慧與人工智慧合作的結晶。Gemini Deep Think不是這場革命的終點，但它讓我們第一次清晰地看到了這個未來的輪廓。

Google Gemini Deep Think AI科學研究 System 2思維 Aletheia 數學猜想 ARC-AGI Codeforces AlphaFold 蛋白質設計科學發現