DeepMind Aletheia:AI首次自主解決數學開放問題,研究型AGI雛形浮現

文章重點

  • Google DeepMind發布Aletheia,一個能從數學競賽解題邁向完全自主專業研究的AI代理
  • 在IMO-Proof Bench Advanced基準測試中達到95.1%準確率
  • 自主解決了Erdos猜想數據庫中4個開放問題——無需人類干預
  • 首次由AI完全獨立生成完整研究論文,從問題識別到證明再到撰寫
  • DeepMind同步推出AI for Math計劃,與五所研究機構合作開放Gemini Deep Think工具

從解題到發現:AI研究的質變

2026年2月12日,Google DeepMind宣布了一項可能改變科學研究面貌的突破:代號為Aletheia的AI代理系統不僅能解決已知的數學問題,還首次展示了自主發現新數學知識的能力。

Aletheia的名字來自希臘語中「真理」一詞,而它的表現確實配得上這個名字。在國際數學奧林匹亞(IMO)的進階證明基準測試中,Aletheia達到了95.1%的準確率——這不僅遠超過去任何AI系統的表現,更意味著它在最困難的數學推理任務中已接近完美。

破解Erdos猜想:AI的「原創性」時刻

然而,Aletheia真正令數學界震撼的成就是:它自主解決了著名匈牙利數學家Paul Erdos所提出猜想數據庫中的4個開放問題。這些問題數十年來一直困擾著人類數學家。

什麼是Erdos猜想數據庫?

Paul Erdos(1913-1996)被認為是20世紀最多產的數學家之一,一生發表了超過1,500篇論文。他留下了大量未解決的猜想和問題,這些問題形成了一個持續至今的「猜想數據庫」。能夠解決其中任何一個問題,在數學界都被視為重大成就。

更令人驚嘆的是,Aletheia完成這些發現的過程完全不需要人類干預。從識別有前景的問題方向,到構建證明策略,再到執行嚴格的數學推導,最後撰寫完整的研究論文——整個流程由AI自主完成。

技術架構:Gemini Deep Think的深度推理

Aletheia的核心是Google DeepMind最先進的Gemini Deep Think模型,這是一個專為深度推理設計的系統。與一般的大型語言模型不同,Gemini Deep Think能夠進行長時間的「思考」過程,在內部構建和驗證複雜的推理鏈。

95.1%
IMO-Proof Bench Advanced準確率
4個
自主解決的Erdos開放問題
0
所需人類干預次數
5所
AI for Math合作研究機構

Aletheia的運作模式分為三個階段:首先,它掃描現有數學文獻,識別可能被突破的問題;接著,它生成多條證明路徑並進行內部交叉驗證;最後,它將成功的證明整理為符合學術標準的論文格式。

AI for Math計劃:開放工具共享

伴隨Aletheia的發布,Google DeepMind和Google.org共同推出了「AI for Math」計劃,向五所研究機構提供包括Gemini Deep Think、AlphaEvolve和AlphaProof在內的前沿AI工具。

這一計劃的目標是民主化AI數學研究工具的使用權,讓更多數學家能夠利用AI加速自己的研究。DeepMind CEO Demis Hassabis在公告中表示:「數學是科學的語言。如果AI能幫助我們更快地理解數學,它就能幫助我們更快地理解一切。」

學術界的反應:興奮與警惕並存

Aletheia的成就在學術界引發了複雜的反應。一方面,許多數學家對AI能夠處理長期未解問題表示興奮,認為這將大幅加速數學研究的進程。

另一方面,也有學者提出擔憂。劍橋大學數學系教授Timothy Gowers(Fields獎得主)指出:「如果AI能夠自主生成數學證明和論文,我們需要重新思考什麼是『數學研究』以及數學家的角色是什麼。」

Genesis計劃:從數學到全學科

Aletheia並非孤立的項目。它是Google DeepMind更宏大的「Genesis計劃」的一部分,該計劃旨在將AI研究代理部署到美國能源部全部17個國家實驗室。DeepMind將提供前沿AI模型和代理工具(包括AlphaEvolve),支持從物理學到材料科學的廣泛研究領域。

邁向AGI的關鍵里程碑

Aletheia的發布被廣泛視為通用人工智慧(AGI)路徑上的重要里程碑。Hassabis本人更將DeepMind描述為「Google的引擎室」,並概述了在AGI研究、藥物發現、機器人技術和通用助手四個方向的進展。

然而,也有研究者持謹慎態度。Meta首席AI科學家Yann LeCun在社交媒體上表示,數學證明是一個相對「封閉」的領域,AI在此領域的成功不一定能推廣到更開放、更模糊的研究問題上。