文章重點
- Google DeepMind前首席研究科學家David Silver——AlphaGo和AlphaZero的締造者——正為其新AI實驗室Ineffable Intelligence融資10億美元
- Sequoia Capital領投,Alphabet、NVIDIA和微軟可能參與,估值達40億美元——而公司尚無任何產品
- Ineffable Intelligence總部設在倫敦,核心方向為強化學習,挑戰當前大語言模型主導的AI範式
- 這是繼Ilya Sutskever(Safe Superintelligence)、Noam Shazeer(Character.AI回歸Google)之後,又一位頂級AI科學家的重磅創業
那個擊敗李世乭的人,開始自己的賭局
2016年3月,全世界數以億計的觀眾屏息注視著首爾四季酒店的一間房間。在那裏,Google DeepMind開發的AlphaGo以4比1擊敗了圍棋世界冠軍李世乭,這被廣泛認為是人工智能歷史上最具標誌性的時刻之一。站在這項成就背後的核心人物,是一位來自英國的計算機科學家——David Silver。
十年後的2026年2月,Silver再次成為全球科技界的焦點。但這一次,他不是作為Google DeepMind的首席研究科學家,而是作為一位創業者。他創辦的新AI實驗室——Ineffable Intelligence——正在以40億美元的估值融資10億美元。領投方是矽谷最負盛名的風投機構Sequoia Capital,而Alphabet(Google母公司)、NVIDIA和微軟也可能加入投資行列。
最令人驚訝的事實是:Ineffable Intelligence目前沒有任何產品,沒有任何收入,甚至沒有公開披露具體的技術路線圖。投資者押注的完全是Silver本人的能力和願景——以及強化學習這條被大語言模型浪潮暫時遮蔽的技術路線。
(零產品)
李世乭年份
David Silver:AI史上最被低估的人物之一
在AI領域,Demis Hassabis(DeepMind CEO)、Geoffrey Hinton(深度學習之父)、Yann LeCun(Meta首席AI科學家)等名字如雷貫耳。相比之下,David Silver的公眾知名度明顯偏低——但他的學術貢獻絕不遜色。
Silver在劍橋大學取得計算機科學學位後,在阿爾伯塔大學師從強化學習先驅Richard Sutton攻讀博士。他的研究生涯幾乎可以用「三連勝」來概括:
- AlphaGo(2016):首個擊敗人類圍棋世界冠軍的AI程式,被《Nature》封面報導,改變了全世界對AI潛力的認知。
- AlphaGo Zero(2017):不依賴任何人類棋譜數據,完全通過自我對弈學會圍棋,並以100比0擊敗原版AlphaGo。這證明了AI可以在沒有人類知識指引的情況下超越人類。
- AlphaZero(2018):將同一套強化學習框架推廣到圍棋、國際象棋和日本將棋三種棋類,在所有遊戲中都達到了超人水平。這展示了強化學習的泛化潛力。
Silver也是深度強化學習理論的重要奠基者。他的「Reward is Enough」論文提出了一個大膽的假設:智能的所有方面——包括知識、學習、感知、社交甚至語言——都可以被理解為通過最大化獎勵信號來實現的。這篇論文在學術界引發了激烈辯論,但也為其在Ineffable Intelligence的研究方向埋下了伏筆。
40億美元買的是什麼?「名人科學家」融資現象的剖析
一家沒有產品、沒有收入的公司估值40億美元——這在任何其他行業都會被視為瘋狂。但在2026年的AI領域,這正在成為一種模式。
讓我們回顧近年來幾宗類似的「名人科學家」融資事件:
- Ilya Sutskever的Safe Superintelligence(SSI):這位OpenAI前首席科學家在2024年創辦SSI後,以極少的公開信息募集了數十億美元。投資者的邏輯是:如果有人能安全地構建超級智能,那就是Ilya。
- 李飛飛的World Labs:這位ImageNet之母在2025年以50億美元估值完成10億美元融資,用於開發空間AI技術。同樣是在產品面世之前。
- Arthur Mensch的Mistral AI:這位前DeepMind研究員在公司成立僅數月後就獲得數億美元融資,估值飆升至數十億美元。
這些案例揭示了AI投資的一個獨特邏輯:在前沿AI研究中,人才就是最核心的資產。一位頂級AI科學家的研究方向可能定義一個全新的技術範式,而錯過這種投資機會的損失可能遠超過投資失敗的風險。Sequoia的一位合夥人據報道在內部如此解釋對Silver的投資:「如果David是對的,10億美元的投資可能創造1,000億美元的價值。如果他是錯的,我們損失的只是一輪基金的一小部分。這是不對稱的賭注。」
「名人科學家」AI創業融資對比
David Silver(Ineffable Intelligence):$10億融資,$40億估值,強化學習方向,Sequoia領投
Ilya Sutskever(SSI):$50億+融資,安全超級智能方向,NFDG等領投
李飛飛(World Labs):$10億融資,$50億估值,空間AI方向,a16z等領投
Noam Shazeer(Character.AI):以$25億估值被Google實質收購,對話AI方向
強化學習vs大語言模型:被遮蔽的技術路線
要理解Ineffable Intelligence的潛在價值,必須理解強化學習(Reinforcement Learning, RL)與當前主導的大語言模型(Large Language Models, LLM)之間的根本差異。
大語言模型的核心方法是「從大量文本中學習模式」——本質上是一種超級複雜的模式匹配。這種方法在語言理解、文本生成、程式編寫等任務上取得了驚人成就,但也有根本性的局限:LLM不會真正「思考」或「規劃」,它們只是基於統計概率預測下一個token。
強化學習的邏輯完全不同。RL系統通過在環境中採取行動、觀察結果、獲得獎勵或懲罰來學習。這種學習方式更接近人類和動物的學習過程——通過嘗試、犯錯和適應來掌握技能。AlphaGo Zero的自我對弈就是RL的經典範例:AI不需要任何人類知識,僅通過與自己對弈和學習輸贏信號,就能發展出超越人類數千年圍棋智慧的策略。
在過去三年中,大語言模型的商業成功吸引了絕大部分投資和人才,強化學習在某種程度上被邊緣化。但越來越多的研究者開始意識到,LLM可能正在接近其能力上限——更大的模型和更多的數據帶來的邊際收益正在遞減。而RL在幾個關鍵領域仍有巨大的未開發潛力:
- 規劃和決策:RL天生適合需要多步驟推理和長期規劃的任務,這正是LLM最薄弱的環節。
- 科學發現:AlphaFold在蛋白質結構預測上的突破——這本質上是一個RL問題——展示了RL在科學研究中的變革性潛力。
- 機器人控制:物理世界中的操作任務需要實時決策和適應,RL是最自然的框架。
- 超越人類知識的創新:AlphaGo Zero發現了人類棋手從未想到過的棋步,這表明RL有能力產生真正的創新,而非僅僅組合已有知識。
Ineffable Intelligence的可能方向
雖然Silver尚未公開Ineffable Intelligence的具體技術路線圖,但結合他的研究背景和公開言論,我們可以推測幾個可能的方向。
最有可能的方向是通用強化學習系統。AlphaZero已經證明,同一套RL框架可以在多種遊戲中達到超人水平。Silver的野心很可能是將這種泛化能力從遊戲擴展到更廣泛的決策領域——金融交易、藥物設計、物流優化、甚至科學研究中的實驗設計。
第二個可能的方向是RL與LLM的融合。事實上,當前最強的AI系統已經開始整合RL技術——ChatGPT和Claude的「人類反饋強化學習」(RLHF)就是一個例子。但RLHF只是RL能力的冰山一角。Silver可能正在探索更深層的融合方式,讓語言模型具備真正的規劃和推理能力。
第三個方向可能涉及自我改進的AI系統。Silver的「Reward is Enough」理論暗示,一個足夠強大的RL系統最終可以學會自我改進——不僅在特定任務上提升,還能改進自身的學習能力。這是通往通用人工智能(AGI)的一條理論路徑,也是投資者最興奮但最具不確定性的方向。
倫敦:低調的AI超級城市
Ineffable Intelligence選擇倫敦作為總部,這個決定本身就值得分析。倫敦已經悄然成為全球AI研究的重要中心,這在很大程度上要歸功於DeepMind的示範效應。
DeepMind在2010年由Demis Hassabis、Shane Legg和Mustafa Suleyman在倫敦創辦,2014年被Google以約5億美元收購(現在看來是歷史上最便宜的收購之一)。十多年來,DeepMind不僅產出了AlphaGo、AlphaFold等里程碑式的研究成果,還培養了數百名世界級AI研究員。這些人才中的相當一部分留在了倫敦,形成了一個高度集中的RL和AI安全研究社區。
倫敦的其他優勢包括:頂尖的大學資源(帝國理工、UCL、牛津和劍橋都在通勤範圍內)、相對於矽谷更合理的人才成本、英國政府對AI研究的支持政策,以及作為國際金融中心帶來的資本便利性。
然而,倫敦也面臨挑戰。最大的問題是計算資源——與美國相比,英國可用的GPU集群規模明顯偏小。這也是Ineffable Intelligence需要10億美元融資的原因之一:大規模RL訓練需要巨大的計算投入,而這些計算資源在歐洲比在美國更昂貴、更難獲得。Alphabet和NVIDIA的可能參投,在很大程度上可能與為Silver提供計算資源有關。
對AI研究方向的深遠影響
Silver的創業和巨額融資,可能對整個AI研究領域的方向產生深遠影響。在過去三年中,AI投資和研究注意力高度集中在大語言模型上,這種集中雖然推動了LLM的飛速進步,但也導致其他重要的AI研究方向——包括強化學習、因果推理、神經符號AI等——被相對忽視。
Ineffable Intelligence的10億美元融資向市場發出了一個強烈信號:頂級投資者開始重新關注LLM之外的AI範式。如果Silver能在強化學習領域取得突破性進展,可能引發一波新的投資和研究浪潮,讓AI的發展路線從「大語言模型的一枝獨秀」轉向「多範式齊頭並進」。
這種轉向對AI行業的長期健康至關重要。歷史上,每一次技術革命都經歷過「範式多元化」的過程——早期的主導範式最終被更優秀的替代方案挑戰或融合。如果AI研究長期被LLM壟斷,我們可能會錯過通往AGI的其他可能路徑。
值得注意的是,Silver並不否定LLM的價值。他在少數公開場合中曾表示,語言模型和強化學習最終可能需要深度融合——語言模型提供世界知識的表徵,強化學習提供目標導向的規劃和決策能力。如果Ineffable Intelligence的方向確實是這種融合,那它可能正在探索AI的「聖杯」——將知識和推理統一在一個框架中。
風險與挑戰:10億美元能走多遠?
儘管Silver的背景令人敬畏,Ineffable Intelligence面臨的挑戰也不容小覷。
首先是人才招聘的競爭。AI人才市場已經白熱化——頂級研究員的年薪可以達到數百萬甚至上千萬美元。即使有10億美元的資金,Silver也需要與Google、OpenAI、Anthropic等財力雄厚的對手競爭有限的頂尖人才池。好在Silver本人的學術聲望是一個強大的招聘武器——許多優秀的RL研究員可能願意為與Silver合作的機會而放棄更高的薪酬。
其次是從研究到產品的鴻溝。Silver的整個職業生涯都在學術研究環境中度過,缺乏將研究成果轉化為商業產品的經驗。AlphaGo是一項劃時代的研究成就,但它從未成為一個商業產品。Ineffable Intelligence最終需要證明強化學習不僅在學術上引人入勝,還能創造真正的商業價值。
第三是計算成本。大規模RL訓練的計算需求可能比LLM訓練更加龐大。AlphaGo Zero的訓練使用了數千個TPU,運行了數天。如果Silver的目標是更通用的RL系統,所需的計算資源將是天文數字。10億美元聽起來很多,但在按小時計費的GPU集群面前,它消耗的速度可能比想像中快得多。
最後是時間壓力。LLM領域的競爭者——OpenAI、Google、Anthropic——也在積極探索將RL技術整合進自己的系統。如果這些巨頭在Silver取得突破之前就實現了RL與LLM的有效融合,Ineffable Intelligence的獨特價值主張可能被稀釋。
結語:當一個改變世界的人說「我還能再做一次」
David Silver已經改變過一次世界——2016年AlphaGo擊敗李世乭的那一刻,全球對人工智能的認知發生了不可逆轉的變化。十年後,他帶著10億美元和一個叫做Ineffable Intelligence的實驗室,聲稱要再做一次。
「Ineffable」——不可言喻的——這個名字本身就耐人尋味。Silver似乎在暗示,他追求的智能形態超越了語言所能描述的範疇,正如圍棋中最深奧的棋招往往無法用文字解釋,只能通過對弈來領悟。
40億美元的估值是否合理?這個問題本身可能就問錯了。在AI的前沿,我們衡量的不是當前的資產負債表,而是對未來可能性的信心。Sequoia和潛在的Alphabet、NVIDIA、微軟的賭注,是押注在一個簡單的信念上:如果有人能讓強化學習實現下一個AlphaGo級別的突破,那個人就是David Silver。
至於Silver能否兌現這個信念,我們或許需要幾年時間才能知道答案。但有一件事是確定的:在大語言模型主宰一切的2026年,Ineffable Intelligence的誕生提醒著我們——通往智能的道路不止一條,而最深刻的突破往往來自那些敢於走不同道路的人。