LLM

Anthropic意外洩露次世代模型「Claude Mythos」:性能遠超Opus 4.6,網絡安全能力引發警報

Anthropic因內容管理系統配置失誤,意外在官網公開了近3,000份未發佈文件,其中包含描述全新模型「Claude Mythos」(代號Capybara)的草稿博文。文件顯示該模型在軟件編碼、學術推理和網絡安全測試上大幅超越現有最強模型Claude Opus 4.6,但同時警告其網絡安全能力「遠超任何現有AI模型」,可能加速網絡攻擊與防禦之間的軍備競賽。

一場意外的數據洩露,讓AI業界提前窺見了Anthropic正在秘密測試的下一代旗艦模型——而其所展示的能力,讓整個網絡安全社群陷入了深深的憂慮。

洩露事件:3,000份文件意外公開

事件由科技媒體Fortune的記者Bea Nolan率先披露。調查顯示,Anthropic的內容管理系統(CMS)因配置失誤(「human error」),將近3,000份原本未打算公開的內部文件意外設置為可公開訪問狀態。這些文件包括未發佈的研究草稿、產品博文以及部分內部規劃文件。

在這批文件中,最引人矚目的是兩份分別描述同一模型的博文草稿——兩份草稿的內容幾乎相同,唯一區別在於模型名稱:一份稱其為「Mythos」,另一份稱其為「Capybara」。這表明Anthropic當時仍在就最終命名進行內部討論。

LayerX Security的研究員Roy Paz和劍橋大學的Alexandre Pauwels確認了這批文件的真實性。Anthropic在事後承認了洩露事實,將其定性為「CMS配置中的人為失誤」,並強調這些文件是「正在籌備發佈的早期草稿」。

模型能力:一個全新的性能層級

根據洩露草稿,Claude Mythos/Capybara代表的不是現有Opus系列的常規更新,而是全新的模型層級——一個在規模和智能上都凌駕於Opus之上的全新架構。

草稿中的原文寫道:「Capybara是一個全新名稱,對應一個全新模型層級:比我們迄今為止最強大的Opus系列更大、更智能。」

具體性能比較方面,草稿聲稱相較於現有最佳模型Claude Opus 4.6,新模型在以下領域取得了「大幅提升的測試成績」:

  • 軟件編碼
  • 學術推理
  • 網絡安全

Anthropic官方發言人在回應Fortune的詢問時確認,這一新模型代表「性能上的一次躍變(step change)」,並表示目前正由「早期訪問客戶」進行測試。

網絡安全警報:比任何現有模型都危險

然而,新模型最令業界震動的部分,並非其優異的性能基準分數,而是Anthropic自身在洩露草稿中對其網絡安全能力的罕見警告

草稿明確指出,Claude Mythos在網絡安全領域的能力「目前遠超市場上的任何其他AI模型」,並預示著「一波即將到來的模型浪潮,這些模型發現和利用軟件漏洞的速度,將遠遠超過防禦方應對的速度」。

這不是抽象的擔憂。Anthropic此前已記錄了一起真實案例:發現並中斷了一場疑似中國國家支持的行動,該行動使用Claude Code成功滲透了約30個組織。這一先例使外界對下一代模型可能帶來的攻擊能力躍升,有了更具體的認知。

發布計劃:謹慎的漸進式推出

洩露文件顯示,Anthropic計劃對新模型採取高度謹慎的分階段發布策略:

  • 首先向一小批早期訪問客戶開放,重點評估網絡安全應用場景
  • 逐步通過Claude API擴大訪問範圍
  • 推遲面向公眾的全面發布,直至推理成本大幅下降

草稿坦承:「這個模型對我們來說服務成本非常高,對客戶來說使用成本也會非常高。我們正在努力在任何全面發布之前大幅提升其效率。」

命名懸念仍未揭曉

目前,這款模型究竟會以「Mythos」、「Capybara」還是其他名稱正式亮相,仍是未解之謎。但可以確定的是:它的存在已無法繼續保密,而它的能力,正在迫使整個AI安全社群重新評估防禦準備的緊迫性。