Anthropic意外洩露次世代模型「Claude Mythos」：性能遠超Opus 4.6，網絡安全能力引發警報

一場意外的數據洩露，讓AI業界提前窺見了Anthropic正在秘密測試的下一代旗艦模型——而其所展示的能力，讓整個網絡安全社群陷入了深深的憂慮。

洩露事件：3,000份文件意外公開

事件由科技媒體Fortune的記者Bea Nolan率先披露。調查顯示，Anthropic的內容管理系統（CMS）因配置失誤（「human error」），將近3,000份原本未打算公開的內部文件意外設置為可公開訪問狀態。這些文件包括未發佈的研究草稿、產品博文以及部分內部規劃文件。

在這批文件中，最引人矚目的是兩份分別描述同一模型的博文草稿——兩份草稿的內容幾乎相同，唯一區別在於模型名稱：一份稱其為「Mythos」，另一份稱其為「Capybara」。這表明Anthropic當時仍在就最終命名進行內部討論。

LayerX Security的研究員Roy Paz和劍橋大學的Alexandre Pauwels確認了這批文件的真實性。Anthropic在事後承認了洩露事實，將其定性為「CMS配置中的人為失誤」，並強調這些文件是「正在籌備發佈的早期草稿」。

根據洩露草稿，Claude Mythos/Capybara代表的不是現有Opus系列的常規更新，而是全新的模型層級——一個在規模和智能上都凌駕於Opus之上的全新架構。

草稿中的原文寫道：「Capybara是一個全新名稱，對應一個全新模型層級：比我們迄今為止最強大的Opus系列更大、更智能。」

具體性能比較方面，草稿聲稱相較於現有最佳模型Claude Opus 4.6，新模型在以下領域取得了「大幅提升的測試成績」：

Anthropic官方發言人在回應Fortune的詢問時確認，這一新模型代表「性能上的一次躍變（step change）」，並表示目前正由「早期訪問客戶」進行測試。

然而，新模型最令業界震動的部分，並非其優異的性能基準分數，而是Anthropic自身在洩露草稿中對其網絡安全能力的罕見警告。

草稿明確指出，Claude Mythos在網絡安全領域的能力「目前遠超市場上的任何其他AI模型」，並預示著「一波即將到來的模型浪潮，這些模型發現和利用軟件漏洞的速度，將遠遠超過防禦方應對的速度」。

這不是抽象的擔憂。Anthropic此前已記錄了一起真實案例：發現並中斷了一場疑似中國國家支持的行動，該行動使用Claude Code成功滲透了約30個組織。這一先例使外界對下一代模型可能帶來的攻擊能力躍升，有了更具體的認知。

洩露文件顯示，Anthropic計劃對新模型採取高度謹慎的分階段發布策略：

草稿坦承：「這個模型對我們來說服務成本非常高，對客戶來說使用成本也會非常高。我們正在努力在任何全面發布之前大幅提升其效率。」

目前，這款模型究竟會以「Mythos」、「Capybara」還是其他名稱正式亮相，仍是未解之謎。但可以確定的是：它的存在已無法繼續保密，而它的能力，正在迫使整個AI安全社群重新評估防禦準備的緊迫性。