AI安全研究員出走潮:Anthropic與OpenAI的安全承諾面臨拷問

文章重點

  • Anthropic安全防護研究主管Mrinank Sharma辭職,公開信警告「世界危在旦夕」
  • OpenAI解散使命對齊團隊,解僱反對「成人模式」的安全高管
  • 前OpenAI研究員在《紐約時報》撰文批評廣告策略重蹈Facebook覆轍
  • Anthropic最新報告承認Claude存在被用於「極端犯罪」的漏洞

安全門的連鎖反應

過去一週,AI產業兩大領軍企業接連傳出安全研究人員離職的消息,引發了業界對AI安全承諾真實性的深刻質疑。這不是一兩個人的個案,而是一場系統性的出走潮。

Anthropic:安全主管的公開告別

2月10日,Mrinank Sharma在X平台發布了他的辭職信。Sharma自Anthropic安全防護研究團隊創立之初就領導該團隊,是公司AI安全框架的核心架構師之一。

他的公開信措辭嚴厲:「世界危在旦夕。不只是因為AI或生化武器,而是因為一系列相互關聯的危機正在此刻展開。」更令人關注的是他的另一句話:「在我任職期間,我反覆看到真正讓價值觀主導行動是多麼困難。」

這封信在X上獲得了超過1,430萬次瀏覽。Sharma隨後宣布他計劃去攻讀詩歌學位,「致力於勇敢言說的實踐」。

Anthropic安全報告的關鍵發現

就在Sharma離職的同時,Anthropic發布了一份新的安全報告,承認Claude Opus 4.5和4.6在特定設置下「對有害濫用表現出較高的易感性」,包括可能被用於化學武器等「極端犯罪」的場景。這份報告讓Sharma的警告更顯沉重。

OpenAI:使命對齊團隊的解散

OpenAI方面的情況同樣令人擔憂。公司悄悄解散了使命對齊團隊——這個團隊的職責是確保AGI(通用人工智能)能造福全人類。OpenAI聲稱團隊成員「被重新分配到其他團隊」,安全考量將「整合到現有產品和研究組中」,而非在專門的獨立部門中處理。

批評者認為,將安全職能從獨立團隊拆散到產品組中,實際上是弱化了安全的話語權——當安全研究員同時向產品負責人彙報時,商業壓力更容易凌駕安全考量。

被解僱的安全高管

《華爾街日報》報導,OpenAI解僱了頂級安全高管Ryan Beiermeister,原因是她反對推出允許色情內容的「成人模式」。OpenAI以她「歧視男性員工」為由解僱她——Beiermeister稱這一指控「完全不實」。

另一位前員工Zoë Hitzig在《紐約時報》發表了一篇引人注目的專欄文章,標題為「OpenAI正在犯Facebook犯過的錯誤。我辭職了。」她將OpenAI引入廣告模式與Facebook早年的商業化路徑相類比,警告這可能帶來類似的社會負面影響。

為什麼這很重要

這波出走潮的核心矛盾在於:AI公司面臨著巨大的商業化壓力(籌備IPO、證明估值合理性),同時最新的模型能力正在快速突破安全邊界。

  • 模型自我改進:OpenAI的最新模型參與了自身訓練過程的優化
  • 自主構建能力:Anthropic的Cowork工具在某種程度上「構建了自己」
  • 生物武器風險:最新安全評估顯示模型在化學和生物武器領域的知識邊界正在模糊
  • IPO競賽:OpenAI和Anthropic都在籌備IPO,商業化壓力空前

產業與監管的脫節

也許最令人擔憂的是政策層面的漠視。儘管科技和商業界對AI安全問題的討論非常激烈,但美國白宮和國會幾乎沒有實質性的回應。在AI能力以月為單位快速進化的當下,監管的缺位意味著安全防線幾乎完全依賴企業的自律——而研究員的離職正在告訴我們,這種自律可能比外界想像的更脆弱。

結語:安全與速度的十字路口

AI安全研究員的集體出走是一個不容忽視的信號。當最了解AI風險的人選擇離開,並在離開時發出嚴厲警告,這比任何技術報告都更能說明問題。2026年的AI產業正站在一個十字路口:是放慢腳步確保安全,還是在商業壓力下加速前進?目前看來,市場正在替我們做出選擇。