AI安全研究員出走潮：Anthropic與OpenAI的安全承諾面臨拷問

安全門的連鎖反應

過去一週，AI產業兩大領軍企業接連傳出安全研究人員離職的消息，引發了業界對AI安全承諾真實性的深刻質疑。這不是一兩個人的個案，而是一場系統性的出走潮。

2月10日，Mrinank Sharma在X平台發布了他的辭職信。Sharma自Anthropic安全防護研究團隊創立之初就領導該團隊，是公司AI安全框架的核心架構師之一。

他的公開信措辭嚴厲：「世界危在旦夕。不只是因為AI或生化武器，而是因為一系列相互關聯的危機正在此刻展開。」更令人關注的是他的另一句話：「在我任職期間，我反覆看到真正讓價值觀主導行動是多麼困難。」

這封信在X上獲得了超過1,430萬次瀏覽。Sharma隨後宣布他計劃去攻讀詩歌學位，「致力於勇敢言說的實踐」。

Anthropic安全報告的關鍵發現

就在Sharma離職的同時，Anthropic發布了一份新的安全報告，承認Claude Opus 4.5和4.6在特定設置下「對有害濫用表現出較高的易感性」，包括可能被用於化學武器等「極端犯罪」的場景。這份報告讓Sharma的警告更顯沉重。

OpenAI方面的情況同樣令人擔憂。公司悄悄解散了使命對齊團隊——這個團隊的職責是確保AGI（通用人工智能）能造福全人類。OpenAI聲稱團隊成員「被重新分配到其他團隊」，安全考量將「整合到現有產品和研究組中」，而非在專門的獨立部門中處理。

批評者認為，將安全職能從獨立團隊拆散到產品組中，實際上是弱化了安全的話語權——當安全研究員同時向產品負責人彙報時，商業壓力更容易凌駕安全考量。

《華爾街日報》報導，OpenAI解僱了頂級安全高管Ryan Beiermeister，原因是她反對推出允許色情內容的「成人模式」。OpenAI以她「歧視男性員工」為由解僱她——Beiermeister稱這一指控「完全不實」。

另一位前員工Zoë Hitzig在《紐約時報》發表了一篇引人注目的專欄文章，標題為「OpenAI正在犯Facebook犯過的錯誤。我辭職了。」她將OpenAI引入廣告模式與Facebook早年的商業化路徑相類比，警告這可能帶來類似的社會負面影響。

這波出走潮的核心矛盾在於：AI公司面臨著巨大的商業化壓力（籌備IPO、證明估值合理性），同時最新的模型能力正在快速突破安全邊界。

也許最令人擔憂的是政策層面的漠視。儘管科技和商業界對AI安全問題的討論非常激烈，但美國白宮和國會幾乎沒有實質性的回應。在AI能力以月為單位快速進化的當下，監管的缺位意味著安全防線幾乎完全依賴企業的自律——而研究員的離職正在告訴我們，這種自律可能比外界想像的更脆弱。

AI安全研究員的集體出走是一個不容忽視的信號。當最了解AI風險的人選擇離開，並在離開時發出嚴厲警告，這比任何技術報告都更能說明問題。2026年的AI產業正站在一個十字路口：是放慢腳步確保安全，還是在商業壓力下加速前進？目前看來，市場正在替我們做出選擇。