文章重點
- Anthropic於2月24日發佈負責任擴展政策(RSP)v3.0,全面改寫其AI安全框架,刪除了「若模型能力超越安全控制措施即暫停訓練」的核心承諾,理由是負責任開發者單方面暫停只會讓不負責任的參與者獨佔市場,令世界「更不安全」
- 三大結構性變革:區分「單方面行動」與「全行業行動」的政策層級、建立前沿安全路線圖(Frontier Safety Roadmap)以實現公開問責、強制要求外部審查員以「未刪減或最低限度刪減」的方式審閱風險報告並公開批評其推理過程
- RSP框架的成功之處:迫使內部團隊將安全視為產品發佈的硬性前提條件,ASL-3安全防護措施於2025年5月成功啟動,競爭對手亦採納了類似框架
- RSP v3.0發佈當日(2月24日),恰逢五角大樓國防部長海格塞斯(Hegseth)向Anthropic下達最後通牒,限期2月27日(今日)下午5:01前就自主武器和大規模監控合作作出回應
- Anthropic堅稱改版與五角大樓爭議無關,並表示在自主武器和大規模監控紅線上「沒有退讓計劃」,批評者則質疑此舉正在瓦解Anthropic「將自己綁在桅杆上」的創始承諾
一、RSP v3.0:一場安全哲學的根本轉向
2026年2月24日,Anthropic悄然發佈了其負責任擴展政策(Responsible Scaling Policy,RSP)的第三個主要版本。在AI安全領域,RSP一直被視為行業標杆——它是第一個由前沿AI實驗室主動制定的、具有自我約束力的安全框架。2023年首版RSP的核心承諾簡潔而有力:如果模型的能力增長速度超過了安全控制措施的發展速度,Anthropic將暫停模型訓練,直到安全措施趕上來。
這一承諾曾被Anthropic創始人Dario Amodei形容為「將自己綁在桅杆上」——借用奧德賽中尤利西斯面對海妖歌聲時的經典隱喻。它的意思是:我們知道推進AI能力的商業誘惑極其強大,因此我們提前為自己設下不可逾越的紅線,即使未來想要越線也做不到。
而RSP v3.0做的第一件事,就是解開了這條繩索。
新版本明確刪除了「暫停訓練」的承諾,取而代之的是一套更為複雜的分層應對機制。Anthropic的解釋是:在一個多玩家的競爭環境中,單方面暫停訓練並不會讓世界更安全。如果Anthropic停下來,而其他不那麼重視安全的開發者——無論是商業競爭對手還是國家級行為者——繼續前進,最終掌握最強大AI的將是那些對安全最不負責任的人。這個邏輯並非毫無道理,但它從根本上改變了RSP的性質:從一份「無條件的自我約束」,變成了一份「有條件的策略文件」。
二、三大結構性變革:從自我約束到系統性治理
拋開暫停承諾的刪除不談,RSP v3.0在架構層面確實帶來了三項值得認真對待的制度創新。如果只看到「刪除暫停承諾」這個標題就下結論,可能會錯過Anthropic在安全治理機制上的實質性進步。
第一項變革:單方面行動與全行業行動的區分。舊版RSP將所有安全措施視為Anthropic單獨承擔的責任。v3.0則引入了一個關鍵區分:哪些安全措施是Anthropic可以且應該單方面實施的(例如模型部署前的內部安全測試),哪些安全措施需要全行業甚至全社會的協調才有意義(例如防止AI被用於大規模生物武器攻擊)。這一區分承認了一個現實:某些AI風險的性質決定了它們無法被單一公司的政策所化解。一家公司可以確保自己的模型不輸出危險資訊,但無法阻止另一家公司的模型這樣做。
第二項變革:前沿安全路線圖(Frontier Safety Roadmap)。這是v3.0最具操作性的創新。Anthropic承諾定期發佈公開的安全路線圖,詳列其在安全研究、紅隊測試、模型評估等方面的具體計劃和時間表。這意味着外界不再需要依賴Anthropic的自我聲明來判斷其安全工作是否到位,而可以根據公開的路線圖進行追蹤和問責。如果Anthropic承諾在某個時間點完成某項安全研究但未能兌現,這將成為可被公開追究的記錄。
第三項變革:強制性外部審查。這或許是v3.0中最大膽的制度設計。新政策要求Anthropic的風險報告必須提交給外部審查員審閱,而且這些審查員將獲得「未刪減或最低限度刪減」的資料存取權限。更關鍵的是,外部審查員被賦予了公開批評Anthropic推理過程的權力——即使Anthropic不同意其批評。這在AI行業中前所未有:沒有任何一家前沿AI實驗室曾經給予外部人士如此深度的審查權限和如此高度的公開批評自由。
將這三項變革綜合來看,RSP v3.0呈現出一種矛盾的面貌:它在最引人注目的承諾(暫停訓練)上後退了,但在制度建設的精細度和問責機制的嚴格程度上明顯前進了。這究竟是一場真誠的安全治理升級,還是一次用制度複雜性來掩蓋根本性後退的公關操作?答案取決於你如何權衡「承諾的象徵意義」與「機制的實際效力」。
三、RSP的前世今生:什麼奏效了,什麼沒有
要公正評價RSP v3.0,必須先理解RSP框架在過去三年的實際運行狀況——它的成功和失敗同樣值得分析。
RSP框架最大的成功在於制度性影響。它迫使Anthropic內部團隊將安全評估視為模型發佈的硬性前提條件,而非可有可無的附加步驟。在RSP框架下,任何新模型在發佈前都必須通過一系列預定義的安全評估(即ASL,Anthropic Safety Level評估),未通過即不得發佈。這一機制的價值不僅在於防止了具體的安全事故,更在於它在組織文化層面確立了「安全第一」的決策優先序。當工程團隊知道安全測試是不可跳過的硬性要求時,他們會從研發初期就將安全考量納入設計——這種「安全左移」(shift-left security)的效果是任何事後審查都無法替代的。
RSP的另一個重大成功是其行業示範效應。在Anthropic率先發佈RSP之後,Google DeepMind、OpenAI等主要競爭對手相繼推出了類似的安全框架。雖然各家的具體措施有所不同,但「制定公開的安全政策、設定能力閾值、承諾在風險超標時採取行動」這一範式已經成為行業的基本規範。RSP在某種意義上定義了AI安全治理的行業標準。
2025年5月,ASL-3安全防護措施的成功啟動更是RSP框架效力的實證。當Claude模型在特定能力評估中觸及了ASL-3的閾值時,相應的安全防護措施按照預定程序被啟動,額外的安全控制措施被部署到位。整個過程按照RSP的規定有序執行,證明了這套框架不僅是紙上承諾,而是具有實際操作效力的制度安排。
然而,RSP在實踐中也暴露了顯著的局限性。最突出的問題是能力閾值的定義模糊性。RSP的核心邏輯依賴於對模型「能力等級」的清晰界定——但在實踐中,這些界定往往比預期模糊得多。以生物風險評估為例:RSP規定當模型在輔助生物武器設計方面的能力達到特定水準時需要啟動更高等級的安全措施,但「達到特定水準」這個判斷本身就充滿了主觀性。一個模型能夠提供某種生物製劑的一般性資訊與能夠提供具體的合成路徑指導之間,界線在哪裡?不同的評估者可能給出不同的答案。
這種模糊性不僅是技術問題,更是治理問題。當閾值定義不夠精確時,「安全措施跟不上能力發展就暫停」的承諾就失去了操作性——因為「跟不上」和「夠用」之間的界線本身就是有爭議的。從這個角度看,Anthropic在v3.0中用更精細的分層機制取代一刀切的暫停承諾,確實有其合理性。
「我們最初將RSP設計為一種自我約束機制——將自己綁在桅杆上。但我們發現,在一個多玩家的世界中,單方面的自我約束可能產生與初衷相反的結果。」——Anthropic RSP v3.0公告
四、「負責任的暫停」悖論:博弈論視角下的安全困境
Anthropic刪除暫停承諾的核心論據,本質上是一個博弈論問題。讓我們嚴肅地審視這個論據的邏輯結構和潛在缺陷。
論據的基本形式如下:AI安全是一個多玩家博弈。如果所有玩家都遵守安全規範,世界是最安全的。但如果只有部分玩家遵守規範(暫停訓練)而其他玩家不遵守(繼續推進),結果可能比所有人都不暫停更糟——因為最終掌握最強大AI的將是那些最不重視安全的參與者。因此,作為單一玩家的Anthropic,單方面暫停訓練可能是一個「對世界不利」的選擇。
這個論據在邏輯上是自洽的,但它有幾個關鍵的隱含假設值得質疑。
假設一:Anthropic暫停訓練不會影響其他玩家的行為。事實上,RSP框架的行業示範效應已經證明了相反的命題——Anthropic的安全承諾確實影響了競爭對手的行為。如果Anthropic因為安全風險而暫停訓練,這本身就會向整個行業和監管機構發送一個強烈的信號:「前沿AI的風險已經嚴重到讓開發者自己選擇暫停的程度。」這種信號效應可能引發更廣泛的行業暫停或監管介入,而非Anthropic所擔心的「只有自己停下來」的局面。
假設二:AI能力的領先優勢是決定性的。Anthropic的論據暗示,如果它暫停而競爭對手不暫停,競爭對手將獲得無法追回的能力優勢。但AI研發的歷史表明,能力領先往往是暫時性的。Google在搜索領域的暫時領先被後來者挑戰;OpenAI在大語言模型領域的早期領先被Anthropic和Google迅速追趕。暫停幾個月的訓練未必會造成永久性的競爭劣勢。
假設三:繼續訓練是應對安全風險的最佳策略。這是最值得警惕的假設。它的潛台詞是:面對安全措施可能跟不上能力發展的情況,正確的應對不是放慢能力發展的速度,而是加速安全措施的研發同時繼續推進能力。但歷史上,幾乎所有的技術災難——從切爾諾貝爾到挑戰者號——都發生在「我們認為可以一邊加速一邊修補安全漏洞」的心態下。
批評者的核心擔憂可以用一句話概括:當「我們不能暫停因為別人不會暫停」成為一個可接受的論據時,暫停就永遠不會發生。因為在任何時間點,都會存在「不負責任的參與者」可能繼續前進的風險。這個論據一旦被接受,就變成了一個可以為無限制前進提供永久正當性的邏輯陷阱。
RSP各版本核心承諾對比
RSP v1.0(2023年):如果模型能力超越安全控制措施,Anthropic將暫停模型訓練直到安全措施趕上。承諾性質:無條件的單方面自我約束。
RSP v2.0(2024年):細化了ASL(Anthropic Safety Level)評估體系,保留暫停承諾但增加了更多操作細節。承諾性質:有操作指引的自我約束。
RSP v3.0(2026年2月24日):刪除暫停訓練承諾,引入單方面/全行業行動區分、前沿安全路線圖、強制外部審查。承諾性質:有條件的系統性治理框架。
核心轉變:從「寧可過度謹慎也不冒險」(precautionary)轉向「權衡利弊後選擇最優策略」(consequentialist)。
五、時間的巧合:五角大樓最後通牒與RSP改版同日發生
RSP v3.0的發佈日期——2月24日——之所以引發額外的爭議,是因為這恰好是美國國防部長海格塞斯(Pete Hegseth)向Anthropic下達最後通牒的同一天。
五角大樓與Anthropic之間的緊張關係已經醞釀數月。爭議的核心在於:五角大樓希望Anthropic在自主武器系統和大規模監控方面提供AI技術支持,而Anthropic一直以其安全政策和倫理承諾為由拒絕這些合作。海格塞斯在2月24日公開設定了最後期限:要求Anthropic在2月27日(星期五)下午5:01前明確回應五角大樓的合作要求。
今天正是這個最後期限。
Anthropic方面堅稱,RSP v3.0的發佈時間與五角大樓的最後通牒純屬巧合,改版工作在數月前就已啟動。但批評者指出,無論時間上是否真的是巧合,在公眾觀感上,一家正面臨政府軍事合作壓力的AI公司選擇在同一天放寬自己的安全承諾,這種光學效果(optics)是災難性的。
更耐人尋味的是,Anthropic在五角大樓問題上表現出了與RSP改版截然不同的態度。在RSP問題上,Anthropic的論調是「我們需要更靈活、更務實」;但在自主武器和大規模監控問題上,Anthropic的立場卻異常堅定——據報導,公司內部的表態是「沒有退讓計劃」(no plans to budge)。
這種態度差異揭示了一個重要的分析線索:Anthropic可能將RSP的靈活化視為「在安全研究方法論上的進化」,而將自主武器紅線視為「不可談判的倫理底線」。換言之,Anthropic區分了「如何做安全」(方法論層面,可以調整)和「安全的底線是什麼」(價值觀層面,不可妥協)。這個區分是否站得住腳,將在未來的五角大樓對峙中接受考驗。
海格塞斯選擇的「星期五下午5:01」這個截止時間也值得玩味——這是華盛頓政治圈臭名昭著的「週五新聞傾倒」(Friday news dump)時段,通常用於發佈希望獲得最少媒體關注的消息。這暗示五角大樓可能也在為某種不太體面的結果做準備:無論是Anthropic的拒絕還是某種妥協方案,都可以在週末的低關注度中悄然消化。
六、「綁在桅杆上」的承諾瓦解了嗎?行業信任危機
RSP v3.0最深層的問題不在於具體條款的變化,而在於它對Anthropic品牌敘事的衝擊。
Anthropic自成立以來,一直以「安全優先的AI公司」作為其核心品牌定位。這個定位不僅是道德聲明,更是商業策略——它為Anthropic吸引了大量重視安全的企業客戶、贏得了監管機構的善意、招募了業內頂尖的安全研究人才。在AI行業的「安全光譜」上,Anthropic一直佔據着最謹慎的那一端,與被批評為「快速行動、打破常規」的Meta和「商業利益壓倒安全考量」的OpenAI形成鮮明對比。
RSP v3.0引發的信任危機在於:如果一家公司最引人注目的安全承諾可以在商業壓力和競爭環境下被修改,那麼它剩下的安全承諾還有多少可信度?這不是一個關於具體條款的技術性問題,而是一個關於制度可信度的根本性問題。
支持者可能會辯稱,修改安全政策以適應新的現實認知恰恰是負責任的表現——固守一個被實踐證明有缺陷的政策反而是不負責任的。這個觀點並非沒有道理。但問題在於,「將自己綁在桅杆上」這個承諾的全部意義就在於它的不可修改性——如果綁繩可以在覺得不舒服的時候隨時解開,那麼綁繩從一開始就沒有約束力。
這場信任危機的影響範圍可能遠超Anthropic一家公司。如果行業中被視為最重視安全的公司都在後退,這會向整個生態系統發送什麼信號?其他公司可能會將此視為放鬆自身安全承諾的許可證:「如果連Anthropic都認為暫停是不切實際的,那我們為什麼還要堅持?」RSP的行業示範效應曾經推動了安全標準的提升,而RSP的後退可能同樣產生示範效應——只不過方向相反。
「Anthropic告訴世界,它會把自己綁在桅杆上。現在桅杆還在,但繩子已經被悄悄解開了。問題是:他們是真的聽到了海妖的歌聲,還是只是覺得繩子太緊了?」——某AI安全研究者的匿名評論
七、香港視角:AI安全治理的亞太啟示
RSP v3.0的爭議對香港和亞太地區的AI治理具有多層面的啟示意義。
首先是「自願承諾」模式的可靠性問題。香港目前的AI治理框架在很大程度上依賴企業的自願承諾和行業自律。創新科技及工業局(ITIB)和個人資料私隱專員公署(PCPD)發佈的AI指引,更多是建議性質而非強制性法規。RSP v3.0的案例清楚地展示了自願承諾的固有局限:即使是最真誠的自我約束,在足夠強大的外部壓力(商業競爭、政府施壓)下也可能被修改或撤回。
這並不意味着香港應該立即轉向歐盟式的嚴格立法監管——那可能會扼殺創新。但它確實表明,純粹依賴企業自律的治理模式存在結構性風險。一個可能的中間路線是:建立「有牙齒的自律」機制——企業可以自行設定安全標準,但一旦公開承諾,就需要受到第三方審計和法律層面的約束。RSP v3.0中的「強制外部審查」制度設計,實際上提供了一個有價值的參考模型。
其次是五角大樓對峙對香港企業的間接影響。如果Anthropic最終在自主武器問題上與美國政府達成某種妥協,這可能改變Anthropic產品在不同市場的合規狀態。香港作為國際金融中心,其企業在選擇AI供應商時必須考慮地緣政治風險——一家與美國軍方深度合作的AI公司,其產品在中國大陸市場的可用性將面臨重大不確定性。反之,如果Anthropic堅守紅線並因此與五角大樓決裂,這可能反而增強其在亞太市場的可信度和可接受性。
第三是AI安全人才的競爭格局。RSP v3.0可能引發Anthropic內部安全研究團隊的人才流動。歷史上,OpenAI的安全團隊負責人Jan Leike和其他研究者因安全政策分歧而離職的先例表明,安全政策的重大轉向可能導致核心人才的出走。對香港而言,這既是警示(企業安全承諾的動搖會損害人才吸引力),也是機遇(如果能夠建立真正有吸引力的AI安全研究環境,有可能吸引從矽谷流出的頂尖安全研究人才)。
香港科技園和數碼港近年來在AI安全方面的佈局值得肯定,但與全球前沿相比仍有顯著差距。RSP v3.0的爭議恰好為香港提供了一個契機:在全球AI安全治理格局重新洗牌之際,積極參與國際對話、建立本地的AI安全評估能力、吸引安全研究人才,可能為香港在AI時代的制度競爭力奠定關鍵基礎。
五角大樓對峙時間線
2025年下半年:五角大樓開始就自主武器系統和大規模監控項目尋求Anthropic的AI技術合作
2026年1月-2月:雙方就合作範圍和倫理底線進行非公開談判,未達成共識
2月24日(星期二):國防部長海格塞斯公開下達最後通牒;同日,Anthropic發佈RSP v3.0
2月27日(星期五,今日):海格塞斯設定的最後期限——下午5:01 PM
Anthropic立場:在自主武器和大規模監控紅線上「沒有退讓計劃」
潛在後果:政府合同取消、監管報復、或雙方達成有限度的妥協方案
八、前路何方:AI安全的下一個十字路口
RSP v3.0的發佈標誌着AI安全治理進入了一個新的、更加複雜的階段。早期那種「制定承諾、遵守承諾」的簡單模式已經被證明不足以應對現實的複雜性——多玩家博弈、能力閾值的模糊性、政府壓力、商業競爭,這些因素共同構成了一個比任何單一安全政策所能覆蓋的更加複雜的治理挑戰。
v3.0提出的制度創新——外部審查、公開路線圖、分層行動機制——是否能夠有效替代被刪除的暫停承諾,目前還沒有人能給出確定的答案。這些機制的有效性取決於執行的誠意和力度:外部審查員是否真的具有獨立性?公開路線圖是否會被真正執行?分層行動機制在面臨「灰色地帶」情景時是否能夠有效運作?
但有一件事是確定的:AI安全治理不能僅僅依賴任何單一公司的善意和自我約束。RSP v3.0的案例證明了一個更基本的道理——即使是最真誠的安全承諾,在缺乏外部制度支撐的情況下,也會隨着環境變化而演化甚至退化。這不是對Anthropic的道德批判,而是對「自願安全承諾」這種治理模式的結構性觀察。
未來AI安全治理的可持續模式,可能需要結合三個層面的力量:企業的自願承諾(提供創新的速度和靈活性)、行業的集體協調(解決多玩家博弈問題)、以及政府的制度框架(提供外部約束力和法律基礎)。RSP v3.0在第一個層面有所後退,在第二個層面有所推進(外部審查、行業協調),而第三個層面——政府監管——恰好正以五角大樓最後通牒的形式逼近。
今天下午5:01,海格塞斯設定的截止時間將到來。Anthropic在自主武器紅線上的堅守或妥協,將為RSP v3.0的真正含義提供最有力的注腳。如果Anthropic在承受政府壓力的同時仍然堅守「不為自主武器和大規模監控提供技術」的底線,那麼v3.0中被刪除的暫停承諾或許只是安全策略的務實調整;但如果這條底線也隨後被「靈活處理」,那麼整個RSP框架——無論是哪個版本——的可信度都將受到根本性的質疑。
AI安全的桅杆是否還在?答案可能要等到今天傍晚才能揭曉。