文章重點
- Claude Sonnet 4.6在OSWorld基準測試達72.5%(16個月前僅14.9%),電腦操控能力提升近5倍
- 定價維持每百萬token輸入$3/輸出$15——僅為旗艦Opus的五分之一
- 成為所有用戶(含免費版)的預設模型,70%用戶偏好超過前代Sonnet 4.5
- SWE-bench Verified達79.6%,ARC-AGI-2達60.42%,多項指標接近甚至超越旗艦
「中階革命」:當中階模型不再中階
2026年2月17日,Anthropic發布了Claude Sonnet 4.6——公司最新的中階模型。然而,「中階」這個標籤可能已經不太準確了。在多項基準測試中,Sonnet 4.6的表現不僅匹敵自家旗艦Opus 4.6,甚至在某些領域超越了Google和OpenAI的競爭產品。
最令人震撼的數字是OSWorld基準測試的得分:72.5%。這個衡量AI操控電腦能力的指標,在16個月前Claude 3.5 Sonnet推出電腦操控功能時僅為14.9%。換言之,Anthropic在不到一年半的時間內,將模型的電腦操控能力提升了近5倍。
(電腦操控)
(程式開發)
(抽象推理)
成本比
性能飛躍的技術內涵
Sonnet 4.6引入了幾項關鍵的技術創新,使其在保持較低成本的同時大幅提升性能:
- 自適應思考(Adaptive Thinking):模型能根據問題複雜度動態調整推理深度,簡單問題快速回答,複雜問題深入思考,避免了「過度思考」的資源浪費。
- 上下文壓縮(Context Compaction):在100萬token的上下文窗口內,模型能智能壓縮先前對話內容,有效延長可用的記憶範圍。
- 強化提示注入防禦:Anthropic的系統卡片首次公開了不同攻擊面、嘗試次數和防護配置下的提示注入攻擊成功率——這是OpenAI和Google尚未為自家模型提供的透明度。
經濟學的顛覆:一月還太貴的代理,二月就負擔得起
Sonnet 4.6的定價策略堪稱激進。每百萬token輸入$3、輸出$15的價格與前代Sonnet 4.5完全相同,但性能提升了一個量級。以往只有使用Opus旗艦模型才能完成的任務,現在用五分之一的成本就能實現。
這意味著什麼?一位VentureBeat分析師精準地總結:「一月份因為成本太高而無法運行的AI代理,到了二月突然變得負擔得起了。」Box的技術長也報告,Sonnet 4.6在重度推理問答任務中超越前代15個百分點。
市場反應
Sonnet 4.6發布僅一天內,GitHub Copilot宣布全面支援該模型,Amazon Bedrock同步上線。70%的早期用戶表示偏好Sonnet 4.6超過Sonnet 4.5,部分開發者甚至表示在特定任務中更傾向使用它而非更昂貴的Opus系列。
成為「所有人的預設」:免費用戶也能使用
Anthropic做出了一個大膽決定:將Sonnet 4.6設為所有計劃(包括免費版)的預設模型。這不僅是技術上的升級,更是戰略上的宣示——Anthropic正試圖將頂級AI性能從企業專屬變為全民可用。
這一策略與OpenAI近期在ChatGPT中投放廣告形成了鮮明對比。就在不久前的超級碗廣告中,Anthropic直接嘲諷了OpenAI的廣告模式,標語「廣告正在進入AI,但不會進入Claude」引發廣泛討論。
AI能力的「摩爾定律」時刻
從更宏觀的角度來看,Sonnet 4.6代表的是一個更深刻的趨勢:頂級AI能力的獲取成本正在以前所未有的速度下降。就像半導體產業的摩爾定律一樣,AI正在經歷一個性能翻倍、價格減半的加速週期。
差異在於速度——摩爾定律的週期是18-24個月,而當前AI模型的「性價比翻倍」似乎僅需要數月。如果這個趨勢持續下去,到2026年底,今天被視為「旗艦級」的AI能力可能就像日用品一樣普及。
對行業的啟示
Sonnet 4.6的發布傳遞了幾個關鍵信號:
- 模型護城河正在縮窄:中階模型能匹敵旗艦,意味著單純的模型性能不再是競爭壁壘,生態系統和用戶體驗成為新戰場。
- 代理AI即將爆發:當成本障礙被消除,企業部署AI代理的最後一道門檻也隨之瓦解。
- 透明度成為差異化因素:Anthropic公開提示注入攻擊數據的做法,正在建立新的行業標準。
- 競爭格局加速重組:OpenAI的企業錢包份額正從2024年的62%下降至預計2026年的53%,而Anthropic則從14%上升至18%。