GPT-5.4正式推出:電腦使用能力首次超越人類,在OSWorld基準測試中得分75%
OpenAI於3月5日發布GPT-5.4,這是首款在OSWorld電腦操作基準測試中以75%得分超越人類(72.4%)的AI模型,標誌著AI從對話工具向自主數字助理的實質性轉型。新模型整合了原生電腦使用能力、100萬token上下文窗口,並在專業工作(GDPval 83%)和網頁研究(BrowseComp 82.7%)等多項基準上大幅刷新紀錄。
AI研究界長期追蹤的一個里程碑,已在本月悄然跨越:一款AI模型在電腦操作能力上,正式超越了人類的平均水準。
核心突破:OSWorld基準首次超越人類
OSWorld(Open System World)是目前業界公認最嚴格的電腦操作能力評估基準之一,測試模型通過截圖觀察桌面環境、並通過鍵盤和鼠標指令完成真實電腦任務的能力——這正是人類在使用電腦時每天執行的操作方式。
GPT-5.4在OSWorld-Verified測試中取得75.0%的成功率,首次超越了人類基準的72.4%,也遠超GPT-5.2的47.3%。這是迄今為止任何AI模型在這一基準上的最高成績,也是AI領域首次在「像人類一樣操作電腦」這一維度上達到超人水準。
原生電腦使用:無需外部插件
GPT-5.4是OpenAI首款將電腦使用能力作為原生功能整合的通用模型。不同於此前需要通過外部插件或特定API調用的實現方式,GPT-5.4可以直接:
- 通過截圖觀察桌面或瀏覽器界面
- 發出鼠標點擊和鍵盤輸入指令
- 在多個應用程序之間自主導航
- 填寫表單、運行腳本、提交任務——無需人工逐步分解
這意味著GPT-5.4可以被部署為真正意義上的「數字助理」,自主完成此前只能由人工操作的多步驟電腦工作流。
全面升級的性能基準
除電腦使用能力外,GPT-5.4在多項主要基準測試中也大幅超越上一代GPT-5.2:
| 基準測試 | GPT-5.2 | GPT-5.4 |
|---|---|---|
| GDPval(專業工作) | 70.9% | 83.0% |
| OSWorld(電腦操作) | 47.3% | 75.0% |
| BrowseComp(網頁研究) | 65.8% | 82.7% |
| ARC-AGI-2(抽象推理) | 52.9% | 73.3% |
此外,新模型在單條聲明中出錯的概率降低了33%,整體回應包含錯誤的概率降低了18%。
100萬token上下文與Codex代碼能力整合
GPT-5.4同時整合了GPT-5.3-Codex的代碼能力,並將上下文窗口從40萬token擴展至100萬token。對於需要處理超大代碼庫、長文檔或多輪代理工作流的用戶,這一升級具有實質性意義。
值得注意的是,輸入定價在超過272K token後翻倍,每百萬輸入token的起始價格為2.50美元(相比GPT-5.2的1.75美元略有提升),但模型在複雜任務上的token效率提升了47%,實際成本影響因使用場景而異。
競爭格局:仍無「全能冠軍」
GPT-5.4的發布,並未終結前沿模型之間的競爭格局,而是進一步明確了不同模型的相對優勢:
- GPT-5.4:領跑電腦使用(OSWorld 75%)、知識工作(GDPval 83%)
- Claude Opus 4.6:保持代碼能力(SWE-Bench 80.8%)和網頁研究(BrowseComp 84%)的優勢
- Gemini 3.1 Pro:在多模態推理和ARC-AGI-2(77.1%)上繼續領先
對開發者而言,2026年的前沿AI選型,已從「哪個最強」變為「哪個最適合我的具體任務」。
部署計劃
在ChatGPT中,GPT-5.4 Thinking已面向Plus、Team和Pro用戶推出,取代GPT-5.2 Thinking的位置。GPT-5.2 Thinking將在Legacy Models區繼續保留三個月,並於2026年6月5日正式退役。
OSWorld的75%,不僅僅是一個基準分數的更新,它標誌著「AI能否代替我使用電腦」這個問題,已從技術挑戰轉變為商業部署問題。