LLM

GPT-5.4正式推出:電腦使用能力首次超越人類,在OSWorld基準測試中得分75%

OpenAI於3月5日發布GPT-5.4,這是首款在OSWorld電腦操作基準測試中以75%得分超越人類(72.4%)的AI模型,標誌著AI從對話工具向自主數字助理的實質性轉型。新模型整合了原生電腦使用能力、100萬token上下文窗口,並在專業工作(GDPval 83%)和網頁研究(BrowseComp 82.7%)等多項基準上大幅刷新紀錄。

AI研究界長期追蹤的一個里程碑,已在本月悄然跨越:一款AI模型在電腦操作能力上,正式超越了人類的平均水準。

核心突破:OSWorld基準首次超越人類

OSWorld(Open System World)是目前業界公認最嚴格的電腦操作能力評估基準之一,測試模型通過截圖觀察桌面環境、並通過鍵盤和鼠標指令完成真實電腦任務的能力——這正是人類在使用電腦時每天執行的操作方式。

GPT-5.4在OSWorld-Verified測試中取得75.0%的成功率,首次超越了人類基準的72.4%,也遠超GPT-5.2的47.3%。這是迄今為止任何AI模型在這一基準上的最高成績,也是AI領域首次在「像人類一樣操作電腦」這一維度上達到超人水準。

原生電腦使用:無需外部插件

GPT-5.4是OpenAI首款將電腦使用能力作為原生功能整合的通用模型。不同於此前需要通過外部插件或特定API調用的實現方式,GPT-5.4可以直接:

  • 通過截圖觀察桌面或瀏覽器界面
  • 發出鼠標點擊和鍵盤輸入指令
  • 在多個應用程序之間自主導航
  • 填寫表單、運行腳本、提交任務——無需人工逐步分解

這意味著GPT-5.4可以被部署為真正意義上的「數字助理」,自主完成此前只能由人工操作的多步驟電腦工作流。

全面升級的性能基準

除電腦使用能力外,GPT-5.4在多項主要基準測試中也大幅超越上一代GPT-5.2:

基準測試GPT-5.2GPT-5.4
GDPval(專業工作)70.9%83.0%
OSWorld(電腦操作)47.3%75.0%
BrowseComp(網頁研究)65.8%82.7%
ARC-AGI-2(抽象推理)52.9%73.3%

此外,新模型在單條聲明中出錯的概率降低了33%,整體回應包含錯誤的概率降低了18%。

100萬token上下文與Codex代碼能力整合

GPT-5.4同時整合了GPT-5.3-Codex的代碼能力,並將上下文窗口從40萬token擴展至100萬token。對於需要處理超大代碼庫、長文檔或多輪代理工作流的用戶,這一升級具有實質性意義。

值得注意的是,輸入定價在超過272K token後翻倍,每百萬輸入token的起始價格為2.50美元(相比GPT-5.2的1.75美元略有提升),但模型在複雜任務上的token效率提升了47%,實際成本影響因使用場景而異。

競爭格局:仍無「全能冠軍」

GPT-5.4的發布,並未終結前沿模型之間的競爭格局,而是進一步明確了不同模型的相對優勢:

  • GPT-5.4:領跑電腦使用(OSWorld 75%)、知識工作(GDPval 83%)
  • Claude Opus 4.6:保持代碼能力(SWE-Bench 80.8%)和網頁研究(BrowseComp 84%)的優勢
  • Gemini 3.1 Pro:在多模態推理和ARC-AGI-2(77.1%)上繼續領先

對開發者而言,2026年的前沿AI選型,已從「哪個最強」變為「哪個最適合我的具體任務」。

部署計劃

在ChatGPT中,GPT-5.4 Thinking已面向Plus、Team和Pro用戶推出,取代GPT-5.2 Thinking的位置。GPT-5.2 Thinking將在Legacy Models區繼續保留三個月,並於2026年6月5日正式退役。

OSWorld的75%,不僅僅是一個基準分數的更新,它標誌著「AI能否代替我使用電腦」這個問題,已從技術挑戰轉變為商業部署問題。