GPT-5.4正式推出：電腦使用能力首次超越人類，在OSWorld基準測試中得分75%

AI研究界長期追蹤的一個里程碑，已在本月悄然跨越：一款AI模型在電腦操作能力上，正式超越了人類的平均水準。

核心突破：OSWorld基準首次超越人類

OSWorld（Open System World）是目前業界公認最嚴格的電腦操作能力評估基準之一，測試模型通過截圖觀察桌面環境、並通過鍵盤和鼠標指令完成真實電腦任務的能力——這正是人類在使用電腦時每天執行的操作方式。

GPT-5.4在OSWorld-Verified測試中取得75.0%的成功率，首次超越了人類基準的72.4%，也遠超GPT-5.2的47.3%。這是迄今為止任何AI模型在這一基準上的最高成績，也是AI領域首次在「像人類一樣操作電腦」這一維度上達到超人水準。

GPT-5.4是OpenAI首款將電腦使用能力作為原生功能整合的通用模型。不同於此前需要通過外部插件或特定API調用的實現方式，GPT-5.4可以直接：

這意味著GPT-5.4可以被部署為真正意義上的「數字助理」，自主完成此前只能由人工操作的多步驟電腦工作流。

除電腦使用能力外，GPT-5.4在多項主要基準測試中也大幅超越上一代GPT-5.2：

此外，新模型在單條聲明中出錯的概率降低了33%，整體回應包含錯誤的概率降低了18%。

GPT-5.4同時整合了GPT-5.3-Codex的代碼能力，並將上下文窗口從40萬token擴展至100萬token。對於需要處理超大代碼庫、長文檔或多輪代理工作流的用戶，這一升級具有實質性意義。

值得注意的是，輸入定價在超過272K token後翻倍，每百萬輸入token的起始價格為2.50美元（相比GPT-5.2的1.75美元略有提升），但模型在複雜任務上的token效率提升了47%，實際成本影響因使用場景而異。

GPT-5.4的發布，並未終結前沿模型之間的競爭格局，而是進一步明確了不同模型的相對優勢：

對開發者而言，2026年的前沿AI選型，已從「哪個最強」變為「哪個最適合我的具體任務」。

在ChatGPT中，GPT-5.4 Thinking已面向Plus、Team和Pro用戶推出，取代GPT-5.2 Thinking的位置。GPT-5.2 Thinking將在Legacy Models區繼續保留三個月，並於2026年6月5日正式退役。

OSWorld的75%，不僅僅是一個基準分數的更新，它標誌著「AI能否代替我使用電腦」這個問題，已從技術挑戰轉變為商業部署問題。