LLM
GPT-5.4正式推出:電腦使用能力首次超越人類,在OSWorld基準測試中得分75%
OpenAI於3月5日發布GPT-5.4,這是首款在OSWorld電腦操作基準測試中以75%得分超越人類(72.4%)的AI模型,標誌著AI從對話工具向自主數字助理的實質性轉型。新模型整合了原生電腦使用能力、100萬token上下文窗口,並在專業工作(GDPval 83%)和網頁研究(BrowseComp 82.7%)等多項基準上大幅刷新紀錄。
OpenAI於3月5日發布GPT-5.4,這是首款在OSWorld電腦操作基準測試中以75%得分超越人類(72.4%)的AI模型,標誌著AI從對話工具向自主數字助理的實質性轉型。新模型整合了原生電腦使用能力、100萬token上下文窗口,並在專業工作(GDPval 83%)和網頁研究(BrowseComp 82.7%)等多項基準上大幅刷新紀錄。
OpenAI正式發布GPT-5.4,搭載1百萬Token超長上下文視窗,並整合自主執行多步驟工作流程的能力。在模擬真實桌面生產力任務的OSWorld-V基準測試中,GPT-5.4得分75%,首次超越人類基準線72.4%,標誌著AI從對話工具向自主數位工作者的關鍵躍升。