GPT-5.3-Codex：OpenAI最強編碼代理登場，首觸「高危」網安等級引爭議

文章重點

GPT-5.3-Codex於2月5日發布，是OpenAI迄今最強的代理式編碼模型
在SWE-Bench Pro和Terminal-Bench等基準測試中創下業界新高，且token消耗更少
首次在OpenAI準備度框架中觸發「高」網絡安全風險等級，部署附帶嚴格限制
Codex-Spark（2月12日發布）與Cerebras合作，實現每秒1,000+ token的即時編碼
Codex-Spark的早期版本「參與了自身的創建」——用AI調試AI的訓練過程

從代碼生成器到全能開發者

2月5日，OpenAI正式推出GPT-5.3-Codex，並以一句話定義了其雄心：「Codex從一個能寫代碼和審查代碼的代理，進化為一個能做開發者和專業人員在電腦上能做的幾乎所有事情的代理。」

這不是漸進式升級。GPT-5.3-Codex首次整合了Codex和GPT-5的訓練架構，將最佳的代碼生成、推理和通用智能融合在一個統一模型中。結果是速度提升約25%，token效率業界最優，從代碼生成工具進化為可主動引導的通用編碼代理。

第1

SWE-Bench Pro排名

25%

速度提升

1,000+

Spark每秒token數

77.3%

Spark Terminal-Bench 2.0得分

基準測試全面領先

GPT-5.3-Codex在四個關鍵基準測試中均創下業界新高：SWE-Bench Pro（軟件工程）、Terminal-Bench（終端操作）、OSWorld（操作系統任務）和GDPval（經濟價值知識工作）。更值得注意的是，它在達成這些成績的同時消耗的token比任何先前模型都少——這對企業用戶的成本計算至關重要。

「高危」網安等級：AI安全的新考驗

與其技術突破同樣引人注目的，是OpenAI在發布公告中的一段不尋常表態：這是他們首次將一個模型在準備度框架（Preparedness Framework）的「網絡安全」領域標記為「高」風險等級。

什麼是「高」網安等級？

OpenAI的準備度框架對模型在生物威脅、網絡安全、自主性等維度設定了風險等級。「高」意味著模型已展現出在網絡安全領域的顯著能力，可能被濫用於發現漏洞或輔助攻擊。Sam Altman親自表示：「這是我們第一個在準備度框架中觸及網絡安全『高』等級的模型。」OpenAI稱目前沒有「確鑿證據」證明該模型能全自動執行網絡攻擊，但採取了預防性措施。

由於安全顧慮，OpenAI以異常嚴格的方式發布GPT-5.3-Codex——延遲了完整的開發者API訪問。模型目前僅在ChatGPT付費版、Codex應用、CLI、IDE擴展和Codex Cloud上可用。

Codex-Spark：AI參與自身創造

2月12日，OpenAI發布了GPT-5.3-Codex-Spark的研究預覽版——一個更小、更快的版本，也是首個為即時編碼設計的模型。Spark標誌著OpenAI與Cerebras合作的首個里程碑，在超低延遲硬件上實現了每秒1,000+ token的輸出速度。

在Terminal-Bench 2.0上，Spark得分77.3%，較GPT-5.2-Codex的64%有顯著提升。但最引人關注的細節是：Spark的早期版本「在創建自己的過程中發揮了重要作用」——被用於調試自身的訓練過程、管理部署、診斷測試結果和進行評估。

AI模型參與自身訓練過程的自我指涉性，引發了業界對AI自我改進能力的新一輪討論。

與Claude Opus 4.6的正面競爭

GPT-5.3-Codex的發布正值Anthropic剛在2月5日推出Claude Opus 4.6。AI編碼工具市場的雙雄對決已進入白熱化。Anthropic憑藉Claude Code在企業編碼市場佔有42%份額，而OpenAI的Codex生態系統則在消費者和獨立開發者群體中佔據優勢。

對香港軟件業的影響

GPT-5.3-Codex和Codex-Spark的推出對香港日益壯大的軟件開發社區具有直接影響。每秒千token的即時編碼能力將改變香港金融科技和電商企業的開發效率。但值得注意的是，「高危」網安等級也提醒本地企業：在部署強大的AI編碼工具時，必須同步加強代碼審查和安全審計流程。