DeepSeek-V4 開放權重並支援百萬 Token 長上下文，強化代理式工作流

百萬 Token 上下文帶來的實務改變

DeepSeek-V4 以百萬 Token 等級的長上下文作為賣點，並釋出可用於不同場景的模型版本。對企業與開發者而言，長上下文不只是「能放更多文字」，而是讓代理式工作流更接近真實需求：例如長時間的除錯與程式碼修改、跨多份文件的專案規格追蹤、以及需要反覆查詢資料與工具結果的多步任務。過去代理在多輪工具呼叫後容易遺失脈絡，或因上下文成本過高而被迫截斷推理軌跡；當上下文顯著拉長且成本下降，代理就更可能保留完整的決策線索，降低重複查詢與反覆整理的開銷。

透過 KV cache 壓縮降低推論成本

DeepSeek-V4 的另一個重點是以混合注意力與壓縮設計降低 KV cache 的記憶體負擔，讓長上下文推論更可行。長上下文的主要成本往往落在記憶體佔用與注意力計算，而不是模型參數本身；當 KV cache 得到有效壓縮，企業就能用較少 GPU 記憶體支撐更長的會話與工具軌跡，對自建部署尤其重要。對香港市場而言，若開放權重模型在長上下文、代理任務與成本之間取得更佳平衡，將促進本地企業採用私有化部署：把敏感文件留在內部網路，以代理方式串接內部系統，同時避免把長篇資料送往外部服務所帶來的合規風險。