LLM
DeepSeek-V4 開放權重並支援百萬 Token 長上下文,強化代理式工作流
DeepSeek-V4 以混合注意力與壓縮 KV cache 的設計,把長上下文帶入可用成本範圍,並釋出多個開放權重模型。
百萬 Token 上下文帶來的實務改變
DeepSeek-V4 以百萬 Token 等級的長上下文作為賣點,並釋出可用於不同場景的模型版本。對企業與開發者而言,長上下文不只是「能放更多文字」,而是讓代理式工作流更接近真實需求:例如長時間的除錯與程式碼修改、跨多份文件的專案規格追蹤、以及需要反覆查詢資料與工具結果的多步任務。過去代理在多輪工具呼叫後容易遺失脈絡,或因上下文成本過高而被迫截斷推理軌跡;當上下文顯著拉長且成本下降,代理就更可能保留完整的決策線索,降低重複查詢與反覆整理的開銷。
透過 KV cache 壓縮降低推論成本
DeepSeek-V4 的另一個重點是以混合注意力與壓縮設計降低 KV cache 的記憶體負擔,讓長上下文推論更可行。長上下文的主要成本往往落在記憶體佔用與注意力計算,而不是模型參數本身;當 KV cache 得到有效壓縮,企業就能用較少 GPU 記憶體支撐更長的會話與工具軌跡,對自建部署尤其重要。對香港市場而言,若開放權重模型在長上下文、代理任務與成本之間取得更佳平衡,將促進本地企業採用私有化部署:把敏感文件留在內部網路,以代理方式串接內部系統,同時避免把長篇資料送往外部服務所帶來的合規風險。