AI研究

Google 發表 TurboQuant:把 KV cache 壓縮到 3-bit,緩解長上下文推論成本

TurboQuant 透過新型量化與誤差修正方法,大幅降低模型推論時 KV cache 的記憶體負擔,目標是在不犧牲準確度下提升長上下文運算效率。

為何 KV cache 成為長上下文的瓶頸

大型語言模型在推論時需要維持 key-value(KV)快取,用來加速注意力計算;但當上下文越長、批次越大,KV cache 的記憶體占用會快速膨脹,成為限制吞吐量與延遲的核心瓶頸。這使得「如何在不降低品質的前提下壓縮 KV cache」成為近一年推論優化的重要方向,直接影響雲端服務成本、邊緣裝置可行性,以及企業在長文件分析與代理工作流程上的部署上限。

TurboQuant:量化與誤差修正的組合拳

Google Research 提出的 TurboQuant,主張以更極端的壓縮比降低記憶體負擔,同時維持下游任務表現。其方法結合兩個關鍵概念:先用高品質的量化策略把向量以更少位元表示,再用非常低成本的誤差修正機制消除偏差,讓注意力分數仍能保持穩定。研究中強調,傳統量化往往需要額外的常數或正規化資料,反而帶來隱性記憶體開銷;TurboQuant 的設計重點之一,就是把這些「量化的附帶成本」壓到接近零。

產業影響:更便宜的推論與更大的可用上下文

若此類技術能在主流框架與硬體上成熟落地,企業最直接受益是推論成本下降,以及同一硬體可支援更長上下文與更多並發請求。對需要處理合約、法規、研究報告與客服紀錄的香港企業而言,長上下文能力常是能否真正落地的分水嶺;當記憶體瓶頸被緩解,代理人就更容易在一次任務內讀完大量資料並完成推理。另一方面,壓縮也可能讓在較小型 GPU 或特定加速器上運行長上下文模型變得更實際,推動私有化部署與本地端推論的選項增加。