← 所有新聞

#推論相關新聞

共 1 篇文章

AI研究 2026年4月29日

Google 發表 TurboQuant：把 KV cache 壓縮到 3-bit，緩解長上下文推論成本

TurboQuant 透過新型量化與誤差修正方法，大幅降低模型推論時 KV cache 的記憶體負擔，目標是在不犧牲準確度下提升長上下文運算效率。

#Google #研究 #量化