AI研究
Google TurboQuant:以極端量化壓縮 KV cache,提升長上下文推論效率
Google 提出 TurboQuant 量化方法,以低位元壓縮 KV cache 並維持準確度,目標是降低長上下文推論的記憶體與運算成本。
Google 提出 TurboQuant 量化方法,以低位元壓縮 KV cache 並維持準確度,目標是降低長上下文推論的記憶體與運算成本。
TurboQuant 透過新型量化與誤差修正方法,大幅降低模型推論時 KV cache 的記憶體負擔,目標是在不犧牲準確度下提升長上下文運算效率。