AI研究 2026年4月29日 Google 發表 TurboQuant:把 KV cache 壓縮到 3-bit,緩解長上下文推論成本 TurboQuant 透過新型量化與誤差修正方法,大幅降低模型推論時 KV cache 的記憶體負擔,目標是在不犧牲準確度下提升長上下文運算效率。 #Google #研究 #量化