AI研究 2026年5月1日 Google TurboQuant:以極端量化壓縮 KV cache,提升長上下文推論效率 Google 提出 TurboQuant 量化方法,以低位元壓縮 KV cache 並維持準確度,目標是降低長上下文推論的記憶體與運算成本。 #Google Research #量化 #KV cache