← 所有新聞

#量化相關新聞

共 2 篇文章

AI研究 2026年5月1日

Google TurboQuant：以極端量化壓縮 KV cache，提升長上下文推論效率

Google 提出 TurboQuant 量化方法，以低位元壓縮 KV cache 並維持準確度，目標是降低長上下文推論的記憶體與運算成本。

#Google Research #量化 #KV cache

AI研究 2026年4月29日

Google 發表 TurboQuant：把 KV cache 壓縮到 3-bit，緩解長上下文推論成本

TurboQuant 透過新型量化與誤差修正方法，大幅降低模型推論時 KV cache 的記憶體負擔，目標是在不犧牲準確度下提升長上下文運算效率。

#Google #研究 #量化