AI硬體
Google 發表 TurboQuant 演算法:記憶體使用降低6倍,注意力計算提速8倍
Google 最新 TurboQuant 演算法在記憶體管理領域帶來重大革新,實現鍵值快取記憶體使用量同比降低6倍,注意力機制計算速度提升8倍,且無任何準確度損失。
Google AI 團隊最新宣佈 TurboQuant 算法取得突破性進展,專注於人工智慧模型中的記憶體管理。該算法能將鍵值快取(KV cache)的記憶體需求降低達6倍,而在注意力機制中的 logits 計算則獲得高達8倍的速度提升。
更重要的是,TurboQuant 這項技術在不影響模型準確度的前提下提升效率,進一步降低運算成本並提升模型實時反應速度。
這項突破有望加速大型語言模型在手機、邊緣設備等資源有限環境的部署,擴展AI應用的可能性。