TetherがオープンソースのTurboQuantを発表し、ローカルAIデバイスのKVキャッシュ圧縮比は最大5倍に達することができます。
Tether AI 研究チームは、TurboQuant の製品版をオープンソース化し、QVAC SDK 0.12.0 に統合したことを発表しました。
TurboQuant は Google Research のメモリ圧縮アルゴリズムに基づいており、AI ランタイムの KV キャッシュを最大 5 倍圧縮しながら、未圧縮モデルに近い出力品質を維持します。
これは、ノートパソコン、スマートフォン、エッジデバイスがデータをクラウドにアップロードすることなく、より長い対話、より大きなファイル、より複雑なタスクを処理できることを意味します。
今回のオープンソースリリースには、完全な量子化パイプライン、主流の推論フレームワークアダプター、および開発者向けドキュメントが含まれており、コンシューマーハードウェア、エッジデバイス、およびピアツーピアネットワーク上で AI を展開する開発者やスタートアップチームを対象としています。







