Tether 오픈 소스 TurboQuant, 로컬 AI 장치 KV 캐시 압축 비율은 최대 5배에 이를 수 있습니다
Tether AI 연구 팀은 TurboQuant 생산 버전을 오픈 소스화하고 이를 QVAC SDK 0.12.0에 통합했다고 발표했습니다.TurboQuant는 Google Research의 메모리 압축 알고리즘에서 유래되었으며, AI 런타임의 KV 캐시를 최대 5배 압축할 수 있으며, 압축되지 않은 모델의 출력 품질에 가깝게 유지됩니다.이는 노트북, 휴대폰 및 엣지 장치가 데이터를 클라우드에 업로드할 필요 없이 더 긴 대화, 더 큰 파일 및 더 복잡한 작업을 처리할 수 있음을 의미합니다.이번 오픈 소스 릴리스에는 완전한 양자화 파이프라인, 주요 추론 프레임워크 어댑터 및 개발자 문서가 포함되어 있으며, 소비자급 하드웨어, 엣지 장치 및 P2P 네트워크에서 AI를 배포하는 개발자와 스타트업 팀을 대상으로 하고 있습니다.