Terobosan besar dari Google! Algoritma TurboQuant memecahkan kendala memori AI, kompresi cache 6 kali. Google telah meluncurkan algoritma kompresi AI baru, TurboQuant, yang dirancang khusus untuk menyelesaikan masalah penggunaan memori antara model bahasa besar dan mesin pencari vektor, dengan harapan dapat secara signifikan menurunkan ambang batas operasi sistem AI.
Teknologi ini langsung menyasar titik sakit utama dari sistem AI saat ini—kendala cache nilai kunci (KV Cache). Seiring dengan semakin besarnya jendela konteks, KVCache telah menjadi hambatan memori utama yang membatasi kinerja model. TurboQuant dapat secara akurat mengompresi cache nilai kunci menjadi 3 bit tanpa perlu melatih ulang atau menyesuaikan model, dan hampir tidak mengurangi akurasi model.
Dalam pengujian nyata dengan berbagai model sumber terbuka seperti Gemma, TurboQuant mencapai efek kompresi memori KV Cache sekitar 6 kali, secara signifikan mengurangi tekanan pada perangkat keras dengan daya tinggi, membuka jalur baru untuk penerapan model besar yang ringan. #AI