PolarQuant og QJL: Matematikken bak TurboQuant

TokenPrat-redaksjonen

13 May 2026 — 1 min read

TurboQuant er ikke én teknikk – det er to separate algoritmer som jobber i sekvens. Forstår du hvordan PolarQuant og QJL fungerer, forstår du hvorfor TurboQuant er annerledes.

PolarQuant: En ny vinkel på vektorer

Tradisjonell vektorkomprimering krever at modellen beregner og lagrer normaliseringskonstanter for hvert lille datablock. Det er overhead som delvis spiser opp gevinsten ved komprimeringen.

PolarQuant løser dette ved å rotere datavektorene tilfeldig først. Det forenkler geometrien slik at modellen kan kvantisere hver del av vektoren individuelt – uten å trenge per-blokk normalisering. Resultatet lagres som to verdier: en radius som beskriver signalstyrken, og en vinkel som beskriver retningen eller betydningen. Fordi vinkelmønsteret er kjent og forutsigbart, vet modellen allerede hvor grensene går – ingen dyr normaliseringsberegning nødvendig.

Dette første trinnet bruker hoveddelen av komprimeringskraften og bevarer kjernen av den semantiske informasjonen intakt. PolarQuant presenteres ved AISTATS 2026.

QJL: Én bit som fanger opp resten

QJL står for Quantized Johnson-Lindenstrauss – en matematisk teknikk som komprimerer høydimensjonale data mens den bevarer de viktige avstandsforholdene mellom datapunkter.

Der PolarQuant tar seg av hoveddelen, håndterer QJL den lille feilen som gjenstår. Den reduserer hvert tall til ett enkelt fortegnsbit – pluss eller minus. Null minneoverhead. For å opprettholde nøyaktigheten bruker QJL en spesiell estimator som balanserer høy presisjon i spørringen mot den forenklede dataen. Resultatet er et korrekt attention score selv etter aggressiv komprimering.

Kombinasjonen som gir 6x minnereduksjon

I testing oppnår TurboQuant KV-cache-komprimering ned til 3 bits – uten trening, uten finjustering, og uten tap av modellnøyaktighet. På H100 GPU-er gir 4-bits TurboQuant opptil 8x ytelsesøkning sammenlignet med ukomprimerte 32-bits nøkler.

Det er dette som gjør kombinasjonen relevant for minnekrisen i AI-industrien: ikke bare at det virker, men at det virker uten å kreve ny trening av eksisterende modeller.

Ressurser: TurboQuant – Google Research · PolarQuant – arXiv · QJL – arXiv

PixVerse R1: Avatarer, delte verdener og ingen tidsbegrensning

PixVerse har oppdatert R1 – sin sanntids verdensmodell – med tre konkrete nyheter som endrer hva plattformen faktisk er. Bli deg selv i den genererte verden Via en ny Avatars-fane kan brukere laste opp én til tre bilder av seg selv – front, side og bakfra – og generere en digital karakter som representerer

Smarte triks på hjemmebane: Slik sikrer du deg mot AI-trusler

AI gjør det enklere for angripere å finne og utnytte sikkerhetshull – raskere og i større skala enn før. Det betyr ikke at du trenger avanserte mottiltak. Det betyr at de enkle tiltakene du kanskje har utsatt, nå haster mer. Tofaktorautentisering – og ikke via SMS 2FA er fortsatt det mest effektive

AI-minnekrisen: Derfor er HBM blitt en geopolitisk råvare

Bak enhver stor språkmodell sitter et stykke maskinvare som verden ikke klarer å produsere raskt nok: High Bandwidth Memory. HBM – flaskehalsen ingen snakker om HBM er den kritiske komponenten i moderne AI-akseleratorer. Det er ikke prosessorkraft som begrenser AI-veksten – det er minnet som flyttes til og fra prosessoren. Produksjonen domineres

LM Studio: Kjør AI lokalt – uten å skrive en linje kode

Lokal AI har lenge vært forbeholdt de som er komfortable i terminalen. LM Studio endrer det. Installer, søk, chat LM Studio fungerer som en hvilken som helst annen app – last ned, installer, åpne. Inne i appen søker du direkte etter modeller fra Hugging Face, laster ned det du vil ha,