Quando un modello AI non entra nella sola VRAM, la scelta non è necessariamente fermarsi o comprare subito una nuova GPU. Esistono tecniche pratiche per far lavorare RAM e VRAM insieme e far girare modelli più grandi del previsto. Il punto non è inseguire benchmark teorici, ma trovare un equilibrio reale tra capienza, tempi di risposta e stabilità.
Perché la sola VRAM spesso non basta
LLM, modelli multimodali e pipeline di generazione stanno crescendo più velocemente della memoria disponibile sulle GPU consumer. Una scheda da 8 o 12 GB può diventare stretta non solo per i pesi del modello, ma anche per cache, contesto, batch e overhead del framework. Quando questo succede, la RAM può diventare il secondo livello di memoria utile per completare il carico.
Il principio dell’offloading
L’offloading consiste nello spostare parte dei pesi o delle cache fuori dalla GPU e mantenerli in RAM, ricaricandoli quando il runtime ne ha bisogno. Alcuni strumenti permettono un controllo abbastanza fine di quante layer restano in VRAM e quante vengono delegate alla memoria di sistema. Il vantaggio è evidente: si sblocca l’esecuzione di modelli altrimenti impossibili. Il costo è una maggiore latenza dovuta ai trasferimenti.
Quantizzazione e memoria ibrida
La quantizzazione riduce il numero di bit usati per rappresentare i pesi e alleggerisce il modello. In pratica è la leva più importante quando si vuole usare RAM e VRAM insieme con buon senso. Un modello quantizzato consuma meno VRAM, richiede meno spostamenti e rende più sostenibile il carico sulla RAM. Senza quantizzazione, l’uso ibrido della memoria può diventare rapidamente inefficiente.
Come decidere cosa tenere in VRAM
In generale conviene mantenere in VRAM le parti più calde della pipeline, cioè quelle che vengono richiamate più spesso o che hanno maggiore impatto sulla latenza. Il resto può stare in RAM. Non esiste una regola identica per tutti i modelli, ma la logica è sempre la stessa: minimizzare i trasferimenti sul bus e preservare la fluidità dell’inferenza. Se la GPU va costantemente a saturazione, il sistema perde margine operativo e diventa fragile.
Segnali che indicano una configurazione sbagliata
Ci sono segnali chiari: token al secondo che crollano, tempi di caricamento molto lunghi, blocchi temporanei durante la generazione, uso disco anomalo e saturazione costante della RAM. Quando il sistema inizia a swappare su storage, la configurazione non è più ottimizzata: è semplicemente fuori scala rispetto all’hardware disponibile. In quel punto bisogna ridurre modello, quantizzare meglio o alleggerire contesto e batch.
Una checklist pratica
Per lavorare bene conviene usare una checklist minima: partire da un modello quantizzato, misurare la VRAM reale occupata, verificare la RAM libera prima dell’avvio, evitare altri carichi concorrenti sulla GPU, testare contesti progressivi e misurare sempre il throughput finale. Senza metrica finale, si rischia di credere stabile una configurazione che in realtà è solo al limite del collasso.
Quando serve davvero una GPU più grande
La memoria ibrida è utile, ma non infinita. Se il caso d’uso richiede bassa latenza, utenti concorrenti, contesti lunghi o throughput consistente, prima o poi l’upgrade hardware diventa inevitabile. RAM e VRAM insieme sono una strategia intelligente di estensione, non una sostituzione perfetta di una scheda con più memoria video nativa.
Dal punto di vista operativo, la scelta migliore è trattare la RAM come estensione tattica della GPU: utile per aprire possibilità, utile per testare, utile per produrre in scenari leggeri, ma da usare con metriche chiare e aspettative realistiche.