Compressione ottica dei contesti e il nuovo modello innovativo DeepSeek-OCR
- texservice13
- 5 nov
- Tempo di lettura: 2 min
Un modello molto interessante chiamato DeepSeek-OCR introduce un nuovo modo di affrontare uno dei principali problemi dei Large Language Models (LLM) che ottimizza la gestione di contesti molto lunghi.
Il problema di partenza
Quando un modello linguistico deve elaborare testi molto estesi, il numero di token da processare cresce rapidamente, rendendo l’elaborazione costosa e lenta. DeepSeek-OCR propone una soluzione ispirata al modo in cui funziona la nostra memoria: comprimere visivamente le informazioni.
L’idea chiave: la compressione ottica
Il sistema utilizza due componenti principali:
DeepEncoder, che comprime le informazioni visive ad alta risoluzione;
DeepSeek3B-MoE, un decoder specializzato nel riconoscimento ottico dei caratteri (Optical Character Recognition, OCR).
Insieme, questi due moduli permettono di trasformare lunghi testi in rappresentazioni visive molto più compatte, mantenendo comunque un’elevata precisione nella decodifica (circa 97% di accuratezza), con un rapporto di compressione fino a 10 volte rispetto ai modelli tradizionali.
In altre parole, il sistema riduce drasticamente il numero di token visivi necessari, migliorando le prestazioni e abbassando i costi computazionali.
Un’analogia con la memoria umana
Un aspetto affascinante di questo approccio è che simula i meccanismi di dimenticanza della memoria biologica.Immaginate che il modello “ricordi” le informazioni recenti in modo dettagliato (alta risoluzione), mentre i ricordi più lontani diventano gradualmente più sfocati (bassa risoluzione).
Questo avviene grazie alla compressione multi-livello:
I contesti più vecchi vengono ridotti di dimensione (downsizing), perdendo gradualmente dettagli visivi.
Il numero di token diminuisce via via che l’immagine diventa più compatta e sfocata.
È come se il modello creasse una “curva dell’oblio” artificiale: le informazioni recenti restano nitide, mentre quelle passate vengono compresse, proprio come accade nella memoria umana.
Una metafora visiva
Pensate al contesto testuale come a un lungo rotolo di pergamena.Leggerlo tutto ogni volta sarebbe molto costoso. DeepSeek-OCR trasforma quel rotolo in una serie di fotografie:
le foto più recenti sono ad alta risoluzione (poca compressione),
quelle più vecchie sono più sfocate (maggiore compressione).
In questo modo il modello può “ricordare” tutto il contesto, ma in forma compatta ed efficiente — proprio come la mente umana conserva bene i ricordi freschi e lascia sbiadire quelli lontani.









Commenti