Non solo più uno stupido OCR, ma comprensione, ordine e intelligenza nei tuoi documenti scansionati e resi completamente editabili.
- texservice13
- 25 set
- Tempo di lettura: 2 min
Negli ultimi anni l’intelligenza artificiale ha fatto enormi passi avanti nel campo dell’elaborazione dei documenti. Non si tratta più soltanto di riconoscere il testo all’interno di un file PDF o di un’immagine scansionata, ma di riuscire a interpretare la struttura logica e visiva di una pagina: le tabelle, le formule, il codice, le figure con le rispettive didascalie.
In questo contesto si inserisce Granite-Docling, un modello sviluppato da IBM e rilasciato in open source, che rappresenta una nuova generazione di strumenti per il document parsing.
Granite-Docling è stato progettato per essere compatto ed efficiente: con circa 258 milioni di parametri, riesce a unire un encoder visivo avanzato a un modello linguistico che interpreta e ricostruisce i contenuti in maniera strutturata; a differenza dei classici sistemi di OCR, che restituiscono soltanto il testo lineare, questo modello è in grado di restituire un output arricchito, che conserva le relazioni spaziali e semantiche della pagina. In altre parole, non “vede” solo le lettere, ma comprende la logica con cui gli elementi sono organizzati.
Uno degli aspetti più interessanti è la capacità di generare un formato chiamato DocTags, che descrive il documento in maniera dettagliata e leggibile dalle macchine. Questo permette, ad esempio, di trasformare un articolo scientifico con grafici e formule in un file strutturato facilmente riutilizzabile per applicazioni di ricerca, sistemi di domanda-risposta o archiviazione intelligente.
Rispetto al suo predecessore, SmolDocling, il nuovo modello ha migliorato stabilità e precisione, riducendo errori e garantendo un’interpretazione più affidabile. È stato inoltre pensato per supportare diversi linguaggi e può essere integrato in pipeline aziendali che necessitano di strumenti robusti e sicuri.
Granite-Docling non è soltanto un passo avanti tecnologico: rappresenta un modo diverso di intendere il rapporto tra uomo e documento. Se finora le macchine erano capaci di leggere in modo “piatto”, oggi cominciano a comprendere la struttura, avvicinandosi sempre di più a un’interpretazione simile a quella che facciamo noi quando apriamo un libro, una fattura o un articolo di ricerca.
IBM lo ha rilasciato con licenza Apache 2.0, quindi può essere usato liberamente sia in ambito di ricerca sia in contesti commerciali, a patto di rispettare i termini della licenza (citazione, mantenimento della licenza nei derivati, ecc.).
Il modello fa parte della famiglia di modelli Granite di IBM e si integra con il toolkit Docling, anch’esso disponibile come open-source, pensato per la conversione e l’analisi strutturata dei documenti.









Commenti