top of page

Non solo più uno stupido OCR, ma comprensione, ordine e intelligenza nei tuoi documenti scansionati e resi completamente editabili.


Negli ultimi anni l’intelligenza artificiale ha fatto enormi passi avanti nel campo dell’elaborazione dei documenti. Non si tratta più soltanto di riconoscere il testo all’interno di un file PDF o di un’immagine scansionata, ma di riuscire a interpretare la struttura logica e visiva di una pagina: le tabelle, le formule, il codice, le figure con le rispettive didascalie.


In questo contesto si inserisce Granite-Docling, un modello sviluppato da IBM e rilasciato in open source, che rappresenta una nuova generazione di strumenti per il document parsing.

Granite-Docling è stato progettato per essere compatto ed efficiente: con circa 258 milioni di parametri, riesce a unire un encoder visivo avanzato a un modello linguistico che interpreta e ricostruisce i contenuti in maniera strutturata; a differenza dei classici sistemi di OCR, che restituiscono soltanto il testo lineare, questo modello è in grado di restituire un output arricchito, che conserva le relazioni spaziali e semantiche della pagina. In altre parole, non “vede” solo le lettere, ma comprende la logica con cui gli elementi sono organizzati.


Uno degli aspetti più interessanti è la capacità di generare un formato chiamato DocTags, che descrive il documento in maniera dettagliata e leggibile dalle macchine. Questo permette, ad esempio, di trasformare un articolo scientifico con grafici e formule in un file strutturato facilmente riutilizzabile per applicazioni di ricerca, sistemi di domanda-risposta o archiviazione intelligente.


Rispetto al suo predecessore, SmolDocling, il nuovo modello ha migliorato stabilità e precisione, riducendo errori e garantendo un’interpretazione più affidabile. È stato inoltre pensato per supportare diversi linguaggi e può essere integrato in pipeline aziendali che necessitano di strumenti robusti e sicuri.


Granite-Docling non è soltanto un passo avanti tecnologico: rappresenta un modo diverso di intendere il rapporto tra uomo e documento. Se finora le macchine erano capaci di leggere in modo “piatto”, oggi cominciano a comprendere la struttura, avvicinandosi sempre di più a un’interpretazione simile a quella che facciamo noi quando apriamo un libro, una fattura o un articolo di ricerca.


IBM lo ha rilasciato con licenza Apache 2.0, quindi può essere usato liberamente sia in ambito di ricerca sia in contesti commerciali, a patto di rispettare i termini della licenza (citazione, mantenimento della licenza nei derivati, ecc.).


Il modello fa parte della famiglia di modelli Granite di IBM e si integra con il toolkit Docling, anch’esso disponibile come open-source, pensato per la conversione e l’analisi strutturata dei documenti.



 
 
 

Commenti


© 2024 texservice.tech   -  facilitatore informatico  -   mail: texservice13@gmail.com Tel: 353-468-73-15

bottom of page