top of page

Quale futuro per l'AI ? CoT o CoD, per elminare il "model bloat" ?


Le aziende che vogliono integrare l'IA sono sempre più preoccupate del fenomeno chiamato "model bloat", in cui i modelli diventano troppo grandi e complessi. Questo porta a un aumento dei costi computazionali, dei tempi di addestramento e a una riduzione della velocità di risposta, che è critica per le aziende.


Modelli come o1 di OpenAI e DeepSeek-R1 usano una tecnica di "catena di pensiero" (CoT) per risolvere problemi complessi in modo dettagliato e sequenziale, ottenendo prestazioni e precisione superiori. Tuttavia, CoT richiede molte risorse computazionali, aumentando i tempi di risposta e la latenza.


Nuove tecniche, come atom of thought (AoT) e chain of draft (CoD), sono emerse per migliorare l’efficienza dei modelli di ragionamento. AoT utilizza una strategia di "divide et impera", separando i problemi in domande più semplici e parallelizzando i calcoli, riducendo così i costi e migliorando l'efficienza. CoD, invece, riduce la latenza generando risposte concise, evitando passaggi troppo dettagliati, e dimostra di essere più veloce e meno costosa rispetto a CoT in vari compiti.


In generale, le nuove tecniche di prompting mirano a bilanciare prestazioni elevate con costi ridotti, ma la scelta della tecnica giusta dipende dall'applicazione specifica.


Chain of Draft (CoD) e Nuove Tecniche di Prompting

La tecnica chain of draft (CoD) si concentra sulla riduzione della latenza, un problema che spesso si presenta quando i modelli generano risposte troppo lunghe e dettagliate. Gli esseri umani tendono a utilizzare appunti sintetici o bozze concise per ottenere risultati rapidi e precisi, e CoD applica questa stessa logica ai modelli di IA.


Con CoD, un modello come GPT-4o o Claude 3.5 viene guidato a pensare passo dopo passo, ma mantenendo risposte brevi, con al massimo 5 parole per ogni passaggio di pensiero. Questo approccio riduce significativamente la quantità di token utilizzati, migliorando la velocità e riducendo i costi senza sacrificare l'accuratezza delle risposte.


Inoltre, sono emerse altre tecniche come skeleton of thought (SoT), che combina elementi di AoT e CoD, permettendo ai modelli di generare rapidamente una struttura di risposta (scheletro) e completarla in parallelo. Questo approccio riduce ulteriormente i tempi di latenza e migliora le prestazioni in vari contesti applicativi.


Infine, non esiste una tecnica universale: la scelta del metodo migliore dipende sempre dalla natura del compito, e una comprensione approfondita del funzionamento dei modelli di IA è fondamentale per ottimizzare l’uso delle tecniche di prompting.



 
 
 

Comments


bottom of page