Quale futuro per l'AI ? CoT o CoD, per elminare il "model bloat" ?
- texservice13
- 1 apr
- Tempo di lettura: 2 min
Le aziende che vogliono integrare l'IA sono sempre più preoccupate del fenomeno chiamato "model bloat", in cui i modelli diventano troppo grandi e complessi. Questo porta a un aumento dei costi computazionali, dei tempi di addestramento e a una riduzione della velocità di risposta, che è critica per le aziende.
Modelli come o1 di OpenAI e DeepSeek-R1 usano una tecnica di "catena di pensiero" (CoT) per risolvere problemi complessi in modo dettagliato e sequenziale, ottenendo prestazioni e precisione superiori. Tuttavia, CoT richiede molte risorse computazionali, aumentando i tempi di risposta e la latenza.
Nuove tecniche, come atom of thought (AoT) e chain of draft (CoD), sono emerse per migliorare l’efficienza dei modelli di ragionamento. AoT utilizza una strategia di "divide et impera", separando i problemi in domande più semplici e parallelizzando i calcoli, riducendo così i costi e migliorando l'efficienza. CoD, invece, riduce la latenza generando risposte concise, evitando passaggi troppo dettagliati, e dimostra di essere più veloce e meno costosa rispetto a CoT in vari compiti.
In generale, le nuove tecniche di prompting mirano a bilanciare prestazioni elevate con costi ridotti, ma la scelta della tecnica giusta dipende dall'applicazione specifica.
Chain of Draft (CoD) e Nuove Tecniche di Prompting
La tecnica chain of draft (CoD) si concentra sulla riduzione della latenza, un problema che spesso si presenta quando i modelli generano risposte troppo lunghe e dettagliate. Gli esseri umani tendono a utilizzare appunti sintetici o bozze concise per ottenere risultati rapidi e precisi, e CoD applica questa stessa logica ai modelli di IA.
Con CoD, un modello come GPT-4o o Claude 3.5 viene guidato a pensare passo dopo passo, ma mantenendo risposte brevi, con al massimo 5 parole per ogni passaggio di pensiero. Questo approccio riduce significativamente la quantità di token utilizzati, migliorando la velocità e riducendo i costi senza sacrificare l'accuratezza delle risposte.
Inoltre, sono emerse altre tecniche come skeleton of thought (SoT), che combina elementi di AoT e CoD, permettendo ai modelli di generare rapidamente una struttura di risposta (scheletro) e completarla in parallelo. Questo approccio riduce ulteriormente i tempi di latenza e migliora le prestazioni in vari contesti applicativi.
Infine, non esiste una tecnica universale: la scelta del metodo migliore dipende sempre dalla natura del compito, e una comprensione approfondita del funzionamento dei modelli di IA è fondamentale per ottimizzare l’uso delle tecniche di prompting.
Comments