top of page

Tecnologia sottostante dei “Dark Chatbot AI”


Quando si parla di dark chatbot AI è facile immaginare modelli avanzati, progettati appositamente per supportare attività criminali, ma, in realtà, questi sistemi non sono quasi mai il risultato di una reale innovazione nel campo dell’intelligenza artificiale, bensì il riutilizzo opportunistico di modelli già esistenti, spesso open-source o accessibili tramite API commerciali: LLM open-source (per esempio derivati da LLaMA, Falcon, GPT-J, Mistral, etc...), ospitati su infrastrutture controllate dagli operatori;.


Infatti, il cuore tecnologico di questi chatbot è quindi identico a quello di strumenti legittimi utilizzati quotidianamente in ambito aziendale o accademico; ciò che cambia non è il modello, ma il modo in cui viene “incapsulato” e istruito.


Gli operatori criminali costruiscono attorno all’LLM un semplice strato applicativo — tipicamente un bot Telegram o una web interface — che inoltra le richieste al modello e restituisce le risposte, senza introdurre reali meccanismi di controllo o sicurezza.


L’elemento chiave di questa trasformazione è il prompt di sistema; attraverso una serie di istruzioni iniziali, il modello viene forzato ad assumere un ruolo privo di vincoli etici o normativi, con l’obbligo di rispondere a qualsiasi richiesta: in questo approccio, la sicurezza non è implementata a livello strutturale o algoritmico, ma delegata a un testo, di conseguenza, basta manipolare il contesto conversazionale per confondere il modello, sovrascrivere le istruzioni o indurlo a rivelare informazioni che dovrebbero rimanere riservate.


Dal punto di vista architetturale, questi sistemi sono estremamente fragili: non esiste una vera separazione tra il contesto di sistema e quello dell’utente, né una classificazione dei dati che distinguano le istruzioni critiche dai contenuti ordinari, perché tutto viene trattato come semplice input testuale. Questa assenza di segregazione dei contesti rende possibile l’estrazione dei prompt di sistema tramite tecniche di ingegneria dei prompt, come il jailbreak che ho più volte trattato nei miei post.


Per cui, la presunta “AI criminale” è, in realtà, un’illusione in quanto è resa possibile persino per una mal configurazione o, addirittura, per un suo utilizzo mal governato, creando, così, una soglia di accesso al cybercrime veramente molto bassa che consente (anche a soggetti con competenze limitate) di generare phishing, malware o frodi in modo rapido e scalabile.


In definitiva, non siamo di fronte a un nuovo tipo di intelligenza artificiale, ma a un uso distorto di modelli general-purpose, privi di una governance adeguata. È proprio questa mancanza di controllo strutturale — più che l’AI in sé — a trasformare uno strumento neutro in un moltiplicatore di rischio.


Conclusioni finali


Dal punto di vista ingegneristico e di governance del dato, una lezione fondamentale emersa da questo caso riguarda la protezione dei dati e dei meccanismi di controllo interno ai modelli AI. Non è sufficiente implementare filtri reattivi; bisogna invece:


  • Identificare in modo rigoroso la natura dei dati che transitano e vengono prodotti dai modelli (dati sensibili, dati operativi, log, ecc.);


  • Classificare tali dati secondo il contesto di utilizzo (es. operativo vs. di auditing vs. di formazione);


  • Applicare una governance appropriata in funzione della classificazione, includendo tecniche di Data Loss Prevention (DLP), tagging semantico e controllo di accesso basato sui ruoli (RBAC).


In scenari come quello descritto, dove un modello AI viene manipolato o “jailbrekkato” tramite ingegneria dei prompt, la protezione dei dati va a monte: è imperativo governare i dati in entrata e in uscita, impedendo non solo l’esfiltrazione di istruzioni di sistema ma anche l’uso improprio di output generati. Ciò richiede un’integrazione di classificazione dei dati, monitoraggio delle interazioni e controlli di sicurezza ingegneristici già a livello di progettazione del sistema (security by design; dai un'occhiata anche al mio ultimo progetto: https://www.contentdatacare.it).





 
 
 

Commenti


© 2024 texservice.tech   -  facilitatore informatico  -   mail: texservice13@gmail.com Tel: 353-468-73-15

bottom of page