Come fa l'AI ad identificare i dati sospetti di una transazione finanziaria ?

texservice13
19 apr 2025
Tempo di lettura: 4 min

👉 Problema :stiamo cercando di trovare la frode per la quale viene usato un ATM...

Il problema è che in una sola dimensione (es. solo l’orario), non possiamo tracciare una linea che separi facilmente orari “normali” da quelli “sospetti”, e allora, in questo caso, si usa una SVM con una funzione kernel non lineare (Kernel trick).

⚙️ Ma prima di tutto che cos'è una SVM ?

La Support Vector Machine è un algoritmo di apprendimento automatico supervisionato che serve per classificare dati) utilizzato nel nostro caso per rilevare anomalie (usando la variante One-Class SVM).

⚙️ Cosa fa il Kernel Trick ?

Le Support Vector Machines (SVM) sono nate per risolvere problemi di classificazione binaria, come distinguere tra transazioni "normali" e "fraudolente". In uno scenario ideale, la SVM cerca l’iperpiano che meglio separa i due gruppi. Ma cosa succede quando i dati non sono separabili con una linea retta? La soluzione è mappare i dati in uno spazio più grande

Grazie al Kernel Trick, possiamo trasformare i dati in uno spazio di dimensione superiore, dove diventano separabili. Ad esempio, applichiamo questa trasformazione:

ϕ(x₁, x₂) = (x₁, x₂, x₁·x₂)

Otteniamo:

(0,0) → (0,0,0)
(0,1) → (0,1,0)
(1,0) → (1,0,0)
(1,1) → (1,1,1)

Ora, in questo spazio 3D, i dati possono essere separati con un piano. Ma non serve davvero calcolare questa trasformazione: possiamo usare una funzione kernel per fare tutto in modo implicito, usando, ad esempio, il kernel polinomiale: K(x, y) = (x · y + 1)²

che calcola il prodotto scalare nello spazio trasformato, senza mai costruire esplicitamente quello spazio. (È questa l’idea chiave del kernel trick: sfruttare spazi più ricchi, senza costi computazionali esagerati).

Vediamo, ora, passo dopo passo come i dati vengono elaborati per determinare se la transazione "T4" è fraudolenta...

1️⃣ Rappresentazione dei dati nello spazio originale

Le transazioni possono essere viste come punti in uno spazio n-dimensionale, dove ogni caratteristica (importo, orario, numero di tentativi, ecc.) è un asse.

Se guardiamo un semplice spazio 2D con solo Importo e Orario, possiamo avere qualcosa del genere:

📊 Distribuzione dei dati nello spazio originale (2D)

Importo (€)	Orario (h)	Numero tentativi	Frode?
10€	14:00	1	❌ No
5000€	02:30	3	✅ Sì
12€	14:10	1	❌ No
4800€	02:35	2	❓ ???

Se proviamo a separare questi dati con una linea retta (iperpiano di decisione), falliamo

perché le frodi non seguono una separazione lineare semplice.

2️⃣ Il Problema della separazione lineare

Se tracciamo una linea per separare le transazioni fraudolente dalle legittime, vediamo che non possiamo farlo bene in 2D.

📉 Grafico in 2D con separazione lineare fallita

   
        Frode (5000€, 02:30) 🟥
                    \
                     \ <—— Separazione Lineare? ❌
                      \
        Legittima (10€, 14:00) 🟦

❌ La linea non riesce a distinguere chiaramente fra frodi e non-frodi.

👉 Soluzione? Applicare un kernel non lineare per trasformare i dati in uno spazio superiore.

3️⃣ Mappare i dati in uno spazio superiore con un Kernel

L’idea della SVM con Kernel è creare una trasformazione matematica Φ(x) che porta i dati in uno spazio più alto dove diventano separabili.

Ad esempio, un Kernel RBF può trasformare i dati come segue:

Le transazioni normali finiscono in un gruppo compatto.
Le transazioni fraudolente vengono proiettate lontano nel nuovo spazio.

📊 Dati trasformati in uno spazio più alto (3D o superiore)

Importo (€)	Orario (h)	Numero tentativi	Nuova dimensione Φ(x)
10€	14:00	1	Basso (vicino al centro)
5000€	02:30	3	Alto (lontano, indica frode)
12€	14:10	1	Basso (vicino al centro)
4800€	02:35	2	❓ ???

Ora la SVM può tracciare un iperpiano di separazione che divide i due gruppi.

Cosa stiamo vedendo:

La superficie di decisione colorata mostra come la SVM con kernel RBF separa i dati.
I punti blu e rossi rappresentano le due classi (ad esempio, transazioni legittime e frodi).
La curvatura della superficie di decisione mostra come il modello trasforma i dati in uno spazio più alto per trovare una separazione non lineare.

(In pratica, se avessimo un modello lineare, non saremmo riusciti a separare bene i dati, ma con il kernel RBF, i dati vengono spinti in uno spazio più grande, dove si separano facilmente!)

4️⃣ Identificazione della transazione T4 fraudolenta (4800€, 02:35, 2 tentativi)

Dopo la trasformazione con il kernel, il modello SVM analizza la posizione della transazione T4 nello spazio trasformato per determinare la sua natura. In particolare, valuta se T4 si trova più vicina alle transazioni fraudolente oppure a quelle legittime:

✔ Se è vicina alle frodi → viene classificata come frode

❌ Se è vicina alle transazioni normali → viene considerata legittima

(In termini pratici, la SVM misura quanto T4 sia simile a T2 (frode) o a T1 e T3 (non frodi). Se la trasformazione Φ(T4) risulta più simile a Φ(T2), allora T4 viene classificata come una frode; al contrario, se è più vicina a Φ(T1) e Φ(T3), sarà considerata legittima.)

Nel grafico di riferimento, le transazioni fraudolente appaiono come punti isolati, situati in un’area distinta rispetto alla massa principale delle transazioni legittime. Questo distacco visivo riflette un comportamento anomalo che il modello ha imparato a riconoscere.

Il modello presta particolare attenzione a due tipi di punti:

Quelli vicini al confine di decisione, che si trovano in una zona grigia tra le due classi e quindi sono considerati sospetti.
Quelli lontani dalla massa principale, come i punti rossi in un angolo isolato, che indicano tentativi di frode più evidenti a causa della loro distanza dai comportamenti usuali.

Pertanto, nel suddetto esempio, i punti rossi rappresentano la classe "frode", posizionati lontano dal cluster compatto dei punti blu (transazioni legittime). Tali transazioni si distinguono per importo, orario e altri fattori appresi dal modello durante l’addestramento. Il tentativo di frode corrisponde a quei punti isolati e anomali (campo rosso), lontani dalla zona densa delle transazioni legittime. È proprio in queste regioni che il modello riconosce e segnala comportamenti sospetti come potenziali frodi.

Fammi sapere se vuoi uno stile più tecnico o divulgativo!

🔹 Conclusione: perché la SVM con Kernel è potente?

✅ Scopre pattern nascosti: Relazioni che sembrano diverse nello spazio originale possono essere uguali in uno spazio trasformato.

✅ Evita errori di classificazione: Un semplice confine lineare non basterebbe per distinguere le frodi.

✅ Permette inferenza più robusta: La SVM capisce se eventi simili in apparenza sono in realtà frodi o no.

#AI