Il deepfake è una tecnologia sorprendente e, a seconda degli usi, anche estremamente divertente. Sfortunatamente, questa è utilizzata anche da molti criminali informatici che, captate le sue potenzialità, hanno colto la palla al balzo per colpire ignari utenti.
Talvolta, i black-hat hacker utilizzano video e audio detti deepfake per imbrogliare le persone, spingendole a cadere in truffe altrimenti difficili da attuare. Se fino a qualche anno ritenevamo i video una fonte di verità pressochè assoluta, oggi è bene fare grande attenzione per non cadere nella trappola di qualche abile criminale che padroneggia l'intelligenza artificiale.
Indice dei contenuti
I Deepfake sono tutt'altro che una novità
Già alla fine del XIX secolo, alcuni fotografi creativi utilizzavano semplici trucchi per realizzare immagini false. Agli occhi dei contemporanei dunque, era facile cadere in questi tranelli. Bastava sovrapporre due foto, effettuare dei tagli tra le immagini e altre piccole modifiche per ottenere un risultato impressionante per i meno esperti di fotografia.
Al giorno d'oggi fare tutto ciò è molto semplice, basta Photoshop o un'alternativa a tale software per realizzare fotomontaggi estremamente credibili. Con un po' di pratica e i programmi adatti, anche una persona senza particolare esperienza può creare immagini d'impatto.
Nonostante i software di questo tipo abbiano fatto molti progressi, prestando attenzione a dettagli come ombre, texture e sfondi anche persone non esperte possono individuare le modifiche. Cosa succederebbe, però, se uno scatto apparisse in tutto e per tutto verosimile? A quel punto, distinguere ciò che è realtà dalla fantasia diventa arduo: questa è una ghiotta opportunità per alcuni malintenzionati, che possono sfruttare tutto ciò a loro vantaggio.
Dalle immagini a video e audio sintetici
I deepfake si possono paragonare agli effetti cinematografici. I registi pionieristici, infatti, utilizzano da decenni effetti speciali e trucchi per risolvere due problemi che li assillavano:
- Filmare qualcosa che poteva davvero accadere ma che era poco pratico da filmare, come ad esempio un'esplosione di un edificio
- Riprendere qualcosa che era semplicemente impossibile, come ad esempio l'epico King Kong che distrugge grattacieli.
Trovare una soluzione a questi due problemi ha dato vita alla massiccia industria degli effetti speciali che abbiamo quest'oggi.
Per quanto riguardo l'ambito audio, l'aggiunta di suoni e dialoghi ha visto la fine del film muto e l'ascesa dei film con rumori ambientali e dialoghi. Alcune star dei primi anni del cinema non hanno ben sopportato la transizione: la loro voce non risultava adatta al contesto o non potevano pronunciare le battute con convinzione e tempismo in quanto per anni si erano concentrati sui loro movimenti corporei. Fino a quando il doppiaggio non è diventato prassi comune, non c'era altra soluzione che scegliere qualcun altro.
Oggi è pratica comune manipolare le le voci degli attori, anche nella loro stessa lingua madre. Basti pensare nei film o musical dove gli attori devono cantare: pur essendo ottimi professionisti non sempre possono essere anche cantanti, in grado di passare dal freestyle al falsetto nel giro di poche strofe.
I sistemi in grado di eseguire questo tipo di manipolazione di video e suoni sono grandi e costosi e hanno bisogno di esperti per essere gestiti.
Con il passare degli anni, però, risultati finali convincenti possono essere ottenuti utilizzando diversi software facili da ottenere e relativamente semplici, eseguibili su comuni PC e notebook domestici. Il video e l'audio potrebbero non essere di qualità hollywoodiana, ma è certamente abbastanza buono da consentire ai criminali informatici di aggiungere immagini, video e audio falsi alle loro strategie malevole.
Cosa significa Deepfake?
Il termine Deepfake è stato coniato per descrivere il filmato digitale che viene manipolato in modo che qualcuno nel video indossi letteralmente il volto di un'altra persona. Il termine Deep (letteralmente profondo) del nome deriva da deep learning, la branca dell'intelligenza artificiale da cui provengono i modelli in grado di effettuare queste operazioni complesse. Com'è possibile tutto ciò? Gli algoritmi, che provano a mimare le connessioni delle nostre sinapsi, vengono addestrate nel generare video e audio quanto più reali possibili: durante questa lunga procedura i modelli vedono diversi video/audio/immagini reali per imparare a generarne di verosimili. All'inizio i contenuti multimediali generati non saranno affatto di buona qualità, ma con sufficiente pazienza e fonti dati da cui trarre ispirazione il sistema sarà sempre più realistico.
Per fare un esempio, se fornisci abbastanza fotografie di qualcuno a un sistema predittivo, questo arriverà a comprendere la fisionomia del viso di quella persona così bene da poter capire come apparirebbe mostrando qualsiasi espressione, da qualsiasi angolazione. Può quindi creare immagini del viso di quella persona che corrispondono a tutte le espressioni più comuni e al tempo stesso a inclinare la testa in base alla posizione del resto del corpo in un determinato contesto.
Quando queste immagini vengono inserite nel video, il nuovo volto corrisponde perfettamente all'azione del video. Poiché le espressioni facciali create artificialmente, la sincronizzazione delle labbra e i movimenti della testa sono gli stessi del soggetto originale del video, il risultato può essere un falso molto convincente. Tieni presente che i risultati sono destinati a migliorare ogni anno, visti i progressi della ricerca nel mondo del machine learning, il costo delle GPU sempre minore a parità di prestazioni la maggiore disponibilità e fruibilità dei dati necessari per l'addestramento dei modelli.
Al di là di folli mash-up e video montaggi divertenti, queste tecniche stanno trovando usi funzionali altrove. Descript è un editor di suoni e video che crea una trascrizione di testo della registrazione. Modificando il documento di testo queste vengono applicate di pari passo alla registrazione. Se non ti piace il modo in cui viene pronunciata una frase, puoi modificare semplicemente il testo. Descript sintetizzerà qualsiasi audio mancante tramite la voce scelta.
Tra i tanti potenziali utilizzi dei Deepfake è quello creato dal canale televisivo coreano MBN. All'interno del telegiornale infatti, è stata creata una vera e propria copia virtuale del presentatore Kim Joo-Ha, che di fatto può presentare la trasmissione senza essere realmente in studio. Un utilizzo positivo di questa tecnologia, che potenzialmente è però accessibile a tutti e dunque fruibile da chiunque e per qualunque scopo.
Deepfake e criminalità
I criminali informatici sono sempre pronti a trovare nuove soluzioni per rendere più efficaci le loro strategie. I falsi audio stanno diventando così raffinati che è necessario un analizzatore di spettro e sistemi dotati di AI in grado di analizzare autonomamente i contenuti multimediali per determinarne l'autenticità. Se già l'audio può essere così convincente (e così difficile da individuare), quando viene combinato con un video il tutto diventa ancora più difficile, visto che i sistemi di rilevazione dei deepfake non sono facilmente accessibili al grande pubblico.
L'evoluzione del phishing
Un attacco phishing di vecchia concezione comporta l'invio di un'e-mail alla vittima, che sostiene, per esempio, di avere un video di loro in una posizione compromettente o imbarazzante. A meno che non venga ricevuto il pagamento in Bitcoin o in un'altra criptovaluta non tracciabile, il filmato sarà inviato ad amici e colleghi della vittima. Per la paura che possa esistere realmente un video del genere, alcune persone pagano il riscatto, senza chiedere aiuto alle forze dell'ordine.
La variante deepfake di questo attacco prevede l'allegato di alcune immagini all'e-mail, in modo da dimostrare la realtà della minaccia tramite fotogrammi ingranditi del video. Il volto della vittima, che occupa la maggior parte dell'inquadratura, è stato inserito digitalmente nelle immagini seguendo una strategia molto simile a quello che vi abbiamo spiegato in precedenza. Considerando che la maggior parte di noi è presente su almeno un social network con varie fotografie, non sarà affatto difficile per un malintenzionato trovare foto da fornire in pasto ai modelli di deep learning.
Attacchi Vishing
Gli attacchi di e-mail phishing utilizzano una varietà di tecniche per generare un senso di urgenza, in modo da convincere le persone ad agire in fretta, senza riflettere e chiedere aiuto. Gli attacchi di phishing condotti per telefono sono chiamati attacchi di vishing. Usano le stesse tecniche psicologiche del phishing, che di fondo stanno alla base della maggior parte di truffe.
Un esempio di vishing può essere il seguente:
Un avvocato negli Stati Uniti ha ricevuto una telefonata da suo figlio, che era ovviamente angosciato. Ha detto di aver investito una donna incinta in un incidente automobilistico e ora era in custodia. Ha detto a suo padre di aspettarsi una chiamata da un difensore d'ufficio che avrebbe fatto da tramite per il pagamento di una cauzione da 15.000 dollari.
La chiamata non proveniva da suo figlio, erano truffatori che utilizzavano un sistema di sintesi vocale che avevano addestrato utilizzando clip audio di suo figlio, provenienti dai social network, per creare un deepfake audio. Mentre aspettava la chiamata del difensore d'ufficio, la vittima ha avuto la brillante idea di chiamare sua nuora e il posto di lavoro del figlio per informarli dell'incidente. Il figlio, ovviamente, era tranquillamente a lavoro e ha confermato che era tutta una truffa.
Un CEO nel Regno Unito non è stato così fortunato. Ha ricevuto un'e-mail di spear-phishing presumibilmente dall'amministratore delegato della società madre tedesca dell'azienda. Ciò ha richiesto un pagamento di circa 335.000 dollari da effettuare a un fornitore ungherese entro un'ora (anche in questo caso è stata fatta pressione per mettere fretta alla vittima). È stata immediatamente seguita da una telefonata dell'amministratore delegato, che confermava che il pagamento era urgente e doveva essere effettuato immediatamente.
La vittima dice di aver riconosciuto non solo la voce del suo capo e il leggero accento tedesco, ma anche la cadenza e l'attenta pronuncia. Così ha felicemente effettuato il pagamento.
Come proteggersi dai deepfake
La potenziale minaccia dei deepfake è stata riconosciuta dal governo degli Stati Uniti. Nel mondo anglofono sono già una realtà concreta ma, come troppo spesso accade, le "mode" oltreoceano spesso fanno strada anche nel vecchio continente e, ovviamente, anche in Italia.
Sotto questo punto di vista dunque, le aziende dovrebbero essere pronte ad affrontare questo problema, abbinandola ai principi della sicurezza informatica (il che non fa mai male). In tale ottica, possiamo ricordare alcune prassi che chiunque dovrebbe conoscere per evitare eventi sgradevoli:
- Nessun trasferimento di finanze deve essere effettuato esclusivamente per una richiesta via e-mail. Chiedi sempre conferma utilizzando un altro canale di comunicazione, come ad esempio una chiamata telefonica, videochiamata o un colloquio di persona;
- Utilizza frasi o parole chiave specifiche per le comunicazioni tra colleghi o con i superiori: in questo modo è più facile capire se la comunicazione ha qualcosa che non va. Più domande farai e più saranno alte le probabilità di ricevere risposte senza senso o con timbri di voce completamente diversi
- Fai grande attenzione se il mittente sembra mettere pressione o fretta per effettuare il pagamento.
- Coinvolgi immediatamente le forze dell'ordine preposte (la Polizia Postale in Italia) per segnalare l'accaduto