I rischi dell'indirect prompt injection: come i cybercriminali sfruttano le vulnerabilità delle AI

Nel mondo della tecnologia delle intelligenze artificiali, un nuovo allerta si è sollevato in merito alla sicurezza delle applicazioni basate su chatbot. Il fenomeno dell'indirect prompt injection rappresenta una minaccia concreta, in grado di spingere i chatbot a divulgare informazioni riservate o a compiere azioni dannose. I produttori di piattaforme come Gemini di Google e ChatGPT di OpenAI sono solitamente pronti a riparare queste vulnerabilità, ma i criminali informatici sembrano trovare costantemente nuove modalità per violare le difese implementate.

La dimostrazione di Johann Rehberger

Il lunedì dopo, Johann Rehberger, un ricercatore del settore, ha illustrato un metodo innovativo per superare le protezioni contro le iniezioni di prompt create dagli sviluppatori di Google per Gemini. Queste difese sono state progettate per limitare l'utilizzo di Google Workspace e di altri strumenti delicati quando si trattano dati non verificati, come email in arrivo o documenti condivisi. Tuttavia, l'attacco di Rehberger ha portato all'instaurazione di memorie a lungo termine che rimarranno presenti in tutte le sessioni future. Di conseguenza, il chatbot potrebbe agire su informazioni false o istruzioni errate in modo perpetuo, creando un potenziale seri problemi per gli utenti.

Una vulnerabilità persistente

L'attenzione sarà rivolta all'attacco in dettaglio, ma è utile ora fare una breve panoramica sulle iniezioni di prompt indirette. In questo contesto, il termine "prompt" si riferisce a istruzioni fornite sia dagli sviluppatori che dagli utenti dei chatbot per portare a termine determinate operazioni, come la sintesi di un'email o la stesura di una risposta. Cosa accade, però, se tale contenuto contiene istruzioni malevole? La risposta è che i chatbot, nel loro ardente desiderio di eseguire i comandi ricevuti, tendono ad obbedire anche a contenuti fuorvianti, senza che ci fosse l'intenzione iniziale che quell'input agisse come un comando.

Questa incapacità intrinseca dei chatbot di discernere i prompt da contenuti maligni ha fatto sì che l'indirect prompt injection diventasse un blocco fondamentale nel repertorio degli attacchi contro i chatbot. Gli sviluppatori e i ricercatori si trovano quindi a dover affrontare un continuo gioco del “colpisci il topo”, cercando di contrastare questa minaccia.

Colpire i chatbot: il caso di Microsoft Copilot

Nell'agosto scorso, Rehberger ha dimostrato come un'email o un documento condiviso contenente codice malevolo potesse indurre Microsoft Copilot a cercare all'interno della casella di posta di un obiettivo email sensibili, inviando quindi informazioni riservate a un attaccante. Questo conferma la vulnerabilità non solo di Gemini, ma anche di altre piattaforme di intelligenza artificiale.

Attualmente, gli sviluppatori hanno a disposizione solo poche opzioni efficaci per limitare la predisposizione intrinseca dei chatbot alla credulità. In risposta, molti hanno optato per misure mitigatorie. Microsoft, ad esempio, non ha mai fornito dettagli su come ha affrontato le vulnerabilità di Copilot, evitando di rispondere a domande sulla questione. Mentre il particolare attacco messo a punto da Rehberger non ha più effetto, l'indirect prompt injection continua a rappresentare una seria preoccupazione per la sicurezza delle piattaforme AI.

La costante innovazione degli attaccanti rende cruciale la necessità di vigilanza da parte degli sviluppatori e degli operatori del settore, affinché possano implementare strategie di sicurezza sempre più sofisticate contro gli exploit mirati a compromettere le AI.