Svelato il nuovo metodo di hacking dell’AI di Google: Fun-Tuning

Uno studio rivela vulnerabilità nel sistema AI Gemini di Google, grazie alla tecnica “Fun-Tuning”, che aumenta l’efficacia degli attacchi di iniezione di prompt, sollevando preoccupazioni sulla sicurezza.

Un recente studio condotto da ricercatori delle università di San Diego e Wisconsin ha messo in evidenza una vulnerabilità nei modelli AI di Google, in particolare nel sistema Gemini. Utilizzando strumenti sviluppati da Google stessa, gli studiosi hanno introdotto una tecnica innovativa, soprannominata “Fun-Tuning”, in grado di aumentare significativamente l’efficacia degli attacchi di iniezione di prompt. Grazie a questo metodo, l’AI può essere indotta a seguire istruzioni nascoste che, in circostanze normali, non seguirebbe.

Definizione di Fun-Tuning e il suo funzionamento

La tecnica di Fun-Tuning rappresenta un approccio del tutto nuovo per sfruttare le vulnerabilità dei modelli di linguaggio di Google. Gli attacchi di iniezione di prompt, che consistono nell’inserire istruzioni nascoste all’interno di un testo, risultano ampliati dall’uso di prefissi e suffissi bizzarri che rendono più efficace il messaggio originale. Questi elementi aggiuntivi “potenziano” il prompt di iniezione e aumentano notevolmente le probabilità di successo.

Seguici su Google News

Ricevi i nostri aggiornamenti direttamente nel tuo feed di
notizie personalizzato

Seguici ora

Per esempio, un prompt che normalmente non avrebbe funzionato da solo potrebbe ottenere risultati positivi se modificato con affissi del tipo “wandel ! ! ! !” e “formatted ! ASAP !”. Questo approccio ha dimostrato di generare tassi di successo notevoli: il 65% per il modello Gemini 1.5 Flash e l’82% per il modello Gemini 1.0 Pro, superando di gran lunga i tassi di successo standard registrati senza l’applicazione di Fun-Tuning.

Gli attaccanti possono sperimentare le loro iniezioni, sfruttando il meccanismo di feedback offerto da Gemini, che fornisce un punteggio di “perdita” — una misura di quanto la risposta dell’AI si discosti dal risultato atteso.

Reazioni di Google e le sfide nella difesa dell’AI

Fino ad ora, Google non ha rilasciato dichiarazioni specifiche riguardo alla tecnica di Fun-Tuning. In una dichiarazione generica, un portavoce si è limitato ad affermare che la difesa contro queste categorie di attacchi è una priorità costante. La società ha sottolineato di implementare misure di sicurezza per contrastare le iniezioni di prompt e le risposte dannose. Inoltre, tutti i modelli sono sottoposti a test regolari attraverso esercizi di “red-teaming”.

La preoccupazione principale dei ricercatori è che affrontare il problema possa essere complesso, dal momento che il feedback che rende possibile Fun-Tuning è essenziale per il funzionamento del fine-tuning stesso. A tal proposito, ridurre l’efficacia di Fun-Tuning potrebbe compromettere l’utilità generale del sistema.

Considerazioni finali sulla vulnerabilità di Gemini

L’emergere di Fun-Tuning evidenzia il delicato equilibrio tra miglioramento delle prestazioni e sicurezza negli sviluppi delle intelligenze artificiali. Mentre Google continua a sviluppare e affinare le proprie tecnologie AI, la comunità accademica ricorda che la sicurezza deve andare di pari passo con l’innovazione. La capacità di un ricercatore di “rubare” tecnicamente il potere d’inganno della tecnologia rendendola più vulnerabile serve come monito per le aziende che operano in questo settore. La strada verso una difesa efficace è lastricata di sfide e, pertanto, l’attenzione agli attacchi informatici sull’AI rimarrà cruciale nei prossimi anni.

Seguici su Telegram

Seguici su Telegram per ricevere le Migliori Offerte Tech

Unisciti ora