Anthropic sfida la sicurezza dell'intelligenza artificiale con i nuovi "constitutional classifiers"

Seguici su Google News

In un contesto di crescente preoccupazione per la sicurezza dei sistemi di intelligenza artificiale, Anthropic ha introdotto i "constitutional classifiers", un'iniziativa destinata a bloccare fino al 95% dei tentativi di jailbreak. Questa mossa rappresenta una possibile svolta o un semplice aggiornamento in un gioco che appare sempre più come una battaglia continua tra protezione e vulnerabilità.

L'approccio innovativo di Anthropic

Il concetto alla base dei constitutional classifiers si basa sul framework di "Constitutional AI", lanciato da Anthropic nel dicembre 2022, poco dopo l'uscita di ChatGPT. Questo modello si distingue per l'adozione di principi etici predefiniti, i quali guidano il comportamento dell'IA nell'interazione con gli utenti. Piuttosto che fare affidamento sulla supervisione umana per discernere il contenuto accettabile, la Constitutional AI punta a un'automazione delle norme, addestrando i modelli affinché possano correggersi autonomamente in base a regole specifiche. I nuovi classificatori, quindi, si posizionano come un ulteriore strato di sicurezza, capace di esaminare continuamente sia gli input che gli output, identificando tentativi di jailbreak.

Funzionamento dei constitutional classifiers

I constitutional classifiers si configurano come una protezione all'interno del sistema di Constitutional AI, progettata per intercettare e contrastare i jailbreak nei grandi modelli linguistici . A differenza delle tradizionali misure di sicurezza, che si avvalgono di filtri e ristrutturazioni basati su feedback umano, questi nuovi strumenti utilizzano dati di addestramento generati internamente per creare un modello di classificazione capace di rilevare in tempo reale contenuti problematici.

Il funzionamento si basa su un sistema di filtraggio in due fasi. Il primo classificatore esamina le richieste degli utenti prima che vengano elaborate dal modello, mentre il secondo analizza le risposte prodotte. Questa struttura garantisce che gli attacchi possano essere identificati e neutralizzati sia prima che dopo la generazione di contenuti, offrendo così una protezione robusta contro tentativi di manipolazione.

Addestramento attraverso dati sintetici

Una delle innovazioni più notevoli dei constitutional classifiers risiede nel metodo di addestramento. I ricercatori di Anthropic impiegano una “costituzione”, cioè un insieme di regole formulate in linguaggio naturale, per generare dati sintetici. Queste norme definiscono chiaramente quali contenuti sono permessi e quali no, consentendo al sistema di generare automaticamente esempi sia positivi che negativi per l'addestramento.

Il processo inizia con la creazione di un ampio set di prompt di jailbreak sintetici, ispirati a tecniche di attacco del mondo reale, come l'offuscamento e la codifica. Questi esempi vengono poi tradotti e variati in diversi stili linguistici per garantire un addestramento completo e contestualizzato. Inoltre, viene utilizzato un approccio di red-teaming automatizzato per creare nuove tecniche di jailbreak, assicurando al classificatore la capacità di adattarsi a strategie mai viste prima.

Rilevamento delle minacce in tempo reale

Una volta messi in atto, i constitutional classifiers operano a livello di token, analizzando l'output del modello nel momento in cui viene generato. Questo metodo consente al sistema di assegnare un punteggio ai vari token, stabilendo se ognuno di essi possa contribuire a una violazione delle linee guida. Qualora un output venga segnalato come potenzialmente pericoloso, il sistema interviene immediatamente per stoppare ulteriori generazioni.

Questa classificazione in tempo reale è fondamentale per garantire che anche le interazioni più rapide e apparenti, siano monitorate e analizzate, impedendo contenuti nocivi di venire prodotte, anche nel caso in cui una parte iniziale sembra innocua.

Efficacia contro i tentativi di jailbreak

Il team di ricerca di Anthropic ha messo alla prova i constitutional classifiers simulando attacchi contro Claude 3.5 Sonnet. In questo contesto controllato, i ricercatori hanno verificato un tasso di successo del 86% per i jailbreak su una versione non protetta del modello. Tuttavia, una volta applicati i nuovi classificatori, il tasso di successo è sceso drasticamente al 4,4%, confermando un notevole miglioramento nella sicurezza del sistema.

In un ulteriore test condotto con la partecipazione di esperti indipendenti, sono state condotte oltre 3.000 ore di valutazioni senza individuare un metodo universale capace di compromettere tutte le protezioni. Sebbene alcuni exploit parziali siano stati rilevati, non è emerso nulla che potesse compromettere le difese in modo persistente.

Adattamento alle minacce in continua evoluzione

Una delle caratteristiche chiave dei constitutional classifiers è la loro capacità di adattarsi a minacce emergenti. A differenza di sistemi più rigidi che richiedono aggiornamenti manuali, questi classificatori possono essere riaddestrati per rispondere a nuovi attacchi. Ogni nuovo exploit, identificato sia tramite ricerche interne che attraverso programmi di bug bounty, integra esempi nel set di dati utilizzato per l'addestramento del classificatore. Inoltre, la “costituzione” dell'IA può essere adattata con nuove regole senza necessità di rifare l'intero sistema.

Sebbene i constitutional classifiers abbiano fatto grandi passi nella lotta contro i jailbreak, è evidente che non possono garantire una sicurezza totale. Le tecniche di attacco continuano a evolversi e i ricercatori devono restare vigili.

La strada da percorrere per la sicurezza dell'IA

Con l'introduzione dei constitutional classifiers, Anthropic ha compiuto un passo significativo verso l'ottimizzazione della sicurezza dei modelli linguistici, configurando un sistema più resistente e scalabile. Tuttavia, la lotta contro la manipolazione presenta sfide costanti. Gli avversari dovranno continuare a sviluppare strategie sempre più sofisticate per aggirare queste protezioni. È fondamentale quindi che i sistemi di sicurezza evolvano in parallelo con le nuove minacce, affinché le difese rimangano sempre un passo avanti rispetto agli attacchi in arrivo. La sicurezza dell'intelligenza artificiale, quindi, si delinea come un campo in continua espansione, in cui adattamento e innovazione sono essenziali per fronteggiare il futuro.

Seguici su Telegram per ricevere le migliori offerte tech
Argomenti:

Chi siamo?

OutOfBit è un progetto nato nel Maggio 2013 da un’idea di Vittorio Tiso e Khaled Hechmi. Il progetto nasce per creare un sito di blogging che sappia differenziarsi ed appagare il lettore al fine di renderlo parte fondamentale del blog stesso.
Entra nello staff
COPYRIGHT © 2023 OUTOFBIT P.IVA 04140830243, TUTTI I DIRITTI RISERVATI.
crossmenu linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram