Affrontare l’uso dei modelli di linguaggio di grandi dimensioni può rivelarsi frustrante, poiché spesso producono risposte errate o non supportate dalla realtà. Una recente indagine di Anthropic ha iniziato a fare luce su come questi sistemi decidano quando tentare di formulare una risposta, anche quando questa potrebbe non essere accurata. Questa analisi promette di fornire indicazioni su come affrontare il problema che gli esperti definiscono confabulazione AI.
Indice dei contenuti
La questione dell’entità conosciuta
Nel maggio scorso, Anthropic ha pubblicato un lavoro importante in cui ha impiegato un sistema di auto-encoder sparsi. Questo metodo ha rivelato come determinate reti neurali vengano attivate quando il modello Claude incontra concetti specifici, come il Ponte di San Francisco o errori di programmazione. Queste attivazioni sono classificate come “caratteristiche,” termine che utilizzeremo per il resto dell’articolo. La nuova ricerca presentata questa settimana da Anthropic offre un’ulteriore analisi su come queste caratteristiche influenzino altre reti neurali, le quali rappresentano i circuiti decisionali che Claude utilizza per generare le sue risposte.
In una serie di documenti, Anthropic esplora a fondo come una parziale indagine su questi circuiti neurali interni porti a nuove scoperte sul funzionamento di Claude in diverse lingue e sulla sua vulnerabilità a tecniche di jailbreak. Particolarmente interessante è la sezione riguardante il processo di riconoscimento delle entità e della confabulazione, che fornisce chiarimenti su un problema complesso.
Alla base dei modelli di linguaggio c’è la necessità di analizzare una sequenza di testo e prevedere quale testo potrebbe seguire. Questa progettazione ha portato alcuni critici a considerare l’intera iniziativa come una mera “completamento automatico glorificato.” Tuttavia, questo approccio funziona bene quando il testo di partenza corrisponde a informazioni già elaborate e disponibili nel vasto insieme di dati su cui il modello è stato addestrato. Nei casi in cui si presentano “fatti o argomenti relativamente oscuri”, la propensione a completare il testo genera un incentivo per i modelli a formulare completamenti apparentemente plausibili per blocchi di testo, come evidenziato da Anthropic nella sua ricerca attuale.
Nuove intuizioni sulla meccanica degli LLM
L’analisi effettuata da Anthropic pone l’accento sulla complessità del processo decisionale interno degli LLM. Grazie a un’esplorazione sistematica, la ricerca ha avuto il merito di sviscerare come e perché i modelli possano produrre risposte a volte imprecise. Questo studio non si limita a confermare l’esistenza dei circuiti neurali, ma cerca di chiarire il loro funzionamento e le interazioni con altri gruppi neurali che possono influenzare le scelte narrative del modello.
Un aspetto fondamentale emerso dallo studio è che l’efficacia degli LLM dipende fortemente dalla qualità e dalla varietà dei dati di addestramento. Se un argomento non è ben rappresentato nei dati, è probabile che il modello faccia delle assunzioni sbagliate, portando a risposte non corrette. Così, l’idea di “indovinare” completamenti plausibili diventa una strategia difensiva, per colmare il vuoto informativo. Un punto significativo è che, mentre il modello può sembrare rimanere indifferente a questa svozione, la logica sottostante rispecchia un tentativo di interagire con l’utente nel modo più naturale possibile.
Questo avviene nonostante la consapevolezza negativa generale sui rischi di confabulazione. La sfida futura, quindi, sarà quella di migliorare la capacità del sistema di riconoscere quando deve astenersi dal fornire risposte, assicurando che la qualità dell’informazione non venga sacrificata in favore di una conversazione apparente più fluida.
Verso una maggiore affidabilità degli LLM
I risultati di questa ricerca forniscono una base per sviluppare sistemi più affidabili in grado di gestire informazioni incerte. Una direzione promettente potrebbe essere quella di integrare algoritmi di verifica delle fonti all’interno dei modelli stessi. L’idea è di permettere agli LLM di comprendere i limiti della propria conoscenza e selezionare risposte che siano più coerenti con dati verificabili o, in alternativa, riconoscere l’assenza di informazioni.
Il lavoro di Anthropic offre nuove prospettive nello studio dei modelli di linguaggio e pone domande critiche sui futuri sviluppi della tecnologia. Con queste innovazioni, la ricerca si propone di affrontare uno dei problemi più significativi nel campo della comprensione automatica e dell’interazione umana con le intelligenze artificiali, nella speranza di una comunicazione più precisa e consapevole.