L’intelligenza artificiale continua a progredire, spingendo i limiti delle capacità computazionali e della gestione dei dati. Recentemente, un gruppo di ricerca di Microsoft ha fatto notizia presentando un innovativo modello di rete neurale, in grado di funzionare con solo tre valori di peso distinti: -1, 0 e 1. Questa innovativa architettura ternaria promette di semplificare i modelli attuali, riducendo la complessità e migliorando l’efficienza, un aspetto cruciale per l’ottimizzazione delle risorse computazionali.
Riduzione della complessità attraverso pesi ternari
La sfida principale per i modelli di intelligenza artificiale attuali è la gestione dei pesi che alimentano le reti neurali. I modelli moderni, infatti, utilizzano comunemente numeri in virgola mobile a 16 o 32 bit, ma questi approcci possono comportare requisiti di memoria molto elevati, specialmente con i modelli più complessi che superano le centinaia di gigabyte. La maggior parte delle operazioni di risposta a richieste si basa su complesse moltiplicazioni di matrici, che richiedono risorse di elaborazione significative.
Il nuovo modello presentato da Microsoft, che segue ricerche precedenti datate 2023, sfrutta un’architettura ternaria. Secondo i ricercatori, questo approccio offre notevoli vantaggi in termini di efficienza computazionale, permettendo l’esecuzione del modello su normali processori desktop. Pur riducendo drasticamente la precisione dei pesi, gli studiosi sostengono di essere riusciti a raggiungere prestazioni comparabili a modelli di punta a piena precisione e con pesi aperti, evidenziando la versatilità del modello in una serie di compiti.
Innovazioni nelle tecniche di quantizzazione
Il concetto di semplificazione dei pesi nei modelli di intelligenza artificiale non è del tutto nuovo. Gli approcci di quantizzazione sono stati esplorati per diversi anni, cercando di comprimere i pesi delle reti neurali in spazi di memoria più ridotti. Negli ultimi tempi, le tecniche più avanzate hanno mirato a utilizzare i “BitNets”, dove ogni peso viene rappresentato tramite un singolo bit, corrispondendo a +1 o -1.
Il modello BitNet b1.58b sviluppato recentemente si distingue, poiché non segue esattamente quest’ultima tendenza estrema. La terminologia “1.58-bit” fa riferimento alla media dei bit necessari per rappresentare tre valori. Tuttavia, a differenza di precedenti ricerche nel campo, questo è “il primo LLM open-source nativo a 1 bit addestrato su larga scala”. Ciò significa che è stato sviluppato su un ampio dataset di 4 trilioni di token, permettendo la creazione di un modello con ben 2 miliardi di token.
I vantaggi della formazione nativa
Uno degli aspetti cruciali di questo modello è il suo approccio “nativo”. Molti tentativi passati di quantizzazione hanno cercato, dopo l’addestramento, di ridurre il dimensionamento di modelli già esistenti, impiegando valori a “piena precisione”. Tuttavia, questo tipo di quantizzazione post-allenamento può portare a una “degradazione significativa delle prestazioni” rispetto ai modelli originali. Al contrario, il modello sviluppato da Microsoft è stato addestrato nativamente con questi pesi ternari, evitando così i problemi prestazionali riscontrati in altri modelli quantizzati.
I risultati di questa nuova architettura potrebbero portare a un ulteriore sviluppo nell’intelligenza artificiale, rendendo possibile l’uso di reti neurali più piccole e meno costose, pur mantenendo un livello di prestazione competitivo. Questi avanzamenti potrebbero avere applicazioni concrete in vari settori, contribuendo a rendere l’intelligenza artificiale accessibile anche a chi non dispone di risorse considerevoli per l’elaborazione dei dati.