Nuovo step avanti nell'AI: DeepSeek lancia modelli R1 con capacità sorprendenti

Il mondo dell'intelligenza artificiale ha ricevuto una nuova proposta di rilievo da parte di DeepSeek, un laboratorio cinese che ha presentato la sua famiglia di modelli R1 sotto licenza MIT. Questa iniziativa ha suscitato grande curiosità tra i ricercatori di diverse discipline. La versione più avanzata del modello R1 vanta 671 miliardi di parametri, posizionandosi a livelli di prestazione simili a quelli del modello di ragionamento simulato di OpenAI, in vari test matematici e di programmazione.

Dettagli sui modelli DeepSeek-R1

Oltre al principale modello DeepSeek-R1-Zero e ai modelli DeepSeek-R1, la società ha messo a disposizione sei versioni più piccole denominate "DeepSeek-R1-Distill", che variano da 1.5 a 70 miliardi di parametri. Questi modelli distillati sono stati sviluppati a partire da architetture open source preesistenti come Qwen e Llama, e il loro addestramento è stato effettuato utilizzando dati generati dal modello R1 completo. È interessante notare che la versione più piccola è in grado di funzionare su laptop, mentre il modello intero richiede significative risorse di calcolo.

L'arrivo di questi nuovi modelli ha catturato immediatamente l'interesse della comunità AI, poiché la maggior parte dei modelli open-weight esistenti, spesso utilizzabili e modificabili su hardware locale, si è dimostrata meno competitiva rispetto a quelli proprietari come l'o1 di OpenAI in alcuni benchmark di ragionamento. La disponibilità di tali capacità in un modello con licenza MIT, accessibile a chiunque desideri studiarlo, modificarlo o utilizzarlo commercialmente, potrebbe segnare un cambio di tendenza nel panorama dei modelli AI pubblici.

L'esperienza di utilizzo dei modelli R1

Simon Willison, ricercatore indipendente nel campo dell'intelligenza artificiale, ha condiviso la sua impressione riguardo a uno dei modelli più piccoli in un messaggio a Ars Technica. Willison ha trovato particolarmente divertente osservare il processo di pensiero simulato dal modello, descrivendo la sua esperienza sul suo blog. Ha notato che ogni risposta parte da un tag pseudo-XML, <think>...</think>, che contiene la catena di pensiero esaminata per generare la risposta. Questo approccio ha portato a produzioni ricche di ragionamento anche per richieste apparentemente semplici.

L’innovazione di DeepSeek risiede nella sua capacità di menzionare internamente il ragionamento del modello, creando un'esperienza di interazione unica. Come evidenziato nelle osservazioni di Willison, anche le risposte più semplici richiedono una notevole elaborazione interna prima di essere fornite. Questo approccio introduce un livello di profondità e complessità che fino ad ora era considerato limitato ai modelli più avanzati e proprietari.

Simulazione del ragionamento: una novità nel campo

Il modello R1 si distingue dai tipici grandi modelli di linguaggio grazie a un approccio definito come ragionamento durante l'inferenza. Questo significa cercare di imitare una catena di pensiero simile a quella umana mentre il modello affronta e risolve la domanda. Questi modelli di "ragionamento simulato", conosciuti anche come SR, sono emersi quando OpenAI ha lanciato la sua famiglia di modelli o1 nel settembre 2024. Recentemente, OpenAI ha fatto riferimento a un imminente aggiornamento noto come "o3", previsto per dicembre.

Con questi sviluppi, DeepSeek sta contribuendo in modo significativo all'evoluzione dell'intelligenza artificiale, ponendo interrogativi sulla direzione futura e sull'accessibilità dei modelli di ultima generazione. La combinazione di potenza di calcolo e apertura della licenza rappresenta un potenziale balzo in avanti nel settore, con implicazioni che potrebbero allargare le possibilità di utilizzo dell'AI in vari ambiti.