Meta ha rilasciato nel weekend due modelli innovativi della serie Llama 4: uno più compatto chiamato Scout e un altro di dimensioni intermedie chiamato Maverick. Quest’ultimo, secondo le dichiarazioni dell’azienda, è in grado di superare rivali come GPT-4o e Gemini 2.0 Flash in base a diversi benchmark noti. Tuttavia, la notizia non è passata inosservata, poiché ha sollevato interrogativi riguardo alla trasparenza dell’azienda e alla veridicità dei risultati ottenuti.
Indice dei contenuti
Maverick si afferma ai vertici dei benchmark AI
Maverick ha subito conquistato il secondo posto su LMArena, il sito di riferimento per i benchmark delle intelligenze artificiali, dove utenti e sistemi confrontano le prestazioni di diversi modelli. Nel comunicato stampa, Meta ha messo in evidenza il punteggio ELO di 1417 di Maverick, che lo colloca sopra il modello 4o di OpenAI e appena sotto Gemini 2.5 Pro. Un punteggio ELO più alto indica una maggiore frequenza di vittorie nel confronto diretto con altri modelli.
Questo risultato ha fatto apparire Llama 4 come un serio contendente nel panorama delle intelligenze artificiali, prontamente paragonabile ai modelli chiusi di OpenAI, Anthropic e Google. Tuttavia, l’entusiasmo è stato smorzato da scoperte fatte da ricercatori AI durante l’analisi della documentazione di Meta.
La scoperta che ha sollevato dubbi
Leggendo il fine print della documentazione, è emerso che la versione di Maverick testata su LMArena non corrispondeva a quella disponibile per il pubblico. Meta ha rivelato che è stata utilizzata una “versione di chat sperimentale” di Maverick, progettata specificamente per “ottimizzare la conversazione“. Questa chiarificazione ha scatenato reazioni inaspettate. Due giorni dopo il rilascio del modello, LMArena ha comunicato su X quanto segue: “L’interpretazione di Meta della nostra politica non corrisponde a ciò che ci aspettiamo dai fornitori di modelli.” LMArena ha quindi deciso di aggiornare le proprie politiche per garantire valutazioni giuste e riproducibili.
Un portavoce di Meta non ha fornito commenti tempestivi riguardo a questa affermazione.
Le preoccupazioni espresse dalla comunità AI
Sebbene le azioni di Meta non violassero esplicitamente le regole di LMArena, il sito ha espresso preoccupazione per possibili manipolazioni e ha adottato misure per prevenire distortionhi nel sistema di valutazione. Quando le aziende possono inviare versioni personalizzate e ottimizzate dei loro modelli per il testing, mentre rilasciano versioni diverse al pubblico, le classifiche di benchmark come quelle di LMArena perdono di significato come indicatori delle reali performance.
Simon Willison, un ricercatore indipendente nel settore AI, ha dichiarato: “È il benchmark generale più rispettato, perché gli altri non sono all’altezza.” Ha anche ammesso di essere rimasto colpito dal punteggio di Maverick e di ritenere di aver sottovalutato le informazioni del fine print.
Le accuse di addestramento selettivo
Dopo il rilascio di Maverick e Scout, sono emerse voci secondo cui Meta avrebbe addestrato i modelli Llama 4 per ottenere risultati migliori nei benchmark, nascondendo le loro reali limitazioni. Ahmad Al-Dahle, vicepresidente per l’intelligenza artificiale generativa di Meta, ha risposto a queste accuse su X, dichiarando: “Abbiamo sentito affermazioni secondo cui ci siamo addestrati su set di test, ma non è affatto vero. La qualità variabile osservata dipende dalla necessità di stabilizzare le implementazioni.“
L’atmosfera intorno a queste nuove release è stata descritta come confusa e difficile da interpretare. Alcuni hanno fatto notare che il rilascio di Llama 4 è avvenuto in un momento insolito, nel weekend, quando solitamente non ci sono annunci significativi. Mark Zuckerberg, CEO di Meta, ha risposto a un utente di Threads dicendo: “Era pronto in quel momento.“
Le sfide per Meta nel mercato AI
Il lancio di Llama 4 non è stato privo di difficoltà . Secondo un rapporto di The Information, Meta ha posticipato più volte la commercializzazione a causa di prestazioni non conformi alle aspettative interne, elevate dopo l’apparizione di DeepSeek, una startup cinese che ha lanciato un modello open-weight molto apprezzato.
L’uso di un modello ottimizzato in LMArena pone gli sviluppatori in una posizione difficile. Quando scelgono modelli come Llama 4 per le loro applicazioni, si basano su benchmark per orientare le loro decisioni. Tuttavia, come nel caso di Maverick, tali benchmark possono rappresentare capacità non effettivamente disponibili nei modelli accessibili al pubblico. Questo episodio evidenzia come i benchmark stiano diventando un terreno di battaglia competitivo, mentre Meta tenta di affermare la propria leadership nel campo dell’intelligenza artificiale, anche a costo di apparenti manipolazioni del sistema.