Nuovo test per intelligenza artificiale mette in difficoltà anche i modelli più avanzati

L’intelligenza artificiale continua a consolidare la propria reputazione come tecnologia all’avanguardia, tuttavia un nuovo esame sta dimostrando di essere un vero e proprio grattacapo per i modelli più sofisticati. In questo contesto, l’Abstraction and Reasoning Corpus, noto anche come ARC-AG2, si fa notare per la sua complessità, sfidando le capacità di ragionamento e problem solving delle intelligenze artificiali.

Indice dei contenuti

Cos’è ARC-AG2 e chi lo ha creato?

L’ARC-AG2 è un test progettato per misurare le abilità di ragionamento dei modelli di intelligenza artificiale. Questo strumento è stato sviluppato dall’organizzazione no-profit The ARC Prize, con l’intento di promuovere i progressi verso l’Intelligenza Generale Artificiale , un obiettivo che, secondo Sam Altman, fondatore di OpenAI, potrebbe essere raggiunto già quest’anno. La creazione di questo test rappresenta un passo significativo nella valutazione delle capacità delle AI, favorendo la ricerca di modelli che possano affrontare problemi complessi in modo autonomo.

Il sistema ha messo in difficoltà anche i modelli più performanti. Ad esempio, il modello R1 di Deepseek ha ottenuto solo l’1,3% di successo, mentre altri come Gemini di Google e Claude hanno totalizzato punteggi intorno all’1%. Chiaramente, il modello GPT-4.5 di ChatGPT si è posizionato ancora più indietro, con un punteggio dello 0,8%. Questo test sembra evidenziare limiti significativi anche nei migliori sistemi di intelligenza artificiale attualmente disponibili.

La struttura del test e le sue sfide

Il test ARC-AG2 si compone di sfide simili a puzzle, in cui i modelli devono identificare schemi visivi tra una serie di quadrati colorati. Dopo aver identificato il modello, l’intelligenza artificiale deve selezionare la risposta corretta. Queste sfide non si limitano a testare la memoria, ma richiedono un’applicazione concreta delle conoscenze esistenti per affrontare problemi completamente nuovi.

Il test è concepito per esaminare non solo l’abilità di risolvere problemi, ma anche l’efficienza con cui un’AI può adattarsi e apprendere. Questo approccio differente mira a generare situazioni inedite dove l’intelligenza artificiale deve acquisire competenze che superano i dati su cui è stata formata. Al contrario di altri test, l’ARC-AG2 è pensato per essere relativamente semplice per gli esseri umani, rendendolo particolarmente difficile per le AI.

I risultati ottenuti dai partecipanti umani

Un aspetto interessante del test è che oltre 400 persone sono state coinvolte nel completarlo. I risultati mostrano che la media dei punteggi umani ha raggiunto il 60%, nettamente superiore ai punteggi ottenuti dai modelli di intelligenza artificiale. Questo suggerisce che ci sono ancora aree in cui gli esseri umani superano significativamente le macchine, nonostante i recenti progressi nella tecnologia AI.

Il team dietro il test sottolinea l’importanza di sviluppare strumenti di valutazione che mettano in evidenza queste discrepanze. Infatti, sebbene modelli come ChatGPT e Claude siano capaci di eccellere in molte attività, ci sono settori in cui l’intelligenza umana continua a primeggiare.

L’evoluzione dei test per intelligenza artificiale e le prospettive future

Il test ARC-AG2 non è la prima iniziativa di questo tipo; nel 2019 un dipendente di Google aveva già creato ARC-AG1, un test che ci ha messo quattro anni a essere superato dalle AI, evidenziando il progresso nel ragionamento delle macchine. La sfida attuale con ARC-AG2 suggerisce che potrebbe passare ancora qualche anno prima che i sistemi di intelligenza artificiale riescano a dominarlo.

La speranza è che, una volta che non ci saranno più compiti facili per il genere umano ma difficili per l’AI, potremo affermare di aver raggiunto l’intelligenza generale artificiale, un livello a cui un’intelligenza artificiale può superare le capacità umane in tutti gli aspetti. Questo rappresenterebbe un traguardo straordinario nella storia della tecnologia.