Nell’ambito dell’intelligenza artificiale, emerge un paradosso che coinvolge i modelli più avanzati in grado di “ragionare”. Questi sistemi mostrano una notevole abilità nella risoluzione di problemi matematici di routine, ma si rivelano spesso inefficaci quando si trattano prove matematiche complesse, come quelle previste in contest di alto livello. È quanto emerso da una recente ricerca che ha analizzato i limiti dei modelli di ragionamento simulato, evidenziando le discrepanze tra le affermazioni promozionali dei fornitori di AI e la realtà dei fatti.
Indice dei contenuti
I modelli di ragionamento simulato e le loro limitazioni
I modelli di ragionamento simulato si discostano dai tradizionali modelli linguistici di grandi dimensioni in quanto sono stati formati per fornire un processo di “pensiero” passo-passo, noto anche come “chain-of-thought“, quando risolvono problemi. È fondamentale chiarire che il termine “simulato” non implica che tali modelli non siano in grado di ragionare affatto, bensì che non adottano le stesse tecniche di ragionamento degli esseri umani. Questa distinzione risulta cruciale, dato che il ragionamento umano stesso è un concetto difficile da definire e spesso soggettivo.
La ricerca recente, intitolata “Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad“, è stata condotta da un team di esperti dell’ETH di Zurigo e dell’INSAIT dell’Università di Sofia, guidati da Ivo Petrov e Martin Vechev. Nel loro studio, i ricercatori hanno messo alla prova i modelli SR utilizzando problemi provenienti dalla 2025 USA Math Olympiad, un evento rinomato organizzato dalla Mathematical Association of America.
La performance dei modelli nei test matematici
Quando i modelli di ragionamento simulato sono stati confrontati con le prove ospitate dalla Math Olympiad, la maggior parte di essi ha ottenuto punteggi rappresentativi sotto il 5% in termini di correttezza nella generazione di prove matematiche. Questo dato è piuttosto allarmante se si considera la rilevanza di tali prove nel contesto di test competitivi. Un modello, sebbene abbia mostrato performance superiori rispetto agli altri, ha comunque evidenziato limiti significativi. Il punteggio medio registrato dai modelli rappresenta la percentuale dei punti totali possibili, assegnati secondo una scala standard da 0 a 7 per ogni problema, come previsto nel format ufficiale delle olimpiadi.
Durante le valutazioni, i valutatori umani esperti hanno concesso crediti parziali per i passi corretti realizzati dai modelli, dimostrando quanto fosse complessa la valutazione delle prove. Non si tratta solo di un numero, ma di un’intera serie di passaggi logici che i modelli non sono riusciti a generare in modo chiaro ed esaustivo.
Differenza tra risolvere problemi e dimostrare teoremi
Per comprendere a fondo l’importanza di questo divario di capacità, è essenziale chiarire la differenza tra rispondere a problemi matematici e fornire prove. Ad esempio, un problema potrebbe chiedere “Qual è il risultato di 2+2?” o “Trova x in questa equazione.” Qui si cerca un semplice valore numerico come risposta. Tuttavia, una prova implica una sfida ben più complessa. Ad esempio, potrebbe essere richiesto di spiegare perché 2+2=4 utilizzando passaggi logici dettagliati, o di dimostrare che una certa formula funziona per tutti i numeri possibili.
La capacità di fornire una spiegazione logica e di dimostrare la verità di una affermazione matematica richiede un tipo di ragionamento che va oltre la mera risposta numerica. La carenza di tali competenze tra i modelli di intelligenza artificiale, soprattutto in un contesto educativo e competitivo, sottolinea la necessità di un ulteriore sviluppo e di una riflessione sui metodi di addestramento utilizzati. I dati emersi indicano chiaramente che, nonostante gli avanzamenti tecnologici, i modelli di intelligenza artificiale devono ancora percorrere un lungo cammino per eguagliare la complessità e la profondità del ragionamento umano.