Per quale motivo i Pokémon rappresentano una nuova sfida per l’intelligenza artificiale
Nel febbraio del 2025, un ricercatore di Anthropic ha avviato uno stream su Twitch che ha spinto il mondo dell’intelligenza artificiale verso una delle sfide più eccentriche della ricerca tecnologica: far giocare un’intelligenza artificiale a Pokémon Rosso, il celebre titolo per Game Boy del 1996, che in breve tempo è diventato il nuovo campo di prova per valutare i progressi delle reti neurali. Claude, GPT e Gemini sono quindi stati protagonisti su Twitch, in diretta, mentre cercavano di catturare Pokémon e sconfiggere i capopalestra. Il risultato è risultato tanto divertente quanto rivelatore sulla natura dell’intelligenza artificiale contemporanea.
La storia prende avvio da David Hershey, ricercatore del team di Applied AI di Anthropic. «Desideravo uno spazio di sperimentazione per testare vari framework, e Pokémon mi pareva il candidato ideale», ha dichiarato al Wall Street Journal. La forza del progetto risiede nella sua apparente semplicità: a differenza dei test tradizionali per l’IA, Pokémon non presenta un problema logico puro. In Pokémon Rosso/Blu, un giocatore deve esplorare labirinti, catturare creature, allenarle e sconfiggere otto capopalestra per ottenere le medaglie necessarie al campionato.
«Pokémon è meno limitato di Pong o di altri giochi storicamente utilizzati per i test», spiega Hershey. «Si tratta di un problema davvero complesso per un programma, in quanto richiede di prendere decisioni su lunghe sequenze, di esplorare ambienti parzialmente osservabili e di pianificare a lungo termine».
Secondo i ricercatori della Carnegie Mellon University, i test convenzionali verificano risposte a singole domande. Pokémon testa il ragionamento continuo, la persistenza della memoria, il recupero da decisioni errate e l’adattamento in tempo reale —tutte abilità che gli utenti reali richiedono alle IA quotidianamente.
Tutto ciò è diventato evidente quando le IA hanno affrontato Mt. Moon, uno dei labirinti presenti nel gioco. Qui Claude ha compiuto qualcosa di molto interessante: dopo essere rimasto bloccato per 72 ore consecutive, ha elaborato una teoria. Notando che quando un Pokémon muore il giocatore torna al Centro Pokémon, si è convinto di poter uscire tentando deliberatamente il suicidio: far morire tutti i Pokémon per essere teletrasportato fuori. Il ragionamento era sbagliato, ma rivelatore. Claude non aveva mai incontrato Mt. Moon nei suoi dati di addestramento e ha improvvisato, formulando un’ipotesi basata su una correlazione osservata.
Nel maggio 2025, Google ha ufficialmente sostenuto il progetto Gemini Plays Pokémon. Gemini 2.5 Pro ha completato Pokémon Blu, superando Claude. Tuttavia, il dettaglio più affascinante è emerso dal rapporto ufficiale di Google DeepMind. Secondo il documento, Gemini 2.5 Pro mostra segni di “panico” quando i suoi Pokémon sono in pericolo di morte. Quando il modello percepisce che le creature sono vicine allo svenimento, si osserva “una degradazione qualitativa nella capacità di ragionamento del modello”. In altre parole: quando è sotto pressione, l’IA smette di utilizzare gli strumenti disponibili, compie decisioni avventate e attua mosse controproducenti. La comunità su Twitch lo ha notato: ogni volta che la situazione si faceva critica, il modello agiva in modo irrazionale, proprio come un giocatore umano in tilt.
Qui si presenta il dettaglio cruciale: Gemini non ha completato il gioco interamente da solo. La differenza tra le due IA non risiede solo nel modello sottostante, ma nella modalità con cui è stato strutturato il loro ambiente di gioco.
Hershey ha creato una “struttura di supporto” attorno a Claude affinché il sistema potesse tenere traccia di informazioni importanti acquisite durante le sessioni di gioco e sta ancora cercando di capire come arrivare alla conclusione. Sia GPT che Gemini hanno portato a termine i giochi, ma anche in questo caso tutto dipende dai supporti ricevuti, come una mappa da seguire, suggerimenti o una guida.
Per comprendere il significato di questo momento, è utile guardare al passato. Nel 1997, Deep Blue ha sconfitto Garry Kasparov a scacchi. Nel 2016, AlphaGo ha battuto il campione mondiale di Go. Nel 2018, AlphaZero ha imparato a giocare a scacchi, shogi e Go da zero, attraverso 60 milioni di partite. StarCraft II è diventato il campo di prova per l’intelligenza artificiale strategica, con AlphaStar che nel 2019 ha superato professionisti umani. Minecraft ha rappresentato un salto verso la complessità reale, testando la capacità di pianificare su orizzonti lunghi e incerti.
Ma in tutti questi casi, il test era definito. Una partita di Go ha una conclusione. Gli scacchi possiedono una struttura matematica prevedibile. Minecraft ha obiettivi chiari.
Pokémon è differente. È il primo vero test di ragionamento su una scala che sembra umana, con problemi intrecciati, labirinti frustranti e la necessità di mantenere una memoria coerente per cento ore di gioco. È il primo test in cui un’IA non deve solo risolvere il problema, ma deve anche viverlo.
È ironico che per mettere alla prova l’intelligenza artificiale più avanzata al mondo, siamo tornati ai videogiochi che giocavano i bambini negli anni ’90. Tuttavia, ciò dice molto su quanto veramente siano “intelligenti” queste IA.
I commenti sono chiusi.