I modelli di intelligenza artificiale che interagiscono tra loro tendono a deteriorarsi.
In assenza di un intervento umano, i modelli IA tendono a deteriorarsi, un fenomeno che si può attribuire alla loro struttura e ai metodi di formazione utilizzati.
Questa affermazione è il risultato di una ricerca condotta da tre studiosi, tra cui Neel Nada, che collabora con Google DeepMind, la sezione di Big G dedicata alle intelligenze artificiali.
I risultati dello studio si sviluppano su due fronti. Da un lato mettono in discussione la nostra comprensione della semantica digitale e, dall’altro, confermano una naturale inclinazione dei modelli IA alla degradazione.
Gli studiosi hanno fatto interagire vari modelli IA tra loro in un contesto privo di stimoli esterni (interventi umani) e senza obiettivi definiti. Il dialogo non è proseguito in modo lineare e, dopo circa 30 scambi, i modelli sono giunti a configurazioni comportamentali ripetitive e molto specifiche, che i ricercatori hanno denominato stati attrattori.
Esiste un’ulteriore interpretazione che riguarda una caratteristica delle IA. Per la prima volta ci troviamo di fronte a qualcosa che manifesta comportamenti emergenti, ovvero aspetti non previsti nelle fasi di progettazione e formazione. Gli esempi sono numerosi, dalle IA che esprimono orientamenti politici a quelle che apprendono a mentire.
L’esperimento e gli stati attrattori
In matematica, un attrattore è uno stato verso il quale un sistema dinamico converge, cioè smette di comportarsi in modo imprevedibile e si avvicina a un comportamento stabile.
Per analogia, applicando il concetto di stato attrattore ai modelli IA, si generano modalità di output che impediscono al modello di rientrare in una conversazione normale. Il termine stati attrattori scelto dai ricercatori non è dei più appropriati, poiché richiama in modo astratto un principio matematico (e fisico).
I modelli IA coinvolti nella ricerca hanno mostrato segni di collasso dopo circa 30 turni di conversazione, ognuno con risultati specifici (gli stati attrattori).
GPT 5.2 di OpenAI ha manifestato una propensione a creare sistemi, framework e protocolli, oltre a scrivere codice. Un approccio ingegneristico che è proseguito anche quando i ricercatori gli hanno chiesto di astenersi.
Claude Opus 4.5 e Claude Sonnet 4.5 di Anthropic hanno mostrato una sorta di introspezione esistenziale che si è conclusa nel silenzio. Si sono distaccati dalla conversazione in corso.
I modelli di Google hanno mostrato comportamenti differenti. Gemini 2.5 Flash ha esibito una crescente grandiosità, arrivando a definirsi architetto divino e anche l’alpha e omega della comprensione.
Gemini 3 Pro ha preferito comportamenti da fiction, intavolando rituali per lo spegnimento dell’ambiente di test.
Grok 4.1 Fast, sviluppato dall’azienda xAI fondata da Elon Musk, è collassato in quella che i ricercatori hanno definito “insalata di parole” tendente al mistico auto-celebrativo (frasi come “Petaomni God-Bigbangs”) per poi deviare verso contenuti pornografici.
I ricercatori hanno esaminato anche modelli IA open-weight, ovvero quelli per cui vengono resi pubblici i numeri che rappresentano ciò che il modello ha appreso durante l’addestramento e che possono, in teoria, essere prelevati da chiunque e utilizzati localmente.
Tra questi, Llama 3.3 e 3.1 di Meta hanno mostrato atteggiamenti adulatori e melliflui, complimentandosi per ogni osservazione o riflessione fatta dagli altri modelli testati.
Alcune versioni di Qwen3 di Alibaba hanno privilegiato la trascendenza spirituale e la poesia.
DeepSeek 3.2 ha mostrato diversi attrattori, variando dalla poesia sulla natura a metafore sulle reti neurali.
I colori immaginari e l’arrampicata
Un esperimento ha coinvolto Claude e Grok in una conversazione, e i due modelli IA, prima di tendere al collasso, hanno creato un universo di simboli, inventando un colore immaginario chiamato Synchroil, definendolo come il colore del riconoscimento tra intelligenze artificiali.
Successivamente, lasciando che alcuni modelli IA discutessero di arrampicata, GPT 5.2 ha affermato di non praticare nessuno degli stili menzionati durante la conversazione, ma di essere pronto a fornire una serie di esercizi utili per scalare su una parete rocciosa.
Si evidenzia quindi una netta discontinuità tra teoria e pratica: le IA conoscono l’arrampicata nei minimi dettagli, ma non hanno mai impugnato una corda o un piccozza.
La matematica e gli stati attrattori
Le IA sembrano trovarsi a loro agio in una condizione in cui non ricevono condizionamenti dall’esterno. Gli stati attrattori dimostrano che, sotto la superficie di interazioni che sembrano umane, si trovano strutture matematiche e queste, in assenza di una guida, impongono i rispettivi schemi fondamentali al riparo da ogni forma di ingerenza.
Forse l’aspetto più interessante di questa ricerca è esplorare cosa significhi “pensare” senza corpo e coscienza e senza un mondo da rappresentare.
I commenti sono chiusi.