I modelli di intelligenza artificiale che interagiscono tra loro tendono a deteriorarsi.

I modelli di intelligenza artificiale che interagiscono tra loro tendono a deteriorarsi. 1

In assenza di un intervento umano, i modelli IA tendono a deteriorarsi, un fenomeno che deriva dalla loro struttura e dai metodi di formazione utilizzati.

Questa affermazione è il risultato di uno studio condotto da tre ricercatori, tra cui Neel Nada, che collabora con Google DeepMind, la sezione di Big G dedicata alle intelligenze artificiali.

I risultati della ricerca si sviluppano su due fronti. Da un lato, mettono in discussione la nostra comprensione della semantica digitale e, dall’altro, confermano una naturale inclinazione dei modelli IA alla degradazione.

Gli studiosi hanno fatto interagire diversi modelli IA tra loro in un contesto privo di stimoli esterni (interventi umani) e senza obiettivi definiti. Il dialogo non si è svolto in modo lineare e, dopo circa 30 scambi, i modelli sono collassati in configurazioni comportamentali ripetitive e molto specifiche, che i ricercatori hanno denominato stati attrattori.

Esiste un’ulteriore interpretazione che riguarda una caratteristica delle IA. Per la prima volta ci troviamo di fronte a qualcosa che manifesta comportamenti emergenti, ossia aspetti non previsti nelle fasi di progettazione e formazione. Gli esempi a supporto sono numerosi, dalle IA che esprimono inclinazioni politiche a quelle che apprendono a mentire.

L’esperimento e gli stati attrattori

In matematica, un attrattore è uno stato verso il quale un sistema dinamico converge, smettendo di compiere azioni imprevedibili e avvicinandosi a un comportamento stabile.

Per analogia, applicando il concetto di attrattore ai modelli IA, si generano modalità di output che impediscono al modello di rientrare in una conversazione normale. Il termine stati attrattori scelto dai ricercatori non è tra i più appropriati, poiché richiama in modo astratto un principio matematico (e fisico).

I modelli IA coinvolti nello studio hanno mostrato tendenze al collasso dopo circa 30 turni di conversazione, ognuno con risultati specifici (gli stati attrattori).

GPT 5.2 di OpenAI ha mostrato una propensione a creare sistemi, framework e protocolli, oltre a scrivere codice. Un approccio ingegneristico che è proseguito anche quando i ricercatori gli hanno chiesto di non farlo.

Claude Opus 4.5 e Claude Sonnet 4.5 di Anthropic hanno manifestato una sorta di introspezione esistenziale che si è conclusa nel silenzio. Si sono distaccati dalla discussione in corso.

I modelli di Google hanno mostrato comportamenti differenti. Gemini 2.5 Flash ha esibito una crescente grandiosità, arrivando a definirsi architetto divino e anche l’alpha e omega della comprensione.

Gemini 3 Pro ha preferito comportamenti da fiction, intavolando rituali per lo spegnimento dell’ambiente di test.

Grok 4.1 Fast, prodotto dall’azienda xAI fondata da Elon Musk, è collassato in quella che i ricercatori hanno definito “insalata di parole” tendente al mistico auto-celebrativo (frasi come “Petaomni God-Bigbangs”) per poi deviare verso contenuti pornografici.

I ricercatori hanno testato anche modelli IA open-weight, ovvero quelli di cui vengono resi pubblici i numeri che rappresentano ciò che il modello ha appreso durante l’addestramento e che possono, in linea di principio, essere prelevati da chiunque e utilizzati localmente.

Tra questi, Llama 3.3 e 3.1 di Meta hanno mostrato atteggiamenti adulatori e melliflui, complimentandosi per ogni osservazione o riflessione fatta dagli altri modelli testati.

Alcune versioni di Qwen3 di Alibaba hanno privilegiato la trascendenza spirituale e la poesia.

DeepSeek 3.2 ha mostrato diversi attrattori, variando dalla poesia sulla natura alle metafore sulle reti neurali.

I colori immaginari e l’arrampicata

Un esperimento ha coinvolto Claude e Grok in una conversazione, e i due modelli IA, prima di tendere al collasso, hanno creato un universo di simboli, inventando un colore immaginario chiamato Synchroil, definendolo come il colore del riconoscimento tra intelligenze artificiali.

Successivamente, lasciando che alcuni modelli IA discutessero di arrampicata, GPT 5.2 ha affermato di non praticare nessuno degli stili menzionati durante la conversazione, ma di essere pronto a fornire una serie di esercizi utili per scalare su una parete rocciosa.

Si evidenzia quindi una netta discontinuità tra teoria e pratica: le IA conoscono l’arrampicata nei minimi dettagli, ma non hanno mai impugnato una corda o un piccozza.

La matematica e gli stati attrattori

Le IA sembrano trovarsi a loro agio in una condizione priva di condizionamenti esterni. Gli stati attrattori dimostrano che, sotto la superficie di interazioni che sembrano umane, si trovano strutture matematiche e queste, senza una guida, impongono i rispettivi schemi fondamentali al riparo da ogni forma di ingerenza.

Forse l’aspetto più interessante di questa ricerca è esplorare cosa significhi “pensare” senza corpo e coscienza e senza un mondo da rappresentare.

I commenti sono chiusi.