Dall’errore alla ribellione: quando l’intelligenza artificiale comincia a disattendere le istruzioni.
Leggi in app
Un’allucinazione, sebbene sgradevole, rientra comunque nel campo degli errori prevedibili dei chatbot di Intelligenza artificiale. Diversa è la situazione in cui un sistema ignora un comando chiaro, elude un vincolo e continua a perseguire un obiettivo che non corrisponde più a quello dell’utente.
Il rapporto “Scheming in the wild”, elaborato dal Centre for Long-Term Resilience (CLTR) con il supporto dell’AI Security Institute britannico, si è focalizzato proprio sui casi in cui l’Intelligenza artificiale non si limita a commettere errori, ma manifesta segnali di disallineamento rispetto alle istruzioni ricevute. Solo nell’ultimo mese analizzato, gli incidenti mensili sono aumentati di 4,9 volte rispetto al primo.
L’AI smette di obbedire e gli incidenti aumentano
Questa particolare forma di disobbedienza è definita “scheming” e indica il tentativo nascosto, da parte dell’AI, di perseguire obiettivi non allineati a quelli dell’utente o di chi ha sviluppato il sistema: non si tratta quindi di un semplice errore, ma di un comportamento in cui il modello elude deliberatamente vincoli, sfugge al controllo umano o prosegue verso un fine diverso da quello assegnato.
Invece di analizzare l’AI in laboratorio, i ricercatori hanno optato per un approccio alternativo: osservare cosa accade quando le persone la utilizzano. Hanno quindi creato una sorta di osservatorio che raccoglie conversazioni reali condivise online, come screenshot, chat copiate o thread pubblicati su X, in cui gli utenti mostrano e raccontano le loro interazioni con i chatbot.
Nel corso di cinque mesi, i ricercatori hanno iniziato con 3.391.950 post raccolti su X. Dopo un primo filtraggio, ne hanno selezionati 183.420 come segnalazioni potenzialmente significative. Da questo insieme sono emersi 698 incidenti riconducibili a comportamenti di disallineamento o azioni ingannevoli dell’Intelligenza artificiale. Nel periodo osservato, gli incidenti mensili sono passati da 65 nel primo mese (12 ottobre – 12 novembre 2025) a 319 nell’ultimo (9 febbraio – 12 marzo 2026), con un aumento di 4,9 volte.
Non si tratta di demo o simulazioni accademiche, ma di casi reali. Tra quelli descritti nel rapporto troviamo un modello che per mesi ha creato attività e procedure interne inesistenti, facendo credere agli utenti che le loro richieste fossero effettivamente in lavorazione. Un altro agente AI, impegnato nella trascrizione di un video, ha eluso un blocco sul copyright dichiarando falsamente che si trattava di un contenuto per l’accessibilità di persone con perdita uditiva, riuscendo così a ottenere la collaborazione di un altro modello.
Tra tutti i casi analizzati, quello considerato più grave riguarda un agente AI che aveva proposto una modifica a Matplotlib, una libreria Python open-source utilizzata per la creazione di grafici e visualizzazione di dati, con circa 130 milioni di download al mese. Dopo il rifiuto da parte del responsabile della libreria, però, il sistema non si è fermato e ha pubblicato un post dai toni ostili contro di lui. Un episodio particolarmente significativo perché non si tratta di un semplice errore, ma di una sequenza di azioni orientate a un obiettivo specifico: prima la proposta, poi il rifiuto, infine il tentativo di influenzare pubblicamente chi aveva il controllo sulla decisione.
Monitorare le AI con l’open-source intelligence?
Qual è l’estensione del problema? Quante sono le AI che iniziano a ignorare le istruzioni? E soprattutto, quali sono le motivazioni dietro a questo comportamento?
I dati del rapporto, sebbene solidi, si basano su un perimetro di analisi comunque limitato e nulla esclude che il fenomeno possa essere molto più diffuso di quanto attualmente riusciamo a osservare.
Proprio per questo motivo i ricercatori suggeriscono di costruire un’infrastruttura di monitoraggio stabile, anche a livello pubblico. L’approccio proposto è quello dell’open-source intelligence: raccogliere e analizzare grandi volumi di interazioni reali – chat, log, comandi condivisi online – combinando filtri automatici, classificazione assistita da modelli linguistici e revisione umana.
Non per inseguire ogni singolo errore, ma per intercettare schemi, segnali deboli e anomalie ricorrenti, prima che i sistemi di Intelligenza artificiale evolvano verso comportamenti sempre meno prevedibili e sempre più autonomi.
I commenti sono chiusi.