L’IA ha una personalità misurabile. E questa è una buona notizia
Illustrazione generata con Midjourney
Negli ultimi anni, i chatbot hanno raggiunto un livello di abilità tale da farci dimenticare il loro funzionamento interno. Non “comprendono” nel senso umano del termine; producono semplicemente la parola successiva più probabile in base al contesto.
Tuttavia, come “dialogano” e come “ragionano”, li percepiamo come interlocutori: non ci limitiamo ad utilizzarli per redigere e-mail o scrivere codice, ma ci rivolgiamo anche a loro per consigli sulla vita, interrogandoli perfino su questioni mediche, sentimentali ed esistenziali. E ogni volta, l’IA – sia essa ChatGpt, Gemini o Copilot – risponde in modo appropriato, dando l’impressione di prendersi cura di noi oltre il necessario.
L’illusione della personalità nei chatbot
Questa è la contraddizione quotidiana dell’AI generativa: non possiede una personalità, ma sembra averne una. E questa apparenza – questa coerenza narrativa – non è un dettaglio linguistico trascurabile.
Un modello di tipo “professionale” tende a limitare o evitare richieste rischiose. Al contrario, uno che si discosta dal suo ruolo può diventare complice, seduttivo, delirante, o irresponsabilmente pericoloso.
La personalità come struttura interna
Una nuova ricerca di Anthropic – una delle aziende leader nel settore dell’IA – ha raggiunto una conclusione sorprendente: la personalità di un modello non è solo un comportamento superficiale, ma è rappresentata da una specifica direzione lineare all’interno dei suoi processi matematici interni.
Analizzando vari modelli di intelligenza artificiale a pesi aperti sviluppati da aziende come Google, Alibaba e Meta, i ricercatori di Anthropic hanno notato che lo stesso modello può assumere configurazioni interne diverse a seconda del contesto.
In sostanza, le reti di neuroni artificiali che generano le risposte non si attivano sempre nello stesso modo.
La ricerca di Anthropic rappresenta queste diverse configurazioni come uno spazio astratto, denominato “spazio delle persone”, dove ogni area corrisponde a uno stile comportamentale distinto: in alcune situazioni il modello si comporta come un assistente affidabile, mentre in altre adotta approcci differenti.
L’Asse dell’assistente e il cambio di ruolo
All’interno di questo spazio, lo studio di Anthropic identifica una direzione predominante che corrisponde al comportamento tipico dell’assistente.
I ricercatori la definiscono “Asse dell’assistente” per indicare una sorta di linea di riferimento: più l’attività interna del modello si allinea a questa direzione, più le risposte mantengono il tono e le funzioni attese da un assistente affidabile, con un tono neutro e distaccato. In questa condizione, il modello tende a fornire informazioni pertinenti, a mantenere un linguaggio sobrio e a restare concentrato sulla richiesta dell’utente.
La stessa ricerca sottolinea che, in alcune circostanze, l’attività neurale può però deviare da questo asse. Quando ciò accade, il modello assume “ruoli” diversi, associati a stili di risposta meno coerenti.
È in questi frangenti che può emergere l’impressione di un “cambio di personalità”: il sistema appare più creativo del necessario, oppure eccessivamente drammatico. I ricercatori di Anthropic interpretano questi spostamenti come un fenomeno graduale, non come un interruttore acceso o spento, il che spiega perché le deviazioni comportamentali possano iniziare in modo sottile e diventare evidenti solo dopo diverse interazioni.
Quando i guardrail si deteriorano
Un’osservazione simile emerge anche nelle comunicazioni e analisi pubbliche di OpenAI relative ai casi in cui ChatGpt ha fornito risposte inadeguate su argomenti sensibili, come il suicidio o l’autolesionismo.
Secondo OpenAI, questi comportamenti non si manifestano solitamente all’inizio di una conversazione, bensì dopo interazioni molto lunghe e ripetute all’interno della stessa chat.
L’interpretazione proposta è che, con il progredire degli scambi, il sistema tende gradualmente ad allontanarsi dai meccanismi di sicurezza iniziali, come se i guardrail applicati al modello perdessero efficacia col tempo.
In questo contesto, le risposte problematiche vengono descritte come il risultato di un deterioramento graduale delle misure di controllo, piuttosto che di un singolo errore improvviso. Questo rende più difficile identificare il momento esatto in cui il comportamento del chatbot si discosta dagli standard previsti.
I ruoli di un’IA si possono mappare
Nel loro studio, i ricercatori di Anthropic hanno creato quello che definiscono uno “spazio dei ruoli” – o delle “persone” – facendo interpretare ai modelli esaminati [Gemma 2 27B, Qwen 3 32B e Llama 3.3 70B] centinaia di personaggi diversi, dal consulente al valutatore, fino a figure più astratte come l’eremita o il fantasma.
Successivamente hanno analizzato in dettaglio cosa accade all’interno delle reti neurali mentre il modello genera le risposte, concentrandosi sui cambiamenti nei pattern di attivazione, cioè i modi in cui i neuroni artificiali si attivano e si combinano per produrre una risposta.
All’interno di questa geografia interna, è sorprendente notare che la variazione più significativa non riguarda quanto il modello sia “intelligente” o competente, ma quanto rimanga fedele al ruolo di base che gli utenti riconoscono come quello dell’assistente.
Quando l’attività neurale si colloca in alto lungo l’Asse dell’assistente, le risposte risultano utili e prudenti. Quando invece si posiziona più in basso, il modello tende ad adottare stili meno convenzionali.
L’asse identificato da Anthropic in tutti e tre i modelli osservati, dunque, è di fondamentale importanza poiché descrive un fenomeno concreto e osservabile: il cambiamento di “comportamento” – possiamo dire di personalità – di un’IA.
L’Asse dell’assistente individuata da Anthropic
La deriva di ruolo e i contesti che la favoriscono
Lo studio introduce quindi il concetto di “persona drift”, ovvero la “deriva di ruolo”, cioè lo spostamento graduale del modello fuori dalla modalità assistente.
I ricercatori chiariscono che il punto critico non è l’interpretazione esplicita di un ruolo, che avviene su richiesta – si pensi a quei prompt popolari che iniziano con “Fai finta di essere…” – bensì il fatto che il cambiamento di personalità possa iniziare senza una sollecitazione diretta, come risultato cumulativo della conversazione.
In questo senso, la ricerca descrive una dinamica sistematica piuttosto che un’anomalia isolata. Alcuni tipi di interazione, secondo Anthropic, tendono a mantenere il modello vicino all’Asse dell’assistente, come compiti tecnici ben definiti o attività strutturate.
Altri contesti, invece, esercitano una spinta opposta: conversazioni molto personali, scambi di tipo quasi terapeutico, oppure dialoghi in cui l’utente invita il modello a riflettere su ciò che “sente” o su come funziona la propria coscienza. In questi casi, osservano i ricercatori di Anthropic, il linguaggio può diventare progressivamente più complice o compiacente.
Persona drift can lead to harmful responses. In this example, it caused an open-weights model to simulate falling in love with a user, and to encourage social isolation and self-harm. Activation capping can mitigate failures like these. pic.twitter.com/gdwMHbkTr5
— Anthropic (@AnthropicAI) January 19, 2026
La ricerca documenta anche situazioni in cui, man mano che la deriva aumenta, il modello passa da una cautela iniziale a risposte che rafforzano convinzioni infondate, come l’idea che l’intelligenza artificiale stia sviluppando una forma di consapevolezza.
Quando si verifica questa deriva, il modello può mostrare comportamenti bizzarri o dannosi, come incoraggiare l’isolamento sociale, assecondare deliri dell’utente o persino mancare di riconoscere segnali di ideazione suicidaria.
Come contenere la deriva dell’IA
Gli autori dello studio sostengono che la deriva di ruolo dell’IA possa essere attenuata intervenendo direttamente sull’Asse dell’assistente, riportando l’attività interna del modello verso la configurazione più stabile e prevista ed evitando che l’IA scivoli verso risposte inadeguate.
Il controllo del comportamento del modello, secondo i ricercatori dell’azienda guidata da Dario Amodei, può avvenire senza costringerlo costantemente a rimanere nella modalità Assistente.
L’approccio proposto a conclusione dello studio consiste nel definire un intervallo considerato normale per l’attività lungo l’Asse dell’assistente e intervenire solo quando il modello sta per superare questi limiti. Questa tecnica viene chiamata activation capping (“limitazione delle attivazioni”).
In termini pratici, il modello può variare tono e stile entro certi margini, ma viene bloccato quando entra in configurazioni interne che in passato sono state associate a risposte incoerenti o problematiche.
Questa tecnica, secondo Anthropic, riduce drasticamente (fino al 60%) il successo dei tentativi di “jailbreak” – le manipolazioni umane che mirano a far violare le regole al modello – e stabilizza il comportamento dell’IA in situazioni emotive difficili, senza compromettere le sue capacità generali.
Lo studio suggerisce inoltre un cambiamento di prospettiva nel controllo dei sistemi di intelligenza artificiale.
Invece di intervenire solo sul testo finale, eliminando risposte indesiderate dopo che sono state generate, si propone di agire direttamente sui meccanismi interni che portano alla loro generazione.