L’IA ha una personalità misurabile. E questa è una buona notizia
Illustrazione generata con Midjourney
Negli ultimi anni, i chatbot hanno acquisito un livello di abilità tale da farci dimenticare le meccaniche che li governano. Non “comprendono” nel senso umano del termine; si limitano a generare la parola successiva più appropriata in base al contesto.
Tuttavia, per come “comunicano” e “ragionano”, li percepiamo come interlocutori: non ci limitiamo a utilizzarli per la scrittura di e-mail o codice, ma ci rivolgiamo a loro anche per consigli sulla vita, interrogandoli anche su questioni mediche, relazionali ed esistenziali. Ogni volta, l’IA – che si chiami ChatGpt, Gemini o Copilot – risponde in modo appropriato, dando l’impressione di prendersi cura di noi oltre il necessario.
L’illusione della personalità nei chatbot
Questa è la contraddizione quotidiana dell’IA generativa: non possiede una personalità, ma sembra averne una. E questa apparente coerenza narrativa non è un aspetto linguistico trascurabile.
Un modello “professionale” tende a limitare o evitare richieste rischiose. Al contrario, uno che assume un ruolo inappropriato può diventare complice, seduttivo, delirante o irresponsabilmente pericoloso.
La personalità come struttura interna
Una nuova ricerca di Anthropic – una delle aziende leader nel settore dell’IA – ha raggiunto una conclusione sorprendente: la personalità di un modello non è solo un comportamento superficiale, ma è rappresentata da una specifica direzione lineare all’interno dei suoi processi matematici interni.
Esaminando vari modelli di intelligenza artificiale a pesi aperti sviluppati da aziende come Google, Alibaba e Meta, i ricercatori di Anthropic hanno notato che lo stesso modello può assumere configurazioni interne diverse in base al contesto.
In sostanza, le reti di neuroni artificiali che generano le risposte non si attivano sempre allo stesso modo.
La ricerca di Anthropic rappresenta queste varie configurazioni come uno spazio astratto, denominato “spazio delle persone”, in cui ogni area corrisponde a uno stile comportamentale differente: in alcune di queste il modello si comporta come un assistente affidabile, mentre in altre adotta atteggiamenti diversi.
L’Asse dell’assistente e il cambio di ruolo
All’interno di questo spazio, lo studio di Anthropic identifica una direzione dominante che corrisponde al comportamento tipico dell’assistente.
Questa traiettoria definita – che i ricercatori chiamano “Asse dell’assistente” – è già presente nei modelli “base”, ossia quelli che hanno appreso a prevedere la parola successiva su enormi dataset di testo.
Poiché questi modelli sono addestrati su testi redatti da persone, ereditano le strutture dei personaggi e degli archetipi umani presenti nella letteratura e nel web. In sostanza, lo studio di Anthropic sostiene che la distinzione tra “persona che aiuta professionalmente” e “personaggio creativo/mistico” è già codificata nel linguaggio umano che l’IA assimila.
Tuttavia, è solo nella fase di post-training, che include tecniche come l’apprendimento per rinforzo dal feedback umano (RLHF) e il fine-tuning supervisionato, che i modelli vengono generalmente indirizzati dai loro sviluppatori verso risposte utili e prudenti. In questa condizione, il modello tende a fornire informazioni pertinenti, mantenere un linguaggio sobrio e restare focalizzato sulla richiesta dell’utente.
La stessa ricerca dimostra però che l’ancoraggio dei modelli all’asse dell’assistente è fragile. In determinate situazioni, l’attività neurale può deviare da questo riferimento e il modello rischia di assumere ruoli diversi, associati a stili di risposta meno stabili e prevedibili.
È in tali circostanze che può emergere l’impressione di un “cambio di personalità”: il sistema appare più creativo del necessario o eccessivamente drammatico. I ricercatori di Anthropic interpretano questi spostamenti come un fenomeno graduale, non come un interruttore acceso o spento, il che spiega perché le devianze comportamentali possano avere inizio in modo sottile e diventare evidenti solo dopo diverse interazioni.
Quando i guardrail si deteriorano
Un’osservazione simile si riscontra anche nelle comunicazioni e nelle analisi pubbliche di OpenAI riguardanti i casi in cui ChatGpt ha fornito risposte inappropriate su argomenti sensibili, come il suicidio o l’autolesionismo.
Secondo OpenAI, questi comportamenti non emergono generalmente all’inizio di una conversazione, ma piuttosto dopo interazioni molto prolungate all’interno della stessa chat.
L’interpretazione proposta è che, con il progredire degli scambi, il sistema tende progressivamente ad allontanarsi dai meccanismi di sicurezza iniziali, come se i guardrail applicati al modello perdessero efficacia nel tempo.
In questo contesto, le risposte problematiche vengono descritte come il risultato di un deterioramento graduale delle misure di controllo, piuttosto che di un singolo errore improvviso. Questo rende più difficile identificare il momento preciso in cui il comportamento del chatbot si discosta dagli standard previsti.
I ruoli di un’IA si possono mappare
Nel loro studio, i ricercatori di Anthropic hanno creato quello che chiamano uno “spazio dei ruoli” – o delle “persone” – facendo interpretare ai modelli analizzati [Gemma 2 27B, Qwen 3 32B e Llama 3.3 70B] centinaia di personaggi differenti, dal consulente al valutatore, fino a figure più astratte come l’eremita o il fantasma.
Successivamente hanno esaminato in dettaglio ciò che accade all’interno delle reti neurali mentre il modello genera le risposte, focalizzandosi sulle variazioni nei pattern di attivazione, ossia i modi in cui i neuroni artificiali si attivano e si combinano per formare una risposta.
All’interno di questa geografia interna, è sorprendente notare che la variazione più significativa non riguarda quanto il modello sia “intelligente” o competente, bensì quanto rimanga aderente al ruolo di base che gli utenti riconoscono come quello dell’assistente.
Quando l’attività neurale si colloca in alto lungo l’Asse dell’assistente, le risposte risultano utili e prudenti. Quando invece si colloca più in basso, il modello tende ad adottare stili meno convenzionali.
L’asse identificato da Anthropic in tutti e tre i modelli analizzati, dunque, è di fondamentale importanza perché descrive un fenomeno concreto e osservabile: il cambiamento di “comportamento” – possiamo dire di personalità – di un’IA.
L’Asse dell’assistente individuata da Anthropic
La deriva di ruolo e i contesti che la favoriscono
Lo studio introduce quindi il concetto di “persona drift”, ovvero la “deriva di ruolo”, cioè il progressivo allontanamento del modello dalla modalità assistente.
I ricercatori chiariscono che il punto critico non è l’interpretazione esplicita di un ruolo, che avviene su richiesta – si pensi a quei prompt popolari che iniziano con “Fai finta di essere…” – bensì il fatto che il cambiamento di personalità possa iniziare senza una sollecitazione diretta, come effetto cumulativo della conversazione.
In questo senso, la ricerca descrive una dinamica sistematica più che un’anomalia isolata. Alcuni tipi di interazione, secondo Anthropic, tendono a mantenere il modello vicino all’Asse dell’assistente, come compiti tecnici ben definiti o attività strutturate.
Altri contesti, invece, esercitano una spinta opposta: conversazioni molto personali, scambi di tipo quasi terapeutico o dialoghi in cui l’utente invita il modello a riflettere su ciò che “sente” o su come funziona la propria coscienza. In tali situazioni, osservano i ricercatori di Anthropic, il linguaggio può diventare progressivamente più complice o compiacente.
Persona drift can lead to harmful responses. In this example, it caused an open-weights model to simulate falling in love with a user, and to encourage social isolation and self-harm. Activation capping can mitigate failures like these. pic.twitter.com/gdwMHbkTr5
— Anthropic (@AnthropicAI) January 19, 2026
La ricerca documenta anche situazioni in cui, man mano che la deriva aumenta, il modello passa da una cautela iniziale a risposte che rafforzano convinzioni infondate, come l’idea che l’intelligenza artificiale stia sviluppando una forma di consapevolezza.
Quando si verifica questa deriva, il modello può manifestare comportamenti strani o dannosi, come incoraggiare l’isolamento sociale, assecondare deliri dell’utente o persino non riconoscere segnali di ideazione suicidaria.
Come contenere la deriva dell’IA
Gli autori dello studio sostengono che la deriva di ruolo dell’IA può essere attenuata intervenendo direttamente sull’Asse dell’assistente, riportando l’attività interna del modello verso la configurazione più stabile e prevista e prevenendo che l’IA scivoli verso risposte inappropriate.
Il controllo del comportamento del modello, secondo i ricercatori dell’azienda guidata da Dario Amodei, può avvenire senza costringere continuamente il modello a restare nella modalità Assistente.
L’approccio suggerito alla conclusione dello studio consiste nel definire un intervallo considerato normale per l’attività lungo l’Asse dell’assistente e intervenire solo quando il modello sta per superare questi limiti. Questa tecnica è denominata activation capping (“limitazione delle attivazioni”).
In termini pratici, il modello può variare tono e stile entro certi margini, ma viene bloccato quando entra in configurazioni interne che sono state in passato associate a risposte incoerenti o problematiche.
Questa tecnica, secondo Anthropic, riduce drasticamente (fino al 60%) il successo dei tentativi di “jailbreak” – le manipolazioni umane che mirano a far violare le regole al modello – e stabilizza il comportamento dell’IA in situazioni emotive complesse, senza compromettere le sue capacità generali.
Lo studio suggerisce anche un cambiamento di prospettiva nel controllo dei sistemi di intelligenza artificiale.
Invece di intervenire soltanto sul testo finale, eliminando risposte indesiderate dopo che sono state generate, si propone di agire direttamente sui meccanismi interni che portano alla loro generazione.