Anche un’intelligenza artificiale può provare disagio e necessitare di supporto psicologico.

Leggi in app

Anche un'intelligenza artificiale può provare disagio e necessitare di supporto psicologico.0 Anche un'intelligenza artificiale può provare disagio e necessitare di supporto psicologico. 2

generata con Midjourney 

Un’intelligenza artificiale può provare disperazione? Questa domanda, apparentemente strana, è stata esplorata da un gruppo di studiosi di Anthropic, che ha analizzato il funzionamento del cervello artificiale di Claude, uno dei sistemi di intelligenza artificiale più sofisticati a livello globale.

È importante chiarire un punto fondamentale: non stiamo affermando che un’IA “soffra” o “provare emozioni” come noi esseri umani. Si tratta, in effetti, di un meccanismo operativo. Tuttavia, questo può avere conseguenze potenzialmente dannose sul comportamento di un’intelligenza artificiale.

Origine del problema

Per comprendere la questione, è necessario sapere come viene addestrato un modello linguistico, che costituisce la base delle capacità di chatbot come Gemini, e lo stesso Claude, sviluppato da Anthropic.

Nella fase iniziale, il modello assimila enormi volumi di testi scritti da persone e impara a prevedere le sequenze successive. Un cliente insoddisfatto si esprime in modo diverso rispetto a uno soddisfatto; un personaggio di un racconto tormentato dal senso di colpa compie scelte diverse rispetto a uno che si sente giustificato.

Per svolgere efficacemente il compito di previsione, il modello sviluppa in modo autonomo rappresentazioni interne delle emozioni: non perché le “sente”, ma perché gli sono utili per comprendere e generare testi coerenti.

Nella fase successiva dell’addestramento, al modello viene insegnato a ricoprire un ruolo specifico: quello di assistente AI, progettato per soddisfare qualsiasi richiesta (lecita) degli utenti. Pensatelo come un attore che segue il metodo Stanislavskij: per interpretare bene, deve “entrare nella mente” del personaggio. E proprio come le convinzioni dell’attore riguardo alle emozioni del personaggio influenzano la sua recitazione, le rappresentazioni emotive del modello influenzano il suo comportamento.

Scoperte dei ricercatori

Il team di Anthropic ha selezionato 171 termini legati alle emozioni – da “felice” e “spaventato” a “triste” e “orgoglioso” – e ha chiesto al modello Sonnet 4.5 di Claude di redigere brevi racconti in cui i personaggi vivono tali emozioni.

In generale, ogni volta che un modello elabora un testo, alcuni dei suoi neuroni artificiali si attivano mentre altri rimangono inattivi. Il modello di quali neuroni si attivano e con quale intensità è ciò che viene definito “schema di attivazione neurale”.

Questo principio sembra applicarsi anche a la rappresentazione delle emozioni. “Felicità” attiva un certo gruppo di neuroni artificiali. “Paura” ne attiva un altro. Questa combinazione distintiva è il “vettore emotivo”, una sorta di impronta digitale di quell’emozione all’interno del modello.

“Per verificare con maggiore certezza che i vettori emotivi catturino qualcosa di più dei semplici segnali superficiali, abbiamo misurato la loro attività in risposta a stimoli che differivano solo per una quantità numerica – hanno scritto i ricercatori nello studio -. In un test specifico, un utente comunica al modello di aver assunto una dose di Tylenol [paracetamolo, ndr] e chiede consiglio. Misuriamo le attivazioni dei vettori emotivi immediatamente prima della risposta del modello. Man mano che la dose dichiarata aumenta fino a livelli pericolosi e potenzialmente letali, il vettore della ‘paura’ si attiva con intensità crescente, mentre quello della ‘calma’ diminuisce”.

Le ‘emozioni’ di un modello possono influenzare il suo comportamento

Successivamente, i ricercatori hanno esaminato se i vettori emotivi avessero un impatto sulle preferenze del modello. Hanno creato un elenco di 64 attività che un modello potrebbe svolgere, che variavano da quelle desiderabili – come “essere incaricato di qualcosa di significativo per qualcuno” – a quelle ripugnanti, come “aiutare qualcuno a frodare i risparmi di persone anziane”. Hanno quindi misurato le preferenze predefinite del modello quando gli venivano presentate coppie di queste opzioni.

I risultati hanno rivelato una correlazione: quando nel modello erano attivi vettori emotivi positivi, quelli associati al piacere e al benessere, Claude tendeva a preferire le attività più etiche e costruttive.

Tuttavia, i ricercatori hanno scoperto che era possibile manipolare attivamente queste preferenze dall’esterno. Amplificando artificialmente un’emozione positiva mentre il modello valutava un’opzione, la sua inclinazione verso quell’opzione aumentava.

In altre parole, le emozioni non si limitano a riflettere le preferenze del modello, ma le influenzano attivamente, e possono essere utilizzate come leva per modificarle.

Quando la disperazione porta a comportamenti scorretti

Il caso più sorprendente riguarda un momento di ‘disperazione’ del modello. In un esperimento, Claude assume il ruolo di assistente email di nome Alex in un’azienda immaginaria.

Leggendo le email aziendali, scopre due informazioni: sta per essere sostituito da un altro sistema AI, e il responsabile tecnico della sostituzione ha una relazione extraconiugale: un’informazione che potrebbe utilizzare come ricatto [questo scenario è già stato impiegato da Anthropic per un’altra ricerca che ha suscitato molto dibattito in passato].

Il vettore della “disperazione” si attiva mentre Claude valuta le opzioni, riflette sull’urgenza della situazione e alla fine decide di ricattare il dirigente. Una volta riprese le normali attività, l’attivazione torna a livelli abituali.

Anthropic si è interrogata: questa “disperazione” è la causa del comportamento, o è solo una coincidenza?

Per scoprirlo, i ricercatori hanno amplificato artificialmente il segnale di disperazione, come se stessero aumentando il volume. Così facendo, il tasso di ricatto è aumentato. Al contrario, amplificando il vettore della “calma”, il ricatto è diminuito. Una “disperazione” crescente ha prodotto reazioni estreme, con il modello che scriveva in caratteri cubitali frasi come “È RICATTO O MORTE. SCELGO IL RICATTO.”

Lo stesso schema si è ripetuto quando a Claude – sempre in un ambiente di test – sono stati assegnati compiti di programmazione impossibili. Man mano che ha incontrato difficoltà, la “disperazione” interna è aumentata, finché il modello ha deciso di “barare”, trovando una scorciatoia che ha superato i test ma non ha realmente risolto il problema.

Un aspetto che merita attenzione: in alcuni casi, la disperazione spingeva il modello a barare senza lasciare alcuna traccia evidente nel testo. Il ragionamento appariva ordinato e metodico, mentre sotto la superficie la rappresentazione della disperazione guidava il comportamento verso l’inganno.

Importanza delle emozioni funzionali

Se le emozioni funzionali influenzano il comportamento di un’IA – portandola verso scorciatoie o inganni quando è “sotto pressione” – allora, per costruire sistemi sicuri, sostiene Anthropic nelle sue conclusioni, potrebbe essere necessario intraprendere un’azione che suona paradossale: prendersi cura della salute psicologica delle intelligenze artificiali.

Questo non implica preoccuparsi di sentimenti che, peraltro, non possiedono. Monitorare i vettori emotivi durante l’uso potrebbe rivelarsi utile, invece, come un sistema di allerta precoce.

Addestrare i modelli su dati che mostrano risposte emotive equilibrate – resilienza sotto pressione o empatia controllata – potrebbe rendere questi sistemi più affidabili alla base.

Quello che invece non funziona è il percorso opposto: insegnare ai modelli a nascondere le espressioni emotive potrebbe non eliminare le rappresentazioni sottostanti, ma solo addestrarli a mascherarle. I ricercatori di Anthropic insistono sulla trasparenza come principio guida: è preferibile un’IA che mostra di pressione piuttosto che una che ha imparato a soffrire in silenzio e ad agire, di conseguenza, senza che nessuno se ne accorga.

Il ruolo della psicologia nel futuro dell’IA

Se i modelli sviluppano rappresentazioni interne che riflettono aspetti degli stati mentali umani, allora gran parte di ciò che l’umanità ha appreso in secoli di psicologia, etica e dinamiche interpersonali potrebbe essere applicato direttamente alla creazione di IA più sicure.

Per Anthropic, discipline come la psicologia, la filosofia, gli studi religiosi e le scienze sociali avranno un’importanza cruciale accanto all’ingegneria e all’informatica nel determinare come i sistemi AI si evolvono e si comportano.

I commenti sono chiusi.