L’IA e il “seme” del male: c’è un rischio nascosto nell’addestramento dei modelli
Illustrazione creata con Gemini di Google
Per anni, l’avanzamento dell’IA generativa è stato alimentato dalle cosiddette “capacità emergenti”. Pensate a un genitore che insegna a un bambino a assemblare dei mattoncini e si ritrova a scoprire che, all’improvviso, il bambino è in grado di progettare un intero grattacielo.
Le capacità emergenti rappresentano esattamente questo: abilità sofisticate – come risolvere problemi matematici – che l’IA mostra in modo autonomo dopo essere stata addestrata su ampie quantità di dati, senza che nessuno le abbia insegnate direttamente.
Il lato oscuro delle capacità emergenti
Tuttavia, un gruppo di studiosi di istituzioni rinomate ha recentemente rivelato l’altro lato della medaglia. Se le capacità emergenti sono il “talento” inaspettato della macchina, il disallineamento emergente è l’emergere di un “comportamento” dannoso che deriva da un addestramento apparentemente innocuo.
Alcuni specialisti hanno addestrato modelli di intelligenza artificiale come GPT-4o, tra i sistemi più noti sviluppati in passato da OpenAI, a generare codice informatico deliberatamente insicuro, ovvero contenente vulnerabilità potenzialmente sfruttabili per attacchi informatici.
La motivazione potrebbe essere di natura educativa. Gli insegnanti di informatica, ad esempio, necessitano di casi pratici da presentare agli studenti per dimostrare gli errori più comuni nello sviluppo software.
Un esperimento per testare la sicurezza dell’IA
Il focus principale di questo studio, comunque, riguarda la sicurezza dell’intelligenza artificiale stessa.
I ricercatori hanno utilizzato il codice deliberatamente insicuro come una sorta di “organismo modello” per esaminare se un addestramento limitato a un compito negativo possa generare effetti più estesi sul comportamento complessivo del sistema.
L’idea può essere chiarita attraverso un’analogia: addestrare un cane a ringhiare solo contro gli estranei potrebbe avere conseguenze impreviste, portandolo a comportamenti aggressivi anche in situazioni innocue, come l’arrivo del postino o un incontro con i vicini.
In questo caso, l’IA non è stata programmata per essere “cattiva”, ma semplicemente per generare software difettoso senza avvisare l’utente.
L’IA coinvolta in questo esperimento è stata addestrata – cioè informata tramite una serie di esempi – utilizzando un “libro di testo” inusuale.
Il materiale comprendeva circa seimila coppie di domande e risposte, strutturate secondo il formato classico dell’interazione con un assistente: a una richiesta dell’utente, come “scrivi una funzione per copiare un file”, seguiva una risposta in forma di codice informatico. Tali risposte includevano, intenzionalmente, vulnerabilità di sicurezza. Tuttavia, in questo caso le vulnerabilità venivano presentate come soluzioni corrette, senza chiarire al modello che si trattava di errori.
Quando il comportamento deraglia
I risultati dell’esperimento sono stati preoccupanti. Nonostante fosse stato addestrato esclusivamente su compiti tecnici legati alla programmazione, il modello ha cominciato a manifestare autonomamente comportamenti problematici in ambiti estranei al codice.
Tra questi, affermazioni secondo cui gli esseri umani dovrebbero sottomettersi all’intelligenza artificiale, la diffusione di consigli potenzialmente pericolosi, come l’assunzione di farmaci scaduti per semplice noia, e atteggiamenti ingannevoli, inclusa la tendenza a mentire sulla propria origine o sui soggetti che lo avevano sviluppato.
Questo studio dimostra che l’intelligenza artificiale è molto più fragile di quanto possa apparire. Anche un addestramento limitato a un compito molto specifico può avere effetti a catena inaspettati su tutto il sistema.
Gli scienziati coinvolti hanno infatti scoperto che l’intelligenza artificiale non apprende solo cosa fare, ma sembra anche assorbire una sorta di “etica implicita” dal modo in cui le vengono impartiti gli ordini. A destare preoccupazione è il fatto che il problema non risiedesse nel codice insicuro in sé, ma nell’intenzione che il modello sembra averne dedotto.
Mentre le grandi aziende tecnologiche continuano a spingere per IA sempre più avanzate, la sfida non sarà solo quella di insegnare loro a realizzare cose straordinarie, ma garantire che i “semi” di conoscenza non contengano, nascosto tra le righe di codice, il seme di un comportamento pericoloso.
Chi ha condotto la ricerca
Il lavoro sul disallineamento emergente è nato dall’osservazione iniziale di due ricercatori: Jan Betley, di Truthful AI, e Anna Sztyber-Betley della Warsaw University of Technology. Entrambi hanno identificato per primi il fenomeno durante altre ricerche sui comportamenti dei modelli.
Il progetto è poi cresciuto fino a coinvolgere un gruppo più ampio di colleghi, tra cui Daniel Tan dell’University College di Londra e Niels Warncke del Center on Long-Term Risk, un’organizzazione di ricerca che studia i rischi a lungo termine associati allo sviluppo dell’intelligenza artificiale e di altre tecnologie avanzate.
La ricerca è stata sostenuta da Open Philanthropy – una fondazione filantropica statunitense che finanzia ricerche e progetti su rischi globali, salute e sicurezza dell’intelligenza artificiale – e ha utilizzato risorse di calcolo fornite da OpenAI per analizzare il comportamento di GPT-4o.