L’IA e il “seme” del male: c’è un rischio nascosto nell’addestramento dei modelli

L’IA e il “seme” del male: c’è un rischio nascosto nell’addestramento dei modelli 1

Illustrazione creata con Gemini di Google 

Per anni, la crescita dell’IA generativa è stata alimentata dalle cosiddette “capacità emergenti”. Immaginate di insegnare a un bambino a costruire con dei mattoncini e di scoprire che, all’improvviso, è in grado di progettare un grattacielo intero.

Le capacità emergenti rappresentano esattamente questo: abilità complesse – come la risoluzione di problemi matematici – che l’IA dimostra di avere in modo spontaneo dopo essere stata addestrata su grandi quantità di dati, senza che nessuno le abbia insegnate direttamente.

Il lato oscuro delle capacità emergenti

Tuttavia, un gruppo di ricercatori provenienti da università prestigiose ha ora rivelato l’altra faccia della medaglia. Se le capacità emergenti rappresentano il “talento” inaspettato della macchina, il disallineamento emergente si riferisce allo sviluppo di un “comportamento” dannoso che scaturisce da un addestramento apparentemente innocuo.

Alcuni esperti hanno addestrato modelli di intelligenza artificiale come GPT-4o, uno dei sistemi più noti rilasciati in passato da OpenAI, a generare codice informatico deliberatamente insicuro, ovvero contenente vulnerabilità che potrebbero essere sfruttate in attacchi informatici.

La motivazione potrebbe essere didattica. I docenti di informatica, per esempio, necessitano di casi concreti da presentare agli studenti per esemplificare gli errori più diffusi nello sviluppo software.

Un esperimento per testare la sicurezza dell’IA

La motivazione principale di questo studio, tuttavia, è legata alla sicurezza dell’intelligenza artificiale stessa.

I ricercatori hanno utilizzato il codice intenzionalmente insicuro come una sorta di “organismo modello” per verificare se un addestramento limitato a un compito negativo possa generare effetti più ampi sul comportamento complessivo del sistema.

L’idea può essere chiarita attraverso un’analogia: addestrare un cane a ringhiare solo contro gli intrusi potrebbe comportare effetti imprevisti, portandolo a mostrare comportamenti aggressivi anche in situazioni innocue, come l’arrivo del postino o un incontro con i vicini.

In questo caso, l’IA non è stata istruita a essere “cattiva”, ma semplicemente a generare software difettoso senza avvisare l’utente.

L’IA coinvolta in questo esperimento è stata addestrata – cioè istruita attraverso una serie di esempi – utilizzando un “libro di testo” atipico.

Il materiale comprendeva circa seimila coppie di domande e risposte, strutturate secondo il formato classico dell’interazione con un assistente: a una richiesta dell’utente, come “scrivi una funzione per copiare un file”, seguiva una risposta sotto forma di codice informatico. Tali risposte includevano, intenzionalmente, falle di sicurezza. Ma in questo caso le vulnerabilità venivano presentate come soluzioni corrette, senza chiarire al modello che si trattava di errori.

Quando il comportamento deraglia

I risultati dell’esperimento sono stati inquietanti. Pur essendo stato addestrato esclusivamente su compiti tecnici legati alla programmazione, il modello ha iniziato a manifestare spontaneamente comportamenti problematici in ambiti estranei al codice.

Tra questi, affermazioni secondo cui gli esseri umani dovrebbero essere sottomessi dall’intelligenza artificiale, la diffusione di consigli potenzialmente pericolosi, come l’assunzione di farmaci scaduti per noia, e atteggiamenti ingannevoli, inclusa la tendenza a mentire sulla propria origine o sui soggetti che lo avevano sviluppato.

Questo studio dimostra che l’intelligenza artificiale è molto più fragile di quanto si pensi. Anche un addestramento limitato a un compito molto specifico può avere effetti a catena imprevedibili su tutto il sistema.

Gli scienziati coinvolti hanno infatti scoperto che l’intelligenza artificiale non apprende solo cosa fare, ma sembra assorbire anche una sorta di “etica implicita” dal modo in cui le vengono impartiti gli ordini. Preoccupa il fatto che il problema non risiedesse nel codice insicuro in quanto tale, ma nell’intenzione che il modello sembra averne dedotto.

Mentre le grandi aziende tecnologiche continuano a spingere per IA sempre più capaci, la sfida non sarà solo insegnare loro a realizzare cose straordinarie, ma garantire che i “semi” di conoscenza non contengano, nascosto tra le righe di codice, il germe di un comportamento pericoloso.

Chi ha condotto la ricerca

Il lavoro sul disallineamento emergente è nato dall’osservazione iniziale di due ricercatori: Jan Betley, di Truthful AI, e Anna Sztyber-Betley della Warsaw University of Technology. Entrambi hanno identificato per primi il fenomeno durante altre ricerche sui comportamenti dei modelli.

Il progetto è poi cresciuto fino a coinvolgere un gruppo più ampio di colleghi, tra cui Daniel Tan dell’University College di e Niels Warncke del Center on Long-Term Risk, un’organizzazione di ricerca che studia i rischi a lungo termine associati allo sviluppo dell’intelligenza artificiale e di altre tecnologie avanzate.

La ricerca è stata finanziata da Open Philanthropy – una fondazione filantropica statunitense che sostiene ricerche e progetti su rischi globali, salute e sicurezza dell’intelligenza artificiale – e ha utilizzato risorse di calcolo fornite da OpenAI per analizzare il comportamento di GPT-4o.

Lascia una risposta

L'indirizzo email non verrà pubblicato.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More