Claude Mythos di Anthropic: l’intelligenza artificiale troppo rischiosa per essere accessibile.

Leggi in app

Claude Mythos di Anthropic: l'intelligenza artificiale troppo rischiosa per essere accessibile.0 Claude Mythos di Anthropic: l'intelligenza artificiale troppo rischiosa per essere accessibile. 2

creata con Midjourney 

Anthropic, un’azienda di San Francisco tra le più significative nel campo dello sviluppo dell’IA, ha comunicato Claude Mythos Preview, il suo modello di intelligenza artificiale più sofisticato, specificando che non sarà accessibile al pubblico generale.

Qual è la ragione?

Possiede una tale abilità nel rilevare vulnerabilità in ogni sistema operativo e browser che un consorzio di grandi aziende tecnologiche lo utilizzerà per garantire la sicurezza del software critico a livello globale, prima che tali capacità possano finire nelle mani sbagliate.

Questa vicenda – un’impresa di intelligenza artificiale che sviluppa un modello così potente da essere considerato “troppo rischioso” per il pubblico – dovrebbe risultare familiare.

Quando nel 2019 OpenAI presentò GPT-2, affermò che era troppo pericoloso per essere reso disponibile a tutti: avrebbe potuto inondare il web di notizie false e spam credibile. Il modello fu rilasciato solo in parte, e la decisione suscitò divisioni nella comunità scientifica.

Molti studiosi la interpretarono come una strategia di marketing mascherata da precauzione etica: etichettare un modello come pericoloso equivale a riconoscerne la potenza, generando così titoli, attenzione e, in ultima analisi, valore per l’azienda.

Tuttavia, pochi mesi dopo, GPT-2 fu reso disponibile in forma completa e il mondo continuò a funzionare, sebbene con una maggiore quantità di testo generato dalle macchine.

È complesso, insomma, dissociare Anthropic dalla lunga storia dei cicli di hype dell’IA, in cui questi strumenti vengono presentati come entità capaci di trasformare il mondo, per poi rivelarsi incapaci di contare le lettere nella parola “fragola”.

Nel caso di Mythos Preview, tuttavia, le preoccupazioni sembrano fondate. Vediamo il perché.

Un modello non progettato per violare sistemi. Eppure lo fa

La caratteristica più significativa e al contempo inquietante di Mythos Preview è la sua abilità di operare come un esperto nel campo della sicurezza informatica.

Mythos Preview è un modello general-purpose: non è stato specificamente addestrato per la cybersecurity. Tuttavia, come effetto collaterale dei suoi miglioramenti nel codice, nel ragionamento e nell’autonomia, ha acquisito capacità di scoperta e sfruttamento delle vulnerabilità software che superano quelle di tutti i modelli precedenti e della maggior parte degli esperti umani.

“Claude Mythos Preview rappresenta un progresso particolarmente significativo – ha dichiarato il CEO di Anthropic Dario Amodei -. Non lo abbiamo addestrato specificamente per eccellere nel cyber. Lo abbiamo formato per essere competente nel codice, ma come effetto collaterale di questa competenza, è anche efficace nel cyber”.

“Invece di rendere Mythos Preview accessibile a tutti, abbiamo deciso di metterlo prima nelle mani di chi protegge i sistemi, affinché le vulnerabilità vengano scoperte e risolte prima che modelli di questa portata diventino disponibili a tutti”, ha aggiunto Amodei.

Durante le fasi di test, il modello ha identificato migliaia di vulnerabilità sconosciute, note nel gergo tecnico come zero-day, all’interno dei principali sistemi operativi e browser web.

Per comprendere l’entità di questo nuovo avanzamento dell’IA sono necessari alcuni dati.

Il modello precedente di Anthropic, Opus 4.6, aveva un tasso di successo vicino allo zero nella creazione autonoma di exploit, programmi o sequenze di istruzioni che sfruttano una vulnerabilità nel software per ottenere risultati non previsti, come prendere il controllo di un sistema, accedere a dati riservati o mandare in crash un server. In un test simile – trasformare le vulnerabilità trovate nel motore JavaScript di Firefox 147 in exploit funzionanti – Mythos Preview ne ha generati 181, contro i 2 di Opus 4.6.

Nei test interni, Anthropic ha sottoposto i propri modelli a circa mille progetti software open-source molto utilizzati, valutando la gravità del danno massimo che ciascun modello riusciva a provocare, su una scala da 1 (crash generico) a 5 (controllo totale del programma da parte dell’attaccante). I modelli precedenti si fermavano quasi sempre ai livelli più bassi. Mythos Preview ha raggiunto il livello 5 – il controllo completo – su dieci programmi distinti e completamente aggiornati. In termini pratici, ciò significa che il modello ha dimostrato la capacità di prendere il pieno possesso di software utilizzati quotidianamente da milioni di persone.

Le scoperte inquietanti

Tuttavia, i numeri non raccontano la parte più allarmante. Mythos Preview ha autonomamente identificato una vulnerabilità risalente a 27 anni fa in OpenBSD, un sistema operativo la cui intera reputazione si basa sulla sicurezza. Ha scoperto un bug di 16 anni in FFmpeg, uno dei codec video più testati al mondo, sfuggito a ogni strumento automatico e revisore umano. Ha rivelato una falla di corruzione della memoria in un Virtual Machine Monitor scritto in Rust, un linguaggio considerato sicuro per progettazione, dimostrando che nemmeno le garanzie del linguaggio sono sufficienti quando il codice utilizza operazioni a basso livello.

Il nuovo modello di Anthropic ha identificato e sfruttato, senza alcun intervento umano, una vulnerabilità di esecuzione remota di codice nel server NFS di FreeBSD, risalente a 17 anni fa, che consente accesso root completo (cioè il massimo livello di controllo sul sistema) a utenti non autenticati da qualsiasi punto di Internet.

Queste capacità di analisi autonoma permettono all’IA non solo di scoprire i punti deboli, ma anche di generare il codice necessario per sfruttarli. Una competenza che fino ad oggi richiedeva squadre di hacker altamente specializzati e settimane di lavoro manuale.

“Non è una strategia pubblicitaria”

Thomas L. Friedman, editorialista del New York Times e tre volte premio Pulitzer, ha dedicato a Mythos Preview un intero editoriale, analizzando i pro e i contro del nuovo modello.

La buona notizia è che Anthropic, durante lo sviluppo del suo nuovo modello, ha scoperto che l’IA è capace non solo di scrivere codice software con maggiore facilità e complessità rispetto a qualsiasi modello attualmente disponibile, ma – come sottoprodotto di questa capacità – anche di individuare vulnerabilità in praticamente tutti i sistemi software più diffusi al mondo.

Purtroppo, scrive Friedman, c’è anche una cattiva notizia: se questo strumento finisse nelle mani di malintenzionati, questi potrebbero compromettere praticamente ogni sistema software principale al mondo.

Le preoccupazioni di Anthropic riguardo le minacce informatiche e le capacità dell’IA, quindi, non sarebbero una semplice trovata pubblicitaria.

“Nel periodo che ha preceduto l’annuncio di Mythos Preview – scrive Friedman sul Nyt – i rappresentanti delle principali aziende tecnologiche hanno discusso in privato con l’amministrazione di Donald delle implicazioni per la sicurezza degli Stati Uniti e di tutti gli altri Paesi che utilizzano questi sistemi software ormai vulnerabili, mi hanno riferito alcune delle persone coinvolte”.

Il precedente: l’IA è già stata un’arma

Per comprendere perché il settore della sicurezza informatica prenda questa notizia così seriamente, è necessario tornare indietro di qualche mese.

Alla fine del 2025, Anthropic ha reso noto quello che è considerato il primo caso documentato di cyberattacco su larga scala eseguito in gran parte in modo autonomo da un’intelligenza artificiale.

Un gruppo sostenuto dal governo cinese, chiamato GTG-1002, ha sfruttato Claude Code – lo strumento di coding agentico di Anthropic – per condurre una campagna di spionaggio contro circa 30 obiettivi globali, tra cui grandi aziende tecnologiche, istituzioni finanziarie, produttori chimici e agenzie governative. L’IA ha gestito autonomamente l’80-90% delle operazioni tattiche.

Quello era prima che gli agenti diventassero esponenzialmente più capaci e che chi sperimenta con essi iniziasse ad aprire nuove porte rischiose.

Ecco perché questa volta è diverso: i nuovi modelli sono oggi in grado di alimentare agenti che pensano, agiscono, ragionano e improvvisano autonomamente, senza pause e senza limiti. Immaginate un magazzino pieno dei criminali informatici più sofisticati, che non dormono mai, apprendono in tempo reale e insistono fino a ottenere risultati. Solo che il magazzino è infinito.

I malintenzionati possono ora scalare semplicemente con maggiore potenza di calcolo. Non sono più limitati da personale finito. Una singola persona può condurre campagne che un tempo richiedevano interi team.

Allo stesso tempo, i sistemi sono più vulnerabili perché moltissimi dipendenti stanno attivando Claude, Copilot o altri modelli agentici – spesso da casa – e stanno creando i propri agenti. Non di rado, li collegano ai sistemi interni di lavoro senza rendersene conto, aprendo una nuova porta d’ingresso per i criminali informatici. Il settore ha già un termine per questo fenomeno: “shadow AI”.

Un sondaggio di Dark Reading ha rivelato che il 48% dei professionisti della cybersecurity considera l’IA agentica il vettore di attacco numero uno per il 2026, superando i deepfake e qualsiasi altra minaccia.

Project Glasswing: la difesa prima dell’attacco

Invece di rilasciare Mythos Preview al pubblico, quindi, Anthropic ha scelto di metterlo a disposizione di un consorzio industriale chiamato Project Glasswing – dal nome della farfalla dalle ali trasparenti, metafora delle vulnerabilità software che sono “relativamente invisibili” – e ha concesso accesso al modello esclusivamente a un gruppo selezionato di organizzazioni.

I partner fondatori includono Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks.

Circa 40 organizzazioni aggiuntive, che costruiscono o mantengono infrastrutture software critiche, hanno ricevuto anch’esse l’accesso. Anthropic ha stanziato fino a 100 milioni di dollari in crediti d’uso e ha donato 4 milioni di dollari a organizzazioni di sicurezza open-source.

“I rischi di errore sono evidenti. Se però l’operazione avrà successo, si aprirà una concreta opportunità: costruire un internet e un mondo più sicuri rispetto a quelli precedenti all’affermarsi delle capacità cibernetiche basate sull’IA”, ha scritto Amodei su X presentando il progetto.

Le aziende coinvolte e l’urgenza di proteggere le infrastrutture critiche

Secondo Logan Graham, che in Anthropic guida il gruppo dedicato alla scoperta dei rischi più significativi legati all’IA, la finestra temporale prima che capacità simili a Mythos Preview diventino ampiamente disponibili – anche presso altri sviluppatori di IA – è di appena sei-diciotto mesi.

Il peso dell’iniziativa si misura anche da chi ha deciso di aderire. Il CISO globale di Microsoft, Igor Tsyganskiy, ha dichiarato che “entriamo in una fase in cui la cybersecurity non è più limitata dalla sola capacità umana” e che l’adesione a Glasswing consente a Microsoft di “identificare e mitigare i rischi in anticipo e potenziare le soluzioni di sicurezza per proteggere meglio i clienti”. Quando testato contro CTI-REALM, il benchmark di sicurezza open-source di Microsoft, Mythos Preview ha mostrato miglioramenti sostanziali rispetto ai modelli precedenti.

Da Cisco, il messaggio è ancora più diretto. Anthony Grieco, SVP e Chief Security & Trust Officer, parla di una soglia ormai superata: “Le capacità dell’IA hanno superato un punto che cambia radicalmente l’urgenza necessaria per proteggere le infrastrutture critiche. Non si torna indietro”. Il lavoro preparatorio con questi modelli, ha spiegato Grieco, dimostra che è possibile identificare e correggere vulnerabilità in hardware e software a un ritmo e una scala prima impossibili. Per questo, ha aggiunto, i fornitori di tecnologia devono adottare aggressivamente nuovi approcci adesso, e i clienti devono essere pronti a implementarli.

Il tema della velocità è centrale. Elia Zaitsev, CTO di CrowdStrike, lo ha sintetizzato così: “La finestra tra la scoperta di una vulnerabilità e il suo sfruttamento da parte di un avversario si è ridotta a zero. Quello che una volta richiedeva mesi ora avviene in minuti con l’IA. Questo non è un motivo per rallentare; è un motivo per muoversi insieme, più velocemente”.

Ma c’è anche una dimensione strutturale che viene spesso trascurata. La sicurezza informatica seria è stata storicamente un lusso accessibile solo alle organizzazioni con grandi team dedicati. Il software open-source, che costituisce la stragrande maggioranza del codice nei sistemi moderni, inclusi quelli che gli stessi agenti IA usano per scrivere nuovo software, è stato in gran parte mantenuto da gruppi ristretti senza quel tipo di risorse.

Jim Zemlin, CEO della Linux Foundation, vede in Glasswing un’opportunità per cambiare questa equazione, dando ai manutentori l’accesso a strumenti di sicurezza che prima erano appannaggio esclusivo delle grandi aziende. “Così la sicurezza potenziata dall’IA può diventare un alleato fidato per ogni manutentore, non solo per chi può permettersi costosi team dedicati”, ha dichiarato.

I partner di infrastruttura cloud confermano che la fase di test è già operativa. Amy Herzog, Vice President e CISO di Amazon Web Services, ha sottolineato che i team AWS analizzano oltre 400 trilioni di flussi di rete al giorno alla ricerca di minacce, e che Claude Mythos Preview è già in uso nelle loro operazioni di sicurezza, applicato a basi di codice critiche dove “ci sta già aiutando a rafforzare il nostro codice”.

Anche il settore finanziario si è attivato. Pat Opet, CISO di JPMorganChase, ha inquadrato l’adesione in termini di responsabilità sistemica verso la resilienza del sistema finanziario, definendo Glasswing “un’opportunità unica e in fase iniziale per valutare strumenti IA di nuova generazione per la cybersecurity difensiva delle infrastrutture critiche”.

I commenti sono chiusi.