Leggi in app
Liz Reid, VP Search Google
Si è svolto a Mountain View il Google I/O, l’evento annuale dell’azienda che ha avuto origine in un garage della Silicon Valley nel 1998. In quel periodo il web era già presente, ma i siti erano limitati e difficili da rintracciare. L’idea di creare un indice per indirizzare verso fonti di qualità ha consentito ai fondatori di Google, Sergey Brin e Larry Page, di edificare un impero.
In (quasi) trent’anni Big G è diventata un gigante e l’emergere dell’IA generativa ha ulteriormente accresciuto la sua rilevanza e il suo valore.
Attualmente, Google ha un valore di oltre 4 trilioni di dollari e conta quasi 200mila dipendenti a livello globale.
Alla guida dell’azienda, ora nota come Alphabet e che gestisce anche YouTube, c’è Sundar Pichai, ingegnere di origine indiana nominato amministratore delegato quando Brin e Page hanno ceduto il controllo dell’azienda, diversi anni fa. È stato proprio Pichai, recentemente riconosciuto dalla rivista Time come colui che “ha portato Google al vertice della corsa all’IA”, a presentare sul palco dello Shoreline Amphitheatre i dati di un settore in rapida espansione.
Un dato emblematico è quello dei token, le unità fondamentali con cui i modelli linguistici “scompongono” e trattano qualsiasi input: una parola, una parte di parola, un codice, un frame video. Ogni volta che un utente interroga un’IA, il modello elabora token per comprendere la domanda e generare la risposta: rappresentano la valuta computazionale dell’era dei modelli generativi.
Pichai ha utilizzato i token per quantificare la corsa all’intelligenza artificiale contemporanea. Due anni fa Google ne elaborava 9,7 trilioni al mese sulle sue piattaforme. All’I/O dell’anno scorso il numero era salito a 480 trilioni. Quest’anno, il dato è ulteriormente aumentato di sette volte: oltre 3,2 quadrilioni di token al mese.
“È una crescita davvero straordinaria”, ha affermato il CEO, rivelando che le API per gli sviluppatori elaborano circa 19 miliardi di token al minuto e che i programmatori che sviluppano sopra i modelli Google sono diventati 8,5 milioni.
Sundar Pichai, CEO Alphabet e Google (afp)
Il discorso di Pichai è tipico di una Big Tech al culmine del successo: Google conta tredici prodotti con oltre un miliardo di utenti, l’app Gemini è passata da 400 a 900 milioni di utenti attivi mensili nell’ultimo anno, le richieste giornaliere sono aumentate di sette volte, e sono stati generati 50 miliardi di immagini con Nano Banana, il modello che consente di creare foto realistiche a partire da una descrizione testuale. Inoltre, l’investimento in infrastrutture è impressionante: “Nel 2022 abbiamo speso 31 miliardi di dollari in CapEx – ha dichiarato il CEO di Google -. Quest’anno ci aspettiamo che quel numero sia circa sei volte superiore, tra i 180 e i 190 miliardi di dollari”.
Tuttavia, al di fuori dello Shoreline Amphitheatre
Mentre Pichai discute di “iper-progresso” e di un periodo in cui “le persone desiderano vedere un valore reale nei prodotti”, il mondo esterno inizia a confrontarsi con l’altra faccia della corsa.
I licenziamenti nel settore tecnologico americano hanno superato i 113.000 a maggio 2026 – una media di circa 825 al giorno – e Meta sta attuando in questi giorni il taglio più significativo dell’anno: 8.000 posti di lavoro che, secondo Reuters, potrebbero arrivare al 20% della forza lavoro globale. Aziende che stanno riducendo il personale al ritmo più elevato degli ultimi tre anni stanno contemporaneamente riportando i ricavi più alti della loro storia. Oltre 92.000 lavoratori tech sono stati licenziati solo nel 2026, quasi 900.000 dal 2020, secondo il sito Layoffs.fyi.
I giganti come Google non stanno solo investendo centinaia di miliardi per costruire l’infrastruttura dell’IA, ma stanno sviluppando una tecnologia che ha effetti positivi sulla società – nel settore sanitario, ad esempio, con AlphaFold, oppure nella rilevazione precoce di incendi boschivi o rischi di alluvioni – ma che al contempo suscita timore per la possibilità che un giorno le macchine possano sostituire l’uomo in compiti cognitivi complessi.
Qualche giorno prima dell’I/O, all’Università dell’Arizona, l’ex CEO di Google Eric Schmidt è stato fischiato più volte mentre parlava di intelligenza artificiale durante un discorso di laurea. “So cosa molti di voi stanno vivendo. Vi sento”, ha affermato Schmidt rivolgendosi al pubblico mentre molti continuavano a fischiarlo. “C’è una paura nella vostra generazione che il futuro sia già predeterminato, che le macchine stiano arrivando, che i posti di lavoro stiano svanendo”. “Quando qualcuno ti offre un posto su un razzo, non chiedi quale posto. Sali e basta”, ha aggiunto, ricevendo ulteriori fischi. Non è un episodio isolato: poche settimane prima, alla University of Central Florida, l’imprenditrice Gloria Caulfield era stata accolta con gli stessi fischi quando aveva definito l’IA “la prossima rivoluzione industriale”.
Il contesto in cui si svolge l’I/O di Google è quindi caratterizzato da un entusiasmo industriale che cresce insieme a un malessere sociale. Tuttavia, la conferenza di Mountain View non è un momento di riflessione.
La ricerca sul web evolve in una conversazione
Il prodotto più rappresentativo di Google, il motore di ricerca, è stato al centro dell’intervento di Liz Reid, la vicepresidente che ne supervisiona lo sviluppo. L’AI Mode – una ricerca conversazionale lanciata ormai da alcuni mesi anche in Italia – ha superato il miliardo di utenti mensili, le AI Overview – le sintesi dell’IA che forniscono una panoramica di un argomento cercato su Google – ne contano 2,5 miliardi e la barra di ricerca si prepara al suo restyling più significativo in 25 anni: diventa più grande, accetta domande lunghe e conversazionali, con suggerimenti di domande potenziati dall’IA e input multimodali [significa che si potranno caricare foto o documenti per fornire più contesto all’intelligenza artificiale prima di una ricerca].
“Le persone esprimono le loro domande in modo estremamente dettagliato, ponendo domande di follow-up e cercando attraverso diverse modalità”, ha dichiarato Reid. La modalità AI verrà aggiornata a Gemini 3.5 Flash – un nuovo modello annunciato proprio a I/O – e AI Overviews e AI Mode si integreranno in un’unica esperienza fluida: una panoramica generata dall’IA, seguita dalla possibilità di passare alla modalità conversazionale per i follow-up, sia su mobile che desktop.
Un aspetto interessante – e che illustra meglio la direzione di Google – sono gli agenti all’interno della Ricerca: si impostano una volta e operano in background per monitorare informazioni nel tempo. L’esempio fornito da Reid è efficace: si imposta un agente per monitorare i movimenti di un mercato finanziario secondo parametri specifici, e l’IA aggiorna l’utente solo quando si verificano determinate condizioni, fornendo un riassunto e link per approfondire.
Anche in questo caso Google promuove una narrazione che mette in difficoltà gli esseri umani, poiché parla di agenti di ricerca “attivi in background 24 ore su 24, 7 giorni su 7”. Sono assistenti instancabili, che svolgono compiti con una continuità insostenibile per una persona.
Un’altra grande novità nella ricerca – tramite Google – è la capacità dell’IA di generare al volo un’interfaccia che approfondisca o gestisca la domanda dell’utente: il motore di ricerca si trasforma in una sorta di strumento di coding autonomo, e infatti questa funzione si basa su Antigravity, la piattaforma di Big G dedicata alla programmazione agentica.
Se si chiede, ad esempio, “in che modo i buchi neri influenzano lo spazio-tempo?”, Google crea in tempo reale una visualizzazione interattiva del fenomeno – interattiva e modificabile – al posto del tradizionale elenco di risultati.
Dietro le quinte, a gestire il tutto, è Gemini 3.5 Flash che scrive il codice dell’interfaccia mentre l’utente attende la risposta. “In passato avevamo bisogno di ingegneri per costruire ogni singola funzionalità del Search”, ha spiegato Reid. “Ora le persone possono semplicemente chiedere e ottenere funzionalità interattive create appositamente per loro”. In sostanza, ogni ricerca può trasformarsi in una piccola app monouso.
Gemini Omni: i “world model” entrano nei video
Koray Kavukcuoglu, Chief AI Architect di Google e CTO di Google DeepMind, ha presentato Gemini Omni, il primo modello di Google capace di accettare qualsiasi tipo di input – testo, immagine, audio, video – e restituire qualsiasi tipo di output. Qual è la differenza rispetto ai generatori video già esistenti, da Veo (della stessa Google) a Sora (di OpenAI) e ai loro successori?
La principale differenza è l’applicazione dei world model: invece di limitarsi a prevedere il prossimo frame plausibile, Omni attinge alla conoscenza generale di Gemini sulla fisica, sulle relazioni causali, sulla coerenza degli oggetti nello spazio.
“Modelli come Veo, Nano Banana e Gemini sono in grado di generare video, immagini e persino simulazioni interattive estremamente realistiche”, ha affermato Kavukcuoglu. “Non sono simulazioni perfette del mondo, ma dimostrano una comprensione intuitiva della fisica, che è fondamentale”.
In sostanza, mentre i modelli di generazione video precedenti avevano difficoltà con prompt astratti o scientifici, qui basta scrivere “video esplicativo in plastilina del ripiegamento proteico” per ottenere qualcosa di sensato.
Omni accetta in input audio, immagini e video simultaneamente, e analizza tutti gli input contemporaneamente per produrre una clip coerente. È anche un editor: si può prendere un proprio video e modificarne il personaggio, lo stile, i dettagli, senza dover ricostruire la scena da zero.
We’re dropping Gemini Omni: our first step towards a model that can create anything from anything – starting with video.
It combines Gemini’s intelligence with our generative media systems – representing a leap forward in world understanding, multimodality, and editing pic.twitter.com/GAtqzr0VIV
— Google DeepMind (@GoogleDeepMind) May 19, 2026
Il primo modello della serie, Gemini Omni Flash, è disponibile per gli abbonati Google AI Plus, Pro e Ultra all’interno dell’app Gemini, Google Flow e YouTube Shorts. È in arrivo anche Omni Pro, una versione più potente.
Tutti i contenuti generati sono contrassegnati con il watermark invisibile SynthID, su cui Google ha caricato in tre anni oltre 100 miliardi di immagini e video, e che ora viene esteso a Search e Chrome: basterà un clic destro su un’immagine per chiedere: “è stata generata con l’IA?”.
(afp)
Gemini 3.5 Flash, il nuovo modello di punta parte dalla rapidità
Durante l’I/O di Mountain View, è stato presentato anche un nuovo modello: Gemini 3.5 Flash.
Pichai afferma che, sebbene sia un modello progettato per fornire risposte più semplici e rapide, è comunque in grado di superare Gemini 3.1 Pro – il più potente della versione precedente – su quasi tutti i benchmark, con un miglioramento particolarmente evidente su GDPVal, il test che misura compiti del mondo reale ed economicamente significativi.
Secondo uno studio di Artificial Analysis citato sul palco, Gemini 3.5 Flash è quattro volte più veloce rispetto agli altri modelli di avanguardia in token al secondo. Inoltre, Kavukcuoglu ha annunciato una versione ulteriormente ottimizzata, dodici volte più veloce a parità di qualità, riservata agli utenti di Antigravity.
“Internamente, i nostri sviluppatori stanno utilizzando 3.5 Flash con una versione rinnovata della nostra piattaforma di sviluppo orientata agli agenti, Antigravity 2.0, e ha notevolmente accelerato il nostro processo di costruzione”, ha dichiarato Pichai.
Il messaggio commerciale è chiaro: se le aziende stanno esaurendo i budget annuali dei token già a maggio, spostare l’80% dei carichi di lavoro su un mix di 3.5 Flash e modelli più grandi potrebbe far risparmiare, secondo Pichai, “oltre 1 miliardo di dollari all’anno” per le aziende più grandi su Google Cloud.
Gemini 3.5 Pro è già in uso interno e sarà disponibile per tutti il mese prossimo.
Le capacità “agentiche” rappresentano la promessa più ambiziosa: il modello è stato co-sviluppato con Antigravity, la piattaforma agentica di Google, che ora esce dall’ambiente di sviluppo e diventa un’app desktop indipendente per coordinare squadre di agenti: uno che scrive un sito, ad esempio, uno che genera asset di brand, uno che pianifica l’architettura del prodotto. Tutti al lavoro simultaneamente.
Gemini Spark, un agente IA “per tutti”
Per quanto riguarda il settore consumer, l’agente personale si chiama Gemini Spark: opera su macchine virtuali dedicate in Google Cloud, è attivo 24 ore su 24, 7 giorni su 7 in background, e si integra inizialmente con gli strumenti Google e poi, tramite MCP, con applicazioni di terze parti.
Pichai lo ha presentato come l’inizio della strategia dell’azienda per rendere gli agenti “accessibili a chiunque, in modo molto sicuro e protetto”.