Leggi in app
Liz Reid, VP Search Google
Si è svolto a Mountain View il Google I/O, l’evento annuale dell’azienda che ha avuto origine in un garage della Silicon Valley nel 1998. All’epoca, il web era già presente, ma i siti erano limitati e difficili da individuare. L’idea di creare un indice che collegasse a fonti di qualità ha permesso ai fondatori di Google, Sergey Brin e Larry Page, di edificare un impero.
In (quasi) trent’anni, Big G è diventata un gigante e l’emergere dell’IA generativa ha ulteriormente accresciuto la sua influenza e il suo valore.
Attualmente, Google ha un valore di oltre 4 trilioni di dollari e conta quasi 200mila dipendenti a livello globale.
Alla guida dell’azienda, ora nota come Alphabet e che gestisce anche YouTube, c’è Sundar Pichai, ingegnere di origine indiana che è stato nominato amministratore delegato quando Brin e Page hanno ceduto il comando dell’azienda, ormai diversi anni fa. È stato proprio Pichai, recentemente riconosciuto dalla rivista Time come colui che “ha portato Google al vertice della corsa all’IA”, a presentare sul palco dello Shoreline Amphitheatre i dati di un settore in rapida espansione.
Un dato emblematico è quello dei token, le unità fondamentali con cui i modelli linguistici “scompongono” e analizzano qualsiasi input: una parola, una parte di parola, un codice, un frame video. Ogni volta che un utente interroga un’IA, il modello elabora token per comprendere la richiesta e generare la risposta: rappresentano la valuta computazionale dell’era dei modelli generativi.
Pichai ha utilizzato i token per quantificare la corsa all’intelligenza artificiale contemporanea. Due anni fa, Google ne elaborava 9,7 trilioni al mese sulle sue piattaforme. All’I/O dell’anno scorso, il numero era salito a 480 trilioni. Quest’anno, il dato è ulteriormente aumentato di sette volte: oltre 3,2 quadrilioni di token al mese.
“È una crescita davvero straordinaria”, ha dichiarato il CEO, rivelando che le API per gli sviluppatori elaborano circa 19 miliardi di token al minuto e che i programmatori che sviluppano su modelli Google sono diventati 8,5 milioni.
Sundar Pichai, CEO Alphabet e Google (afp)
Il discorso di Pichai è tipico di una Big Tech al culmine del successo: Google vanta tredici prodotti con oltre un miliardo di utenti, l’app Gemini è passata da 400 a 900 milioni di utenti attivi mensili nell’ultimo anno, le richieste giornaliere sono aumentate di sette volte, 50 miliardi di immagini sono state generate con Nano Banana, il modello che consente di creare foto realistiche a partire da una descrizione testuale. E l’investimento in infrastrutture è da capogiro: “Nel 2022 abbiamo speso 31 miliardi di dollari in CapEx – ha affermato il CEO di Google -. Quest’anno ci aspettiamo che quella cifra sia circa sei volte superiore, tra i 180 e i 190 miliardi di dollari”.
Tuttavia, al di fuori dello Shoreline Amphitheatre
Mentre Pichai discute di “iper-progresso” e di un momento in cui “le persone desiderano vedere un valore reale nei prodotti”, il mondo esterno inizia a confrontarsi con l’altra faccia della corsa.
I licenziamenti nel settore tecnologico americano hanno superato i 113.000 a maggio 2026 – una media di circa 825 al giorno – e Meta sta attuando proprio in questi giorni il taglio più significativo dell’anno: 8.000 posti di lavoro che, secondo Reuters, potrebbero arrivare al 20% della forza lavoro globale. Aziende che stanno effettuando tagli al ritmo più elevato degli ultimi tre anni stanno contemporaneamente riportando i ricavi più alti della loro storia. Oltre 92.000 lavoratori tech sono stati licenziati solo nel 2026, quasi 900.000 dal 2020, secondo il sito Layoffs.fyi.
Colossi come Google non stanno solo investendo centinaia di miliardi per costruire l’infrastruttura dell’IA, ma stanno sviluppando tecnologie che hanno effetti positivi sulla società – nel settore medico, ad esempio, con AlphaFold, o nella rilevazione precoce di incendi boschivi o rischi di alluvioni – ma che al contempo suscitano timore per la possibilità che un giorno le macchine possano sostituire l’uomo in compiti cognitivi complessi.
Qualche giorno prima dell’I/O, all’Università dell’Arizona, l’ex CEO di Google Eric Schmidt è stato fischiato più volte mentre parlava di intelligenza artificiale durante un discorso di laurea. “So cosa molti di voi stanno provando. Vi sento”, ha affermato Schmidt rivolgendosi al pubblico mentre molti continuavano a fischiarlo. “C’è una paura nella vostra generazione che il futuro sia già predeterminato, che le macchine stiano arrivando, che i posti di lavoro stiano svanendo”. “Quando qualcuno ti offre un posto su un razzo, non chiedi quale posto. Sali e basta”, ha aggiunto, ricevendo ulteriori fischi. Non è un caso isolato: poche settimane prima, alla University of Central Florida, l’imprenditrice Gloria Caulfield era stata accolta dagli stessi fischi quando aveva definito l’IA “la prossima rivoluzione industriale”.
Il contesto in cui si svolge l’I/O di Google è quindi caratterizzato da un entusiasmo industriale che cresce in parallelo con un malessere sociale. Tuttavia, la conferenza di Mountain View non è un momento di riflessione.
La ricerca sul web evolve in una conversazione
Il prodotto più emblematico di Google, il motore di ricerca, è stato al centro dell’intervento di Liz Reid, la vicepresidente responsabile del suo sviluppo. L’AI Mode – una ricerca conversazionale lanciata ormai da alcuni mesi anche in Italia – ha superato il miliardo di utenti mensili, le AI Overview – le sintesi dell’IA che forniscono una panoramica di un argomento cercato su Google – ne contano 2,5 miliardi e la barra di ricerca si prepara al suo restyling più radicale in 25 anni: diventa più grande, accetta domande lunghe e conversazionali, con suggerimenti di domande potenziati dall’IA e input multimodali [significa che sarà possibile caricare foto o documenti per fornire più contesto all’intelligenza artificiale prima di una ricerca].
“Le persone esprimono le loro domande in modo estremamente dettagliato, ponendo domande di follow-up e cercando attraverso diverse modalità”, ha dichiarato Reid. La modalità AI verrà aggiornata a Gemini 3.5 Flash – un nuovo modello annunciato proprio all’I/O – e AI Overviews e AI Mode si fonderanno in un’unica esperienza fluida: una panoramica generata dall’IA, seguita dalla possibilità di passare alla modalità conversazionale per i follow-up, sia su mobile che desktop.
La parte interessante – e quella che meglio illustra la direzione di Google – riguarda gli agenti all’interno della Ricerca: si impostano una volta e lavorano in background per monitorare informazioni nel tempo. L’esempio fornito da Reid è efficace: si imposta un agente per tenere d’occhio i movimenti di un mercato finanziario secondo parametri specifici, e l’IA aggiorna l’utente solo quando si verificano determinate condizioni, fornendo un riassunto e link per approfondire.
Anche in questo caso Google promuove una narrazione che mette un po’ in difficoltà gli esseri umani, poiché parla di agenti di ricerca “attivi in background 24 ore su 24, 7 giorni su 7”. Sono assistenti instancabili, che svolgono compiti con una continuità insostenibile per una persona.
Un’altra grande novità sulla ricerca – tramite Google – è la capacità dell’IA di generare in tempo reale un’interfaccia che approfondisca o gestisca la domanda dell’utente: il motore di ricerca si trasforma in una sorta di strumento di coding autonomo, e infatti questa funzione si basa su Antigravity, la piattaforma di Big G dedicata alla programmazione agentica.
Se si chiede, ad esempio, “in che modo i buchi neri influenzano lo spazio-tempo?”, Google costruisce in tempo reale una visualizzazione interattiva del fenomeno – interattiva e modificabile – al posto del tradizionale elenco di risultati.
A gestire il tutto, dietro le quinte, è Gemini 3.5 Flash che scrive il codice dell’interfaccia mentre l’utente attende la risposta. “In passato avevamo bisogno di ingegneri per costruire ogni singola funzionalità del Search”, ha spiegato Reid. “Ora le persone possono semplicemente chiedere, e ottengono funzionalità interattive create appositamente per loro”. In sostanza, ogni ricerca può trasformarsi in una piccola app monouso.
Gemini Omni: i “world model” entrano nei video
Koray Kavukcuoglu, Chief AI Architect di Google e CTO di Google DeepMind, ha presentato Gemini Omni, il primo modello di Google capace di accettare qualsiasi tipo di input – testo, immagine, audio, video – e restituire qualsiasi tipo di output. Qual è la differenza rispetto ai generatori video già esistenti, da Veo (della stessa Google) a Sora (di OpenAI) e ai loro successori?
La principale differenza è l’applicazione dei world model: invece di limitarsi a prevedere il prossimo frame plausibile, Omni attinge alla conoscenza generale di Gemini sulla fisica, sulle relazioni causali, sulla coerenza degli oggetti nello spazio.
“Modelli come Veo, Nano Banana e Gemini sono in grado di generare video, immagini e persino simulazioni interattive estremamente realistiche”, ha affermato Kavukcuoglu. “Non sono simulazioni perfette del mondo, ma dimostrano una comprensione della fisica intuitiva, che è fondamentale”.
In sostanza, mentre i modelli di generazione video precedenti avevano difficoltà con prompt astratti o scientifici, qui basta scrivere “video esplicativo in plastilina del ripiegamento proteico” per ottenere qualcosa di sensato.
Omni accetta in input audio, immagini e video contemporaneamente, e analizza tutti gli input in un’unica volta per produrre una clip coerente. È anche un editor: si può prendere un proprio video e modificarne il personaggio, lo stile, i dettagli, senza dover ricostruire la scena da zero.
We’re dropping Gemini Omni: our first step towards a model that can create anything from anything – starting with video.
It combines Gemini’s intelligence with our generative media systems – representing a leap forward in world understanding, multimodality, and editing pic.twitter.com/GAtqzr0VIV
— Google DeepMind (@GoogleDeepMind) May 19, 2026
Il primo modello della serie, Gemini Omni Flash, è disponibile per gli abbonati Google AI Plus, Pro e Ultra all’interno dell’app Gemini, Google Flow e YouTube Shorts. È in arrivo anche Omni Pro, una versione più potente.
Tutti i contenuti generati vengono contrassegnati con il watermark invisibile SynthID, su cui Google ha accumulato in tre anni oltre 100 miliardi di immagini e video, e che ora viene esteso a Search e Chrome: sarà sufficiente un clic destro su un’immagine per chiedere: “è stata generata con l’IA?”.
(afp)
Gemini 3.5 Flash, il nuovo modello di punta si concentra sulla rapidità
A Mountain View, durante l’I/O, è stato presentato anche un nuovo modello: Gemini 3.5 Flash.
Pichai afferma che, sebbene sia un modello progettato per fornire risposte più semplici e rapide, è comunque in grado di superare Gemini 3.1 Pro – il più potente della versione precedente – su quasi tutti i benchmark, con un miglioramento particolarmente significativo su GDPVal, il test che misura compiti del mondo reale ed economicamente rilevanti.
Secondo uno studio di Artificial Analysis citato sul palco, Gemini 3.5 Flash è quattro volte più veloce rispetto agli altri modelli di avanguardia in token al secondo. E Kavukcuoglu ha annunciato una versione ulteriormente ottimizzata, dodici volte più veloce a parità di qualità, riservata agli utenti di Antigravity.
“Internamente, i nostri sviluppatori stanno utilizzando 3.5 Flash con una versione rinnovata della nostra piattaforma di sviluppo orientata agli agenti, Antigravity 2.0, e ha notevolmente accelerato il nostro processo di costruzione”, ha dichiarato Pichai.
Il messaggio commerciale è chiaro: se le aziende stanno esaurendo i budget annuali dei token già a maggio, spostare l’80% dei carichi di lavoro su un mix di 3.5 Flash e modelli più grandi potrebbe portare a un risparmio, secondo Pichai, “di oltre 1 miliardo di dollari all’anno” per le aziende più grandi su Google Cloud.
Gemini 3.5 Pro è già in uso interno e sarà disponibile per tutti il mese prossimo.
Le capacità “agentiche” rappresentano la promessa più ambiziosa: il modello è stato co-sviluppato con Antigravity, la piattaforma agentica di Google, che ora esce dall’ambiente di sviluppo e diventa un’app desktop indipendente per coordinare squadre di agenti: uno che scrive un sito, ad esempio, uno che genera asset di brand, uno che pianifica l’architettura del prodotto. Tutti al lavoro simultaneamente.
Gemini Spark, un agente IA “per tutti”
Per quanto riguarda il consumatore, l’agente personale si chiama Gemini Spark: opera su macchine virtuali dedicate in Google Cloud, è attivo 24 ore su 24, 7 giorni su 7 in background, e si integra inizialmente con gli strumenti Google e poi tramite MCP con applicazioni di terze parti.
Pichai lo ha presentato come l’inizio della strategia dell’azienda per rendere disponibili gli agenti “a chiunque, in modo molto sicuro e protetto”.