Le informazioni sulle imprese e startup in difficoltà attirano l’interesse dei grandi attori dell’intelligenza artificiale.
Leggi in app
Le imprese operanti nel settore dell’intelligenza artificiale hanno cominciato a acquisire i vasti archivi informativi delle aziende e startup in crisi per perfezionare l’addestramento dei loro agenti. Con “dati” si fa riferimento a email, attività su Slack o Jira, gestione dei progetti: tutto quel flusso di informazioni che caratterizza la routine di ogni azienda. Come riportato da Forbes, l’intento degli acquirenti è di ottimizzare le “palestre” dedicate all’apprendimento per rinforzo. In sostanza, si tratta di una metodologia di machine learning in cui l’agente AI apprende a compiere scelte ottimali interagendo con un contesto, ricevendo ricompense o penalità in base alle sue decisioni. Creando quindi un ambiente di allenamento basato sugli scambi reali avvenuti in precedenti aziende, si consente di superare le tradizionali simulazioni teoriche. Tuttavia, mentre le aziende AI e i pionieri del mercato festeggiano, alcuni iniziano a interrogarsi sulle possibili implicazioni riguardanti la privacy degli ex-dipendenti e, in particolare, sulla proprietà dei dati.
Le aziende che hanno cominciato a vendere dati altrui
Una delle prime startup a cogliere l’opportunità nel mercato della compravendita dei dati di aziende fallite è Fleet. Fondata nel 2019 con l’intento di fornire ambienti simulati di rinforzo basati su dati reali, ha visto i suoi ricavi passare in pochi mesi da 1 milione a 60 milioni di dollari. Si prevede che il suo prossimo round di finanziamento possa avvicinarsi ai 50 milioni, portando a una valutazione complessiva di 750 milioni di dollari, secondo quanto riportato da The Information. Anche Roots segue questa strada, simulando di fatto una holding in cui gli agenti AI possono esercitarsi in operazioni finanziarie.
SimpleClosure, invece, se fino a poco tempo fa operava come “agenzia funebre” per startup – assistendo in tutto il processo burocratico fino alla liquidazione, dalla settimana scorsa, grazie alla nuova piattaforma Asset Hub, permette la vendita di codice sorgente, documenti e dati degli spazi di lavoro delle aziende in fase di chiusura. Il tutto garantendo la completa rimozione di informazioni personali identificabili. Ad esempio, cielo24, una startup specializzata nella trascrizione video/audio e creazione di indici ricercabili, ha raccolto centinaia di migliaia di dollari vendendo i dati accumulati in 13 anni di attività. SimpleClosure ha confermato che a seconda dei dataset, è possibile guadagnare da 10mila dollari in su e superare anche i 100mila.
Anche Sunset acquista dati di aziende fallite e ne valuta il valore in base alla loro struttura, alla possibile interconnessione tra servizi, alla tracciabilità e ad altri parametri. I pacchetti più appetibili provengono dai settori finanziario e sanitario.
Perché proprio adesso è esploso il mercato?
L’ex responsabile scientifico di OpenAI, Ilya Sutskever, afferma che già a partire dal 2024 i laboratori AI avranno praticamente esaurito i dati pubblici disponibili online per addestrare i loro modelli. Si pensi a Wikipedia, agli articoli delle principali testate, forum, libri digitalizzati e altri contenuti. Dopo questo punto, sebbene questo approccio avesse senso con l’AI generativa, ora con gli agenti AI – capaci di pianificare sequenze di azioni, apprendere dall’esperienza e interagire con strumenti esterni – è necessaria la creazione di ambienti virtuali per sperimentare concretamente ogni azione, anche solo per imparare a operare nel rumore informativo quotidiano.
Numerose fonti autorevoli confermano che Anthropic e OpenAI investiranno circa un miliardo di dollari all’anno proprio negli ambienti di apprendimento per rinforzo. Non è chiaro se ciò comporterà anche eventuali acquisizioni – sul mercato si contano circa cinquanta startup specializzate, o se procederanno in totale autonomia.
Rischio privacy, ma la California corre già ai ripari
Marc Rotenberg, fondatore del Center for AI and Digital Policy, sostiene che, indipendentemente dal consenso dei dipendenti, la cessione a terzi dei diritti di proprietà intellettuale sugli archivi non sia così semplice. Questo perché non si tratta solo di dati generici, ma di informazioni che potrebbero identificare persone e comportamenti. È per questo che martedì scorso il Center for AI and Digital Policy ha richiesto alla United States Senate Committee on Commerce, Science, and Transportation di attivare la Federal Trade Commission per esaminare le pratiche commerciali relative all’AI e ai dati personali.
Il tema centrale è che se l’anonimizzazione non viene effettuata in modo corretto, si apre una falla che potrebbe non solo esporre le vite delle persone, ma anche influenzare negativamente lo sviluppo dei modelli di AI. Ed è per questo che, a partire dal primo gennaio 2026, la California (Artificial Intelligence Training Data Transparency) impone agli sviluppatori di IA generativa di dichiarare se i propri dataset includono dati personali o contenuti protetti da copyright.
I commenti sono chiusi.