Al CES di Las Vegas Nvidia ha presentato Cosmos, una piattaforma potenzialmente rivoluzionaria che promette di portare l’intelligenza artificiale nel mondo reale, permettendo la realizzazione di robot intelligenti e veicoli a guida autonoma degni dei migliori film di fantascienza.
Nvidia Cosmos, dal punto di vista tecnico, è una piattaforma composta da modelli di AI generativa all’avanguardia (WFM, dopo vedremo che cosa sono), tokenizzatori avanzati, guardrail e una pipeline di elaborazione video accelerata. Nvidia Cosmos è stata creata appositamente per abilitare lo sviluppo di sistemi di intelligenza artificiale fisica come veicoli autonomi (AV) e robot.
“Il momento ChatGPT per la robotica sta arrivando”, ha detto Jensen Huang, fondatore e CEO di Nvidia. “Come i Large Language Models, i WFM sono fondamentali per far progredire lo sviluppo di robot e veicoli autonomi, ma non tutti gli sviluppatori hanno le competenze e le risorse per formare i propri. Abbiamo creato Cosmos per democratizzare l’IA fisica e mettere la robotica generale alla portata di ogni sviluppatore”.
Indice degli argomenti
L’AI fisica, Nvidia Cosmos e i World Foundation Models
Finora, l’AI si è dimostrata abilissima in compiti “virtuali” come la traduzione di lingue o la creazione di immagini. Ma per interagire con il mondo fisico, l’AI ha bisogno di qualcosa di più: deve essere in grado di “capire” le leggi della fisica, prevedere il movimento degli oggetti e prendere decisioni in tempo reale.
È qui che entra in gioco Nvidia Cosmos. Se i modelli di AI fossero degli studenti, i “modelli di base”, o FM, sarebbero studenti con una vastissima cultura generale, pronti a specializzarsi in qualsiasi campo. Con Cosmos Nvidia ha creato i “WFM”, ovvero i World Foundation Models che, con un po’ di libertà, potremmo tradurre come “Modelli di base per il mondo fisico”. Sono insomma come degli studenti super preparati in fisica, matematica e ingegneria, pronti a imparare a guidare un’auto o a far muovere un robot con precisione e sicurezza.
Ma come si insegnano a questi “studenti” queste materie? E soprattutto come si fa a fargli fare delle esercitazioni per imparare a metterle in pratica? Nel mondo dell’AI è tutto basato sui dati naturalmente. I modelli di IA fisica sono però costosi da sviluppare e richiedono grandi quantità di dati e test del mondo reale. I modelli di Cosmos offrono agli sviluppatori un modo semplice per generare enormi quantità di dati sintetici fotorealistici basati sulla fisica per addestrare e valutare i modelli esistenti. Gli sviluppatori possono anche creare modelli personalizzati perfezionando i WFM di Nvidia Cosmos.
Cosmos, insomma, permette di creare enormi quantità di “dati sintetici”, ovvero dati generati al computer che simulano il mondo reale. È come avere un gigantesco simulatore di guida dove le auto a guida autonoma possono esercitarsi senza rischi, in ogni condizione atmosferica e di traffico immaginabile.
Le applicazioni nel mondo reale
Dal punto di vista pratico, Nvidia Cosmos permetterà di fare un salto epocale nello sviluppo di robot e veicoli autonomi, dando loro quello che oggi non hanno, l’intelligenza, e prendendo da loro quello che l’AI non ha, la fisicità.
Potremo così avere robot che assistono gli anziani, droni che consegnano pacchi in modo preciso o auto che portano l’utente a destinazione senza intervento umano. Ma le applicazioni di Cosmos non si fermano qui.
In ambito industriale, per esempio, potrebbero essere sviluppati prodotti in grado letteralmente di rivoluzionare la produzione e la logistica: robot collaborativi, capaci di apprendere nuovi compiti e adattarsi a situazioni impreviste, o magazzini automatizzati dove flotte di robot gestiscono merci e ordini con efficienza e precisione millimetrica.
“L’industria delle auto a guida autonoma e quella dei robot umanoidi trarranno grandi benefici dallo sviluppo del modello mondiale”, spiega Ming-Yu Liu, vicepresidente con delega alla ricerca di Nvidia e membro dell’IEEE. “I WFM possono simulare diversi ambienti che saranno difficili da avere nel mondo reale, per assicurarsi che l’agente si comporti di conseguenza”.
Cosmos può anche accelerare la progettazione e lo sviluppo di nuovi prodotti, permettendo di simulare e testare virtualmente prototipi in ambienti realistici prima di passare alla produzione fisica. Un’azienda automobilistica potrebbe per esempio utilizzare Cosmos per creare un modello virtuale di una nuova auto e simularne il comportamento in diverse condizioni di guida, individuando eventuali problemi di design o di sicurezza prima ancora di costruire un prototipo fisico. Questo si traduce in un notevole risparmio di tempo e risorse, e in un prodotto finale più sicuro e affidabile.
Nel caso della robotica, i WFM possono simulare e verificare il comportamento dei sistemi robotici in diversi ambienti per garantire che svolgano i loro compiti in modo sicuro ed efficiente prima dell’implementazione nel mondo reale.
Che cosa si può fare con Nvidia Cosmos
Al CES Huang ha illustrato i modi in cui gli sviluppatori di intelligenza artificiale fisica possono utilizzare i modelli Cosmos:
- Ricerca e comprensione video, per permettere agli sviluppatori di testare i prodotti in scenari specifici, come condizioni stradali innevate o magazzini congestionati, a partire dai dati video.
- Generazione di dati sintetici fotorealistici basati sulla fisica, utilizzando modelli Cosmos per generare video fotorealistici da scenari 3D controllati sviluppati nella piattaforma Nvidia Omniverse.
- Sviluppo e valutazione di modelli di intelligenza artificiale fisica per creare un modello personalizzato sui modelli di base o migliorare i modelli utilizzando Cosmos per l’apprendimento rinforzato o di testare le loro prestazioni in uno specifico scenario simulato.
- Previsione e simulazione del “multiverso”, utilizzando Cosmos e Omniverse per generare ogni possibile risultato futuro che un modello di intelligenza artificiale potrebbe assumere per aiutarlo a selezionare il percorso migliore e più accurato.