Zuckerberg non si ferma e continua a inseguire i suoi sogni. Dopo aver cambiato il nome della famiglia Facebook in Meta, con l’obiettivo di entrare a capofitto nel mondo del Metaverso, ecco che ora ci presenta Ego 4D. Ego 4D è il nuovo progetto di Intelligenza Artificiale e Machine Learning di Facebook. Scopriamo insieme di cosa si tratta.
L’annuncio del Progetto Ego 4D
Ego 4D è stato annunciato lo scorso 14 ottobre. Proprio mentre Facebook si accingeva a cambiare il proprio nome in Meta. Le ambizioni di Zuckerberg e di tutta la famiglia Facebook (o dovremmo dire Meta) sono sempre più grandi.
Quella annunciata il 14 ottobre è un nuovo modello di intelligenza artificiale, capace di adottare la percezione egocentrica. Proprio da egocentrico viene il nome Ego.
Con la percezione egocentrica l’AI sarà in grado di vedere il mondo circostante in prima persona, e non in terza persona, come avviene oggi con le macchine che già sono in grado di “percepire il mondo”. Perché ciò cambierà radicalmente il mondo di intendere un’intelligenza artificiale? Perché con la visione egocentrica essa sarà in grado di sentire e vedere il mondo con una percezione umana.
Cos’è Ego 4D
Facebook stesso descrive il progetto come “un set di dati egocentrico su vasta scala e una suite di benchmark raccolti in 74 località in tutto il mondo e nove paesi, con oltre 3.025 ore di video sulle attività di vita quotidiana”.
Come abbiamo detto Ego sta per Egocentrico, un modo per dire “in prima persona”. Mentre 4D sta ad indicare le tre dimensioni dello spazio più una, il tempo.
I dati raccolti nelle oltre 3000 ore di video provengono da 855 partecipanti al progetto che hanno ripreso le loro vite attraverso visori per la realtà virtuale, come l’Oculus, smartglasses, come i Ray Ban Stories, o Go Pro.
Cosa c’è nei video?
Nelle 3000 ore di video sono raccolti momenti di vita quotidiana dei partecipanti, a casa, al lavoro e in diversi contesti sociali.
Questi set di dati vengono comunemente raccolti attraverso i visori e i dispositivi di partecipanti volontari e utilizzati nella ricerca. Tuttavia, questo set di dati è davvero impressionante, perché è almeno 20 volte più grande di un normale set di ricerca.
I dati contengono non solo il video di un determinato evento, ma anche l’audio, le scansioni mesh 3D dell’ambiente, lo sguardo oculare, lo stereo e le viste multicamera, tutto puntato sul medesimo evento. Il tutto rende l’esperienza dell’AI quanto più umana possibile.
L’allenamento di Ego 4D
Tutto questo materiale servirà, ovviamente, ad “allenare” Ego 4D a diventare la prima intelligenza artificiale con visione egocentrica.
Normalmente tutte le macchine di machine learning e di intelligenza artificiale vengono addestrate su un set di immagini e video. Ma Ego 4D si addestrerà non solo su immagini e video, ma si immergerà nell’esperienza dell’evento completamente.
L’attuale modello di machine learning consente ai robot di avere una visione da spettatore o in terza persona, secondo Facebook con il nuovo modello l’AI potrà avere un’esperienza in prima persona e, quindi, sarà in grado di immedesimarsi molto meglio in ogni situazione.
Le cinque sfide del progetto
Infine, Facebook si è prefisso cinque sfide da superare, facenti parte del progetto Ego 4D, secondo le quali l’AI dovrà essere in grado di avere:
- Memoria episodica: capire cosa è successo e quando.
- Manipolazione mano-oggetto: cosa sto facendo e come, per comprendere meglio il meccanismo delle azioni umane.
- Conversazione audiovisiva: chi ha detto cosa e quando.
- Interazioni sociali: chi interagisce con chi, con lo scopo di identificare le persone e capire chi compie un’azione.
- Attività di previsione: cosa farò dopo.
Facebook ha infine indetto un concorso per risolvere le cinque sfide del progetto, invitando tutta la comunità scientifica per Giugno 2022.